为了提高验证码的识别准确率,我们当然要首先得到足够多的测试数据。验证码下载下来容易,但是需要人脑手工识别着实让人受不了,于是我就想了个折衷的办法——自己造验证码。
为了保证多样性,首先当然需要不同的字模了,直接用类似ttf格式的字体文件即可,网上有很多ttf格式的字体包供我们下载。当然,我不会傻到手动下载解压缩,果断要写个爬虫了。
网站一:fontsquirrel.com
这个网站的字体可以免费下载,但是有很多下载点都是外链连接到其他网站的,这部分得忽略掉。
1 | #coding:utf-8 |
搞到了2000+个字体,种类也挺多的,蛮好。
网站二:dafont.com
这个网站的字体花样比较多,下载起来也比较方便,恶心的是他的文件名的编码好像有点问题。
1 | #coding:utf-8 |
总体操作跟之前的差不多,跑了几十分钟下了4000多的字体。