# 验证码问题解决
- 验证码：放置机器人或者爬虫
- 分类：
    - 简单图片
    - 极验
    - 12306
    - 电话验证
    - 谷歌验证
    
- 验证码破解
     - 通用方法
        - 下载网页和验证码
        - 手动输入验证号码
    - 简单图片
        -使用图像识别软件或者文字识别软件，Tesseract包
            - 机器视觉领域的基础软件
            - OCR：光学文字识别
            - Tesseract：ocr库：使用方法：先用命令提示符工具定位图片所在的位置(比如cd DeskTop),然后tesseract test.png ha,再然后cat ha.txt即可
            - 安装pytesseract包，python中使用
        - 可以使用第三方图像验证码破解网站，www.chaojiying.com
    - 极验（网站）
        - 破解比较难
        - 它是模拟鼠标移动来识别
    - 12306
        - 太难
    - 电话验证
        - 找软件处理识别
    - 谷歌验证
    
## 字体反爬
### 字体反爬原理
- 1.网页开发自己创造的一种字体，因为在字体中每个文字都有其代号，那么以后在网页中不会直接显示这个文字的最终效果，而是显示它的代号，因此即使获取到了网页中的文本内容，也只是获取到了文字的代号，而不是文字本身
- 2.因为创造字体费时费力，且汉字数很多，一般情况下，为了反爬虫，仅会针对0-9以及少数汉字进行自己单独创建，其他的还是使用用户系统中自带的字体

### 寻找自定义字体
- 1.一般情况下，为了考虑网页渲染性能，网页开发者会把自定义的字体编码成base64的方式，因此可以到网页中找到@font-face属性，然后获取里面的base64代码，再用python解码，再保存到到本地
- 2.如果没有使用base64，还有另外一种方式，就是直接把字体文件放到服务器上，然后前端通过@font-face中的url函数进行加载，示例：https://developer.mozilla.org/zh-CN/docs/Web/CSS/@font-face

### 分析字体
- 1.分析字体需要将字体转换成xml文件，然后查看其中的cmap和glyf中的属性，其中cmap存储的是code和name的映射，而glyf下存储的是每个name下的字体绘制规则
- 2.从第一步中我们知道了name对应的字体的绘制规则，但是还是不知道字体是长什么样子，那么可以通过一款叫做fontcreator的软件来打开.ttf的字体文件，这样就可以看到每个name对应的字体最终呈现的效果

### 字体反爬解决方案
- 1.在网页中，直接显示的是字体的code，而不是那么，并且网页开发者为了增加爬虫的难度，有可能在多次请求之间  code->name->最终字体  的映射会发生改变，但是最终字体的形状是不会发生改变的，因此我们可以通过形状对比来进行判断
- 2.我们可以通过分析字体，得出每个字体形状对应的文字，然后保存到一个字典中，以后再请求网页的时候，就进行反向解释，先获取字体的形状，再通过字体形状反向获取代号所对应的具体文字内容

In [None]:
import base64
import re
from fontTools.ttLib import TTFont
import io
import requests
from urllib import request


# 爬虫最终失败，可能是网页用了两套自定义的字体
class MaoYan():
    def __init__(self):
        self.url = "https://maoyan.com/board/1"
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36",
            "Cookie": "__mta=255114167.1602925678532.1602931764426.1602931821001.3; uuid_n_v=v1; uuid=3F5391E0105811EB8C35DB03DE19A533D540FC09219A4C1DA5548A6E60C46E37; _csrf=cb62bf7753248cfe7d99cfb3d60a259ffbb13202d1f4b9d688f772eaf62ff25e; Hm_lvt_703e94591e87be68cc8da0da7cbd0be2=1602925678; _lx_utm=utm_source%3DBaidu%26utm_medium%3Dorganic; _lxsdk_cuid=17535d0cec9c8-0a5e3bebd1e0f5-c781f38-144000-17535d0cec9c8; _lxsdk=3F5391E0105811EB8C35DB03DE19A533D540FC09219A4C1DA5548A6E60C46E37; __mta=255114167.1602925678532.1602925678532.1602931764426.2; Hm_lpvt_703e94591e87be68cc8da0da7cbd0be2=1602931821; _lxsdk_s=175370c3084-b60-8c3-bce%7C%7C1"
        }

    def open_web(self):
        rsp = requests.get(url=self.url, headers=self.headers)
        html = rsp.text
        # 获取woff文件的地址并下载到本地
        woff_file = re.findall(r"@font-face.*?\s{2,100}url\('(.*?)'\)", html, re.DOTALL)
        woff_url = "https:" + woff_file[0]
        request.urlretrieve(woff_url, "woff_file.woff")
        # 读取woff文件
        with open("woff_file.woff", "rb") as f:
            data = f.read()
        return (html, data)

    def analysis_font(self):
        html, font_data = self.open_web()
        with open("maoyan.woff", "wb") as f:
            f.write(font_data)
        # 将字体文件保存成xml格式，是为了便于理解，字体实际上是由哪些部分组成的，爬虫时并不需要这个步骤
        # 保存成xml文件时，先需要读取字体文件
        # 用footTools工具进行读取
        baseFont = TTFont("maoyan.woff")
        # 保存成xml文件并与分析
        # baseFont.saveXML("maoyan.xml")

        # 找到name和文字形状的对应关系，glyf保存的是名字和对应的字体绘制规则
        baseGlyf = baseFont["glyf"]  # 首先把glyf取出来
        # 根据glyf中name与字体形状的关系，把每个数字对应的绘制形状的规则找出来,用字典保存它们的对应关系
        baseFontMap_key = range(0, 10)
        name_lst = ["uniE857", "uniEA84", "uniE873","uniF2E8", "uniF741",
                    "uniE171","uniE51A", "uniEA89", "uniE921", "uniF07F"]
        baseFontMap_value = [baseGlyf[name] for name in name_lst]
        baseFontMap = {
            num:name for num,name in zip(baseFontMap_key, baseFontMap_value)
        }

        font = TTFont(io.BytesIO(font_data))  #这个font和上面的baseFont是一样的，只是使用IO的虚拟文件打开的
        glyf = font['glyf']
        # 得到cmap中name和code的映射关系
        codeNameMap = font.getBestCmap()
        for code, name in codeNameMap.items():
            codeStr = "&#" + str(hex(code)).replace("0", "", 1) + ";"
            print(codeStr, name)
            currentShape = glyf[name]
            for num, shape in baseFontMap.items():
                if shape == currentShape:
                    print("替换成功")
                    html = re.sub(codeStr, str(num), html)

        with open("maoyan.html", "w", encoding="utf-8") as f:
            f.write(html)

    def run(self):
        self.analysis_font()


if __name__ == "__main__":
    spider = MaoYan()
    spider.run()