# 人工智能简介
- 是解放生产力的一种工具，用于解决某一特定问题
- 如何认定机器是否具有智能？
    - 图灵测试：让一个人坐在电脑前，跟另一边用键盘进行对话，如果这个人分不清跟自己对话的是一个人还是一个机器，那么这个对话机器就通过了图灵测试并具备人工智能。
- 实现人工智能的方式：
    - 机器学习：通过大量的数据，不断识别特征，不断建模，最终得到一个有效模型。

## 机器学习
- 按照训练方法分类：
    - 监督学习
        - 定义：给定一个数据集，并且给定与之匹配的结果，通过数据学习正确答案
        - 举例：猫狗识别，给了一堆猫和狗的照片，我们想让机器能够分辨猫和狗，就必须得手动提前标注一张照片是猫还是狗。当给了一个机器一张狗的照片，那么机器就会提取该图片上的特征，判定这是一只狗
    - 非监督学习
        - 定义：给定一个数据集，并不给数据打上标签，机器自动分类
        - 举例：猫狗识别，给了一堆猫和狗的照片，我们事先并没有标注哪一个是猫还是狗，机器会将照片自动分成两类，对于人类而言是分成猫和狗，对于机器而言分成了A,B两类，但是并不知道哪一类是猫，哪一类是狗
    - 强化学习
        - 定义：通过一次训练，如果结果是好的方向，那么给机器记下一个奖励分，反之是坏的结果，那么扣掉一分。通过这样的模拟，能够使机器采取一系列行为，获得最大累积回报，让一个智能体知道在某一状态下采用什么方法可以达到最大期望值。
        - 举例：2019年谷歌AlphaStar通过强化学习击败两位星际争霸职业选手
- 机器学习步骤
    - 获取数据
    - 清洗数据
    - 选择算法
    - 训练模型
    - 评估模型
    - 参数调整
    - 投入使用
- 数据集分类：
    - 训练集（60%）：训练模型
    - 验证集（20%）：确保没有过拟合
    - 测试集（20%）：评估模型效果

## 监督学习
- 定义：把带有标签的数据交给机器，让它总结一套自己的“三观”
- 主要任务：
    - 回归：预测连续值
    - 分类：预测离散值
- 回归：
    - 常用算法：线性回归
    - 举例：预测波士顿房价
        - 指标：
            - CRIM: 城镇人均犯罪率
            - ZN: 住宅用地所占比例
            - INDUS: 城镇中非住宅用地所占比例
            - CHAS: 虚拟变量,用于回归分析
            - NOX: 环保指数
            - RM: 每栋住宅的房间数
            - AGE: 1940 年以前建成的自住单位的比例
            - DIS: 距离 5 个波士顿的就业中心的加权距离
            - RAD: 距离高速公路的便利指数
            - TAX: 每一万美元的不动产税率
            - PTRATIO: 城镇中的教师学生比例
            - B: 城镇中的黑人比例
            - LSTAT: 地区中有多少房东属于低收入人群
            - MEDV: 自住房屋房价中位数（也就是均价）
        - 通过训练模型，找到每一个指标对应的系数。当预测一个房价时，就可以把获得的指标通过系数放大或缩小，加合就是房价
- 分类：
    - 常用算法：朴素贝叶斯，决策树，支持向量机，逻辑回归，K近邻
    - 举例：鸢尾花分类
        - 指标：
            - 花瓣长度
            - 花瓣宽度
            - 花萼长度
            - 花萼宽度
        - 分类目标：
            1. setosa
            2. versicolor
            3. virginnica
        - 通过训练模型，将一个未知的样本归属到目标中的某一类

## 非监督方法
- 相较于监督学习，不要标注样本，目标不明确
- 主要任务：
    - 聚类：
        - 定义：一种自动分类的算法
        - 常用算法：K均值聚类
    - 降维：
        - 定义：保留特征维度的同时，降低数据负责度
        - 常用算法：PCA主成分分析，SVD奇异值分解

# 爬虫进阶
- 数据库相关(数据存储)
    - MySQL（关系型）
    - MongoDB（非关系型）
- 多线程多进程多协程（加快速度）
    - 进程：multiprocessing
    - 线程：threading
    - 协程：asyncio，asynchttp, asyncfile, async 
- JS逆向：
    - JavaScript基本语法
    - 浏览器开发者工具
    - pyexecjs库
- 加密解密：
    - 常用加密算法
        - md5
        - sha1
        - Base64
        - AES
    - 对应算法解析库
        - hashlib
        - base64
        - Crypto
- 自动化测试框架
    - selenium

In [2]:
len("2dd77ca9e141e337492ac22094c84c31")

32