# 机器学习基础

机器学习： 利用计算机来彰显数据背后的真正含义

举例日常中的机器学习： 搜索引擎优化算法，垃圾电子邮件过滤，手写识别，人脸识别，风控模型……

## 什么是机器学习

* 将无序的数据转换成有用的信息
* 横跨计算机科学，工程技术，统计 等多个学科
* 传感器的普及和海量数据的获取，使得有用信息的提取显得非常重要
* 现今的工作情况具有很大的二义性：最大化利润、最小化风险、找到最好的市场策略…… 等等，都是最优化的问题

## 关键术语

* 特征： features， 变量
* 实例： examples， 每一个样本
* 目标变量： y，target
* 训练集： train set
* 测试集： test set
* 知识表示： 算法训练后的模型，某些算法可以产生很容易理解的知识表示，而某些算法的知识表示也许只能为计算机所理解

## 机器学习的主要任务

* 有监督学习
    * 分类
    * 回归
* 无监督学习
    * 聚类： 将数据集合分成由类似的对象组成的多个类的过程称为聚类
    * 密度估计： 描述数据统计值的过程
    * 降维（主成分分析）

## 如何选择合适的算法

* 目的是什么：分类还是预测
* 需要分析或收集的数据是什么
    * 特征值是离散还是连续
    * 特征值中是否存在缺失的值，原因
    * 是否存在异常值，原因
    * 频率
* 尝试不同算法的执行效果
* 一般来说，发现最好算法的关键环节是反复试错的迭代过程

## 开发机器学习应用程序的步骤

* 收集数据
* 准备输入数据（本书使用的是 Python 中的 List，其实有更好的选择）
* 分析输入数据：理解数据中的含义，同时创建新的衍生变量，展示其中一些数据
* 训练算法
* 测试算法
* 使用算法

## Python 的优势

* 清晰的语法结构：
    * 已经附带了很多高级数据的类型，例如 列表，元组，字典，集合，队列等
    * 支持多种方式变成：面向过程，面向对象，函数式编程
    * 处理数据方便
* 比较流行：
    * 科学领域拥有 Scipy 和 Numpy 函数库，底层使用C 和 Fortran 编写的，保证了性能
    * 画图方面可以有 matplotlib
    * 提供了交互式 Shell 环境
* 开源、免费、简单
* 缺点：
    * 性能问题

## Numpy 函数库基础

* 矩阵（mat）和数组（array），两者虽然都能处理行列表示的数据，但是得到的结果不一定相同

In [1]:
import numpy as np

In [2]:
# 形成一个 4 * 4 的随机数组
array = np.random.rand(4, 4)
array

array([[0.08309091, 0.37690912, 0.48753812, 0.90483908],
       [0.11136866, 0.94093045, 0.89752516, 0.06411151],
       [0.98293655, 0.77733835, 0.05884825, 0.25144116],
       [0.20800678, 0.02111045, 0.71566495, 0.8722221 ]])

In [3]:
# 转成矩阵
randMat = np.mat(array)
randMat

matrix([[0.08309091, 0.37690912, 0.48753812, 0.90483908],
        [0.11136866, 0.94093045, 0.89752516, 0.06411151],
        [0.98293655, 0.77733835, 0.05884825, 0.25144116],
        [0.20800678, 0.02111045, 0.71566495, 0.8722221 ]])

In [4]:
# 求矩阵的逆
invMat = randMat.I
invMat

matrix([[-1.34191385e+00, -2.44946902e-01,  9.16028864e-01,
          1.14602995e+00],
        [ 1.34843153e+00,  4.32756234e-01,  1.48812870e-01,
         -1.47356492e+00],
        [-1.34658437e+00,  7.30260240e-01, -2.69614686e-01,
          1.42098705e+00],
        [ 1.39226514e+00, -5.51243450e-01, -8.34582451e-04,
         -2.57073306e-01]])

In [5]:
# 单位矩阵
randMat * invMat

matrix([[ 1.00000000e+00,  0.00000000e+00, -2.08166817e-17,
          0.00000000e+00],
        [ 0.00000000e+00,  1.00000000e+00,  0.00000000e+00,
          0.00000000e+00],
        [ 0.00000000e+00, -2.77555756e-17,  1.00000000e+00,
          0.00000000e+00],
        [ 0.00000000e+00,  1.11022302e-16, -3.12250226e-17,
          1.00000000e+00]])

In [6]:
# 误差，使用 np.eye 创建单位矩阵
error = randMat * invMat - np.eye(4)
error

matrix([[ 2.22044605e-16,  0.00000000e+00, -2.08166817e-17,
          0.00000000e+00],
        [ 0.00000000e+00,  0.00000000e+00,  0.00000000e+00,
          0.00000000e+00],
        [ 0.00000000e+00, -2.77555756e-17, -1.11022302e-16,
          0.00000000e+00],
        [ 0.00000000e+00,  1.11022302e-16, -3.12250226e-17,
          0.00000000e+00]])