# 什么是机器学习
## 定义
- 机器学习是从数据中自动分析获取模型，并利用模型对未知数据进行预测

## 解释
- 我们人从大量的日常经验中归纳规律，在面临新的问题的时候，可以利用以往总结的规律去分析现实状况，采取最佳策略

## 数据集的构成
- 我们把机器学习要学习的数据称为数据集
- 对于每一行数据我们称之为样本
- 数据集：数据具有特征，目标值为预测结果
- 有些数据集可以没有目标值

## 机器学习算法分类
- 监督学习 supervised learning(预测)
    - 定义：输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值（称为回归），或是输出的是有限的离散值（称为分类），
    - 分类问题 回归 输入数据有特征有标签，即有标准答案
        - 目标值：结果为类别
        - k-近邻算法，朴素贝叶斯分类，决策树，随机森林，逻辑回归
    - 回归问题
        - 目标值:连续型的数据
- 无监督学习 unsupervised learning
    - 定义：输入数据是由输入特征值组成
    - 目标值：没有目标值 输入数据有特征无标签，即无标准答案    
        - 聚类 k-means
        
## 机器学习开发流程
- 获取数据 原始数据
- 数据处理
- 特征工程
- 使用机器学习算法训练 得到模型
- 模型评估

## 学习框架
- 重点  
    - 算法是核心，数据与计算是基础
- 大部分复杂模型的算法设计部都是算法工程师在做，而我们
    - 分析很多数据
    - 分析具体业务
    - 应用常见的算法
    - 特征工程，调参数，优化
    
# 数据集
## 可用数据集
- kaggle
- UCI数据集
- scikit-learn
## sklearn数据集
- sklearn.datasets
    - load_* 获取小规模数据集
    - fetch_* 获取大规模数据集
        - sklearn.datasets.fetch_name(data_home=None,subset='train')
            - subset：train/test/all

- sklearn数据集返回值介绍
    - load和fetch返回的数据类型都是datasets.base.Bunch(字典格式)
        - data：特征数据数组，是[n_samples*n_features]的二维
            numpy.ndarray 数组
        - target：标签数组，是n_samples的一维numpy.ndarray数组
        - DESCR: 数据描述
        - feature_names: 特征名，新闻数据，手写数字，回归数据集没有
        - target_names: 标签名
    

In [2]:
from sklearn import datasets

In [5]:
iris = datasets.load_iris() # 导入数据集
X = iris.data # 获得其特征向量
y = iris.target # 获得样本label

In [7]:
X

array([[ 5.1,  3.5,  1.4,  0.2],
       [ 4.9,  3. ,  1.4,  0.2],
       [ 4.7,  3.2,  1.3,  0.2],
       [ 4.6,  3.1,  1.5,  0.2],
       [ 5. ,  3.6,  1.4,  0.2],
       [ 5.4,  3.9,  1.7,  0.4],
       [ 4.6,  3.4,  1.4,  0.3],
       [ 5. ,  3.4,  1.5,  0.2],
       [ 4.4,  2.9,  1.4,  0.2],
       [ 4.9,  3.1,  1.5,  0.1],
       [ 5.4,  3.7,  1.5,  0.2],
       [ 4.8,  3.4,  1.6,  0.2],
       [ 4.8,  3. ,  1.4,  0.1],
       [ 4.3,  3. ,  1.1,  0.1],
       [ 5.8,  4. ,  1.2,  0.2],
       [ 5.7,  4.4,  1.5,  0.4],
       [ 5.4,  3.9,  1.3,  0.4],
       [ 5.1,  3.5,  1.4,  0.3],
       [ 5.7,  3.8,  1.7,  0.3],
       [ 5.1,  3.8,  1.5,  0.3],
       [ 5.4,  3.4,  1.7,  0.2],
       [ 5.1,  3.7,  1.5,  0.4],
       [ 4.6,  3.6,  1. ,  0.2],
       [ 5.1,  3.3,  1.7,  0.5],
       [ 4.8,  3.4,  1.9,  0.2],
       [ 5. ,  3. ,  1.6,  0.2],
       [ 5. ,  3.4,  1.6,  0.4],
       [ 5.2,  3.5,  1.5,  0.2],
       [ 5.2,  3.4,  1.4,  0.2],
       [ 4.7,  3.2,  1.6,  0.2],
       [ 4