# 机器学习基础
## 什么是机器学习
- 决策树 Decision Tree: APP推荐
- 朴素贝叶斯 Naive Bayes Rule: 垃圾邮件判别
- 梯度下降 Gradient Decent
- 线性回归 Linear Regression: 房价预测 连续值
- 对数几率回归 Logistic Regression: 学生录取 离散值 分类问题
- 支持向量机 Support Vector Machine
- 核函数 Kernel Trick: 用于SVM；用一条曲线分类数据或者数据转化到高维空间用平面划分。
- 神经网络 Neural Network: 学生录取
- K均值聚类 K-means: 面包店选址
- 层次聚类 Hierarchical Clustering: 一种解决K-means算法中k难以确定的聚类方法

## 配置Anaconda
- Anaconda[下载网址](https://www.continuum.io/downloads)
- 本次安装的python 3.6 version Graphical Installer
- 安装后不能直接在命令行使用`conda`指令，需在.bashrc加入`export PATH="/<path to anaconda>/bin:$PATH"`，详情参考Anaconda[安装指南](https://docs.continuum.io/anaconda/install/mac-os#macos-graphical-install)
- 常用conda指令：
    - 当前环境包管理信息 `conda list`
    - 创建环境 `conda create -n my_env python=2`
    - 已有环境列表 `conda env list`
    - 进入环境（Mac) `source activate my_env`
    - 退出环境 `deactivate`
    - 安装包 `conda install pkg/like/numpy`
    - conda帮助 `conda -h`

## 配置Jupyter notebook
- 在当前环境安装jupyter notebook `conda install jupyter notebook`
- 启动 notebook 服务器，在终端或控制台中输入 jupyter notebook
- 命令行模式：单元格为蓝色；编辑模式：单元格为绿色
- 命令行模式下神器 comand platte 呼出快捷键 `cmd/ctrl+shift+p` 或者直接 `p`
- 命令行模式下查看快捷键列表：`h`
- Magic 关键字是可以在单元格中运行的特殊命令。例如，在 notebook 中可以使用 %matplotlib 将 matplotlib 设置为以交互方式工作
- Magic 命令的前面带有一个或两个百分号（% 或 %%），分别对应行 Magic 命令和单元格 Magic 命令。行 Magic 命令仅应用于编写 Magic 命令时所在的行，而单元格 Magic 命令应用于整个单元格
- 代码计时 %timeit %%timeit
- 更多[Magic列表](http://ipython.readthedocs.io/en/stable/interactive/magics.html)
- 支持数学公式，如：$a=\frac{b}{c}$

## 数据的中心：众数，平均数和中位数
### 众数 Mode
> 定义：一组数据中出现次数最多的数值，众数可以不存在也可以多于一个。

- 数据集中不是所有的分值都会影响众数
- 从统一分布中抽取出的一组样本，其众数不一定相同，且众数的取值受分组大小（bin)的影响。
- 众数没有一个计算公式

### 平均数 Mean
**定义**：

采样中记为：$$\overline{x}=\frac{\sum_{i=1}^{n}{x_i}}{n}$$

分布中记为：$$\mu=\frac{\sum{x}}{N}$$

In [8]:
import numpy as np
geo = [48670, 57320, 38150, 41290, 53160,500000]
mean_geo = np.sum(geo)/len(geo)
print(mean_geo)

123098


平均数特性：

- 分布中的所有分值都影响平均值
- 平均值可用公式来描述
- 同一个总体中的多个样本会有相似的平均值
- 一个样本的平均值可以用来推论其所在的总体
- 如果向数据集中添加一个极值，它的平均值会发生改变

![平均数示意](img/mean.jpg)

含异常（outlier）的均值，不能良好的评估数据集。一个有趣的例子是，北卡莱罗纳大学地理专业毕业生的平均薪资远高于该专业其他大学的毕业生，原因竟然是因为北卡莱罗纳大学地理专业毕业生中有一位名叫乔丹的明星，他的个人薪资极大地拉高了该专业的平均薪资。因此异常值的出现会影响用平均值评估数据集。

这就是为什么需要引入中位数。**中位数受异常值影响较小。**

### 中位数 Median
> 中位数是位于“中间”的数据，意味着有一半数据值小于它，而另一半大于它。

[婚庆行业的价格秘密](http://www.slate.com/articles/life/weddings/2013/06/average_wedding_cost_published_numbers_on_the_price_of_a_wedding_are_totally.html)举例说明了知道何时和如何使用中位数及均值，是多么重要。这个例子和婚礼费用有关，向你展示了为什么平均婚礼费用不适用于说明普通夫妇的婚礼开支。

In [41]:
import pandas as pd
fb_friends = pd.read_csv("data/How_many_Facebook_friends_do_Udacians_have.csv")
fb_friends['friends'].median()
fb_friends.iloc[1:5,1]

1     241
2    1116
3      69
4    1214
Name: friends, dtype: int64

## 数据的差异性：值域，IQR，方差和标准差