* ## NumPy
* ## SciPy
* ## Matplotlib入门
* ## 实战案例：
### 1、2016 Election Pools
### 2、科技工作者心理健康数据分析

## NumPy, <font color='red'>Num</font>erical <font color='red'>Py</font>thon
* ### 高性能科学计算和数据分析的基础包
* ### ndarray，多维数据（矩阵），具有矢量运算能力，快速、节省空间
* ### 矩阵运算，无需循环，可完成类似MatLab中的矢量运算
* ### 线性代数，随机数生成
* ### import numpy as np

## SciPy
* ### 在NumPy库的基础上增加了众多的数学、科学及工程常用的库函数
* ### 线性代数、常微分方程求解、信号处理、图像处理、稀疏矩阵等
* ### import scipy as sp

## ndarray，N维数组对象（矩阵）
* ### 所有元素必须是<font color='red'>相同类型</font>
* ### ndim属性，维度个数
* ### shape属性，各维度大小
* ### dtype属性，数据类型

In [None]:
import numpy as np

#生成指定维度的随机多维数组
data = np.random.rand(2, 3) #生成一个两行三列的多维数组
print(type(data)) #查看数据类型,这个地方数据类型是numpy.ndarray的数据类型

In [None]:
print("维度个数",data.ndim) #维度个数  2 　　　　维度个数有两个，第0个维度大小是2，第一个维度大小是3
print("各维度大小",data.shape) #各维度的大小:(2L,3L)　　　　L代表的是Long
print("数据类型",data.dtype) #float   64　　　　数据类型是float64位的数据

## 创建ndarray
* ### np.array(collection)，collection为序列型对象(list)，嵌套序列(list of list)
* ### np.zeros, np.ones, np.empty 指定大小的全0或全1数组
 * #### 注意：第一个参数是元组，用来指定大小，如(3,4)
 * #### empty不是总是返回全0，有时返回的是未初始的随机数
* ### np.arange()类似range() 注意是arange，不是英文arrange

In [None]:
#list转换为ndarray
l = range(10)
data = np.array(l)
print(data)
print(data.shape)
print(data.ndim)

In [None]:
#嵌套序列转换为ndarray
l2 = [range(10), range(10)]
data = np.array(l2) #创建一个两行10列的数组
print(data)
print(data.shape) #第一个维度的大小是2，第二个维度的大小是10
print(data.ndim)

In [None]:
# np.zeros, np.ones 和 np.empty

#np.zeros
zeros_arr = np.zeros((3, 4))

#np.ones
ones_arr = np.ones((2, 3))

#np.empty
empty_arr = np.empty((3, 3))

#np.empty 指定数据类型
empty_int_arr = np.empty((3, 3), int)

print(zeros_arr)
print(ones_arr)
print(empty_arr)
print(empty_int_arr)

In [None]:
#np.arange()
print(np.arange(10))

## ndarray数据类型
* ### dtype，类型名+位数，如float64，int32
* ### 转换数组类型
 * #### astype

In [None]:
zeros_float_arr = np.zeros((3, 4), dtype = np.float64)
print(zeros_float_arr)
print(zeros_float_arr.dtype)

#astype转换数据类型
zeros_int_arr = zeros_float_arr.astype(np.int32)
print(zeros_int_arr)
print(zeros_int_arr.dtype)

## 矢量化(vectorization)
* ### 矢量运算，相同大小的数组间的运算应用在<font color='red'>元素</font>上
* ### 矢量和标量运算，"广播" —— 将标量<font color='red'>"广播"</font>到各个元素

In [None]:
#矢量与矢量运算
arr = np.array([[1, 2, 3], [4, 5, 6]])

print("元素相乘：")
print(arr * arr)

print("元素相加：")
print(arr + arr)

In [None]:
#矢量与标量运算
print(1. / arr)
print(2. * arr)

## 索引与切片
* ### <font color='red'>一维数组</font>的索引与Python的列表索引功能相似
* ### <font color='red'>多维数组</font>的索引
  * #### arr[r1:r2, c1:c2]
  * #### arr[1,1] 等价 arr[1][1]
  * #### [:] 代表某个维度的数据  
<img style="float:center;" src="./img/dataacquisition_scientificcalculations_1.png">
* ### 条件索引
  * #### <font color='red'>布尔值</font>多维数组 arr[condition] condition可以是多个条件组合
  * #### 注意，多个条件组合要使用 <font color='red'>& |</font>，而不是and or 

<img style="float:left;" src="./img/dataacquisition_scientificcalculations_2.png">

In [None]:
# 一维数组
arr1 = np.arange(10)
print(arr1)
print(arr1[2:5])

In [None]:
#多维数组
arr2 = np.arange(12).reshape(3,4)
print(arr2)

In [None]:
print(arr2[1])
print(arr2[0:2, 2:])
print(arr2[:, 1:3])

In [None]:
#条件索引

#找到 data_arr 中2015年后的数据
data_arr = np.random.rand(3, 3)
print(data_arr)

year_arr = np.array([[2000, 2001, 2000], [2005, 2002, 2009], [2001, 2003, 2010]])
print(year_arr)

is_year_after_2005 = year_arr >= 2005
print(is_year_after_2005)

filtered_arr = data_arr[is_year_after_2005]

#filtered_arr = data_arr[year_arr >= 2005]
print(filtered_arr)

In [None]:
#多个条件
filtered_arr = data_arr[(year_arr <= 2005) & (year_arr % 2 == 0)]
print(filtered_arr)

## 维数转换
* ### 转置 transpose
* ### 高纬数组转置要指定<font color='red'>维度编号（0,1,2,...）
    
<img style="float:center;" src="./img/dataacquisition_scientificcalculations_3.png">

In [None]:
arr = np.random.rand(2,3)
print(arr)
print(arr.transpose())

In [None]:
arr3d = np.random.rand(2,3,4)# 2x3x4
print(arr3d)

In [None]:
print(arr3d.transpose((1,0,2)))# 3x2x4

In [None]:
print(arr3d.transpose((2,1,0)))# 4x3x2

In [None]:
print(arr3d.transpose((1,2,0)))# 3x4x2

## 通用函数(ufunc)
* ### 元素级运算  

## 常用的通用函数
* ### ceil，向上最接近的整数
* ### floor，向下最接近的整数
* ### <font color='red'>rint</font>，四舍五入
* ### <font color='red'>isnan</font>，判断元素是否为NaN（Not a Number）
* ### multiply，元素相乘
* ### divide，元素相除

In [None]:
arr = np.random.randn(2,3)
print(arr)

In [None]:
print(np.ceil(arr))

In [None]:
print(np.floor(arr))

In [None]:
print(np.rint(arr))

In [None]:
print(np.isnan(arr))

In [None]:
arr = np.random.rand(3,4)
print(arr)


## np.where
 * ### 矢量版本的三元表达式 x if condition else y
 * ### np.where(condition, x, y) #这个地方，如果条件x满足的话，就输出x，如果不满足的话，就输出y

In [None]:
arr = np.random.randn(3,4)
print(arr)

In [None]:
np.where(arr > 0, 1, -1)

## 常用的统计方法
 * ### np.mean, np.sum #数组均值，数组的和
 * ### np.max, np.min  #数组的最大值，最小值
 * ### np.std, np.var  #数组的平方差，方差
 * ### np.argmax, np.argmin #将最大元素的下标进行输出，将最小元素的下标进行输出
 * ### np.cumsum, np.cumprod #数组元素的累加和，累积乘
 * ### 注意多维的话要<font color='red'>指定统计的维度</font>，否则默认是全部维度上做统计

In [None]:
arr = np.arange(10).reshape(5,2)
print(arr)
print(np.sum(arr))
print(np.sum(arr, axis=0))
print(np.sum(arr, axis=1))

## np.all和np.any
 * ### all，全部满足条件
 * ### any，至少一个元素满足条件

In [None]:
arr = np.random.randn(2,3)
print(arr)

print(np.any(arr > 0))
print(np.all(arr > 0))

## np.unique
 * ### 找到唯一值并返回排序结果

In [None]:
arr = np.array([[1, 2, 1],[2, 3, 4]])
print(arr)

In [None]:
print(np.unique(arr))

## 操作文本文件
 * ### 读取
   * #### np.loadtxt

In [None]:
#loadtxt
filename = 'presidential_polls.csv'
data_array = np.loadtxt(filename,         # 文件名
                        delimiter=',',    # 分隔符
                        dtype=str,        # 数据类型
                        usecols=(0,2,3))  # 指定读取的列索引号
print(data_array)
print(data_array.ndim)
print(data_array.shape)
print(data_array.dtype)

In [None]:
#loadtxt
filename = 'presidential_polls.csv'
data_array = np.loadtxt(filename,    # 文件名
                        delimiter=',',  # 分隔符
                        skiprows=1,  # 跳过第一行，即跳过列名
                        dtype={'names':('cycle', 'type', 'matchup'),
                               'formats':('i4', 'S15', 'S50')},        # 数据类型
                        usecols=(0,2,3))              # 指定读取的列索引号

In [None]:
print(data_array)
print(data_array.ndim)
print(data_array.shape)
print(data_array.dtype)  #读取的结果是一维数组，每个元素是一个元组

# Matplotlib
## Matplotlib
* ### 用于创建出版质量图表的绘图工具库
* ### 目的是为Python构建一个Matlab式的绘图接口
* ### import matplotlib.pyplot as plt
  * #### pyplot模块包含了常用的matplotlib API函数

## figure
* ### Matplotlib的图像均位于figure对象中
* ### 创建figure
  * #### plt.figure()

## Subplot
* ### fig.add_subplot(a, b, c)
  * #### a,b 表示将fig分割成axb的区域
  * #### c 表示当前选中要操作的区域
    * #### 注意：从1开始编号
  * #### 返回的是AxesSubplot对象
  * #### plot绘图的区域是最后一次指定subplot的位置（jupyter里不能正确显示）

In [None]:
# 引入matplotlib包
import matplotlib.pyplot as plt


In [None]:
# 创建figure
    fig = plt.figure()

In [None]:
# subplot
ax1 = fig.add_subplot(2,2,1)
ax2 = fig.add_subplot(2,2,2)
ax3 = fig.add_subplot(2,2,3)
ax4 = fig.add_subplot(2,2,4)

In [None]:
# 在subplot上作图
import numpy as np
random_arr = np.random.randn(100)
#print(random_arr)

# 默认是在最后一次使用subplot的位置上作图，但是在jupyter里无效
plt.plot(random_arr)
plt.show()

* ### 在指定subplot里结合scipy绘制统计图
  * #### 正态分布sp.stats.norm.pdf
  * #### 正态直方图sp.stats.norm.rvs 

In [None]:
# 在指定subplot作图

import scipy as sp
from scipy import stats

x = np.linspace(-5, 15, 50)
#print x.shape

#绘制高斯分布
plt.plot(x, sp.stats.norm.pdf(x=x, loc=5, scale=2))

#叠加直方图
plt.hist(sp.stats.norm.rvs(loc=5, scale=2, size=200), bins=50, normed=True, color='red', alpha=0.5)
plt.show()

* ### 直方图 hist
* ### 散点图 scatter
* ### 柱状图 bar
* ### 矩阵绘图 plt.imshow()
  * #### 混淆矩阵，三个维度的关系 

In [None]:
# 绘制直方图
plt.hist(np.random.randn(100), bins=10, color='b', alpha=0.5)

In [None]:
# 绘制散点图
x = np.arange(50)
y = x + 5 * np.random.rand(50)
plt.scatter(x,y)

In [None]:
# 柱状图
x = np.arange(5)
y1, y2 = np.random.randint(1, 25, size=(2,5))
print(x)
print(y1)
print(y2)
width = 0.25
ax = plt.subplot(1,1,1)
ax.bar(x, y1, width, color='r')
ax.bar(x+width, y2, width, color='g')
ax.set_xticks(x+width)
ax.set_xticklabels(['a', 'b', 'c', 'd', 'e'])
plt.show()

In [None]:
# 矩阵绘图
m = np.random.rand(10, 10)
plt.imshow(m, interpolation='nearest', cmap=plt.cm.ocean)
plt.colorbar()
plt.show()

## plt.subplots()
* ### 同时返回新创建的figure和subplot对象数组
* ### fig, subplot_arr = plt.subplots(2,2)
* ### <font color='red'>在jupyter里可以正常显示</font>，推荐使用这种方式创建多个图表

In [None]:
fig, subplot_arr = plt.subplots(2,2)
subplot_arr[0,0].hist(np.random.randn(100), bins=10, color='b', alpha=0.3)

x = np.arange(50)
y = x + 5 * np.random.rand(50)
subplot_arr[0,1].scatter(x,y)

m = np.random.rand(10, 10)
subplot_arr[1,0].imshow(m, interpolation='nearest', cmap=plt.cm.ocean)


x = np.linspace(-5, 15, 50)
#print x.shape

#绘制高斯分布
subplot_arr[1,1].plot(x, sp.stats.norm.pdf(x=x, loc=5, scale=2))

plt.show()

# 数据分析建模基础
<img style="float:center;" src="./img/dataacquisition_modelingprogram.png">         


  **<font size=5>分类与回归</font>**
* **<font size=4>应用：信用卡申请人风险评估、预测公司业务增长量、预测房价等。</font>**
* **<font size=4>原理：</font>**   

&emsp;&emsp;&emsp;&emsp;&emsp;<font size=4>分类，将数据映射到预先定义的群组或类。算法要求基于数据属性值（特征值）  
&emsp;来定义类别，把具有某些特征的数据项映射到给定的某个类别上。</font>  
&emsp;&emsp;&emsp;&emsp;&emsp;<font size=4>回归，用属性的历史数据预测未来趋势。算法首先假设一些已知类型的函数可以  
&emsp;拟合目标数据，然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。</font>
* **<font size=4>区别：分类模型采用<font color='red'>离散预测值</font>，回归模型采用<font color='red'>连续的预测值</font></font>**。  

<br/><br/><br/>
**<font size=5>聚类</font>**
* **<font size=4>应用：根据症状归纳特定疾病、发现信用卡高级用户、根据上网行为对客户分群  
    从而进行精确营销等</font>**
* **<font size=4>原理：</font>**   

&emsp;&emsp;&emsp;&emsp;&emsp;<font size=4>在没有给定划分类的情况下，根据信息相似度进行信息聚类。</font>  
&emsp;&emsp;&emsp;&emsp;&emsp;<font size=4>聚类的输入是一组<font color='red'>未被标记</font>的数据，根据样本特征的距离或相似度进行划分。  
    &emsp;划分原则是保持最大的组内相似度和最小的组间相似性。</font>  
    
<br/><br/><br/>
**<font size=5>时序模型</font>**
* **<font size=4>应用：下一个季度的商品销量或库存量是多少？明天用电量是多少？</font>**
* **<font size=4>原理：</font>**   

&emsp;&emsp;&emsp;&emsp;&emsp;<font size=4>描述基于时间或其他序列的经常发生的规律或趋势，并对其建模。</font>  
&emsp;&emsp;&emsp;&emsp;&emsp;<font size=4>与回归一样，用已知的数据预测未来的值，但这些数据的区别是<font color='red'>变量所处时间  
    &emsp;的不同</font>。重点考查数据之间在时间维度上的关联性。</font>