#### 2.1 基本概念

In [1]:
import numpy as np

In [8]:
#使用List来创造一组数据
data = [1, 2, 3]

#使用ndarray来创造一组数据
data = np.array([1, 2, 3])

#创造一组服从正态分布的定量数据
data = np.random.normal(0, 10, size=10)

#创造一组服从均匀分布的定性数据
data = np.random.randint(0, 10, size=10)

#### 2.2 中心位置（均值、中位数、众数）

In [9]:
data

array([3, 1, 0, 0, 0, 8, 7, 0, 8, 5])

In [10]:
#计算均值
print(np.mean(data))

#计算中位数
print(np.median(data))

3.2
2.0


In [14]:
from scipy.stats import mode

#计算众数
mode(data)

ModeResult(mode=array([0]), count=array([4]))

#### 2.3 发散程度（极差、方差、标准差、变异系数）

　　对数据的中心位置有所了解以后，一般我们会想要知道数据以中心位置为标准有多发散。如果以中心位置来预测新数据，那么发散程度决定了预测的准确性。数据的发散程度可用极差（PTP）、方差（Variance）、标准差（STD）、变异系数（CV）来衡量，它们的计算方法如下：
$$PTP = Max(Data) - Min(Data)$$  

$$Variance = \frac{\sum_{i}^N(Data[i] - Mean)^2}{N}$$  

$$STD = \sqrt{Variance}$$  

$$CV=\frac{STD}{Mean}$$  

　　极差是只考虑了最大值和最小值的发散程度指标，相对来说，方差包含了更多的信息，标准差基于方差但是与原始数据同量级，变异系数基于标准差但是进行了无量纲处理。使用NumPy计算极差、方差、标准差和变异系数：

In [19]:
#极差
print(np.ptp(data))
print(data.ptp())

#方差
print(np.var(data))
print(data.var())

#标准差
print(np.std(data))
print(data.std())

#变异系数
print(np.mean(data) / np.std(data))
print(data.mean() / data.std())

8
8
10.96
10.96
3.31058907145
3.31058907145
0.966595349328
0.966595349328


#### 2.4 偏差程度（z-分数）

　　之前提到均值容易受异常值影响，那么如何衡量偏差，偏差到多少算异常是两个必须要解决的问题。定义z-分数（Z-Score）为测量值距均值相差的标准差数目：  

$$Z-Score = \frac{X - Mean}{STD}$$  
　　当标准差不为0且不为较接近于0的数时，z-分数是有意义的，使用NumPy计算z-分数：

In [22]:
#计算第一个值的z-分数
print((data[0] - np.mean(data)) / np.std(data))

#计算所有的z-分数
(data - np.mean(data)) / data.std()

-0.060412209333


array([-0.06041221, -0.6645343 , -0.96659535, -0.96659535, -0.96659535,
        1.44989302,  1.14783198, -0.96659535,  1.44989302,  0.54370988])

<font color=red>**通常来说，z-分数的绝对值大于3将视为异常。**</font>

#### 2.5 相关程度

　　有两组数据时，我们关心这两组数据是否相关，相关程度有多少。用协方差（COV）和相关系数（CORRCOEF）来衡量相关程度：  
  
$$COV=\frac{\sum_{i}^{N}(Data_{1}[i] - Mean_{i}) * (Data_{2}[i] - Mean_{2})}{N}$$  

$$CORRCOEF = \frac{COV}{STD_1 * STD_2}$$

　　协方差的绝对值越大表示相关程度越大，协方差为正值表示正相关，负值为负相关，0为不相关。相关系数是基于协方差但进行了无量纲处理。使用NumPy计算协方差和相关系数：

In [24]:
data1 = np.random.randint(0,10,10)
data2 = np.random.randint(0,10,10)

print("data1", data1)
print("data2", data2)

data1 [7 7 5 9 2 5 1 2 9 0]
data2 [4 4 2 0 2 8 1 6 3 7]


In [27]:
#计算两组数的协方差
#参数bias=1表示结果需要除以N，否则只计算了分子部分
#返回结果为矩阵，第i行第j列的数据表示第i组数与第j组数的协方差。对角线为方差
print(np.cov(data, bias=1))

#计算两组数的相关系数
#返回结果为矩阵，第i行第j列的数据表示第i组数与第j组数的相关系数。对角线为1
print(np.corrcoef(data))

10.96
1.0


#### 2.6 回顾

## 3 使用Matplotlib进行图分析

#### 3.1 基本概念

　　使用图分析可以更加直观地展示数据的分布（频数分析）和关系（关系分析）。柱状图和饼形图是对定性数据进行频数分析的常用工具，使用前需将每一类的频数计算出来。直方图和累积曲线是对定量数据进行频数分析的常用工具，直方图对应密度函数而累积曲线对应分布函数。散点图可用来对两组数据的关系进行描述。在没有分析目标时，需要对数据进行探索性的分析，箱形图将帮助我们完成这一任务。

　　在此，我们使用一组容量为10000的男学生身高，体重，成绩数据来讲解如何使Matplotlib绘制以上图形，创建数据的代码如下：

In [None]:
def genData():
    heights = []
    weights = []
    grades = []
    N = 10000
    
    for i in range(N):
        while True:
            #身高服从均值172，标准差为6的正态分布
            height = np.random.normal(172, 6)
            if 0 < height: break
        while True:
            #体重由身高作为自变量的线性回归模型产生，误差服从标准正态分布
            weight = (height - 80) * 0.7 + np.random.normal(0, 1)
            if 0 < weight: break
        while True:
            #分数服从均值为70，标准差为15的正态分布
            score = normal(70, 15)
            if 0 <= score and score <= 100:
                grade = 'E' if score < 60 else ('D' if score < 70 else ('C' if score < 80 else ('B' if score < 90 else 'A')))