# 基于Python的数据分析
**工具：**jupyter notebook   **第三方库：**Pandas  
  
**Pandas简介：**  
- Pandas是一个开源的第三方`Python`库，从`Numpy`和`Matplotlib`的基础上构建而来，享有数据分析“三剑客之一”的盛名（`NumPy`、`Matplotlib`、`Pandas`）。
- Pandas这个名字来源于面板数据（Panel Data）与数据分析（data analysis）这两个名词的组合；
- Pandas 已经成为`Python`数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
---
## 导入pandas库
由于一般都会用到numpy库，所以，我们也一起导入。

In [1]:
import pandas as pd  # 导入pandas库
import numpy as np   # 导入numpy库

## 描述统计
Pandas的描述统计涉及**函数**`df.describe()`，该函数会返回一个有多行的所有数字列的统计表，每一行对应一个统计指标，分别是：总数、平均数、标准差、最小值、四分位数、最大值等。

In [2]:
# 生成100个6列[60,100)的随机整数
data = np.random.randint(60, 100, [100, 6])
df = pd.DataFrame(data=data,index=range(1, 101),
    columns=['语文', '数学', '英语','物理','化学','生物'])
display(df.sample(5))

df.describe()

Unnamed: 0,语文,数学,英语,物理,化学,生物
58,63,94,90,82,90,74
89,64,82,87,81,74,62
94,85,64,84,81,96,99
22,66,97,91,75,88,94
69,90,66,87,73,88,77


Unnamed: 0,语文,数学,英语,物理,化学,生物
count,100.0,100.0,100.0,100.0,100.0,100.0
mean,79.85,80.08,79.67,78.4,80.88,79.4
std,12.033938,11.330374,11.398259,10.209918,11.470894,12.625931
min,60.0,60.0,61.0,60.0,60.0,60.0
25%,69.0,71.5,70.0,71.0,73.0,65.75
50%,79.0,80.5,78.0,77.0,81.0,81.0
75%,91.25,89.25,89.25,87.0,91.25,89.5
max,99.0,98.0,99.0,99.0,99.0,99.0


## 数学统计
Pandas支持常用的数学统计方法，如平均数、相关系数、最大/最小值、中位数、标准差、众数等

---
### 平均值
**函数表达式：**`df.mean()`  
`df.mean()`仅对数字类型的列起作用，会忽略文本等其他类型。

In [3]:
# 生成100行3列[60,100)的随机整数
data = np.random.randint(60, 100, [100, 6])
df = pd.DataFrame(data=data,index=range(1, 101),
    columns=['语文', '数学', '英语','物理','化学','生物'])
display(df.sample(5))

# 计算所有列均值
df.mean()

Unnamed: 0,语文,数学,英语,物理,化学,生物
12,93,78,60,69,92,62
66,65,69,96,69,99,72
7,91,98,74,62,66,65
67,95,80,84,91,62,73
98,65,68,78,67,71,87


语文    78.33
数学    78.50
英语    80.42
物理    78.86
化学    78.53
生物    80.49
dtype: float64

In [4]:
# 计算单列均值
print(df['语文'].mean())

78.33


In [5]:
# 计算所有行的均值，下面三种方式效果相同
display(df.mean(axis='columns').head())
display(df.mean(axis=1).head())
display(df.mean(1).head())

1    75.666667
2    82.166667
3    79.333333
4    81.500000
5    85.666667
dtype: float64

1    75.666667
2    82.166667
3    79.333333
4    81.500000
5    85.666667
dtype: float64

1    75.666667
2    82.166667
3    79.333333
4    81.500000
5    85.666667
dtype: float64

### 求和
**函数表达式：**`df.sum()`  

In [6]:
# 生成100行3列[60,100)的随机整数
data = np.random.randint(60, 100, [100, 6])
df = pd.DataFrame(data=data,index=range(1, 101),
    columns=['语文', '数学', '英语','物理','化学','生物'])
display(df.sample(5))

# 计算所有列均值
df.sum()

Unnamed: 0,语文,数学,英语,物理,化学,生物
68,63,97,95,90,80,77
10,76,71,95,86,80,72
12,73,64,91,94,72,82
58,70,75,97,93,94,96
77,97,92,93,83,80,68


语文    7876
数学    7859
英语    8098
物理    7960
化学    7917
生物    7903
dtype: int64

In [7]:
# 计算两列的相关系数
df['语文'].sum()

7876

### 相关系数
**函数表达式：**`df.corr()`  

In [8]:
# 生成100行3列[60,100)的随机整数
data = np.random.randint(60, 100, [100, 6])
df = pd.DataFrame(data=data,index=range(1, 101),
    columns=['语文', '数学', '英语','物理','化学','生物'])
display(df.sample(5))

# 计算所有列均值
df.corr()

Unnamed: 0,语文,数学,英语,物理,化学,生物
41,90,64,80,78,66,76
56,60,95,61,92,96,71
13,88,80,70,98,82,98
69,92,84,71,62,77,82
68,86,76,91,90,92,69


Unnamed: 0,语文,数学,英语,物理,化学,生物
语文,1.0,-0.17961,0.057725,0.016087,-0.124794,0.103902
数学,-0.17961,1.0,-0.116835,-0.032331,0.071604,-0.022779
英语,0.057725,-0.116835,1.0,0.022093,-0.034431,-0.044477
物理,0.016087,-0.032331,0.022093,1.0,-0.025167,0.03182
化学,-0.124794,0.071604,-0.034431,-0.025167,1.0,-0.230081
生物,0.103902,-0.022779,-0.044477,0.03182,-0.230081,1.0


In [9]:
# 计算两列的相关系数
df['语文'].corr(df['数学'])

-0.1796104620951131

### 最大值、最小值
**函数表达式：**`df.max()`  、`df.min()`

In [10]:
# 生成100行3列[60,100)的随机整数
data = np.random.randint(60, 100, [100, 6])
df = pd.DataFrame(data=data,index=range(1, 101),
    columns=['语文', '数学', '英语','物理','化学','生物'])
display(df.sample(5))

# 计算所有列的最大值、最小值
display(df.max())
display(df.min())

Unnamed: 0,语文,数学,英语,物理,化学,生物
59,72,83,69,61,80,69
12,89,93,64,90,96,65
44,91,79,87,84,64,71
96,70,86,84,67,76,83
47,87,65,88,92,89,76


语文    99
数学    98
英语    99
物理    99
化学    99
生物    98
dtype: int32

语文    60
数学    60
英语    60
物理    60
化学    60
生物    60
dtype: int32

In [11]:
# 计算某一列的最大值、最小值
display(df['语文'].max())
display(df['数学'].min())

99

60

### 标准差
**函数表达式：**`df.std()` 

In [12]:
# 生成100行3列[60,100)的随机整数
data = np.random.randint(60, 100, [100, 6])
df = pd.DataFrame(data=data,index=range(1, 101),
    columns=['语文', '数学', '英语','物理','化学','生物'])
display(df.sample(5))

# 计算所有列的标准差
df.std()

Unnamed: 0,语文,数学,英语,物理,化学,生物
11,81,70,66,84,93,75
93,76,88,61,62,70,88
51,97,91,75,68,61,96
15,83,70,66,82,82,68
44,92,86,91,78,90,87


语文    11.219657
数学    11.377716
英语    11.413349
物理    11.488576
化学    10.855916
生物    11.547863
dtype: float64

### 中位数、众数
**函数表达式：**`df.median()`  、`df.mode()`

In [13]:
# 生成100行3列[60,100)的随机整数
data = np.random.randint(60, 100, [100, 6])
df = pd.DataFrame(data=data,index=range(1, 101),
    columns=['语文', '数学', '英语','物理','化学','生物'])
display(df.sample(5))

# 计算所有列的中位数
display(df.median())
# 计算某一列的中位数
print(df['语文'].median())

Unnamed: 0,语文,数学,英语,物理,化学,生物
28,96,87,87,95,72,89
1,95,95,92,91,80,71
64,78,79,63,67,77,93
49,82,90,90,89,71,97
85,87,78,61,74,69,97


语文    77.0
数学    79.0
英语    80.0
物理    79.0
化学    78.5
生物    80.0
dtype: float64

77.0


In [14]:
# 显示语文这一列的值
print(df['语文'].values)

# 计算语文列的众数
display(df['语文'].mode())

[95 78 75 69 65 76 89 79 60 63 88 62 76 71 86 62 76 84 68 68 68 71 68 67
 91 94 66 96 75 62 91 83 61 88 84 94 88 61 95 71 64 93 91 96 77 82 94 81
 82 91 95 68 81 80 73 75 68 60 71 89 72 85 80 78 64 90 63 70 60 95 73 95
 72 99 90 77 74 68 86 70 71 69 89 67 87 62 76 77 82 76 91 82 68 93 67 90
 75 84 79 86]


0    68
dtype: int32