# 统计运算
这一章包含数据分析用得最多的函数操作。

In [1]:
__auther__ = 'liuninng800203@gmail.com'

In [2]:
pwd

'/Users/shanshu/project/pandas-cap'

In [3]:
import numpy as np
import pandas as pd

# 1. 数值型统计运算
这些统计操作只对元素类型为数值型的列有效，返回以列索引或行索引为索引的Series。

## 1.1 一元统计
顾名思义，这些统计只是自身分布情况的反映。

### 1.1.1 sum()
和

##### `DataFrame.sum(axis='index')`
- axis：'index' 竖着加，'columns' 横着加

In [5]:
df = pd.DataFrame([[1, 2], [3, 5]], index=['a', 'b'], columns=['A', 'B'])
df

Unnamed: 0,A,B
a,1,2
b,3,5


In [6]:
df.sum() # 默认按列加
# df.sum(axis='index') 

A    4
B    7
dtype: int64

In [7]:
df.sum(axis='columns')  # 按行加

a    3
b    8
dtype: int64

### 1.1.2 mean(), std(), var()
均值、标准差、方差

In [8]:
df.mean()

A    2.0
B    3.5
dtype: float64

In [9]:
df.std()

A    1.414214
B    2.121320
dtype: float64

In [10]:
df.var()

A    2.0
B    4.5
dtype: float64

### 1.1.3 max(), min(), median()
最大、最小、中值

In [11]:
df.min()

A    1
B    2
dtype: int64

In [12]:
df.max()

A    3
B    5
dtype: int64

In [13]:
df.median()

A    2.0
B    3.5
dtype: float64

## 1.2 二元统计
计算任意两列直接的统计量，返回以列索引 同时为新行索引和列索引的DataFrame。

### 1.2.1 cov() 
协方差

##### `DataFrame.cov(min_periods=None)`
- min_periods：每一列去除NaN后，要求能够参与运算的最少元素个数。

In [15]:
df1 = pd.DataFrame([[1, 2], [2, np.nan]], columns=['B', 'C'])
df1

Unnamed: 0,B,C
0,1,2.0
1,2,


In [16]:
df1.cov()

Unnamed: 0,B,C
B,0.5,
C,,


### 1.2.2 corr() 
相关系数

##### `DataFrame.corr(method='pearson', min_periods=1)`
- method：用的方法
- min_periods：每一列去除NaN后，要求能够参与运算的最少元素个数。

In [17]:
df1.corr()

Unnamed: 0,B,C
B,1.0,
C,,


### 1.2.3 corrwith()
corr是自身列之间的关系，而这个函数可以对不同的DataFrame进行运算，计算之前会把两个DataFrame完全对齐（对齐方式为取交集）。
##### `DataFrame.corrwith(other, axis=0, drop=False, method='pearson')`
- other：另一个DataFrame或Series
- axis：'index or 0'或'columns or 1'，index，计算列相关性。columns，计算行相关性。默认为 index。
- drop：是否丢掉axis对应的索引取交时被过滤的了那些索引
- method：计算相关性的方法

In [19]:
df1 = pd.DataFrame([[2, 1], [5, 0], [2, 3]],
                   index=['a', 'b', 2],
                   columns=['B', 'C'])
df1

Unnamed: 0,B,C
a,2,1
b,5,0
2,2,3


In [20]:
df

Unnamed: 0,A,B
a,1,2
b,3,5


In [21]:
df.corrwith(df1, axis=0, drop=True)  #df和df1取交对齐, 取交后只剩下B列，a,b行

B    1.0
dtype: float64

In [23]:
df.corrwith(df1, axis=0, drop=False)  #补充取交时被过滤的A和C列

B    1.0
A    NaN
C    NaN
dtype: float64

In [24]:
#other为series时，一般都是df的每一列分别与series进行相关性计算。
s = pd.Series([3, 1, 1], index=['a', 'b', 'c'], name='B')
s

a    3
b    1
c    1
Name: B, dtype: int64

In [25]:
df

Unnamed: 0,A,B
a,1,2
b,3,5


In [26]:
df.corrwith(s, axis=0)

A   -1.0
B   -1.0
dtype: float64

# 2. 类别型统计运算

## 2.1 value_counts()
不适合DataFrame。
##### `Series/Index.value_counts(normalize=False, ascending=False, bins=None)`
- normalize：True or False，计算频次或者频率比；
- ascending：True or False，排序方式，默认降序；
- bins：int，pd.cut的一种快捷操作，对连续数值型效果好；

In [27]:
s = pd.Series([1, 2, 1, 2, 1, 3])
s

0    1
1    2
2    1
3    2
4    1
5    3
dtype: int64

In [28]:
s.value_counts()

1    3
2    2
3    1
dtype: int64

In [25]:
s.value_counts(ascending=True)

3    1
2    2
1    3
dtype: int64

In [29]:
s.value_counts(bins=2)  # bins按照int平均分割，左开右闭，左侧外延1%以包含最左值

(0.997, 2.0]    5
(2.0, 3.0]      1
dtype: int64

## 2.2 count()
计算统计每一类非NaN元素个数，这个函数可以快速了解哪些特征或哪些样本缺失比较严重。
##### `DataFrame.count(axis=0)`
- axis: 0-查看列，1-查看行；

In [30]:
df

Unnamed: 0,A,B
a,1,2
b,3,5


In [31]:
df.count(axis=0)

A    2
B    2
dtype: int64

In [32]:
df.count(axis=1)

a    2
b    2
dtype: int64