# 1. 数值型统计运算
这些统计操作只对元素类型为数值型的对象有效

相关方法汇总：
<table border="1" style="text-align:left;">
        <tr><th>方法</th><th style="width:50%; ">说明</th></tr>
        <tr><td>sum</td><td>总和</td></tr>
        <tr><td>mean</td><td>平均数</td></tr>
        <tr><td>median</td><td>算术中位数（50%分位数）</td></tr>
        <tr><td>min、max</td><td>最小值和最大值</td></tr>
        <tr><td>idxmin、idxmax</td><td>最小值和最大值的索引值</td></tr>
        <tr><td>argmin、argmax</td><td>最小值和最大值的索引位置（整数）</td></tr>
        <tr><td>mad</td><td>根据平均值计算平均绝对离差</td></tr>
        <tr><td>var</td><td>方差</td></tr>
        <tr><td>std</td><td>标准差</td></tr>
        <tr><td>count</td><td>飞NAN值的数量</td></tr>
        <tr><td>value_counts</td><td>计算词频或频率</td></tr>
        <tr><td>describe</td><td>针对Series或DataFrame的列做汇总统计</td></tr>
        <tr><td>skew</td><td>样本值的偏度</td></tr>
        <tr><td>kurt</td><td>样本值的峰度</td></tr>
        <tr><td>cumsum</td><td>样本值的累计和</td></tr>
        <tr><td>cummin、cummax</td><td>样本值的累计最小值和最大值</td></tr>
        <tr><td>cumprod</td><td>样本值的累计积</td></tr>
        <tr><td>diff</td><td>计算一阶差分</td></tr>
        <tr><td>pct_change</td><td>pct_change</td></tr>
    </table>

## 1.1 一元统计

### 1.1.1 `.sum()`
#### `DataFrame.sum(axis='index')`
- axis：'index'-沿列加，'columns'-沿行加

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame([[1,2],[3,5]], index=['a','b'], columns = ['A','B'])
df

Unnamed: 0,A,B
a,1,2
b,3,5


In [5]:
df.sum()  # 按列加

A    4
B    7
dtype: int64

In [6]:
df.sum(axis = 'columns')  # 按行加

a    3
b    8
dtype: int64

### 1.1.2 `.mean(), .std(), .var()`
均值、标准差、方差

### 1.1.3 .max(), .min(), .median(), idmax(), idmin()
最大、最小、中值

In [4]:
df.mad(axis = 'index')

A    0.75
B    0.75
dtype: float64

## 1.2 二元统计
计算任意两列直接的统计量，返回以列索引为新行索引和列索引的DataFrame

### 1.2.1 `.cov()`
#### `DataFrame.cov(min_periods=None)`
- min_periods：每一列去除NaN后，要求能够参与运算的最少元素个数。

In [5]:
df1 = pd.DataFrame([[1,2],[2,0]], columns = ['B','C'])
df1

Unnamed: 0,B,C
0,1,2
1,2,0


In [6]:
df1.cov()

Unnamed: 0,B,C
B,0.5,-1.0
C,-1.0,2.0


### 1.2.2 `.corr()`
相关系数

In [7]:
df1.corr()

Unnamed: 0,B,C
B,1.0,-1.0
C,-1.0,1.0


### 1.2.3 `.corrwith()`
corr是自身列之间的关系，而这个函数可以对不同的DataFrame进行运算，不要要记得运算发生在**同名列和同索引的行**之间。
#### `DataFrame.corrwith(other, axis=0, drop=False)`
- other：另一个DataFrame或Series
- axis：'index'或'columns'
- drop：是否丢掉结果中的NaN

In [8]:
df1 = pd.DataFrame([[1,2],[2,0],[2,3]],index = [0,1,2],columns = ['B','C'])
df1

Unnamed: 0,B,C
0,1,2
1,2,0
2,2,3


In [9]:
df

Unnamed: 0,A,B
a,1,2
b,3,5


In [10]:
df.corrwith(df1)  #只对 同名列 和 同名行 进行计算

A   NaN
B   NaN
C   NaN
dtype: float64

In [11]:
s = pd.Series([1,2], index = [0,1], name = 'B')
s

0    1
1    2
Name: B, dtype: int64

In [12]:
df

Unnamed: 0,A,B
a,1,2
b,3,5


In [16]:
df.corrwith(s)

A   NaN
B   NaN
dtype: float64

------
# 2. 类型型统计运算

## 2.1. `value_counts()`
不适合DataFrame。
#### `Series/Index.value_counts(normalize=False, ascending=False, bins=None)`
- normalize：True or False，计算频次或者频率比；
- ascending：True or False，排序方式，默认降序；
- bins：int，pd.cut的一种快捷操作，对连续数值型效果好；

In [17]:
s = pd.Series([1,2,1,2,1,3])
s

0    1
1    2
2    1
3    2
4    1
5    3
dtype: int64

In [18]:
s.value_counts()

1    3
2    2
3    1
dtype: int64

In [19]:
s.value_counts(ascending = True)

3    1
2    2
1    3
dtype: int64

In [20]:
s.value_counts( bins = 2)   # bins按照int平均分割，左开右闭，左侧外延1%以包含最左值

(0.997, 2.0]    5
(2.0, 3.0]      1
dtype: int64

## 2.2 `.count()`
计算统计每一类non-NaN元素个数，这个函数可以快速了解哪些特征或哪些样本缺失比较严重。
#### `DataFrame.count(axis=0)`
- axis: 0-查看列，1-查看行；

In [21]:
df

Unnamed: 0,A,B
a,1,2
b,3,5


In [22]:
df.count(axis = 0)

A    2
B    2
dtype: int64

In [23]:
type(df.count(axis = 1))

pandas.core.series.Series