### Pandas 计算工具

- 统计函数
- 窗口函数
- 加深加强

In [3]:
# 导入相关库
import numpy as np
import pandas as pd

#### 统计函数

In [4]:
# 构建DataFrame
index = pd.Index(data=["Tom","Bob","Marry","James","Andy","Alice"], name="name")

In [7]:
data = {
    "age":[18,40,28,20,30,35],
    "income":[1000,4500,1800,1800,3000,np.nan],
}

In [8]:
df = pd.DataFrame(data=data ,index = index)

In [9]:
df

Unnamed: 0_level_0,age,income
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Tom,18,1000.0
Bob,40,4500.0
Marry,28,1800.0
James,20,1800.0
Andy,30,3000.0
Alice,35,


- .cov 函数求出年龄与收入之间的协方差 ，计算时会丢弃缺失值

In [10]:
df.age.cov(df.income)

11320.0

- .corr 计算相关性，计算时会丢弃缺失值
    - 默认使用 pearson ,也可指定kendall / spearman

In [11]:
df.age.corr(df.income)

0.944165089513402

In [12]:
df.age.corr(df.income,method="kendall")

0.9486832980505137

In [13]:
df.age.corr(df.income,method="spearman")

0.9746794344808964

- .rank 求出数据排名
    - min , max , first , dense

In [14]:
df.income.rank()

name
Tom      1.0
Bob      5.0
Marry    2.5
James    2.5
Andy     4.0
Alice    NaN
Name: income, dtype: float64

#### 窗口函数

In [15]:
data =  {
    "turnover":[12000,18000,np.nan,12000,9000,16000,18000],
    "date":pd.date_range("2019-03-05",periods = 7),
}

In [16]:
df2 = pd.DataFrame(data=data)

In [17]:
df2

Unnamed: 0,turnover,date
0,12000.0,2019-03-05
1,18000.0,2019-03-06
2,,2019-03-07
3,12000.0,2019-03-08
4,9000.0,2019-03-09
5,16000.0,2019-03-10
6,18000.0,2019-03-11


In [18]:
# 通过rolling实现，设置 window=2 保证窗口长度为2，设置 on="date" 确保根据日期列来滑动
df2.rolling(window=2,on="date").sum()

Unnamed: 0,turnover,date
0,,2019-03-05
1,30000.0,2019-03-06
2,,2019-03-07
3,,2019-03-08
4,21000.0,2019-03-09
5,25000.0,2019-03-10
6,34000.0,2019-03-11


- count()     非空观测值数量   
- sum()        值的总和
- mean()       价值的平均值
- median()      值的算术值
- min()           最小值
- max()          最大值
- std()       贝塞尔修正样本标准差         
- var()        无偏方差
- skew()          样品偏斜度（三阶矩）
- kurt()            样品峰度 （四阶矩）
- quantitle()      样本分位数
- apply()          通用适用
- cov()             无偏协方差（二元）
- corr()           相关（二阶）