## Pandas数据统计函数

1. 汇总类统计
2. 唯一去重和按值计数
3. 相关系数和协方差

In [1]:
import pandas as pd
import numpy as np

### 0、读取excel数据

In [2]:
fpath = "./result.xlsx"
df = pd.read_excel(fpath)

In [3]:
df.head(3)

Unnamed: 0,date,week,max_temperature,min_temperature,day_status,wind,aqi,aqi_status
0,2017-01-01,周日,-,-,多云,无持续风向微风,372,严重
1,2017-01-02,周一,-,-,霾,无持续风向微风,361,严重
2,2017-01-03,周二,-,-,霾~雾,无持续风向微风,280,重度


In [4]:
# 替换掉温度的后缀°
df['min_temperature'] = df['min_temperature'].map(
    lambda x: int(x.replace('°', '')) if x != '-' else np.nan)
df['max_temperature'] = df['max_temperature'].map(
    lambda x: int(x.replace('°', '')) if x != '-' else np.nan)

In [5]:
df.head(3)

Unnamed: 0,date,week,max_temperature,min_temperature,day_status,wind,aqi,aqi_status
0,2017-01-01,周日,,,多云,无持续风向微风,372,严重
1,2017-01-02,周一,,,霾,无持续风向微风,361,严重
2,2017-01-03,周二,,,霾~雾,无持续风向微风,280,重度


### 1、汇总类统计

In [6]:
# 一下子提取所有数字列统计结果
df.describe()

Unnamed: 0,max_temperature,min_temperature,aqi
count,1055.0,1055.0,1095.0
mean,21.766825,11.885308,104.319635
std,10.458676,10.037459,60.200473
min,-2.0,-10.0,20.0
25%,13.0,3.0,66.5
50%,23.0,13.0,86.0
75%,31.0,21.0,119.5
max,39.0,29.0,422.0


In [7]:
# 查看单个Series的数据
df["max_temperature"].mean()

21.766824644549764

In [8]:
# 最高温
df["max_temperature"].max()

39.0

In [9]:
# 最低温
df["min_temperature"].min()

-10.0

### 2、唯一去重和按值计数

#### 2.1 唯一性去重
一般不用于数值列，而是枚举、分类列

In [10]:
df["day_status"].unique()

array(['多云', '霾', '霾~雾', '小雨', '阵雨~多云', '晴', '阴~多云', '多云~阴', '晴~多云',
       '多云~晴', '小雨~雨夹雪', '阴', '雨夹雪~多云', '阴~小雪', '阴~雨夹雪', '暴雪~小雪', '小雨~多云',
       '小雨~阴', '多云~小雨', '中雨~小雨', '阵雨', '阵雨~阴', '晴~阴', '多云~阵雨', '阴~阵雨',
       '小雨~大雨', '大雨~小雨', '晴~雷阵雨', '雷阵雨~阴', '雷阵雨~多云', '雷阵雨~中雨', '雷阵雨',
       '雷阵雨~阵雨', '大雨~阴', '小雨~中雨', '中雨', '阵雨~小雨', '阴~小雨', '多云~小雪', '小雪~阴',
       '小雪~大雪', '大雪~阴', '中雪~小雪', '小雪~中雪', '小雪~多云', '小雨~阵雨', '阵雨~中雨',
       '中雨~阵雨', '中雨~大雨', '大雨', '小雨~晴', '晴~小雨', '雨夹雪~阴', '中雨~雨夹雪', '小雪',
       '小雨~暴雨', '中雨~多云'], dtype=object)

In [11]:
df["aqi_status"].unique()

array(['严重', '重度', '中度', '轻度', '良', '优'], dtype=object)

In [12]:
df["wind"].unique()

array(['无持续风向微风', '西北风3-4级', '北风4-5级', '东北风3-4级', '西南风1-2级', '南风3-4级',
       '东北风4-5级', '西北风4-5级', '东南风1-2级', '南风1-2级', '东北风1-2级', '东风1-2级',
       '西风1-2级', '西南风3-4级', '西风3-4级', '北风3-4级', '东风3-4级', '北风1-2级',
       '西北风1-2级', '东南风3-4级', '西风4-5级', '西北风5-6级', '南风4-5级', '东北风5-6级',
       '西风5-6级', '西北风3级', '西南风2级', '东南风2级', '西北风2级', '西南风1级', '东北风2级',
       '东北风1级', '西北风1级', '东北风3级', '东南风1级', '西北风4级', '西南风3级', '东北风4级',
       '东南风3级', '西风3级', '西南风4级', '南风3级', '南风2级'], dtype=object)

#### 2.2 按值计数

In [13]:
df["wind"].value_counts()

无持续风向微风    200
东南风2级       88
南风1-2级      87
东北风1-2级     68
东北风2级       67
西南风2级       61
东风1-2级      52
东北风3-4级     47
东北风3级       42
东南风1-2级     39
西风1-2级      34
西南风3级       31
西北风3级       27
南风3-4级      24
西北风2级       21
西南风1-2级     19
西风3-4级      19
西北风1-2级     18
西北风3-4级     16
东南风1级       13
东南风3级       13
北风1-2级      13
东北风4-5级     13
东北风1级       12
东北风4级        9
北风3-4级       9
西南风1级        8
西北风4-5级      7
东风3-4级       7
西南风3-4级      4
西北风4级        4
东南风3-4级      4
西风3级         3
北风4-5级       3
南风3级         2
西风4-5级       2
西北风1级        2
南风2级         2
西风5-6级       1
南风4-5级       1
西南风4级        1
东北风5-6级      1
西北风5-6级      1
Name: wind, dtype: int64

In [14]:
df["day_status"].value_counts()

多云        262
晴         218
晴~多云      104
多云~晴       88
多云~阴       68
阴~多云       56
小雨         55
多云~小雨      30
阴          28
小雨~多云      26
阴~小雨       16
小雨~阴       15
阵雨         13
阵雨~多云      11
多云~阵雨      10
中雨~小雨       8
小雨~中雨       8
小雪~多云       6
多云~小雪       5
小雨~大雨       5
中雨          5
雷阵雨         4
阵雨~小雨       4
晴~雷阵雨       3
阵雨~阴        3
阴~小雪        3
阴~阵雨        3
雷阵雨~中雨      3
雨夹雪~多云      2
雷阵雨~阴       2
小雪~阴        2
阴~雨夹雪       2
小雨~阵雨       2
晴~阴         2
小雨~雨夹雪      1
小雪          1
雨夹雪~阴       1
霾           1
中雪~小雪       1
中雨~雨夹雪      1
大雨~小雨       1
晴~小雨        1
小雨~晴        1
霾~雾         1
暴雪~小雪       1
小雨~暴雨       1
阵雨~中雨       1
中雨~阵雨       1
大雨          1
中雨~大雨       1
雷阵雨~多云      1
中雨~多云       1
大雪~阴        1
小雪~大雪       1
大雨~阴        1
小雪~中雪       1
雷阵雨~阵雨      1
Name: day_status, dtype: int64

In [15]:
df["aqi_status"].value_counts()

良     628
轻度    224
优      76
重度     76
中度     71
严重     20
Name: aqi_status, dtype: int64

### 3、相关系数和协方差

用途（超级厉害）：
1. 两只股票，是不是同涨同跌？程度多大？正相关还是负相关？
2. 产品销量的波动，跟哪些因素正相关、负相关，程度有多大？

来自知乎，对于两个变量X、Y：
1. 协方差：***衡量同向反向程度***，如果协方差为正，说明X，Y同向变化，协方差越大说明同向程度越高；如果协方差为负，说明X，Y反向运动，协方差越小说明反向程度越高。
2. 相关系数：***衡量相似度程度***，当他们的相关系数为1时，说明两个变量变化时的正向相似度最大，当相关系数为－1时，说明两个变量变化的反向相似度最大

In [16]:
# 协方差矩阵：
df.cov()

Unnamed: 0,max_temperature,min_temperature,aqi
max_temperature,109.383908,100.2664,-219.976416
min_temperature,100.2664,100.75059,-254.507379
aqi,-219.976416,-254.507379,3624.097009


In [17]:
# 相关系数矩阵
df.corr()

Unnamed: 0,max_temperature,min_temperature,aqi
max_temperature,1.0,0.955113,-0.367766
min_temperature,0.955113,1.0,-0.443352
aqi,-0.367766,-0.443352,1.0


In [18]:
# 单独查看空气质量和最高温度的相关系数
df["aqi"].corr(df["max_temperature"])

-0.36776569069963444

In [19]:
df["aqi"].corr(df["min_temperature"])

-0.44335170726841794

In [20]:
# 空气质量和温差的相关系数
df["aqi"].corr(df["max_temperature"]-df["min_temperature"])

0.1948527230549141

In [21]:
# !! 这就是特征工程对于机器学习重要性的一个例子