## Pandas数据统计函数

1. 汇总类统计
2. 唯一去重和按值计数
3. 相关系数和协方差

In [1]:
import pandas as pd

### 0、读取csv数据

In [2]:
fpath = "./datas/beijing_tianqi/beijing_tianqi_2018.csv"
df = pd.read_csv(fpath)

In [3]:
df.head(3)

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1


In [4]:
# 替换掉温度的后缀℃
df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')

In [5]:
df.head(3)

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2,-5,多云,北风,1-2级,28,优,1


### 1、汇总类统计

In [7]:
# 一下子提取所有数字列统计结果，df.describe()
df.describe()

Unnamed: 0,bWendu,yWendu,aqi,aqiLevel
count,365.0,365.0,365.0,365.0
mean,18.665753,8.358904,82.183562,2.090411
std,11.858046,11.755053,51.936159,1.029798
min,-5.0,-12.0,21.0,1.0
25%,8.0,-3.0,46.0,1.0
50%,21.0,8.0,69.0,2.0
75%,29.0,19.0,104.0,3.0
max,38.0,27.0,387.0,6.0


In [8]:
## 查看单个Series的数据
df["bWendu"].mean()

18.665753424657535

In [None]:
# 最高温
df["bWendu"].max()

In [None]:
# 最低温
df["bWendu"].min()

### 2、唯一去重和按值计数

#### 2.1 唯一性去重
一般不用于数值列，而是枚举、分类列

In [None]:
df["fengxiang"].unique()

In [None]:
df["tianqi"].unique()

In [None]:
df["fengli"].unique()

#### 2.2 按值计数

In [None]:
df["fengxiang"].value_counts()

In [None]:
df["tianqi"].value_counts()

In [None]:
df["fengli"].value_counts()

### 3、相关系数和协方差

用途（超级厉害）：
1. 两只股票，是不是同涨同跌？程度多大？正相关还是负相关？
2. 产品销量的波动，跟哪些因素正相关、负相关，程度有多大？

来自知乎，对于两个变量X、Y：
1. 协方差：***衡量同向反向程度***，如果协方差为正，说明X，Y同向变化，协方差越大说明同向程度越高；如果协方差为负，说明X，Y反向运动，协方差越小说明反向程度越高。
2. 相关系数：***衡量相似度程度***，当他们的相关系数为1时，说明两个变量变化时的正向相似度最大，当相关系数为－1时，说明两个变量变化的反向相似度最大

In [None]:
# 协方差矩阵：
df.cov()

In [None]:
# 相关系数矩阵
df.corr()

In [None]:
# 单独查看空气质量和最高温度的相关系数
df["aqi"].corr(df["bWendu"])

In [None]:
df["aqi"].corr(df["yWendu"])

In [None]:
# 空气质量和温差的相关系数
df["aqi"].corr(df["bWendu"]-df["yWendu"])

In [None]:
# !! 这就是特征工程对于机器学习重要性的一个例子

In [None]:
0.21/0.02