# Pandas数据统计函数
#### 1.汇总类统计
#### 2.唯一去重和按值计数
#### 3.相关系数和协方差

In [35]:
import pandas as pd

## 0、读取csv数据

In [36]:
fpath="./datas/beijing_tianqi/beijing_tianqi_2018.csv"
df=pd.read_csv(fpath,encoding='gbk')

In [37]:
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


In [38]:
# 替换掉温度的后缀℃
df.loc[:,"bWendu"]=df["bWendu"].str.replace("℃","").astype('int32')
df.loc[:,"yWendu"]=df["yWendu"].str.replace("℃","").astype('int32')

In [39]:
df.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2,-5,多云,北风,1-2级,28,优,1
3,2018-01-04,0,-8,阴,东北风,1-2级,28,优,1
4,2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1


## 1、汇总类统计

In [40]:
# 一下子提取所有数字列统计结果
df.describe()

Unnamed: 0,aqi,aqiLevel
count,11.0,11.0
mean,40.454545,1.181818
std,12.979704,0.40452
min,26.0,1.0
25%,29.0,1.0
50%,34.0,1.0
75%,50.0,1.0
max,59.0,2.0


In [41]:
# 查看单个Series的数据
df["bWendu"].mean()  # 平均值

np.float64(3.6363636363636362)

In [42]:
# 最高温
df["bWendu"].max()

25

In [43]:
# 最低温
df["bWendu"].min()

-2

## 2、唯一去重和按值计算

#### 2.1唯一去重
#### 一般不用于数值列，而是枚举、分类列

In [44]:
df["fengxiang"].unique()

array(['东北风', '北风', '西北风', '西南风', '东南风'], dtype=object)

In [45]:
df["tianqi"].unique()

array(['晴~多云', '阴~多云', '多云', '阴', '多云~晴', '多云~阴', '晴'], dtype=object)

In [46]:
df["fengli"].unique()

array(['1-2级', '4-5级', '3-4级'], dtype=object)

#### 2.2按值计数

In [47]:
df["fengxiang"].value_counts()

fengxiang
西北风    4
东北风    3
西南风    2
北风     1
东南风    1
Name: count, dtype: int64

In [48]:
df["tianqi"].value_counts()

tianqi
晴       4
阴~多云    2
晴~多云    1
多云      1
阴       1
多云~晴    1
多云~阴    1
Name: count, dtype: int64

In [49]:
df["fengli"].value_counts()

fengli
1-2级    9
4-5级    1
3-4级    1
Name: count, dtype: int64

## 3、相关系数和协方差

#### 用途（超级厉害）：
 #### 1.两只股票，是不是同涨同跌？程度多大？正相关还是负相关？
 #### 2.产品销量的波动，跟哪些因素正相关、负相关，程度有多大？

#### 概念：对于两个变量X、Y，
 #### 1.协方差：衡量同向反向程度，如果协方差为正，说明X,Y同向变化，协方差越大说明同向程度越高；如果协方差为负，说明X,Y反向运动，协方差越小说明反向程度越高。
 #### 2.相关系数：衡量相似程度，当他们的相关系数为1时，说明两个变量变化时的正向相似度最大，当相关系数为-1时，说明两个变量变化的反向相似度最大。

In [50]:
# 删除某些object类型列，比如：日期列是string类型，不能进行协方差运算
df=df.select_dtypes(exclude=['object'])

# 协方差矩阵：
df.cov()

Unnamed: 0,aqi,aqiLevel
aqi,168.472727,3.709091
aqiLevel,3.709091,0.163636


In [51]:
# 相关系数矩阵
df.corr()

Unnamed: 0,aqi,aqiLevel
aqi,1.0,0.70642
aqiLevel,0.70642,1.0


In [53]:
print(df.columns)

Index(['aqi', 'aqiLevel'], dtype='object')


In [52]:
# 单独查看空气质量和最高温度的相关系数
df["aqi"].corr(df["bWendu"])

KeyError: 'bWendu'

In [None]:
df["aqi"].corr(df["yWendu"])

In [None]:
# 空气质量和温差的相关系数
df["aqi"].corr(df["bWendu"]-df["yWendu"])

In [None]:
# ！！这就是特征工程对于机器学习重要性的一个例子