# Pandas数据统计函数
#### 1.汇总类统计
#### 2.唯一去重和按值计数
#### 3.相关系数和协方差

In [3]:
import pandas as pd

## 0.读取数据

In [4]:
fpath = 'beijing_last_12_weather.csv'
df = pd.read_csv(fpath)


In [5]:
df.head(3)

Unnamed: 0,日期,最高温,最低温,天气,风力风向
0,2024-12-01 星期日,15℃,-1℃,多云,西北风 2级
1,2024-12-02 星期一,4℃,-4℃,晴,西北风 3级
2,2024-12-03 星期二,9℃,-3℃,晴~多云,西北风 2级


In [8]:
# 替换掉温度后面的符号
df.loc[:,"最高温"] = df["最高温"].str.replace("℃",'').astype('int32')
df.loc[:,"最低温"] = df["最低温"].str.replace("℃",'').astype('int32')
df.head(3)

Unnamed: 0,日期,最高温,最低温,天气,风力风向
0,2024-12-01 星期日,15,-1,多云,西北风 2级
1,2024-12-02 星期一,4,-4,晴,西北风 3级
2,2024-12-03 星期二,9,-3,晴~多云,西北风 2级


## 1.汇总类统计

In [10]:
# 一下子提取所有数字列统计结果
df.describe()

Unnamed: 0,日期,最高温,最低温,天气,风力风向
count,112,112,112,112,112
unique,112,41,39,15,23
top,2024-12-01 星期日,27,25,多云,南风 3级
freq,1,6,7,37,24


## 2.唯一去重和按值计数


### 2.1唯一性去重
#### 一般不用于数值列,而是枚举,分类列

In [13]:
df["风力风向"].unique()

array(['西北风 2级', '西北风 3级', '西北风 1级', '东北风 2级', '北风 2级', '西风 2级', '东南风 3级',
       '西风 3级', '东风 3级', '西北风 4级', '西南风 2级', '北风 4级', '西北风 5级', '东南风 2级',
       '南风 2级', '南风 3级', '北风 3级', '东风 4级', '南风 4级', '西南风 3级', '东风 2级',
       '北风 6级', '东北风 1级'], dtype=object)

In [14]:
df['天气'].unique()

array(['多云', '晴', '晴~多云', '晴~阴', '多云~阴', '多云~晴', '阴~多云', '阴', '大雪',
       '重度雾霾', '小雨', '轻度雾霾', '中度雾霾', '中雨', '大雨'], dtype=object)

### 2.2 按值计算

In [26]:
df["风力风向"].value_counts()
# 一般来说是降序排列

风力风向
南风 3级     24
东南风 3级    11
西北风 4级     9
北风 4级      8
南风 2级      8
西北风 3级     6
东南风 2级     5
西北风 5级     5
西北风 2级     4
东风 2级      4
北风 2级      4
西风 3级      4
西南风 3级     3
南风 4级      3
北风 3级      3
西北风 1级     2
东北风 2级     2
西南风 2级     2
西风 2级      1
东风 3级      1
东风 4级      1
北风 6级      1
东北风 1级     1
Name: count, dtype: int64

In [23]:
df["风力风向"].count()

np.int64(112)

In [27]:
df["天气"].value_counts()

天气
多云      37
晴       31
阴       14
小雨      13
中雨       6
轻度雾霾     2
晴~多云     1
阴~多云     1
多云~晴     1
多云~阴     1
晴~阴      1
重度雾霾     1
大雪       1
中度雾霾     1
大雨       1
Name: count, dtype: int64

## 3.相关系数和协方差
#### 用途 (超级厉害) :
####  1. 两只股票，是不是同涨同跌”程度多大?正相关还是负相关?
####  2. 新品销量的波动，跟哪些因素正相关、负相关，程度有多大?

#### 对于两个变量X、Y:

####  1. 协方差: 衡量同向反向程度，如果协方差为正，说明X，Y同向变化，协方差越大说明同向程度越高， 如果协方差为负，说明X，Y反向运动，协方差越小说明反向程度越高。
####  2. 相关系数; 衡量相似程度，当他们的相关系数为1时，说明两个变量变化时的正向相似度最大，当相关系数为 - 1时，说明两个变量变化的反向相似度最大


In [38]:
df['风力'] = df["风力风向"].str.extract(r'(\d+)').astype('int32')
df.head()

Unnamed: 0,日期,最高温,最低温,天气,风力风向,风力
0,2024-12-01 星期日,15,-1,多云,西北风 2级,2
1,2024-12-02 星期一,4,-4,晴,西北风 3级,3
2,2024-12-03 星期二,9,-3,晴~多云,西北风 2级,2
3,2024-12-04 星期三,8,-2,晴,西北风 2级,2
4,2024-12-05 星期四,9,-2,晴~阴,西北风 3级,3


In [47]:
df['最高温'] = df['最高温'].astype('int32')
df['最低温'] = df['最低温'].astype('int32')

In [48]:
df.dtypes

日期      object
最高温      int32
最低温      int32
天气      object
风力风向    object
风力       int32
dtype: object

In [49]:
# 协方差矩阵
a = df.select_dtypes(include=['int32', 'float32'])
a.cov()

Unnamed: 0,最高温,最低温,风力
最高温,151.394385,136.965171,0.357304
最低温,136.965171,131.359636,0.097329
风力,0.357304,0.097329,0.828507


In [50]:
#相关系数矩阵
a.corr()

Unnamed: 0,最高温,最低温,风力
最高温,1.0,0.971235,0.031903
最低温,0.971235,1.0,0.00933
风力,0.031903,0.00933,1.0


In [51]:
# 单独查看两个数据的相关系数
df["最低温"].corr(df["最高温"])

np.float64(0.9712349205444062)

In [52]:
df["风力"].corr(df["最高温"]-df["最低温"])

np.float64(0.09615178342796678)

## !!!这就是为什么特征工程对于机器学习重要性的一个例子