# Pandas数据统计函数

1.汇总类统计<br>
2.唯一去重和按值计数<br>
3.相关系数和协方差

In [1]:
import pandas as pd

## 0. 读取csv数据

In [2]:
fpath="../datas/weather_20230115134249.csv"
df = pd.read_csv(fpath)

In [3]:
df.head(3)

Unnamed: 0,日期,城市,行政区,观测站,气温(度),相对湿度(%),累积雨量(mm)
0,2015-01-01,新北市,烏來區,福山,13.7℃,92,0.0
1,2015-01-02,臺南市,安平區,安平,23.5℃,70,0.0
2,2015-01-03,臺東縣,東河鄉,七塊厝,19.6℃,86,0.0


In [4]:
# 替换温度的后缀℃
df.loc[:,"气温(度)"] = df["气温(度)"].str.replace("℃","").astype("float")

In [5]:
df.head(3)

Unnamed: 0,日期,城市,行政区,观测站,气温(度),相对湿度(%),累积雨量(mm)
0,2015-01-01,新北市,烏來區,福山,13.7,92,0.0
1,2015-01-02,臺南市,安平區,安平,23.5,70,0.0
2,2015-01-03,臺東縣,東河鄉,七塊厝,19.6,86,0.0


## 汇总类统计

In [6]:
# 提取所有数字列统计结果
df.describe()

Unnamed: 0,气温(度),相对湿度(%),累积雨量(mm)
count,484.0,484.0,484.0
mean,16.736364,-190.592975,-8.19938
std,18.351663,1614.803969,31.338267
min,-99.0,-9900.0,-99.0
25%,15.275,66.0,0.0
50%,19.35,77.0,0.0
75%,23.425,88.0,0.0
max,30.6,100.0,87.0


In [7]:
# 查看单个Series的数据
df["气温(度)"].mean()

16.73636363636366

In [8]:
# 最高温
df["气温(度)"].max()

30.6

In [9]:
# 最低温
df["气温(度)"].min()

-99.0

## 2. 唯一去重和按值计数

### 2.1 唯一性去重
一般不用于数值列，而是枚举、分类列

In [10]:
df["城市"].unique

<bound method Series.unique of 0      新北市
1      臺南市
2      臺東縣
3      新北市
4      南投縣
5      嘉義縣
6      花蓮縣
7      嘉義市
8      宜蘭縣
9      新北市
10     彰化縣
11     雲林縣
12     南投縣
13     臺東縣
14     屏東縣
15     苗栗縣
16     新北市
17     苗栗縣
18     臺南市
19     屏東縣
20     新北市
21     宜蘭縣
22     彰化縣
23     臺中市
24     臺中市
25     臺東縣
26     嘉義縣
27     臺南市
28     屏東縣
29     宜蘭縣
      ... 
454    臺南市
455    宜蘭縣
456    臺東縣
457    雲林縣
458    屏東縣
459    屏東縣
460    嘉義縣
461    南投縣
462    高雄市
463    桃園市
464    新北市
465    屏東縣
466    臺東縣
467    南投縣
468    臺南市
469    苗栗縣
470    新北市
471    屏東縣
472    屏東縣
473    臺南市
474    新竹縣
475    新北市
476    屏東縣
477    新北市
478    高雄市
479    新北市
480    宜蘭縣
481    花蓮縣
482    新竹縣
483    桃園市
Name: 城市, Length: 484, dtype: object>

### 2.2 按值计数

In [11]:
df["气温(度)"].value_counts()

-99.0    11
 17.4     7
 19.4     7
 13.5     7
 23.2     6
 23.8     6
 16.5     6
 25.1     6
 23.9     6
 16.3     6
 25.2     6
 22.0     5
 19.3     5
 14.8     5
 14.1     5
 13.6     5
 15.6     5
 19.5     5
 13.4     5
 17.0     5
 23.7     5
 21.7     4
 21.4     4
 24.6     4
 15.3     4
 20.9     4
 17.6     4
 24.3     4
 15.2     4
 22.1     4
         ..
 18.0     1
 28.9     1
 26.8     1
 22.9     1
 13.2     1
 27.9     1
 5.1      1
 27.8     1
 11.3     1
 26.6     1
 12.2     1
 29.2     1
 29.3     1
 9.7      1
 19.7     1
 18.9     1
 6.5      1
 27.6     1
 21.9     1
 13.0     1
 2.0      1
 29.6     1
 20.0     1
 14.0     1
 21.5     1
 24.0     1
 10.4     1
 11.2     1
 10.2     1
 12.7     1
Name: 气温(度), Length: 179, dtype: int64

## 3. 相关系数和协方差
用途：
* 两只股票，是不是同涨同跌？程度多大？正相关还是负相关？
* 产品销量的波动，跟哪些因素正相关、负相关，程度有多大？

来自知乎，对于两个变量X,Y:
1. 协方差：**衡量同反向程度**，如果协方差为正，说明X,Y同向运动，协方差越大说明同向程度越高；如果协方差为负，说明X,Y反向运动，协方差越小说明反向程度越高。<br>
2. 相关系数：**衡量相似度程度**，当他们的相关系数为1时，说明两个变量变化时的正向相似度最大，当相关系数为-1时，说明两个两个变量的反向相似度最大。

In [12]:
# 协方差矩阵：
df.cov()

Unnamed: 0,气温(度),相对湿度(%),累积雨量(mm)
气温(度),336.78352,26219.6,125.12683
相对湿度(%),26219.596142,2607592.0,11602.318381
累积雨量(mm),125.12683,11602.32,982.086977


In [13]:
# 相关系数矩阵：
df.corr()

Unnamed: 0,气温(度),相对湿度(%),累积雨量(mm)
气温(度),1.0,0.884771,0.217571
相对湿度(%),0.884771,1.0,0.229271
累积雨量(mm),0.217571,0.229271,1.0


In [14]:
# 单独查看湿度和温度的相关系数
df["相对湿度(%)"].corr(df["气温(度)"])

0.8847707858193214

In [15]:
# ！！这就是特征工程对于机器学习重要性的一个例子