# pandas数据分析
### 数据分析流程
1. 数据收集
2. 数据清洗
    - 缺失值
    - 错误数据
    - 格式混乱
3. 数据分析
    - 统计(平均值，最大值，比例等等)
    - 分组对比
4. 数据可视化
    - 折线图看趋势
    - 柱状图对比
    - 散点图看相关性
-----

### 1. 数据的导入

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('../data/employees.csv')
df

Unnamed: 0,employee_id,first_name,last_name,email,phone_number,job_id,salary,commission_pct,manager_id,department_id
0,100,Steven,King,SKING,515.123.4567,AD_PRES,24000.0,,,90.0
1,101,N_ann,Kochhar,NKOCHHAR,515.123.4568,AD_VP,17000.0,,100.0,90.0
2,102,Lex,De Haan,LDEHAAN,515.123.4569,AD_VP,17000.0,,100.0,90.0
3,103,Alexander,Hunold,AHUNOLD,590.423.4567,IT_PROG,9000.0,,102.0,60.0
4,104,Bruce,Ernst,BERNST,590.423.4568,IT_PROG,6000.0,,103.0,60.0
...,...,...,...,...,...,...,...,...,...,...
102,202,Pat,Fay,PFAY,603.123.6666,MK_REP,6000.0,,201.0,20.0
103,203,Susan,Mavris,SMAVRIS,515.123.7777,HR_REP,6500.0,,101.0,40.0
104,204,Hermann,Baer,HBAER,515.123.8888,PR_REP,10000.0,,101.0,70.0
105,205,Shelley,Higgins,SHIGGINS,515.123.8080,AC_MGR,12000.0,,101.0,110.0


### 1.2 JSON数据的导入
- 对于复杂格式的`JSON`文件不能直接使用read_json()函数，需要先使用`json`库进行处理,后转成DataFrame格式再进行操作

In [3]:
import json

with open('../data/test.json', 'r') as f:
    data = json.load(f)
print(data['users'])
print(type(data))
df = pd.DataFrame(data['users'])
print(type(df))
df

[{'id': 1, 'name': '张三', 'age': 28, 'email': 'zhangsan@example.com', 'is_active': True, 'join_date': '2022-03-15'}, {'id': 2, 'name': '李四', 'age': 35, 'email': 'lisi@example.com', 'is_active': False, 'join_date': '2021-11-02'}, {'id': 3, 'name': '王五', 'age': 24, 'email': 'wangwu@example.com', 'is_active': True, 'join_date': '2023-01-20'}]
<class 'dict'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,id,name,age,email,is_active,join_date
0,1,张三,28,zhangsan@example.com,True,2022-03-15
1,2,李四,35,lisi@example.com,False,2021-11-02
2,3,王五,24,wangwu@example.com,True,2023-01-20


### 2. 数据的导出

In [7]:
df = df.tail()
df.to_csv('../data/employees_new.csv')

### 3. 缺失值的处理

In [13]:
# 查看是否为缺失值Series格式
s = pd.Series([12, 25, np.nan, None, pd.NA])
print(s)

print('检测缺失值\n', s.isna())
print('检测缺失值\n', s.isnull())
print('查看缺失值个数\n', s.isna().sum())
print('剔除缺失值\n', s.dropna())

0      12
1      25
2     NaN
3    None
4    <NA>
dtype: object
检测缺失值
 0    False
1    False
2     True
3     True
4     True
dtype: bool
检测缺失值
 0    False
1    False
2     True
3     True
4     True
dtype: bool
查看缺失值个数
 3
剔除缺失值
 0    12
1    25
dtype: object


In [20]:
# 查看是否为缺失值DataFrame格式
df = pd.DataFrame([[1, pd.NA, 2], [2, 3, 5], [None, 4, 6]])
print(df)
# 检测缺失值
print('检测缺失值\n', df.isna())
print('检测缺失值\n', df.isnull())
print('查看缺失值个数,注意这个是按照列来看的\n', df.isna().sum())
# 删除缺失值
print('剔除缺失值,注意会把有缺失值的一整条记录都删掉\n', df.dropna())
print('如果所有的值都是缺失值才删除这一行\n', df.dropna(how='all'))
print('如果至少有n个值不是缺失值，就保留\n', df.dropna(thresh=3))
print('删除一整列\n', df.dropna(axis=1))
print('删除指定列的缺失值\n', df.dropna(subset=[1]))

     0     1  2
0  1.0  <NA>  2
1  2.0     3  5
2  NaN     4  6
检测缺失值
        0      1      2
0  False   True  False
1  False  False  False
2   True  False  False
检测缺失值
        0      1      2
0  False   True  False
1  False  False  False
2   True  False  False
查看缺失值个数,注意这个是按照列来看的
 0    1
1    1
2    0
dtype: int64
剔除缺失值,注意会把有缺失值的一整条记录都删掉
      0  1  2
1  2.0  3  5
如果所有的值都是缺失值才删除这一行
      0     1  2
0  1.0  <NA>  2
1  2.0     3  5
2  NaN     4  6
如果至少有n个值不是缺失值，就保留
      0  1  2
1  2.0  3  5
删除一整列
    2
0  2
1  5
2  6
删除指定列的缺失值
      0  1  2
1  2.0  3  5
2  NaN  4  6


In [27]:
# 填充缺失值
df = pd.read_csv('../data/weather_withna.csv')
df.tail()
df.isna().sum(axis=0)

print('使用字典来填充,这里使用固定值\n', df.fillna({'temp_max': 20}).tail())  # 只看最后几个数据
print('使用字典来填充,这里使用统计值例如平均值\n', df.fillna(df[['wind']].mean()).tail())
print('使用字典来填充,这里使用缺失值前面的相邻数值填充\n', df.ffill().tail())
print('使用字典来填充,这里使用缺失值后面的相邻数值填充\n', df.bfill().tail())

使用字典来填充,这里使用固定值
             date  precipitation  temp_max  temp_min  wind weather
1456  2015-12-27            NaN      20.0       NaN   NaN     NaN
1457  2015-12-28            NaN      20.0       NaN   NaN     NaN
1458  2015-12-29            NaN      20.0       NaN   NaN     NaN
1459  2015-12-30            NaN      20.0       NaN   NaN     NaN
1460  2015-12-31           20.6      12.2       5.0   3.8    rain
使用字典来填充,这里使用统计值例如平均值
             date  precipitation  temp_max  temp_min      wind weather
1456  2015-12-27            NaN       NaN       NaN  3.242055     NaN
1457  2015-12-28            NaN       NaN       NaN  3.242055     NaN
1458  2015-12-29            NaN       NaN       NaN  3.242055     NaN
1459  2015-12-30            NaN       NaN       NaN  3.242055     NaN
1460  2015-12-31           20.6      12.2       5.0  3.800000    rain
使用字典来填充,这里使用缺失值前面的相邻数值填充
             date  precipitation  temp_max  temp_min  wind weather
1456  2015-12-27            0.0      11.1       4.4  