<a href="https://colab.research.google.com/github/SlimAnthony/Pandas_Experiments/blob/master/07_data_preparation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 数据准备 Data Preparation

1. data cleansing 

> 数据清理

2. data merge/concat 

> 数据连接与合并

3. reshape 

> 重构

4. transform 

> 转化








## 数据清理 cleansing



*   Duplicates
*   Missing data    > pd.fillna( ) , pd.dropna()   [处理缺失数据](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html)
*   Inconsistant format 
*   Outliers



## 数据连接 merge

[Merge, join and concatenate](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging)

* pd.merge 
根据单个或多个键将不同 Data Frame 的行连接起来 , 类比数据库的连接操作

* 默 认 将 重 叠 列 的 列 名 作 为 " 外 键 " 进 行 连 接

> o n 显 示 指 定 " 外 键 "

> left_on ， 左 侧 数 据 的 " 外 键 "

> right_on ， 右 侧 数 据 的 " 外 键 ' 


* 默 认 是 " 内 连 接 " (inner) ， 即 结 果 中 的 键 是 交 集 


In [0]:
import pandas as pd
import numpy as np

In [2]:
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data1' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                        'data2' : np.random.randint(0,10,3)})

print(df_obj1)
print(df_obj2)

  key  data1
0   b      4
1   b      3
2   a      9
3   c      3
4   a      4
5   a      9
6   b      3
  key  data2
0   a      6
1   b      7
2   d      2


In [3]:
# 默认将重叠列的列名作为“外键”进行连接
pd.merge(df_obj1, df_obj2)

Unnamed: 0,key,data1,data2
0,b,4,7
1,b,3,7
2,b,3,7
3,a,9,6
4,a,4,6
5,a,9,6


In [4]:
# on显示指定“外键”
pd.merge(df_obj1, df_obj2, on='key')

Unnamed: 0,key,data1,data2
0,b,4,7
1,b,3,7
2,b,3,7
3,a,9,6
4,a,4,6
5,a,9,6


In [0]:
# left_on，right_on分别指定左侧数据和右侧数据的“外键”

# 更改列名
df_obj1 = df_obj1.rename(columns={'key':'key1'})
df_obj2 = df_obj2.rename(columns={'key':'key2'})

In [6]:
pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2')

Unnamed: 0,key1,data1,key2,data2
0,b,4,b,7
1,b,3,b,7
2,b,3,b,7
3,a,9,a,6
4,a,4,a,6
5,a,9,a,6


In [7]:
# “外连接”
pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='outer')

Unnamed: 0,key1,data1,key2,data2
0,b,4.0,b,7.0
1,b,3.0,b,7.0
2,b,3.0,b,7.0
3,a,9.0,a,6.0
4,a,4.0,a,6.0
5,a,9.0,a,6.0
6,c,3.0,,
7,,,d,2.0


In [8]:
# 左连接
pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='left')

Unnamed: 0,key1,data1,key2,data2
0,b,4,b,7.0
1,b,3,b,7.0
2,a,9,a,6.0
3,c,3,,
4,a,4,a,6.0
5,a,9,a,6.0
6,b,3,b,7.0


In [9]:
# 右连接
pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='right')

Unnamed: 0,key1,data1,key2,data2
0,b,4.0,b,7
1,b,3.0,b,7
2,b,3.0,b,7
3,a,9.0,a,6
4,a,4.0,a,6
5,a,9.0,a,6
6,,,d,2


In [10]:
# 处理重复列名
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                        'data' : np.random.randint(0,10,3)})

pd.merge(df_obj1, df_obj2, on='key', suffixes=('_left', '_right'))

Unnamed: 0,key,data_left,data_right
0,b,2,3
1,b,0,3
2,b,9,3
3,a,2,0
4,a,3,0
5,a,8,0


In [0]:
# 按索引连接
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data1' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'data2' : np.random.randint(0,10,3)}, index=['a', 'b', 'd'])

In [12]:
pd.merge(df_obj1, df_obj2, left_on='key', right_index=True)

Unnamed: 0,key,data1,data2
0,b,6,8
1,b,3,8
6,b,2,8
2,a,7,1
4,a,6,1
5,a,0,1
