# Pandas 数据预处理
## 一.合并数据
### 1.使用concat函数堆叠合并数据
### 2.使用merge函数通过主键合并数据；

## 二.数据清洗
### 1.检测并处理缺失值
### 2.检测并处理重复值
### 3.检测并处理异常值
## 知识目标：掌握合并数据和清洗数据的常用方法
## 技能目标：掌握检测并做好数据预处理
## 重点：concat数据合并与缺失值、重复值、异常值的检测
## 难点：缺失值、重复值、异常值的处理
=========================================================

## 一.合并数据
### 1.使用concat函数堆叠合并数据
堆叠也称为轴向连接，依照连接轴的方向，数据堆叠可分为横向堆叠（x轴向）和纵向堆叠（y轴向）。（详情示意图见word文档）

concat()函数可以沿着一条轴将多个对象进行堆叠，其使用方式类似数据库中的数据表合并。

concat()语法：pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None,copy=True)

#axis：表示连接的轴向，可以为0或1，默认为0。
#join：表示连接的方式，inner表示内连接，outer表示外连接，默认使用外连接。
#ignore_index：如果设置为True，清除现有索引并重置索引值。
#names：结果分层索引中的层级的名称。
#verify_integrity：检查新的连接轴是否包含重复项，接收布尔值，默认为Falae。

In [None]:
import pandas as pd
import pymysql
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/dsj?charset=utf8')

In [None]:
#例1：演示data1与data2 横向堆叠、纵向堆叠
data1 = pd.DataFrame({'A':['A1','A2','A3','A4'],
                   'B':['B1','B2','B3','B4'],
                   'C':['C1','C2','C3','C4'],
                   'D':['D1','D2','D3','D4']},index=[1,2,3,4])
data2 = pd.DataFrame({ 'B':['B2','B4','B6','B8'],
                    'D':['D2','D4','D6','D8'],
                    'F':['F2','F4','F6','F8']},index=[2,4,6,8])
pd.concat([data1,data2],axis=1,sort=False)    #如果两个对象的形状不一样，合并后会产生不存在的数据，这些数据用NaN填充
pd.concat([data1,data2],axis=0,sort=False)

In [None]:
#例2：将多张菜品订单详情表纵向合并
detail1 = pd.read_sql('meal_order_detail1',engine)
detail2 = pd.read_sql('meal_order_detail2',engine)
detail3 = pd.read_sql('meal_order_detail3',engine)
detail = pd.concat([detail1,detail2,detail3])
detail

*纵向堆叠合并的另一种方式
#append()方法实现纵向堆叠有一个前提条件，就是两张表的列名完全一致。

In [None]:
#例3：用append()实现例2
detail_new = detail1.append([detail2,detail3])
detail_new

### 2.使用merge函数通过主键合并数据
主键合并类似于关系型数据库的连接方式，它是指根据一个或多个键将不同的DataFrame对象连接起来，大多数是将两个DataFrame对象中重叠的列作为合并的键，并采用内连接的方式合并数据，即取行索引重叠的部分(示意图见word文档)。

①用merge()函数实现主键合并：

merge()语法：pd.merge(left, right, how='inner', on=None, left_on=None,right_on=None, left_index=False, right_index=False, sort=False,suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)
#left：参与合并的左侧DataFrame对象。
#right：参与合并的右侧DataFrame对象。
#how：表示连接方式，默认为inner。
#on：用于连接的列名，必须存在与左右两个DataFrame对象中。
#left_on：以左侧DataFrame作为连接键。
#right_on：以右侧DataFrame作为连接键。
#left_index：左侧的行索引用作连接键。
#right_index：右侧的行索引用作连接键。
#suffixes：用于追加到重叠列名的末尾。

In [None]:
#例4：连接“超市营业额2”文件中sheet1、sheet2和sheet3的数据
df1 = pd.read_excel(r'D:/pyData/超市营业额2.xlsx')
df2 = pd.read_excel(r'D:/pyData/超市营业额2.xlsx',sheet_name=1)
df3 = pd.read_excel(r'D:/pyData/超市营业额2.xlsx',sheet_name=2)
#sheet1与sheet2使用纵向堆叠合并
df = pd.concat([df1,df2])
#df与sheet3使用主键合并
df_new = pd.merge(df,df3,on='工号')

In [None]:
#例5：使用4种不同的方式连接“学生信息”表和“选修记录”表，查看结果不同之处
data_inner = pd.merge(student,scores,how='inner')
data_outer = pd.merge(student,scores,how='outer')
data_left = pd.merge(student,scores,how='left')
data_right = pd.merge(student,scores,how='right')

思考1：如果有多张表如何用连接？使用外键？

使用主键合并订单详情表(detail)、订单信息表(meal_order_info.csv)、客户信息(users.xlsx)
#detail由detail1，detail2，detail3合并组成，上面已完成。

In [None]:
detail1 = pd.read_sql('meal_order_detail1',engine)
detail2 = pd.read_sql('meal_order_detail2',engine)
detail3 = pd.read_sql('meal_order_detail3',engine)
order = pd.read_csv('D:/pyData/meal_order_info.csv',encoding='gbk')
user = pd.read_excel('D:/pyData/users.xlsx')
detail = pd.concat([detail1,detail2,detail3])

#detail['order_id'] = detail['order_id'].astype(int)
#detail['emp_id'] = detail['emp_id'].astype(int)
#order['info_id'] = order['info_id'].astype(int)
#order['emp_id'] = order['emp_id'].astype(int)
#user['USER_ID'] = user['USER_ID'].astype(int)

#通过观察可以发现：
#detail与order存在关联，它们的主键可以是'emp_id'，另外，detail中的'order_id'与order中'的info_id'相同，其中一个可以当外键
#order与user存在关联，order中的'emp_id'和user中的‘USER_ID’相同，因此其一也可以当外键
data = pd.merge(detail,order,left_on=['order_id','emp_id'],right_on=['info_id','emp_id'])
data1 = pd.merge(data,user,left_on='emp_id',right_on='USER_ID',how='inner')

②join方法

主键合并数据，除了用merge()函数以外，join方法也可以实现部分主键合并的功能，但是join方法使用时，两个主键的名字必须相同。

join语法：
pandas.DataFrame.join(self, other, on=None, how='left', lsuffix='', rsuffix='', sort=False)
#lsuffix：接收string。表示用于追加到左侧重叠列名的末尾。无默认。
#rsuffix：接收string。表示用于追加到右侧重叠列名的末尾。无默认。

In [None]:
例6：通过主键连接meal_order_detail1与meal_order_info.csv两表
#meal_order_detail1的主键为order_id
#meal_order_info.csv的主键为info_id
#两个主键必须同名同类型，才能使用join
detail1['order_id'] = detail1['order_id'].astype(int)   #强制转换类型
order.rename({'info_id' : 'order_id'},inplace=True)    #重命名，使两个主键同名。inplace=True表示原地替换
order_detail1 = detail.join(order,on='order_id',rsuffix='1') #rsuffix='1'表示，如果有重复的列名，给右边的列名追加一个后缀1
order_detail1

## 二.数据清洗
数据清洗的目的在于提高数据质量，将脏数据清洗干净，使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。
  
#缺失值——异常值——重复值
### 1.检测并处理缺失值
一般使用None表示缺失字符串，使用 np.nan/NaN表示缺失数值，使用pd.nat/NaT表示缺失时间。

#### ①检测缺失值
使用isnull()或notnull()方法判断数据集中是否存在缺失值，返回的是布尔值。

In [None]:
#例7：判断''是否为缺失值
A = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
                    "toy": [np.nan, 'Batmobile', 'Bullwhip'],
                   "born": [pd.NaT, pd.Timestamp("1940-04-25"),pd.NaT]})
A.isnull()
#试试将其中一个pd.NaT改为''或者None，将'Bullwhip'改为''
B = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
                    "toy": [np.nan, 'Batmobile', ''],
                   "born": ['', pd.Timestamp("1940-04-25"),pd.NaT]})
B.isnull()
#结论 字符串中''不是缺失值！但是，如果将时间类别的某一个值改为None或者''，都会转换为缺失值NaT

#### ②删除缺失值

使用dropna()方法删除含有缺失值的行或者列。

语法：
dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
#axis：确定过滤行或列。 默认axis=0删除的是行，即删除记录；当axis=1删除的是列，即删除特征。
#how：确定过滤的标准。any表示某行或某列只要有任意一个缺失值就删除；all表示某行或某列全部是缺失值才执行删除操作。
#thresh：表示有效数据量的最小要求。若传入了2，则是要求该行或该列至少有两个非NaN值时将其保留。

In [None]:
#例8：检测全部餐饮订单数据是否有缺失值，并删除数据中全部值均为缺失值的列
detail.dropna(axis=1,how='all')

#### ③填充缺失值
Pandas中使用fillna()方法可以实现填充缺失值。缺失值所在特征为数值型时，通常利用其均值、中位数和众数等描述其中趋势的统计量来替代缺失值；缺失值所在的特征为类别型时，则选择使用众数来替代缺失值。

语法：fillna(value=None, method=None, axis=None, inplace=False,limit=None, downcast=None, **kwargs)
#value：表示用来替换缺失值的值。无默认。可以接收dict、Series或者DataFrame
#method：表示填充方式，默认值为None。取值为backfill或bfill时，表示使用下一个非缺失值来填补；取值为pad或ffill时，表示使用上一个非缺失值来填补。
#limit： 可以连续填充的最大数量，超过则不进行填补，默认None。

In [None]:
#例9：检测“超市营业额2”中“交易额”数据是否有缺失值，并找出缺失的行,将“交易额”整体均值填充给缺失值。
from copy import deepcopy
dff = deepcopy(df1)    #深复制，不影响原来的df1
dff[dff['交易额'].isnull()]
dff.fillna({'交易额':dff['交易额'].mean()},inplace=True)

思考2：使用每人交易额均值替换缺失值

In [None]:
dff1 = deepcopy(df1)
for i in dff1[dff1['交易额'].isnull()].index:
    dff1.loc[i,'交易额'] = dff1.loc[dff1['姓名']==dff1.loc[i,'姓名'],'交易额'].mean()