# 数据处理

## 缺失值处理
### 缺失值查看

In [1]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx")
df.head(20).info()#head()默认只显示前5条数据
#df.info()#info()方法返回各个字段属性及每一列缺失数据的情况

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
编号      4 non-null object
年龄      4 non-null float64
性别      3 non-null object
注册时间    4 non-null datetime64[ns]
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 240.0+ bytes


### 缺失值删除

In [2]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx")
df.dropna() #dropna()删除缺失值的行
df.dropna(how = "all")#删除所有列为空的行

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018-08-08
1,A2,16.0,,2018-08-09
3,A3,47.0,女,2018-08-10
4,A4,41.0,男,2018-08-11


### 缺失值填充

In [5]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx",sheet_name=1)
df.fillna(0)#fillna将缺失值填充为0
df.fillna({"性别":"男","年龄":30})#分别对性别和年龄填充


Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54.0,男,2018-08-08
1,A2,16.0,男,2018-08-09
2,A3,30.0,女,2018-08-10
3,A4,41.0,男,2018-08-11


## 重复数据处理

In [9]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx",sheet_name=2)
df.drop_duplicates() #删除重复的列
df.drop_duplicates(subset = "唯一识别码") #指定判断的列
df.drop_duplicates(subset = ["客户姓名","唯一识别码"])
df.drop_duplicates(subset = ["客户姓名","唯一识别码"],keep = "last") #keep参数（first,last）设置保留那个值


Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
0,A1,张通,101,2018-08-08
1,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
5,A5,赵恒,104,2018-08-11


## 异常值的检测与处理

对于异常值一般有以下几种处理方式：
- 最常用的处理方式就是删除。
- 把异常值当作缺失值来填充。
- 把异常值当作特殊情况，研究异常值出现的原因

## 数据类型转换

### 数据类型

类型 | 说明
---|---
int | 整型数，即整数
flat | 浮点数，即含有小数点的数
object | Python对象类型，用O表示
string_ | 字符串类型，经常用S表示，S10表示长度为10的字符串
unicode_ | 谷歌程度的unicode类型，跟字符串的定义方式一样
datatime64[ns] | 表示时间格式

In [6]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx",sheet_name = 2)
df.info() #info( )获取每一列的数据类型
df["订单编号"].dtype # 查看订单编号这一列的数据类型
df["唯一识别码"].dtype # 查看唯一识别码这一列的数据类型

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
订单编号     6 non-null object
客户姓名     6 non-null object
唯一识别码    6 non-null int64
成交时间     6 non-null datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(2)
memory usage: 272.0+ bytes


dtype('int64')

### 类型转换

In [17]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx",sheet_name = 2)
df["唯一识别码"].dtype #查看类型
df["唯一识别码"].astype("float64")#将唯一识别码冲int类型转为float类型

0    101.0
1    102.0
2    103.0
3    103.0
4    104.0
5    104.0
Name: 唯一识别码, dtype: float64

## 索引设置

### 为无索引表添加索引

In [49]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx",sheet_name = 3,header= None)
df.columns = ["订单编号","客户姓名","唯一识别码","成交时间"]#header需要设置为None，否则会覆盖第一行数据
df.index = [1,2,3,4,5]
df


Unnamed: 0,订单编号,客户姓名,唯一识别码,成交时间
1,A1,张通,101,2018-08-08
2,A2,李谷,102,2018-08-09
3,A3,孙凤,103,2018-08-10
4,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-11


### 重新设置索引

In [66]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx",sheet_name = 2)
df.set_index("订单编号") #se_index()方法重新设置索引列

Unnamed: 0_level_0,客户姓名,唯一识别码,成交时间
订单编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A1,张通,101,2018-08-08
A2,李谷,102,2018-08-09
A3,孙凤,103,2018-08-10
A3,孙凤,103,2018-08-10
A4,赵恒,104,2018-08-11
A5,赵恒,104,2018-08-11


### 重命名索引

In [82]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx",sheet_name = 4)
df.index = [1,2,3,4,5] #添加索引
df.rename(columns={"订单编号":"新订单编号","客户姓名":"新客户姓名"}) #重命名列索引
df.rename(index = {1:"一",2:"二",3:"三"}) #重命名行索引
df.rename(columns={"订单编号":"新订单编号","客户姓名":"新客户姓名"},index = {1:"一",2:"二",3:"三",4:'四'})#同时重命名列和行索引

Unnamed: 0,新订单编号,新客户姓名,唯一识别码,成交时间
一,A1,张通,101,2018-08-08
二,A2,李谷,102,2018-08-09
三,A3,孙凤,103,2018-08-10
四,A4,赵恒,104,2018-08-11
5,A5,赵恒,104,2018-08-12


### 重置索引

In [7]:
import pandas as pd
df = pd.read_excel(r"..\Data\Chapter05.xlsx",sheet_name=5)
df.reset_index()
#详见第10章

Unnamed: 0,level_0,level_1,C1,C2
0,Z1,Z2,,
1,A,a,1.0,2.0
2,,b,3.0,4.0
3,B,a,5.0,6.0
4,,b,7.0,8.0
