# 第3章 数据预处理
## <font color=gray>3.2 pandas基础
### 　<font color=gray>3.2.1 pandas的数据结构
#### 　　<font color=gray>3.2.1.1 Series
#### 　　<font color=gray>3.2.1.2 DataFrame
### 　<font color=gray>3.2.2 pandas的数据操作
#### 　　<font color=gray><font color=gray><font color=gray><font color=gray>3.2.2.1 排序
#### 　　<font color=gray><font color=gray><font color=gray>3.2.2.2 排名
#### 　　<font color=gray><font color=gray>3.2.2.3 运算
#### 　　<font color=gray>3.2.2.4 函数应用与映射
#### 　　<font color=gray>3.2.2.5 分组
#### 　　<font color=gray>3.2.2.6 合并
#### 　　3.2.2.7 分类数据
#### 　　3.2.2.8 时间序列
#### 　　3.2.2.9 缺失值处理

In [1]:
import pandas as pd
import numpy as np

#### 　　3.2.2.7 分类数据

In [10]:
'''
1. 分类数据的定义
    pandas中可以把DataFrame实例对象的数据转化为Category类型的数据，以实现类似于一般统计分析
软件中的值标签（value label）功能，便于分析结果的展示。  

-- Category类型数据是 pandas 的一种数据类型，跟整型（int）、字符串（str）等类型类似，
   对应着被统计的变量。  
-- Category类型数据取值是有限的并且是固定的，比如：性别、血型、国籍、观察时段、赞美程度。  
-- 与其它被统计的变量相比，category类型数据可以具有特定的顺序  
   比如：按程度来设定，“强烈同意”与“同意”，“首次观察”与“二次观察”，  
-- Category类型数据的每一个元素的值要么是预设好的类型中的某一个，要么是空值（np.nan）。
   顺序是由预设好的类型集合来决定的，而不是按照类型集合中各个元素的字母顺序排序的。
   category实例的内部是由类型名字集合和一个整数组成的数组构成的，后者标明了类型集合真正
   的值。
-- 可以通过指定数据类型(dtype)构建分类数据，或者是使用pd.Categorical来构建分类数据，或者
   转换为分类数据，因为我们经常遇到的情况是已经创建了一个 Series，如何将它转为分类数据呢？
   
2.使用pandas的分类数据相关的方法设置和改变数据类别
 2.1 astype()方法：添加值
 2.2 cat.categories属性赋值：添加值对应的类别标签
 2.3 cat.set_categories()方法：新增或剔除类别标签
 2.4 cut()函数
'''
student_profile=pd.DataFrame({'Name':['Morgan Wang','Jackie Li','Tom Ding',
                                     'Erricson John','Juan Saint','Sui Mike','Li Rose'],
                              'Gender':[1,0,0,1,0,1,2],
                              'Blood':['A','AB','O','AB','B','O','A'],
                              'Grade':[1,2,3,2,3,1,2],
                              'Height':[175,180,168,170,158,183,173]})
student_profile

Unnamed: 0,Blood,Gender,Grade,Height,Name
0,A,1,1,175,Morgan Wang
1,AB,0,2,180,Jackie Li
2,O,0,3,168,Tom Ding
3,AB,1,2,170,Erricson John
4,B,0,3,158,Juan Saint
5,O,1,1,183,Sui Mike
6,A,2,2,173,Li Rose


In [11]:
student_profile.dtypes

Blood     object
Gender     int64
Grade      int64
Height     int64
Name      object
dtype: object

In [12]:
'''
2.1 astype方法()
    astype方法可将DataFrame的原始数据转化为category类型数据，标明了变量的真正
   值。
    
2.2 cat.categories属性
    通过对.cat.categories属性赋值标明了值对应的类别标签集合（注意值要升序排列）。
    
    以下语句通过将类别标签集合['Female','Male','Unconfirmed']赋值给‘Gender_Value’的
cat.categories来为Gender列添加相应的类别标签。赋值的时候是按照‘Gender’值的升序
进行对应的。0对应Female,1对应Male,2对应Unconfirmed。
'''
student_profile['Gender_Value']=student_profile['Gender'].astype('category')#添加值
student_profile['Gender_Value'].cat.categories=['Female','Male','Unconfirmed'] #添加升序值对应的类别标签
student_profile

Unnamed: 0,Blood,Gender,Grade,Height,Name,Gender_Value
0,A,1,1,175,Morgan Wang,Male
1,AB,0,2,180,Jackie Li,Female
2,O,0,3,168,Tom Ding,Female
3,AB,1,2,170,Erricson John,Male
4,B,0,3,158,Juan Saint,Female
5,O,1,1,183,Sui Mike,Male
6,A,2,2,173,Li Rose,Unconfirmed


In [13]:
#按Gender_Value排序
student_profile.sort_values(by="Gender_Value")

Unnamed: 0,Blood,Gender,Grade,Height,Name,Gender_Value
1,AB,0,2,180,Jackie Li,Female
2,O,0,3,168,Tom Ding,Female
4,B,0,3,158,Juan Saint,Female
0,A,1,1,175,Morgan Wang,Male
3,AB,1,2,170,Erricson John,Male
5,O,1,1,183,Sui Mike,Male
6,A,2,2,173,Li Rose,Unconfirmed


In [None]:
#思考：如何以Male、Female、Unconfirmed的指定顺序排列？

In [14]:
'''
2.3 cat.set_categories()方法
   剔除和增加值标签，或者将类别设置为预定的尺度，可以使用cat.set_categories()方法
   
   如下例改变类别标签集合，操作过后数据的标签不变（0、1、2对应的还是female、male及unconfirmed），
   但是标签的集合变为   ['Male','Female','Unconfirmed']
   目的是对student_profile进行数据分析的结果中，系统会按照上述指定的顺序把分析结果
   分别呈现出来。
'''
student_profile['Gender_Value']=student_profile['Gender_Value'].cat.set_categories(['Male','Female','Unconfirmed'])
student_profile#改变类别标签集合，但是数据标签不变

Unnamed: 0,Blood,Gender,Grade,Height,Name,Gender_Value
0,A,1,1,175,Morgan Wang,Male
1,AB,0,2,180,Jackie Li,Female
2,O,0,3,168,Tom Ding,Female
3,AB,1,2,170,Erricson John,Male
4,B,0,3,158,Juan Saint,Female
5,O,1,1,183,Sui Mike,Male
6,A,2,2,173,Li Rose,Unconfirmed


In [15]:
student_profile.sort_values(by="Gender_Value")

Unnamed: 0,Blood,Gender,Grade,Height,Name,Gender_Value
0,A,1,1,175,Morgan Wang,Male
3,AB,1,2,170,Erricson John,Male
5,O,1,1,183,Sui Mike,Male
1,AB,0,2,180,Jackie Li,Female
2,O,0,3,168,Tom Ding,Female
4,B,0,3,158,Juan Saint,Female
6,A,2,2,173,Li Rose,Unconfirmed


In [17]:
'''
2.4 cut()函数
在进行数据的汇总和分析时我们经常需要对连续性的数据变量进行分段汇总

pd.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False)

x：一维数组
bins：整数--将x划分为多少个等距的区间(指定分段的段数)，系统会自己判断每个分段的区间
      序列--将x划分在指定序列中(指定分段的标准)，若不在该序列中，则是Nan
right：是否包含右端点(终点)
labels：是否用标记来代替返回的bins
precision：精度
include_lowest：是否包含左端点（起点）
'''
student_profile['Height_Group']=pd.cut(student_profile.Height,range(160,205,10),
                                      right=False)
student_profile
#在不指定labels标签类型的时候，系统会返回每一段的原始名称。
#在默认情况下，每段值是不包含左边的界值，包含右边的界值。不包括起点，包括终点
#如果我们要选择左边界（起点），那么只需要加一个参数：right = False就可以。
[160,170)
[170,180)
[180,190)
[190,200)

Unnamed: 0,Blood,Gender,Grade,Height,Name,Gender_Value,Height_Group
0,A,1,1,175,Morgan Wang,Male,"[170, 180)"
1,AB,0,2,180,Jackie Li,Female,"[180, 190)"
2,O,0,3,168,Tom Ding,Female,"[160, 170)"
3,AB,1,2,170,Erricson John,Male,"[170, 180)"
4,B,0,3,158,Juan Saint,Female,
5,O,1,1,183,Sui Mike,Male,"[180, 190)"
6,A,2,2,173,Li Rose,Unconfirmed,"[170, 180)"


In [18]:
#字符串中引用变量的一种方式,其中{0}和{1}中的数字,表示使用format()中的第几个参数进行替换
labels=["{0}-{1}".format(i,i+10) for i in range(160,200,10)] #列表推导式指定标签形式
labels

['160-170', '170-180', '180-190', '190-200']

In [21]:
#bin的标签要小于bin的边界
student_profile['Height_Group']=pd.cut(student_profile.Height,range(160,205,10),
                                      right=False,labels=labels)
student_profile


Unnamed: 0,Blood,Gender,Grade,Height,Name,Gender_Value,Height_Group
0,A,1,1,175,Morgan Wang,Male,170-180
1,AB,0,2,180,Jackie Li,Female,180-190
2,O,0,3,168,Tom Ding,Female,160-170
3,AB,1,2,170,Erricson John,Male,170-180
4,B,0,3,158,Juan Saint,Female,
5,O,1,1,183,Sui Mike,Male,180-190
6,A,2,2,173,Li Rose,Unconfirmed,170-180


#### 　　3.2.2.8 时间序列

In [None]:
'''
参见教材p133
'''

#### 　　3.2.2.9 缺失值处理

In [2]:
'''
缺失值在实际数据分析过程中往往不可避免，pandas中优先使用np.nan来表示缺失值。
在默认的数据运算及分析过程中，缺失值不会参与分析过程。

1.缺失数据的形式
2.缺失数据填充
3.缺失数据删除
'''
#1.缺失数据的形式
scoresheet=pd.DataFrame({'Name':['Christoph','Morgan','Mickel','Jones'],
                        'Economics':[89,97,56,82],
                        'Statistics':[98,93,76,85]})
scoresheet

Unnamed: 0,Name,Economics,Statistics
0,Christoph,89,98
1,Morgan,97,93
2,Mickel,56,76
3,Jones,82,85


In [3]:
'''
缺失值可以使用np.nan或python基本库中的None表示
下列语句为scoresheet对象增加一列含有缺失值的数据，并将原Name列部分人名设置为缺失值：
'''
scoresheet['Datamining']=[79,np.nan,None,89] 
scoresheet.loc[[1,3],['Name']]=[np.nan,None]
scoresheet

Unnamed: 0,Name,Economics,Statistics,Datamining
0,Christoph,89,98,79.0
1,,97,93,
2,Mickel,56,76,
3,,82,85,89.0


In [4]:
'''
注意：
在数值型数据二者都表示为"NaN"
字符型数据np.nan表示为"NaN","None"就是表示为其本身
缺失值在默认情况下不参与运算及数据分析过程：
'''
scoresheet['Datamining'].mean()

84.0

In [5]:
scoresheet['Datamining'].mean()==(79+89)/2

True

In [6]:
'''
对于时间戳的datetime64[ns]数据格式，其默认缺失值是以"NaT"的形式存在的：

pd.date_range()
该函数主要用于生成一个固定频率的时间索引对象，参考教材p136。
参数 start 开始时间， periods 间隔时间，指定时间日期的个数，freq 按照什么间隔 d w…
'''
scoresheet['Exam_Date']=pd.date_range('20170707',periods=4)
scoresheet['Exam_Date']

0   2017-07-07
1   2017-07-08
2   2017-07-09
3   2017-07-10
Name: Exam_Date, dtype: datetime64[ns]

In [7]:
scoresheet.loc[[2,3],['Exam_Date']]=np.nan
scoresheet

Unnamed: 0,Name,Economics,Statistics,Datamining,Exam_Date
0,Christoph,89,98,79.0,2017-07-07
1,,97,93,,2017-07-08
2,Mickel,56,76,,NaT
3,,82,85,89.0,NaT


In [28]:
'''
对于数据是否含有缺失值，可使用isnull notnull等方法来判定：
'''
scoresheet.isnull() #也可以使用isnull的否定方式notnull来判断

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,False,False,False,False,False
1,False,True,False,True,False
2,False,False,False,True,True
3,False,True,False,False,True


In [None]:
#2.缺失数据填充

In [15]:
'''
fillna方法可以用来对缺失值进行填充。
主要参数如下：
value:填充缺失值的标量或字典对象
method:指定填充方式，backfill、bfill、pad、ffill或者None。
       默认ffill,其中pad/ffill表示向前填充，bfill/backfill表示向后填充。
axis:指定待填充的轴，0 、1或"index"、"columns"，默认axis=0(即"index")。
inplace:指定是否修改对象上的任何其他视图，默认否。
limit:指定'ffill'和'backfill'填充可连续填充的最大数量。
'''
scoresheet.fillna(0)

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,2017-07-07 00:00:00
1,97,0,93,0.0,2017-07-08 00:00:00
2,56,Mickel,76,0.0,0
3,82,0,85,89.0,0


In [16]:
scoresheet['Name'].fillna('missing')

0    Christoph
1      missing
2       Mickel
3      missing
Name: Name, dtype: object

In [17]:
#填充缺失值时也可以使用缺失值前后的非缺失值来进行
scoresheet.fillna(method='pad') #pad或ffill前向填充，使用缺失值前面的非缺失值来填充

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,2017-07-07
1,97,Christoph,93,79.0,2017-07-08
2,56,Mickel,76,79.0,2017-07-08
3,82,Mickel,85,89.0,2017-07-08


In [18]:
scoresheet.fillna(method='bfill')#backfill或bfill后向填充，使用缺失值后面的非缺失值来填充

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,2017-07-07
1,97,Mickel,93,89.0,2017-07-08
2,56,Mickel,76,89.0,NaT
3,82,,85,89.0,NaT


In [None]:
'''
部分缺失值得不到填充，是因为含有缺失值的这些数据后面也没有可供填充的非缺失值数据。
'''

In [19]:
'''
ffill bfill等方法也可以填充缺失值。
'''
scoresheet.bfill() #scoresheet.fillna(method='bfill')

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,2017-07-07
1,97,Mickel,93,89.0,2017-07-08
2,56,Mickel,76,89.0,NaT
3,82,,85,89.0,NaT


In [22]:
'''
在填充缺失值的时候，上述各种方法和方式均可指定连续填充的数量：
'''
scoresheet.ffill(limit=1) #当有连续缺失值时，只填充第1个缺失值。

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,2017-07-07
1,97,Christoph,93,79.0,2017-07-08
2,56,Mickel,76,,2017-07-08
3,82,Mickel,85,89.0,NaT


In [23]:
'''
上述方法在填充缺失值的时候，还可以使用指定函数对数据进行运算并用其结果来填充缺失值：
'''
scoresheet['Datamining'].fillna(scoresheet['Datamining'].mean())

0    79.0
1    84.0
2    84.0
3    89.0
Name: Datamining, dtype: float64

In [24]:
'''
利用插值填充缺失数据
即利用已有数据作出适当的特定函数，用这个特定函数的值对数值型缺失值进行估计，
并用估计结果来替换缺失值，这种方法称为插值法。

pandas对象的interpolate方法具备诸多改进的插值方法和功能。
由于特定函数有不同的形式，就产生了不同的插值方法，这些插值方法可以通过method参数来指定。
参数值主要有linear、time、index、values、nearest、zero、slinear、quadratic、cubic、
barycentric、kr、polynomial、spline、piecewise_polynomial、from_derivatives 、
pchip、akima等，这些参数值都对应到缺失值处理中相应的插值方法名称。
'''
#将scoresheet对象进行线性插值
scoresheet.interpolate(method='linear')
#在进行线性插值填充时，由于版本的不同，可能会报错
# 报错的原因是，scoresheet对象中含有时间日期类型的数据，删掉即可

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,2017-07-07
1,97,,93,82.333333,2017-07-08
2,56,Mickel,76,85.666667,NaT
3,82,,85,89.0,NaT


已知点(x0,y0)、(x1,y1)，试问在x处插值，y的值是多少？
<img src="images/linearpic.jpg" width="30%">
已知两个点的坐标可以得到一条线，又已知线上一点的一个坐标可以求得这个点的另一个坐标值。
<img src="images/linearformula.jpg" width="30%">
这样就求得了y值。  
已知(x0,y0)=(0,79), (x1,y1)=(3,89),x=1,计算y=? y=82.3333  
已知(x0,y0)=(1, 82.3333), (x1,y1)=(3,89),x=2,计算y=? y=85.6666

In [25]:
scoresheet.interpolate(method='polynomial',order=1) 
#order代表的是多项式的项数,当指定polynomial时，必须给出order参数
#order=1时等同于linear方法，即线性插值

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,2017-07-07
1,97,,93,82.333333,2017-07-08
2,56,Mickel,76,85.666667,NaT
3,82,,85,89.0,NaT


In [29]:
'''
3.缺失数据删除
在数据分析过程中有些时候可以直接对含有缺失值的数据进行删除，即清洗，在数据量非常大且
缺失数据较少的情况，数据清洗是一种便捷有效的解决方法。pandas对象的dropna方法可以非常
方便的实现这种功能。
'''
scoresheet.dropna(axis=0) #删除含有任何缺失值的行

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,2017-07-07


In [30]:
scoresheet.dropna(axis=1) #删除含有任何缺失值的列

Unnamed: 0,Economics,Statistics
0,89,98
1,97,93
2,56,76
3,82,85


In [33]:
'''
how可以指定any和all。
-- any表示删除含有任意缺失值的行或列。
-- all表示删除全部数据均是缺失值的行或列。
'''
scoresheet.dropna(how='any',axis=1) #删除含有任何缺失值的列

Unnamed: 0,Economics,Statistics
0,89,98
1,97,93
2,56,76
3,82,85


In [34]:
'''
how可以指定any和all。
-- any表示删除含有任意缺失值的行或列。
-- all表示删除全部数据均是缺失值的行或列。
'''
scoresheet.dropna(how='all',axis=1) #删除全部数据均是缺失值的列

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,2017-07-07
1,97,,93,,2017-07-08
2,56,Mickel,76,,NaT
3,82,,85,89.0,NaT


In [37]:
scoresheet.loc[[0],['Exam_Date']]=np.nan
scoresheet

Unnamed: 0,Economics,Name,Statistics,Datamining,Exam_Date
0,89,Christoph,98,79.0,NaT
1,97,,93,,2017-07-08
2,56,Mickel,76,,NaT
3,82,,85,89.0,NaT


In [38]:
'''
thresh表示删除非缺失数据（有效数据）数量小于参数值的行或列。
'''
scoresheet.dropna(how='any',thresh=2,axis=1)

Unnamed: 0,Economics,Name,Statistics,Datamining
0,89,Christoph,98,79.0
1,97,,93,
2,56,Mickel,76,
3,82,,85,89.0


In [39]:
'''
thresh表示删除非缺失数据（有效数据）数量小于参数值的行或列。
'''
scoresheet.dropna(how='any',thresh=3,axis=1)

Unnamed: 0,Economics,Statistics
0,89,98
1,97,93
2,56,76
3,82,85
