## 第六章 DataFrame的重要方法

### 1.DataFrame的apply、applymap方法,Series的map方法(非常重要)

* #### 这个非常有用，尤其是可以用自定义函数处理数据，增加了数据处理的方法和手段
* 将一个自定义的函数应用到Pandas的数据结构中可以使用map(), apply()或者applymap()，它们的区别在于应用的对象不同。

* 1.map() 是一个Series的方法，DataFrame结构中没有map()。map()将一个自定义函数应用于Series结构中的每个元素(elements)。

* 2.apply()和applymap()是DataFrame的方法，Series中没有这两个方法。它们的区别在于，apply()方法是将某一个函数作用于DataFrame中的每个行或者列，而applymap()是将函数做用于DataFrame中的每一个元素(elements)。

#### (1)DataFrame的apply、applymap方法

In [4]:
#Series没有这两个方法
import numpy as np
import pandas as pd
def my_function1(my_data):
    return my_data.sum()
def my_function2(my_data):
    return my_data*10
my_array=np.arange(24).reshape((6,4))
my_df=pd.DataFrame(my_array,columns=['Eng','math','phys','Chem'])

#函数作用在DataFrame中每一个列上，返回一个Series，axis=1作用在每一行。
print(my_df.apply(my_function1))  
#函数作用在DataFrame中每一个元素上,返回一个新DataFrame，原my_df未变。
print(my_df.applymap(my_function2))  
#my_df.math.apply(my_function) 

Eng     60
math    66
phys    72
Chem    78
dtype: int64
   Eng  math  phys  Chem
0    0    10    20    30
1   40    50    60    70
2   80    90   100   110
3  120   130   140   150
4  160   170   180   190
5  200   210   220   230


#### (2)Series的map方法
使用map方法可以实现元素级转换以及其他数据清理工作的便捷方式。作用于Series的每一个元素上。 

* #### map()方法参数是字典映射

In [18]:
#1.Series的map方法的参数是一个含有映射关系的字典。返回一个新Series，原Series未变 
import pandas as pd
my_data = pd.DataFrame({'food':['bacon','pulled pork','bacon','pastrami',
            'corned beef','bacon','pastrami','honey ham','nova lox'],
                  'ounces':[4,3,12,6,7.5,8,3,5,6]})
my_dict= {'bacon':'pig','pulled pork':'pig','pastrami':'cow','corned beef':'cow',\
           'honey ham':'pig','nova lox':'salmon'}  
my_data['animal'] = my_data['food'].map(my_dict) #字典映射,并且新增一列'animal'。
my_data   

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


* #### map()方法参数是内置函数或自定义函数

In [22]:
#Series的map方法的参数可以是一个内置函数或自定义函数。作用于Series的每一个元素上。
#返回一个新Series，原Series未变
import pandas as pd
#1.参数是内置函数
my_data = pd.DataFrame({'food':['bacon','pulled pork','bacon','Pastrami',
            'corned beef','Bacon','pastrami','honey ham','nova lox'],
                  'ounces':[4,3,12,6,7.5,8,3,5,6]})
my_dict= {'bacon':'pig','pulled pork':'pig','pastrami':'cow','corned beef':'cow',\
           'honey ham':'pig','nova lox':'salmon'}  
my_data['food'] = my_data['food'].map(str.lower) #str.lower不要写成str.lower(), map()里的函数不要加括号。

#2.参数是自定义函数
def f(x):
    if x < 5:
       return True
    else:
       return False  
index = pd.date_range('2017-08-15', periods=10)  #生成一个时间索引
ser = pd.Series(list(range(10)), index=index)
print(ser)
new_ser=ser.map(f)   #map()里的函数f不要写成f()
print(new_ser)
print(ser)           #原ser未变

2017-08-15    0
2017-08-16    1
2017-08-17    2
2017-08-18    3
2017-08-19    4
2017-08-20    5
2017-08-21    6
2017-08-22    7
2017-08-23    8
2017-08-24    9
Freq: D, dtype: int64
2017-08-15     True
2017-08-16     True
2017-08-17     True
2017-08-18     True
2017-08-19     True
2017-08-20    False
2017-08-21    False
2017-08-22    False
2017-08-23    False
2017-08-24    False
Freq: D, dtype: bool


### 2.Series的str属性的方法

In [26]:
#Series在str属性中带有很多字符串处理方法，使得在数组上对每个元素进行操作非常容易
#如s.str.lower()
import pandas as pd
my_series=pd.Series(['QwE',' kjh ','KJH'])
print(my_series.str.strip())  #my_series中的每一个元素两边去空格
print(my_series.str.lower())  #my_series中的每一个元素变为小写
print(my_series.str.upper())  #my_series中的每一个元素变为大写
print(my_series.str.title())  #my_series中的每一个元素变为首字母大写
print(my_series.str.contains('kjh'))  #my_series中哪些元素包含'kjh',返回一个布尔Series

#上边这些也可以通过诸如my_series.map(str.title)实现,相当于str.title(每一个元素)
#str.title()函数是python的字符串处理函数，参数是一个字符串。

0    QwE
1    kjh
2    KJH
dtype: object
0      qwe
1     kjh 
2      kjh
dtype: object
0      QWE
1     KJH 
2      KJH
dtype: object
0      Qwe
1     Kjh 
2      Kjh
dtype: object
0    False
1     True
2    False
dtype: bool


'Wywywy'

### 3.数据类型转换(利用DataFrame的方法astype())
Series和DataFrame均有astype()方法，元素级别的转换

In [35]:
import numpy as np
import pandas as pd
my_array=np.random.random((5,6))*10+3
selfdata=pd.DataFrame(my_array,columns=['age','english','physics','math','history','chem'])
print(selfdata)
selfdata[['age','physics','math']].astype(np.int64)

         age    english    physics       math    history       chem
0  11.960527   4.225407   5.526701   8.911274   4.507270   8.853512
1   8.778206   3.932993  10.142923  12.395834   5.624351  10.331141
2  12.993707  10.845429   3.960995  10.582542  11.951277   9.749986
3   7.739723   3.940770   8.568506   6.913106   6.492802   4.215076
4   9.960211   5.183206   8.500742   9.132821   6.977075   8.162109


Unnamed: 0,age,physics,math
0,11,5,8
1,8,10,12
2,12,3,10
3,7,8,6
4,9,8,9


### 4.删除重复行或不想要的行或列(利用DataFrame的方法)

In [24]:
import numpy as np
import pandas as pd
data=pd.read_csv('selftest1.csv')
selfdata=data.copy()   #DataFrame和Array一样的深拷贝
#（1）删除重复行
selfdata.duplicated()  #显示哪些行是重复行
selfdata=selfdata.drop_duplicates()  #去掉多余的行
#（2）指定部分列进行重复性判断删除,删除这几列数据重复的行
selfdata.duplicated(['physics','math','name','success'])
selfdata=selfdata.drop_duplicates(['physics','math','name','success'])
#（3）删除不想要的行或列 
selfdata=selfdata.drop(['name','city'],axis=1)  #默认axis=0

### 5.缺失值处理（利用DataFrame的方法）

In [45]:
import numpy as np
import pandas as pd
data=pd.read_csv('selftest1.csv')
selfdata=data.copy()
#数据缺失值处理
selfdata.isnull()  #显示哪个位置有缺失值，返回布尔值DataFrame
selfdata.notnull()  #显示哪个位置没有有缺失值,返回布尔值DataFrame
#selfdata.dropna(axis=0, how='any',thresh=None,inplace=False)
selfdata_dropna=selfdata.dropna()  #删除有缺失值所在的整行
#lss2=selfdata.fillna(0)  #用0替换所有缺失值
selfdata=selfdata.fillna(selfdata.mean()) #对数值列用各列平均值代替缺失值,非数值列不变
selfdata=selfdata.fillna(method='pad')  #用前一个数据代替缺失值
selfdata=selfdata.fillna(method='bfill') #用后一个数据代替缺失值
selfdata[['age','physics','math']]=selfdata[['age','physics','math']].astype(np.int64)
#其他替换就是按列按行替换
#selfdata['age']=selfdata['age'].fillna(selfdata['age'].mean())  #用该列均值替换
#selfdata['sex']=selfdata['sex'].fillna('male') 

### 6.定性特征数量化

In [25]:
import numpy as np
import pandas as pd
data=pd.read_csv('selftest2.csv')  #换了一个做完其他预处理的文件，没有缺失值、空格等
selfdata=data.copy()
#1.对所有非数据列都数值化（不是哑变量）
#selfdata=pd.get_dummies(selfdata) #

#2.非数值型特征值数值化（作为哑变量）
selfdata=pd.get_dummies(selfdata, columns=['sex'])  #可以指定某几列数值化
#selfdata=pd.get_dummies(selfdata, columns=['sex', 'city'])  #可以指定某几列数值化

#3.有大小含义的非数值型特征值数值化，不作为哑变量
size_mapping = {'X':1,'Xl':2,'Xxl':3}  #创造一个映射
selfdata['height']=selfdata['height'].map(size_mapping)  #特征标签数值化，但不是哑变量

#4.非数值型目标值数值化(用于分类不是用于回归)，不作为哑变量
size_mapping = {'Yes':1,'No':0}  #创造一个映射
selfdata['success']=selfdata['success'].map(size_mapping) #目标标签数值化，但不是哑变量


#### 综合练习题：当前工作目录下有一个数据文件'selftest1.csv',首先读入该文件selfdata.然后完成下边的操作：####
（1）去掉字符型列中的字符串的前后空格；  
（2）将字符型列中的字符串转换为首字母大写；  
（3）删除重复行；  
（4）将某些列中的离群值通过“肉眼”识别，然后替换处理；  
（5）删除存在缺失值的行；  
（6）将selfdata中数据列'sex'、'height'、'success'定性特征定量化；  
（7）删除selfdata中的数据列'name','city','test'；  
（8）将selfdata中的数据列'success'存入一个变量名为target_value中；  
（9）由selfdata中除去'success'后构成一个新的DataFrame,变量名为data_value     
（注：此练习题可参照我写的“特征工程 第一章 数据清洗的内容”）

In [18]:
#参考答案
import pandas as pd
import numpy as np
data=pd.read_csv('selftest1.csv')
selfdata=data.copy()
#(1)
space_drop=['name','sex','city','height','success']   #要去除空格的列的标签名
for elem in space_drop:
    isn_space=selfdata[elem].notnull()
    selfdata.loc[isn_space,elem]=selfdata.loc[isn_space,elem].map(str.strip) 
#(2)
trans_set=['name','sex','city','height','success'] 
for elem in trans_set:
    isn_space=selfdata[elem].notnull()
    selfdata.loc[isn_space,elem]=selfdata.loc[isn_space,elem].map(str.title) 
#(3)
selfdata.drop_duplicates()
#(4)
selfdata.describe().astype(np.int64).T #直观看一下数据列的统计描述情况，可大致知道是否有离群点
selfdata=selfdata.replace([541,362],selfdata['age'].mean())
selfdata=selfdata.replace(890,selfdata['physics'].mean())
selfdata=selfdata.replace(174,selfdata['math'].mean())
#(5)
selfdata.dropna(inplace=True)
#(6)
selfdata=pd.get_dummies(selfdata, columns=['sex'])  #可以指定某几列数值化,哑变量

size_mapping = {'X':1,'Xl':2,'Xxl':3}  #创造一个映射
selfdata['height']=selfdata['height'].map(size_mapping)  #标签数值化，但不是哑变量

size_mapping = {'Yes':1,'No':0}  #创造一个映射
selfdata['success']=selfdata['success'].map(size_mapping)  #标签数值化，但不是哑变量

#(7)
selfdata.drop(['name','city','test'],axis=1,inplace=True)
#(8)
target_value=selfdata['success']
target_value
#(9)
data_value=selfdata.drop('success',axis=1)
data_value

Unnamed: 0,age,height,math,physics,english,sex_Female,sex_Male
0,25.0,1,90.0,87.0,90,0,1
2,35.0,2,80.0,65.0,65,1,0
3,45.0,3,70.0,74.0,74,0,1
4,101.307692,2,100.0,85.0,85,0,1
6,54.0,1,74.0,80.0,100,0,1
7,35.0,3,79.851852,76.0,65,1,0
9,54.0,3,89.0,100.0,60,0,1
10,25.0,2,80.0,60.0,74,0,1
12,35.0,1,100.0,85.0,89,1,0
13,45.0,3,60.0,74.0,70,0,1
