In [1]:
import pandas as pd
import numpy as np

#### 函数应用与映射

1.apply()函数  
用于对数据进行操作，DataFrame和Series都可以使用。可以通过修改axis参数来控制是对行进行操作还是对列进行操作，同时可以将操作应用于每一个元素。  
语法：  
DataFrame/Series.apply(func, axis = 0, args = (), **kwargs)  
func:函数或者lambda表达式，表示需要进行的操作  
axis：函数应用方向  
args：func的位置参数   
*kwargs：func的关键字参数  
在使用的时候一般是直接将一个函数传入

In [4]:
# DataFrame使用apply
df = pd.DataFrame(np.arange(16).reshape(4,4),columns=list('ABCD'))

In [5]:
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [11]:
# lambda 形参：函数体
df.apply(lambda x:x.max()-x.min()) # 把df中的每列数据应用匿名函数的规则

A    12
B    12
C    12
D    12
dtype: int32

In [10]:
# 使用numpy函数
df.apply(np.sum) #这里不需要加括号

A    24
B    28
C    32
D    36
dtype: int64

In [None]:
# Series使用apply()
s = pd.Series([10,12,13,14,15])
s

In [15]:
s.apply(np.sqrt)

0    3.162278
1    3.464102
2    3.605551
3    3.741657
4    3.872983
dtype: float64

In [16]:
s.apply(np.sum)

0    10
1    12
2    13
3    14
4    15
dtype: int32

2.map  
只能用于Series  
Series.map(arg)  
arg:函数、字典

In [17]:
data_dict = {
    'City':['北京','长沙','上海',np.nan,'武汉'],
    'Air_quality':[90,80,85,75,78]
}
df2 = pd.DataFrame(data_dict)
df2

Unnamed: 0,City,Air_quality
0,北京,90
1,长沙,80
2,上海,85
3,,75
4,武汉,78


新增一列数据来说明空气质量情况  
x=>90,重度污染  
80<=x<90中度污染  
70<=x<80轻微污染  
x<70空气良好

In [20]:
def air(x):
    if x>=90:
        result = '重度污染'
    elif 80<=x<90:
        result = '轻度污染'
    elif 70 <=x <80:
        result = '轻微污染'
    else:
        result = '良好'
    # 如果没有返回值，后面使用这个函数的时候，计算结果都是None
    return result

In [22]:
df2['air_en']=df2['Air_quality'].map(air)
df2

Unnamed: 0,City,Air_quality,air_en
0,北京,90,重度污染
1,长沙,80,轻度污染
2,上海,85,轻度污染
3,,75,轻微污染
4,武汉,78,轻微污染


In [28]:
# 使用字典新增数据
# 字典数据格式：{’Series中的大数据’：新的数据}
# 重度污染：5   中度污染：4 轻微污染：3  良好：2
df2['air_dict']=df2['air_en'].map({
    '重度污染':5,
    '中度污染':4,
    '轻微污染':3,
    '良好':2}
)
df2

Unnamed: 0,City,Air_quality,air_en,air_dict
0,北京,90,重度污染,5.0
1,长沙,80,轻度污染,
2,上海,85,轻度污染,
3,,75,轻微污染,3.0
4,武汉,78,轻微污染,3.0


3.applymap函数  
对DataFrame进行操作，也仅仅只能对DataFrame进行操作， 
DataFrame.applyman(func)  
func:函数操作
applymap不会修改原数据，而是生产新的数据

In [29]:
data_dict = {
    'City':[1,2,3,4,5],
    'Air_quality':[90,80,85,75,78]
}
df3 = pd.DataFrame(data_dict)
df3

Unnamed: 0,City,Air_quality
0,1,90
1,2,80
2,3,85
3,4,75
4,5,78


In [30]:
df4 = df3.applymap(lambda x: x+10)
df4

Unnamed: 0,City,Air_quality
0,11,100
1,12,90
2,13,95
3,14,85
4,15,88


#### 带有重复标签的轴索引  
在DataFrame和Series中允许存在相同的索引，如果说数据中有重复索引，那么在数据获取的时候可能或出席那相应的问题

In [31]:
# Series
s1 = pd.Series([1,2,3,4,5],index=['a','a','b','b','c'])
s1

a    1
a    2
b    3
b    4
c    5
dtype: int64

In [36]:
# 查看对象的索引是否唯一
s1.index.is_unique

False

In [37]:
# 获取唯一值
s1.index.unique()

Index(['a', 'b', 'c'], dtype='object')

In [38]:
# 判断Series对象中的值是否唯一
s1.is_unique

True

In [39]:
# 获取为唯一值数据
s1.unique()

array([1, 2, 3, 4, 5], dtype=int64)

In [43]:
# DataFrame
df4 = pd.DataFrame(np.arange(12).reshape(4,3),index=['a','a','b','b'],columns=['A','B','C'])
df4

Unnamed: 0,A,B,C
a,0,1,2
a,3,4,5
b,6,7,8
b,9,10,11


In [45]:
# 判断DataFrame中的列名是否唯一
df4.columns.is_unique

True

#### 汇总统计

In [46]:
df5 = pd.DataFrame(np.arange(12).reshape(4,3),columns=['A','B','C'])
df5

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [47]:
# 计算每一列的计算值
df5.min()

A    0
B    1
C    2
dtype: int32

In [50]:
# 统计每列的非空数据
df5.count()


A    4
B    4
C    4
dtype: int64

In [51]:
# 统计每行的非空数据
df5.count(axis=1)

0    3
1    3
2    3
3    3
dtype: int64

In [52]:
# 求每列的累计和
df5.cumsum()

Unnamed: 0,A,B,C
0,0,1,2
1,3,5,7
2,9,12,15
3,18,22,26


In [53]:
# 25%四分之一分位数 50%：二分之一分位数  75%：四分之三分位数
df5.describe()

Unnamed: 0,A,B,C
count,4.0,4.0,4.0
mean,4.5,5.5,6.5
std,3.872983,3.872983,3.872983
min,0.0,1.0,2.0
25%,2.25,3.25,4.25
50%,4.5,5.5,6.5
75%,6.75,7.75,8.75
max,9.0,10.0,11.0


In [58]:
df6= pd.DataFrame([[1,2,3,4,0],[10,10.23,5,6,7],[-1,np.nan,5,15,0.23],[12,3,12,9,18]],columns=['a','b','c','d','e'])
df6

Unnamed: 0,a,b,c,d,e
0,1,2.0,3,4,0.0
1,10,10.23,5,6,7.0
2,-1,,5,15,0.23
3,12,3.0,12,9,18.0


In [56]:
df6.count()

0    4
1    3
2    4
3    4
4    4
dtype: int64

In [59]:
# 计算能够获得最小值的索引
df6.idxmin()

a    2
b    0
c    0
d    0
e    0
dtype: int64

In [60]:
# 能够获取最小值的位置
df6['a'].argmin()

2

In [61]:
df6.describe()

Unnamed: 0,a,b,c,d,e
count,4.0,3.0,4.0,4.0,4.0
mean,5.5,5.076667,6.25,8.5,6.3075
std,6.454972,4.490839,3.947573,4.795832,8.444222
min,-1.0,2.0,3.0,4.0,0.0
25%,0.5,2.5,4.5,5.5,0.1725
50%,5.5,3.0,5.0,7.5,3.615
75%,10.5,6.615,6.75,10.5,9.75
max,12.0,10.23,12.0,15.0,18.0


#### 数据预处理

##### 1.控制的判断和处理  
1.使用isnull检查数据是否有空值  
语法：  
pd.isnull(数据对象)

In [62]:
s4 = pd.Series([1,2,np.nan,2,None])
s4

0    1.0
1    2.0
2    NaN
3    2.0
4    NaN
dtype: float64

In [63]:
# 判断数据是否是空值
pd.isnull(s4)

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [65]:
pd.isnull(df6).sum()

a    0
b    1
c    0
d    0
e    0
dtype: int64

2.使用notnull检查数据是否不是空值  
语法：  
pd.notnull(数据对象)

In [67]:
pd.notnull(df6)

Unnamed: 0,a,b,c,d,e
0,True,True,True,True,True
1,True,True,True,True,True
2,True,False,True,True,True
3,True,True,True,True,True


3.dropna()  
作用:删除含有空值的列后者行  
DataFrame/Series.dropna(axis = 0 , how, thresh,inplace = False)
axis:轴方向  
how:过滤标准
{'any', 'all'}any:默认值只要存在空值就删除该行或者该列  all:只有当该列或者行全是空值时才删除  
thresh:有效数据量（非空数据的最小要求）， 比如thresh = 2，表示删除非空数据量小于2的行或者列

In [74]:
df_obj = pd.DataFrame({
    '类别':['小说',np.nan,'青春文学','传记'],
    '书名':['《三体》',np.nan,'《旅程结束时》','《老舍自传》'],
    '作者':[np.nan,None,'张其鑫','老舍']
})
df_obj

Unnamed: 0,类别,书名,作者
0,小说,《三体》,
1,,,
2,青春文学,《旅程结束时》,张其鑫
3,传记,《老舍自传》,老舍


In [75]:
df_obj.dropna(how = 'all')

Unnamed: 0,类别,书名,作者
0,小说,《三体》,
2,青春文学,《旅程结束时》,张其鑫
3,传记,《老舍自传》,老舍


In [77]:
# 删除非空数据量小于2的行
df_obj.dropna(thresh=2)

Unnamed: 0,类别,书名,作者
0,小说,《三体》,
2,青春文学,《旅程结束时》,张其鑫
3,传记,《老舍自传》,老舍


4.空值填充  
语法：
DataFrame/Series.fillna(value = None, method = None, axis = None, inplace = False, limit = None)  
vlue:用于填充的值  
metod：可选参数：
    ——'backfill'/'bfill':使用缺失值后面一个数据来补全缺失值
    ——'pad'/'ffill':使用缺失值前面一个数据来补全缺失值
    limit：如果method被指定，对于连续的空值，最多填充的limit个空值（如果存在多端连续区域，就表示每段区域最多填充前limit个空值）。如果method未被指定，就在该axis方向上最多填充前limit个（无论空值连续区域是否间断）


In [79]:
df_obj1 = pd.DataFrame({
    'A':[1,2,3,np.nan],
    'B':[np.nan,4,np.nan,6],
    'C':['a',7,8,9],
    'D':[np.nan,2,3,np.nan]
})
df_obj1

Unnamed: 0,A,B,C,D
0,1.0,,a,
1,2.0,4.0,7,2.0
2,3.0,,8,3.0
3,,6.0,9,


In [80]:
# 使用指定值填充
df_obj1.fillna(3.1415)

Unnamed: 0,A,B,C,D
0,1.0,3.1415,a,3.1415
1,2.0,4.0,7,2.0
2,3.0,3.1415,8,3.0
3,3.1415,6.0,9,3.1415


In [81]:
# 使用前一个值填充
df_obj1.fillna(method='ffill')

Unnamed: 0,A,B,C,D
0,1.0,,a,
1,2.0,4.0,7,2.0
2,3.0,4.0,8,3.0
3,3.0,6.0,9,3.0


In [82]:
# 使用后一个值填充
df_obj1.fillna(method='bfill')

Unnamed: 0,A,B,C,D
0,1.0,4.0,a,2.0
1,2.0,4.0,7,2.0
2,3.0,6.0,8,3.0
3,,6.0,9,


In [85]:
df_obj2 = pd.DataFrame({
    'A':[1,np.nan,np.nan,4],
    'B':[np.nan,4,np.nan,6],
    'C':['a',7,8,9],
    'D':[np.nan,2,3,np.nan]
})
df_obj2

Unnamed: 0,A,B,C,D
0,1.0,,a,
1,,4.0,7,2.0
2,,,8,3.0
3,4.0,6.0,9,


In [86]:
df_obj2.fillna(method='ffill',limit =1)

Unnamed: 0,A,B,C,D
0,1.0,,a,
1,1.0,4.0,7,2.0
2,,4.0,8,3.0
3,4.0,6.0,9,3.0


In [88]:
# method未被指定，就在该axis方向上最多填充前limit个（无论空值连续区域是否间断）
df_obj2.fillna(-2,
    #method='ffill',
    limit =1
)

Unnamed: 0,A,B,C,D
0,1.0,-2.0,a,-2.0
1,-2.0,4.0,7,2.0
2,,,8,3.0
3,4.0,6.0,9,
