In [1]:
import pandas as pd
import numpy as np

####  函数应用与映射

1.appLy()函数  
用于对数据进行操作，DataFrame和Series都可以使用,可以通过修改axis参数来控制是对行进行操作还是对列进行操作，同时可以将操作应用于每一个元素
语法：
DataFrame/Series.apply(func, axis = 0, args = (), **kwargs)   
func:函数或者lambda表达式，表示需要进行的操作  
axis：函数应用方向  
args：func的位置参数
*kwargs：func的关键字参数
在使用的时候一般是直接将一个函数传入

In [6]:
# DataFrame使用apply
df = pd.DataFrame(np.arange(16).reshape(4,4),columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [7]:
# lambda 形参：函数体
df.apply(lambda x:x.max()-x.min(),axis = 1) # 把df中的每列数据应用匿名函数的规则

0    3
1    3
2    3
3    3
dtype: int32

In [10]:
#使用numpy函数
df.apply(np.sum) # 这里不需要括号

A    24
B    28
C    32
D    36
dtype: int64

In [11]:
# Series使用apply（）
s = pd.Series([10,12,13,14,15])
s

0    10
1    12
2    13
3    14
4    15
dtype: int64

In [12]:
s.apply(np.sqrt)

0    3.162278
1    3.464102
2    3.605551
3    3.741657
4    3.872983
dtype: float64

2.map() 
只能用于Series  
Series.map(arg)
arg:函数，字典

In [15]:
data_dict = {
    'City':['北京','长沙','上海',np.nan,'武汉'] ,'Air_quality':[90,80,85,75,78]
}
df2 = pd.DataFrame(data_dict)
df2

Unnamed: 0,City,Air_quality
0,北京,90
1,长沙,80
2,上海,85
3,,75
4,武汉,78


新增一列数据来说明空气质量情况  
x>=90 重度污染  
80<=x<=90 中度污染  
70<=x<=80 轻度污染  
x<70 空气良好  

In [17]:
def air(x):
    if x>= 90:
        result = '重度污染'
    elif 80<=x<90:
        result = '中度污染'
    elif 70<=x<80:
        result = '轻度污染'
    else:
        result = '良好'
    return result

In [18]:
df2['air_en'] = df2['Air_quality'].map(air)
df2

Unnamed: 0,City,Air_quality,air_en
0,北京,90,重度污染
1,长沙,80,中度污染
2,上海,85,中度污染
3,,75,轻度污染
4,武汉,78,轻度污染


In [20]:
# 使用字典新增数据
# 字典数据格式：{'Series中的数据':新的数据}
# 重度污染：5 中度污染：4 轻度污染：3 良好2
df2['air_dict'] = df2['air_en'].map(
    {
        '重度污染':5,
        '中度污染':4,
        '轻度污染':3,
        '良好':2
    }
)
df2

Unnamed: 0,City,Air_quality,air_en,air_dict
0,北京,90,重度污染,5
1,长沙,80,中度污染,4
2,上海,85,中度污染,4
3,,75,轻度污染,3
4,武汉,78,轻度污染,3


3.applymap函数  
对DataFrame进行操作，也仅仅只能对DataFrame进行操作  
语法：DataFrame.applymap(func)  
func:函数
applymap不会修改原数据，而是生成新的数据

In [21]:
data_dict2 = {
    'City':[1,2,3,4,5] ,'Air_quality':[90,80,85,75,78]
}
df3 = pd.DataFrame(data_dict2)
df3

Unnamed: 0,City,Air_quality
0,1,90
1,2,80
2,3,85
3,4,75
4,5,78


In [22]:
df4 = df3.applymap(lambda x:x+10)
df4

Unnamed: 0,City,Air_quality
0,11,100
1,12,90
2,13,95
3,14,85
4,15,88


In [23]:
df3

Unnamed: 0,City,Air_quality
0,1,90
1,2,80
2,3,85
3,4,75
4,5,78


#### 带有重复标签的轴索引  
在DataFrame和Series中允许存在相同的索引，如果说数据中右重复的索引，那么在数据获取的时候可能就会出现相应的问题

In [31]:
# Series
s1 = pd.Series([1,2,3,4,4],index = ['a','a','b','b','c'])
s1

a    1
a    2
b    3
b    4
c    4
dtype: int64

In [27]:
# 查看对象的索引是否唯一
s1.index.is_unique

False

In [28]:
# 获取唯一值
s1.index.unique()

Index(['a', 'b', 'c'], dtype='object')

In [29]:
# 判断Series对象的值是否唯一
s1.is_unique

True

In [32]:
# 获取唯一值数据
s1.unique()

array([1, 2, 3, 4], dtype=int64)

In [34]:
# DataFrame
df4 = pd.DataFrame(np.arange(12).reshape(4,3),index = ['a','a','b','b'],columns = ['A','B','C'])
df4

Unnamed: 0,A,B,C
a,0,1,2
a,3,4,5
b,6,7,8
b,9,10,11


In [35]:
# 判断DataFrame的列名是否唯一
df4.columns.is_unique

True

In [37]:
df4.values

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

####　汇总统计

In [40]:
df5 = pd.DataFrame(np.arange(12).reshape(4,3),index = ['a','a','b','b'],columns=['A','B','C'])
df5

Unnamed: 0,A,B,C
a,0,1,2
a,3,4,5
b,6,7,8
b,9,10,11


In [41]:
# 计算每一列的最小值
df5.min()

A    0
B    1
C    2
dtype: int32

In [42]:
# 统计每列的非空数据
df5.count()

A    4
B    4
C    4
dtype: int64

In [43]:
df5.count(axis =1 )

a    3
a    3
b    3
b    3
dtype: int64

In [45]:
# 求每列的累计和
df5.cumsum()

Unnamed: 0,A,B,C
a,0,1,2
a,3,5,7
b,9,12,15
b,18,22,26


In [46]:
# 25%四分之一分位数，50%：二分之一分位数
df5.describe() #0369

Unnamed: 0,A,B,C
count,4.0,4.0,4.0
mean,4.5,5.5,6.5
std,3.872983,3.872983,3.872983
min,0.0,1.0,2.0
25%,2.25,3.25,4.25
50%,4.5,5.5,6.5
75%,6.75,7.75,8.75
max,9.0,10.0,11.0


In [60]:
df6 = pd.DataFrame([[1,2,3,4,0],[10,23,5,6,7],[-1,np.nan,5,15,0.23],[12,3,12,9,18]], columns = ['a','b','c','d','e'])
df6

Unnamed: 0,a,b,c,d,e
0,1,2.0,3,4,0.0
1,10,23.0,5,6,7.0
2,-1,,5,15,0.23
3,12,3.0,12,9,18.0


In [61]:
df6.count()

a    4
b    3
c    4
d    4
e    4
dtype: int64

In [63]:
#计算能够获取最小值的索引
df6.idxmin()

a    2
b    0
c    0
d    0
e    0
dtype: int64

In [64]:
# 能够获取到最小值的为位置
df6['a'].argmin()

2

#### 数据预处理

##### １.空值的判断和处理　  
1.使用isnull检查数据是否有空值，  
语法： 
pd.isnull(数据对象)

In [65]:
s4 = pd.Series([1,2.,np.nan, 2 , None])
s4

0    1.0
1    2.0
2    NaN
3    2.0
4    NaN
dtype: float64

In [66]:
#判断数据是否是空值
pd.isnull(s4)

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [67]:
pd.isnull(df6).sum()

a    0
b    1
c    0
d    0
e    0
dtype: int64

2.使用notnull检查数据是否不是空值  
语法：  
pd.notnull(数据对象)

In [70]:
pd.notnull(df6)

Unnamed: 0,a,b,c,d,e
0,True,True,True,True,True
1,True,True,True,True,True
2,True,False,True,True,True
3,True,True,True,True,True


3.dropna()  
作用：删除含有空值的列或者行  
    DataFrame/Series.dropna(axis 0, how, thresh, inplace = False)
    axis:轴方向
    how:过滤标准
    {'any','all'} any:默认值只要存在空值就删除该行或者列 all:只有当该列或者行全部是空值的时候才删除  
    thresh：有效数据量（非空数据）的最小要求。比如thresh = 2 ， 表示删除非空数据小于2的行或者列

In [78]:
df_obj = pd.DataFrame({
    '类别':['小说',np.nan,'青春文学','传记'],
    '书名':['《三体》',np.nan,  '《旅程结束时》','《老舍自传》'],
    '作者':[np.nan, None, '张其鑫','老舍']
})
df_obj

Unnamed: 0,类别,书名,作者
0,小说,《三体》,
1,,,
2,青春文学,《旅程结束时》,张其鑫
3,传记,《老舍自传》,老舍


In [75]:
df_obj.dropna(how = 'all')

Unnamed: 0,类别,书名,作者
0,小说,,
2,青春文学,《旅程结束时》,张其鑫
3,传记,《老舍自传》,老舍


In [79]:
# 删除非空数据量小于2的行
df_obj.dropna(thresh = 2)

Unnamed: 0,类别,书名,作者
0,小说,《三体》,
2,青春文学,《旅程结束时》,张其鑫
3,传记,《老舍自传》,老舍


#### 空值填充  
语法：  
DataFrame/Series.fillna(value = None, method = None, axis = None, inplace = False, limit=None)   
value:用于填充的值  
method:可选参数：
    -‘backfill’/'bfill':使用缺失值后面一个数据来补全缺失值
    -‘pad’/‘ffill’：使用缺失值前面一个数据来补全缺失值
limit:如果method被指定，对于连续 空值，最多填充前limit个空值（如果存在多段连续区域，就表示每段区域最多填充前limit个空值。）如果method未被指定，就在axis方向上最多填充前limit个（无论空值连续区域是否间断）

In [82]:
df_obj1 = pd.DataFrame({
    'A':[1,2,3,np.nan],
    'B':[np.nan,  4,np.nan, 6],
    'C':['a',7, 8, 9],
    'D':[np.nan,2,3,np.nan]
})
df_obj1

Unnamed: 0,A,B,C,D
0,1.0,,a,
1,2.0,4.0,7,2.0
2,3.0,,8,3.0
3,,6.0,9,


In [83]:
# 使用指定值填充
df_obj1.fillna(3.14)

Unnamed: 0,A,B,C,D
0,1.0,3.14,a,3.14
1,2.0,4.0,7,2.0
2,3.0,3.14,8,3.0
3,3.14,6.0,9,3.14


In [84]:
# 使用空前的数据来填充
df_obj1.fillna(method='ffill')

Unnamed: 0,A,B,C,D
0,1.0,,a,
1,2.0,4.0,7,2.0
2,3.0,4.0,8,3.0
3,3.0,6.0,9,3.0


In [85]:
# 使用空后的数据来填充
df_obj1.fillna(method='bfill')

Unnamed: 0,A,B,C,D
0,1.0,4.0,a,2.0
1,2.0,4.0,7,2.0
2,3.0,6.0,8,3.0
3,,6.0,9,


In [87]:
df_obj2 = pd.DataFrame({
    'A':[1,np.nan,np.nan,4],
    'B':[np.nan,  4,np.nan, 6],
    'C':['a',7, 8, 9],
    'D':[np.nan,2,3,np.nan]
})
df_obj2

Unnamed: 0,A,B,C,D
0,1.0,,a,
1,,4.0,7,2.0
2,,,8,3.0
3,4.0,6.0,9,


In [89]:
df_obj2.fillna(method='ffill',
               limit=1
              )

Unnamed: 0,A,B,C,D
0,1.0,,a,
1,1.0,4.0,7,2.0
2,,4.0,8,3.0
3,4.0,6.0,9,3.0


In [90]:
df_obj2.fillna(-2,
               limit=1
              )

Unnamed: 0,A,B,C,D
0,1.0,-2.0,a,-2.0
1,-2.0,4.0,7,2.0
2,,,8,3.0
3,4.0,6.0,9,
