# 第5章 Python数据分析与可视化
##  5.1.3 Pandas的数据预处理

#### 1. 数据对齐
- Series或DataFrame中的一个重要功能是<font color=blue>**算术运算**</font>中的自动对齐，即对齐不同索引的数据。
- 数据自动对齐在不重叠的索引处<font color=blue>**用NaN值填充**</font>
        Pandas会按照索引进行匹配，尝试对齐两个Series或DataFrame的索引，并逐个元素进行算术运算。
            如果索引标签相同，则进行运算；
            如果不同，则会创建一个NaN（Not a Number，表示缺失值）。
- 常用算术运算函数：add、sub、mul、div（加减乘除）

In [14]:

# 【例5-23】Series运算中的数据对齐。
'''Pandas会按照索引标签进行匹配，如果两个Series的索引标签相同，则直接相加；
   如果不同，则会创建一个NaN（Not a Number，表示缺失值）。'''

import pandas as pd
Ser1 = pd.Series({'color':1,'size':2,'weight':3})
Ser2 = pd.Series([5, 6, 3.5, 24],index=['color','size','weight','price'])
print('------Ser1 = \n', Ser1)
print('------Ser2 = \n', Ser2)
print('------Ser2+Ser1 = \n', Ser2+Ser1)


------Ser1 = 
 color     1
size      2
weight    3
dtype: int64
------Ser2 = 
 color      5.0
size       6.0
weight     3.5
price     24.0
dtype: float64
------Ser2+Ser1 = 
 color     6.0
price     NaN
size      8.0
weight    6.5
dtype: float64


In [28]:

#  【例5-24】dataframe中的数据对齐及NaN值处理。
''' 如果想用某个值代替NaN，可以使用算术函数，指定fill_value值。
    使用dataframe.add函数，先对齐操作，再进行NaN处理。'''

import pandas as pd
import numpy as np
dt1=pd.DataFrame(np.arange(16).reshape(4,4),
                  index=['BJ','SH','GZ','SZ'],
                  columns=['q','r','s','t'])
print('------dt1 = \n', dt1)

dt2=pd.DataFrame(np.arange(4).reshape(2,2),
                  index=['BJ','SZ'],
                  columns=['r','t'])
print('------dt2 = \n', dt2)

# dt1.add(dt2)
dt1.add(dt2, fill_value=0)

------dt1 = 
      q   r   s   t
BJ   0   1   2   3
SH   4   5   6   7
GZ   8   9  10  11
SZ  12  13  14  15
------dt2 = 
     r  t
BJ  0  1
SZ  2  3


Unnamed: 0,q,r,s,t
BJ,,1.0,,4.0
GZ,,,,
SH,,,,
SZ,,15.0,,18.0


#### 2. 缺失数据的处理
1. 过滤缺失值  
    为避免分析出错，可以预先过滤掉缺失数据，例如使用dropna方法。
    - dropna 默认丢弃含有缺失值的行
    - 对于dataframe，设置axis=1，可以对列进行过滤
2. notnull()函数
3. 填充缺失数据  
    有时不想滤除有缺失值的行和列，而是希望将空白数据填充，可以使用fillna()方法，例如：df.fillna(0)。  
    

- **删除缺失值**

In [29]:
# 【例5-25】过滤Series的缺失数据。
from numpy import nan as NA
data=pd.Series([1,NA,3.5,NA,7])
data.dropna()


0    1.0
2    3.5
4    7.0
dtype: float64

In [30]:
# 【例5-26】过滤dataframe的数据行。
dt1 = pd.DataFrame(np.arange(16).reshape(4,4),
                  index=['BJ','SH','GZ','SZ'],
                  columns=['q','r','s','t'])
dt2 = pd.DataFrame(np.arange(12).reshape(4,3),
                  index=['BJ','SH','SZ','GZ'],
                  columns=['q','r','s'])
testdf = dt1 + dt2 #将两个dataframe进行组合
testdf


Unnamed: 0,q,r,s,t
BJ,0,2,4,
GZ,17,19,21,
SH,7,9,11,
SZ,18,20,22,


In [31]:
Hfinedf = testdf.dropna()      #按0轴方向过滤（行）
Hfinedf

Unnamed: 0,q,r,s,t


In [32]:
# 【例5-27】过滤dataframe的数据列。

Vfinedf = testdf.dropna(axis=1) #按1轴方向过滤（列）
Vfinedf

Unnamed: 0,q,r,s
BJ,0,2,4
GZ,17,19,21
SH,7,9,11
SZ,18,20,22


- *判断是否为空值*

In [33]:
# 【例5-28】使用notnull函数判断空值
testdf.notnull()

Unnamed: 0,q,r,s,t
BJ,True,True,True,False
GZ,True,True,True,False
SH,True,True,True,False
SZ,True,True,True,False


In [60]:
# 【例5-29】使用notnull函数过滤Series的空值
'''None：在Python中，是一个特殊的常量，表示空值或者“无”。它是NoneType类型的唯一值，常用于初始化变量或者表示函数没有返回值。
   nan（Not a Number）:是一个浮点数值，用来表示未定义或者不可表示的数值，它们在数据分析中常用来表示缺失的数值数据。
                       在Python中，nan可以通过math.nan或者numpy.nan来表示
   NA：在Pandas中，pd.NA被引入作为表示缺失数据的常量，它在功能上与numpy.nan相同。
'''

import numpy, pandas
s1=pd.Series(['ONE', 'TWO', pandas.NA, numpy.nan, None, 'TEN'])
s1[s1.notnull()]

0    ONE
1    TWO
5    TEN
dtype: object

- **填充缺失值**

In [35]:

# 填充缺失数据，用空白数据填充，可以使用fillna()方法
print(testdf.fillna(0))
print(testdf)

# fillna()默认填充返回新数据对象，原地修改可使用inplace参数。
# testdf.fillna(0, inplace=True)
# print(testdf)

     q   r   s    t
BJ   0   2   4  0.0
GZ  17  19  21  0.0
SH   7   9  11  0.0
SZ  18  20  22  0.0
     q   r   s   t
BJ   0   2   4 NaN
GZ  17  19  21 NaN
SH   7   9  11 NaN
SZ  18  20  22 NaN


####  3. 数据分组（※※ 自学）
Pandas还可以进行数据分组，例如Pandas.cut( )函数可以把一组数据分割成离散的区间。  
- 函数基本格式：  
<code> Pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise') </code>  
    - 主要参数：
        - x：被切分的类数组（array-like）数据，必须是一维（不能用DataFrame）。
        - bins：是被切割后的区间（或者叫“桶”、“箱”）。有三种形式：标量序列（数组）、int型的标量或者pandas.IntervalIndex类型。<br> 
                当bins为一个int型的标量时，代表将x平分成bins份。
        - right=True表示分组右边闭合，right=False表示分组左边闭合。
        - labels表示分组的自定义标签。
        - precision：保留区间小数点的位数，默认为3。
        - include_lowest：bool型的参数，表示左侧是开区间还是闭区间，默认为False，也就是开区间，不包含左侧最小值。
        - duplicates：是否允许重复区间。可以选择raise不允许、drop允许。
        - 返回值：
            - Array:返回一个数组，代表分区后x中的每个值在哪个bin（区间）中，如果指定了labels，则返回对应的label标签。
            - bins：分隔后的区间，当指定retbins为True时返回。

In [4]:

#【例5-30】对电影数据集IMDB300中的观影用户，按照年龄划分成组。
#      将用户划分成四个年龄组，分别是：0~20岁、21-40岁、41~50岁、51-60岁上。使用素材 “score.csv” 文件。
#     结果可以看出，新增了一个Age_group列，为划分的年龄段特征。对观众按年龄进行分组并且添加标签后，可以更方便对观众进行群体性分析
import pandas as pd
df=pd.read_csv("score.csv")

# 年龄分组操作
bins_t = [0,20,40,50,60]
level_t = ['少年','青年','中年','老年']
df['Age_group'] = pd.cut(df.uAge, bins=bins_t, labels=level_t, right=True)
df.head(20)

Unnamed: 0,Index,uNo,uAge,uOccup,filmNo,filmName,url,score,timestamp,Age_group
0,1,196,49,writer,242,Kolya (1996),http://us.imdb.com/M/title-exact?Kolya%20(1996),3,881250949,中年
1,2,186,39,executive,302,L.A. Confidential (1997),http://us.imdb.com/M/title-exact?L%2EA%2E+Conf...,3,891717742,青年
2,3,22,25,writer,377,Heavyweights (1994),http://us.imdb.com/M/title-exact?Heavyweights%...,1,878887116,青年
3,4,244,28,technician,51,Legends of the Fall (1994),http://us.imdb.com/M/title-exact?Legends%20of%...,2,880606923,青年
4,5,166,47,educator,346,Jackie Brown (1997),http://us.imdb.com/M/title-exact?imdb-title-11...,1,886397596,中年
...,...,...,...,...,...,...,...,...,...,...
295,296,123,48,artist,427,To Kill a Mockingbird (1962),http://us.imdb.com/M/title-exact?To%20Kill%20a...,3,879873020,中年
296,297,119,32,programmer,222,Star Trek: First Contact (1996),http://us.imdb.com/M/title-exact?Star%20Trek:%...,5,874775311,青年
297,298,158,50,educator,177,"Good, The Bad and The Ugly, The (1966)","http://us.imdb.com/M/title-exact?Buono,%20il%2...",4,880134407,中年
298,299,222,29,programmer,118,Twister (1996),http://us.imdb.com/M/title-exact?Twister%20(1996),4,877563802,青年


In [6]:
import pandas as pd
pd.set_option('display.max_rows', None) # 设置最大行数为无限制
# pd.set_option('display.max_columns', None) # 设置最大列数为无限制
pd.set_option('display.width', None) # 设置显示宽度为自动适应
# pd.set_option('display.max_colwidth', -1) # 设置单元格最大宽度为无限制

df=pd.read_csv("score.csv")
# 年龄分组操作
bins_t=[0,20,40,50,60]
level_t=['少年','青年','中年','老年']
df['Age_group']=pd.cut(df.uAge, bins=bins_t, labels=level_t, right=True)
df

Unnamed: 0,Index,uNo,uAge,uOccup,filmNo,filmName,url,score,timestamp,Age_group
0,1,196,49,writer,242,Kolya (1996),http://us.imdb.com/M/title-exact?Kolya%20(1996),3,881250949,中年
1,2,186,39,executive,302,L.A. Confidential (1997),http://us.imdb.com/M/title-exact?L%2EA%2E+Conf...,3,891717742,青年
2,3,22,25,writer,377,Heavyweights (1994),http://us.imdb.com/M/title-exact?Heavyweights%...,1,878887116,青年
3,4,244,28,technician,51,Legends of the Fall (1994),http://us.imdb.com/M/title-exact?Legends%20of%...,2,880606923,青年
4,5,166,47,educator,346,Jackie Brown (1997),http://us.imdb.com/M/title-exact?imdb-title-11...,1,886397596,中年
5,6,298,44,executive,474,Dr. Strangelove or: How I Learned to Stop Worr...,http://us.imdb.com/M/title-exact?Dr.%20Strange...,4,884182806,中年
6,7,115,31,engineer,265,"Hunt for Red October, The (1990)",http://us.imdb.com/M/title-exact?Hunt+for+Red+...,2,881171488,青年
7,8,253,26,librarian,465,"Jungle Book, The (1994)",http://us.imdb.com/M/title-exact?Jungle%20Book...,5,891628467,青年
8,9,305,23,programmer,451,Grease (1978),http://us.imdb.com/M/title-exact?Grease%20(1978),3,886324817,青年
9,10,6,42,executive,86,"Remains of the Day, The (1993)",http://us.imdb.com/M/title-exact?Remains%20of%...,3,883603013,中年
