# 基本数据处理
数据处理是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。

数据处理一方面能提高数据的质量,另一方面能让数据更好地适应特定的数据分析工具。

数据处理的主要内容包括数据清洗、数据透视、数据抽取、离散化处理、数据分组、合并数据等。
## 数据清洗 
数据清洗是数据价值链中最关键的步骤。在数据分析时,海量的原始数据中存在着大量不完整、不一致、有异常的数据,这些数据,即使是通过最好的分析,也将产生错误的结果,并误导业务本身，严重影响到数据分析的结果,所以进行数据清洗就显得尤为重要。数据清洗包括处理缺失数据以及清除无意义的信息,如处理重复数据、处理缺失值、异常值等等。

### 重复值的处理
Python的Pandas模块中去掉重复数据的方法涉及两个:
    
(1)其一是DataFrame中的duplicated方法：返回一个布尔型的Series,显示是否有重复行,没有重复的行显示为FALSE,有重复的行则从重复的第二行起均显示为TRUE。

(2)其二是DataFrame中的drop_duplicates方法返回一个移除了重复行的DataFrame.

duplicated方法的格式如下:

duplicated(self,subset=None,keep='first')

其中:

subset用于识别重复的列标签或列标签序列,默认所有列标签:

keep='first'表示除了第一次出现外,其余相同的数据被标记为重复，是默认值；

keep='last'表示除了最后一次出现外,其余相同的数据被标记为重复；

keep=False表示所有相同的数据都被标记为重复。

如果duplicated方法和drop_duplicates方法中没有设置参数,则这两个方法默认判断全部列;

如果在这两个方法中加入了指定的属性名(或者称为列名),

例如：

frame.drop_duplicates(['state'])

则指定部分列(state列)进行重复项的判断。

drop_duplicates方法用于把数据结构中行相同的数据去除(保留其中的一行)。


In [1]:
from pandas import DataFrame
from pandas import Series
df=DataFrame({'age':Series([26,88,64,85,85]),
'name':Series(['Ben','John','Jerry','John','John'])})
df

Unnamed: 0,age,name
0,26,Ben
1,88,John
2,64,Jerry
3,85,John
4,85,John


In [2]:
df.duplicated()

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [3]:
df.duplicated('name')

0    False
1    False
2    False
3     True
4     True
dtype: bool

In [4]:
df.drop_duplicates()

Unnamed: 0,age,name
0,26,Ben
1,88,John
2,64,Jerry
3,85,John


In [5]:
df.drop_duplicates('name')

Unnamed: 0,age,name
0,26,Ben
1,88,John
2,64,Jerry


### 缺失值处理
从统计上说,缺失的数据可能会产生偏估计,从而使样本数据不能很好地代表总体,而现实中绝大部分数据都包含缺失值,因此如何处理缺失值很重要。

一般来说,缺失值的处理包括两部分，即缺失数据的识别和缺失数据的处理。

(1)缺失数据的识别

Pandas使用浮点值NaN表示缺失数据,并使用.isnull和.notnull函数来判断缺失情况。


In [1]:
from pandas import DataFrame
from pandas import read_excel
df=read_excel(r'rz.xlsx',sheet_name='Sheet2')
df

Unnamed: 0,学号,姓名,英语,数分,高代,解几
0,2308024000.0,成龙,76.0,40.0,23.0,60.0
1,2308024000.0,周怡,66.0,47.0,47.0,44.0
2,2308024000.0,张波,85.0,,45.0,60.0
3,2308024000.0,朱浩,65.0,72.0,62.0,71.0
4,2308024000.0,封印,73.0,61.0,47.0,46.0
5,2308024000.0,迟培,60.0,71.0,76.0,71.0
6,2308024000.0,李华,67.0,61.0,65.0,78.0
7,2308024000.0,陈田,76.0,69.0,,69.0
8,2308024000.0,余皓,66.0,65.0,61.0,71.0
9,2308024000.0,封印,73.0,61.0,47.0,46.0


In [2]:
df.isnull()

Unnamed: 0,学号,姓名,英语,数分,高代,解几
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,True,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,True,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


In [3]:
df.dtypes

学号    float64
姓名     object
英语    float64
数分    float64
高代    float64
解几    float64
dtype: object

In [8]:
df.notnull()

Unnamed: 0,学号,姓名,英语,数分,高代,解几
0,True,True,True,True,True,True
1,True,True,True,True,True,True
2,True,True,True,False,True,True
3,True,True,True,True,True,True
4,True,True,True,True,True,True
5,True,True,True,True,True,True
6,True,True,True,True,True,True
7,True,True,True,True,False,True
8,True,True,True,True,True,True
9,True,True,True,True,True,True


(2)缺失数据的处理
对于缺失数据的处理方式有数据补齐、删除对应行、不处理等方法。

--dropna():去除数据结构中值为空的数据行。

In [4]:
newDF=df.dropna(axis=0)
newDF

Unnamed: 0,学号,姓名,英语,数分,高代,解几
0,2308024000.0,成龙,76.0,40.0,23.0,60.0
1,2308024000.0,周怡,66.0,47.0,47.0,44.0
3,2308024000.0,朱浩,65.0,72.0,62.0,71.0
4,2308024000.0,封印,73.0,61.0,47.0,46.0
5,2308024000.0,迟培,60.0,71.0,76.0,71.0
6,2308024000.0,李华,67.0,61.0,65.0,78.0
8,2308024000.0,余皓,66.0,65.0,61.0,71.0
9,2308024000.0,封印,73.0,61.0,47.0,46.0


注意：第2、7行因有空值(NaN)己经被删除。
也可以指定参数how='all',表示只有行里的数据全部为空时才丢弃(删除):

df.dropna(how='all')。

如果想以同样的方式按列丢弃,可以传入axis=1,即 

df.dropna(how='all',axis=1)。


--df.fillna():用其他数值替代NaN.

有些时候直接删除空数据会影响分析的结果,可以对数据进行填补。


In [8]:
df.fillna("?")

Unnamed: 0,学号,姓名,英语,数分,高代,解几
0,2.30802e+09,成龙,76,40,23,60
1,2.30802e+09,周怡,66,47,47,44
2,2.30802e+09,张波,85,?,45,60
3,2.30802e+09,朱浩,65,72,62,71
4,2.30802e+09,封印,73,61,47,46
5,2.30802e+09,迟培,60,71,76,71
6,2.30802e+09,李华,67,61,65,78
7,2.30802e+09,陈田,76,69,?,69
8,2.30802e+09,余皓,66,65,61,71
9,2.30802e+09,封印,73,61,47,46


In [9]:
df.fillna(method='pad') #用前一个数据值替代NaN：

Unnamed: 0,学号,姓名,英语,数分,高代,解几
0,2308024000.0,成龙,76.0,40.0,23.0,60.0
1,2308024000.0,周怡,66.0,47.0,47.0,44.0
2,2308024000.0,张波,85.0,47.0,45.0,60.0
3,2308024000.0,朱浩,65.0,72.0,62.0,71.0
4,2308024000.0,封印,73.0,61.0,47.0,46.0
5,2308024000.0,迟培,60.0,71.0,76.0,71.0
6,2308024000.0,李华,67.0,61.0,65.0,78.0
7,2308024000.0,陈田,76.0,69.0,65.0,69.0
8,2308024000.0,余皓,66.0,65.0,61.0,71.0
9,2308024000.0,封印,73.0,61.0,47.0,46.0


注：df.fillna(method='bfill'):与pad相反,bfill表示用后一个数据代替NaN。可以用limit限制每列可以替代NaN的数目。

df.fillna(df.mean()):用平均数或者其他描述性统计量来代替NaN.

In [10]:
df.fillna(method='bfill')

Unnamed: 0,学号,姓名,英语,数分,高代,解几
0,2308024000.0,成龙,76.0,40.0,23.0,60.0
1,2308024000.0,周怡,66.0,47.0,47.0,44.0
2,2308024000.0,张波,85.0,72.0,45.0,60.0
3,2308024000.0,朱浩,65.0,72.0,62.0,71.0
4,2308024000.0,封印,73.0,61.0,47.0,46.0
5,2308024000.0,迟培,60.0,71.0,76.0,71.0
6,2308024000.0,李华,67.0,61.0,65.0,78.0
7,2308024000.0,陈田,76.0,69.0,61.0,69.0
8,2308024000.0,余皓,66.0,65.0,61.0,71.0
9,2308024000.0,封印,73.0,61.0,47.0,46.0


In [11]:
df1=df.fillna(df.mean())
df1

Unnamed: 0,学号,姓名,英语,数分,高代,解几
0,2308024000.0,成龙,76.0,40.0,23.0,60.0
1,2308024000.0,周怡,66.0,47.0,47.0,44.0
2,2308024000.0,张波,85.0,60.777778,45.0,60.0
3,2308024000.0,朱浩,65.0,72.0,62.0,71.0
4,2308024000.0,封印,73.0,61.0,47.0,46.0
5,2308024000.0,迟培,60.0,71.0,76.0,71.0
6,2308024000.0,李华,67.0,61.0,65.0,78.0
7,2308024000.0,陈田,76.0,69.0,52.555556,69.0
8,2308024000.0,余皓,66.0,65.0,61.0,71.0
9,2308024000.0,封印,73.0,61.0,47.0,46.0


df.fillna({'列名1':值1,'列名2':值2}):可以传入一个字典,对不同的列填充不同的值。

In [12]:
df.fillna({'高代':0,'数分':65})

Unnamed: 0,学号,姓名,英语,数分,高代,解几
0,2308024000.0,成龙,76.0,40.0,23.0,60.0
1,2308024000.0,周怡,66.0,47.0,47.0,44.0
2,2308024000.0,张波,85.0,65.0,45.0,60.0
3,2308024000.0,朱浩,65.0,72.0,62.0,71.0
4,2308024000.0,封印,73.0,61.0,47.0,46.0
5,2308024000.0,迟培,60.0,71.0,76.0,71.0
6,2308024000.0,李华,67.0,61.0,65.0,78.0
7,2308024000.0,陈田,76.0,69.0,0.0,69.0
8,2308024000.0,余皓,66.0,65.0,61.0,71.0
9,2308024000.0,封印,73.0,61.0,47.0,46.0


df['name'].str.strip()清除字符型数据左右(首尾)指定的字符,默认为空格,中间的不清除。

In [13]:
df['姓名'].str.strip()

0      成龙
1      周怡
2      张波
3      朱浩
4      封印
5      迟培
6      李华
7      陈田
8      余皓
9      封印
10    NaN
11    NaN
12    NaN
Name: 姓名, dtype: object

### 异常值的发现和处理

通过数据格式转换发现异常值

在做数据分析的时候，原始数据往往会因为各种各样的原因产生各种数据格式的问题，产生异常值，从而造成严重的后果，这也是要注意的一点。

处理过程为：

首先查看格式；然后转化格式，转化过程中通过查看报错提示信息找到异常数据，再对数据进行处理

In [6]:
from pandas import read_excel
df=read_excel('豆瓣电影数据.xlsx',header=0)
df.head()

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


In [7]:
df['投票人数'].dtype

dtype('float64')

In [23]:
df.dtypes

Unnamed: 0      int64
名字             object
投票人数            int32
类型             object
产地             object
上映时间           object
时长             object
年代             object
评分            float64
首映地点           object
dtype: object

In [16]:
df['投票人数']=df['投票人数'].astype('int')

In [17]:
df['年代'].dtype

dtype('O')

In [25]:
df['年代']=df['年代'].astype('int')

ValueError: invalid literal for int() with base 10: '2008\u200e'

In [18]:
df[df.年代=='2008\u200e']

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
15205,狂蟒惊魂,544,恐怖,中国大陆,2008-04-08 00:00:00,93,2008‎,2.7,美国


In [19]:
df[df.年代=='2008\u200e']['年代'].values

array(['2008\u200e'], dtype=object)

In [20]:
df.loc[15205,'年代']=2008

In [21]:
df.loc[15205]

名字                     狂蟒惊魂
投票人数                    544
类型                       恐怖
产地                     中国大陆
上映时间    2008-04-08 00:00:00
时长                       93
年代                     2008
评分                      2.7
首映地点                     美国
Name: 15205, dtype: object

In [30]:
df['年代']=df['年代'].astype('int')

In [37]:
df['时长']=df['时长'].astype('int')

In [32]:
df[df.时长=='8U']

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
31644,31644,一个被隔绝的世界,46,纪录片/短片,瑞典,2001-10-25 00:00:00,8U,1948,7.8,美国


In [33]:
df.drop([31644],inplace=True) 

In [35]:
df[df.时长=='12J']

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
32949,32949,渔业危机,41,纪录片,英国,2009-06-19 00:00:00,12J,2008,8.2,USA


In [36]:
df.drop([32949],inplace=True) 

通过基本统计分析发现异常值

通过描述性统计，可以发现一些异常值，很多异常值往往需要我们逐步去发现的

DataFrame.describe()

In [22]:
df.describe()

Unnamed: 0,投票人数,年代,评分
count,38738.0,38738.0,38738.0
mean,6185.833626,1998.787547,6.935704
std,26143.518804,253.192343,1.270101
min,-118.0,1888.0,2.0
25%,98.0,1990.0,6.3
50%,341.0,2005.0,7.1
75%,1739.75,2010.0,7.8
max,692795.0,39180.0,9.9


In [39]:
df.drop(df[df.投票人数<0].index,inplace=True)

In [41]:
df[df.年代>2018]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
13882,13882,武之舞,128,纪录片,中国大陆,1997-02-01 00:00:00,60,34943,9.9,美国
17115,17115,妈妈回来吧-中国打工村的孩子,49,纪录片,日本,2007-04-08 00:00:00,109,39180,8.9,美国


In [23]:
df.drop(df[df.年代>2018].index,inplace=True)

In [24]:
df[df.年代>2018][:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点


In [44]:
len(df)

38731

In [25]:
df.index=range(len(df))


In [26]:
df.tail(5)

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38731,神学院 S,46,Adult,法国,1905-06-05 00:00:00,58,1983,8.6,美国
38732,1935年,57,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38733,血溅画屏,95,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38734,魔窟中的幻想,51,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38735,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国


最值

In [27]:
#最早的影片
df['年代'].min()

1888

In [28]:
df['投票人数'].max()

692795

均值和中位数

In [29]:
df['投票人数'].mean()

6186.148440726973

In [30]:
df['投票人数'].median()

341.0

In [31]:
df['评分'].mean()

6.935576724493939

In [32]:
df['评分'].median()

7.1

方差和标准差

In [33]:
df['评分'].var()

1.6129134301269152

In [34]:
df['评分'].std()

1.2700052874405348

求和

In [35]:
df['投票人数'].sum()

239626646

相关系数和协方差

In [36]:
df[['投票人数','评分']].corr()

Unnamed: 0,投票人数,评分
投票人数,1.0,0.122919
评分,0.122919,1.0


In [37]:
df[['投票人数','评分']].cov()

Unnamed: 0,投票人数,评分
投票人数,683516900.0,4081.299474
评分,4081.299,1.612913


计数

In [38]:
len(df)

38736

In [39]:
df['产地'].unique()

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',
       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',
       '丹麦', '比利时', 'USA', '苏联', '墨西哥', '巴西', '瑞典', '西德'], dtype=object)

In [40]:
len(df['产地'].unique())

28

In [41]:
df['产地'].replace('USA','美国',inplace=True)   #用替换的方法处理重复值

In [42]:
df['产地'].replace(['西德','苏联'],['德国','俄罗斯'],inplace=True)

分组统计—value_counts()

value_counts()是一种查看表格某列中有多少个不同值的快捷方法，并计算每个不同值在该列中有多少重复值。
value_counts()是Series拥有的方法，一般在DataFrame中使用时，需要指定对哪一列或行使用。

如：计算每一年的产出数量

In [9]:
len(df['年代'].unique())

129

In [11]:
df['年代'].value_counts()[:10] #分组统计，看前10个

2012    2042
2013    2001
2008    1963
2014    1887
2010    1886
2011    1866
2009    1862
2007    1711
2015    1592
2006    1515
Name: 年代, dtype: int64

In [None]:
df.to_excel("dfilm.xls")

## 再强调：关于loc和iloc

loc：label based indexing. loc获取具有特定标签索引的行或列（接受的是标签）。

iloc：positional indexing. iloc获取特定位置索引的行（或列）（因此它只接受整数——行号）。

（不推荐使用的ix：usually tries to behave like loc but falls back to behaving like iloc if a label is not present in the index. ix通常会尝试像loc一样执行，但如果索引中不存在标签，则会退回到像iloc一样执行。）


In [23]:
from pandas import *
from numpy import *
from numpy.random import *
df1 = DataFrame(randn(5,2),index=range(0,10,2),columns=list('AB'))
df1

Unnamed: 0,A,B
0,-0.551287,-0.555022
2,-1.697932,-0.569154
4,0.872522,0.119848
6,-0.785121,-0.390483
8,-1.933907,0.106726


In [36]:
df1.loc[:4,'B']  #按标签索引取值

0   -0.555022
2   -0.569154
4    0.119848
Name: B, dtype: float64

电影产出前5的国家或地区

In [37]:
df1.iloc[2:4,1:2]  #按位置（行号、列号）索引取值

Unnamed: 0,B
4,0.119848
6,-0.390483


In [45]:
df1.ix[2,'B']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


-0.5691544628254132

## 数据透视
Pandas中提供了数据透视的功能，名字为pivot_table。透视表是一种可以对数据动态排布并且分类汇总的表格格式。
使用透视表的挑战是你需要确保理解自己的数据，并清楚地知道你想通过透视表解决什么问题。
虽然透视表看起来只是一个简单的函数，但是它能够快速地对数据进行强大的分析。

### 透视表的使用

格式：

pivot_table(data, values=None, index=None, columns=None,aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

四个最重要的参数values、index、columns、aggfunc。

values：指定需要进行计算的字段；

index：指定分组字段；

aggfunc：设置对数据聚合时进行的函数操作；

Columns类似Index可以设置列层次字段（分组字段），它不是一个必要参数，作为一种分割数据的可选方式。

下面以例子解释其用法：

1. 基础形式

每个pivot_table必须拥有一个index，相当于分组字段，默认按index列对表中数值型字段分组并求平均值。

In [66]:
import pandas as pd
pd.set_option('max_columns',100)
pd.set_option('max_rows',500)
df=pd.read_excel('dfilm.xls',header=0)
df3=pd.pivot_table(df,index=['年代'])  #按年代分组求平均
df3

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1888,388.0,7.95
1890,51.0,4.8
1892,176.0,7.5
1894,112.666667,6.633333
1895,959.875,7.575
1896,984.25,7.0375
1897,67.0,6.633333
1898,578.5,7.45
1899,71.0,6.9
1900,175.285714,7.228571


In [67]:
type(df3)

pandas.core.frame.DataFrame

2. 也可以有多个索引。即首先按第一个索引字段分组，第一个索引相同的情况下，再按第二个字段分组。如：
  
求每个年代各产地电影的平均值。

In [68]:
pd.pivot_table(df,index=['年代','产地'])

Unnamed: 0_level_0,Unnamed: 1_level_0,投票人数,评分
年代,产地,Unnamed: 2_level_1,Unnamed: 3_level_1
1888,英国,388.000000,7.950000
1890,美国,51.000000,4.800000
1892,法国,176.000000,7.500000
1894,法国,148.000000,7.000000
1894,美国,95.000000,6.450000
1895,法国,959.875000,7.575000
1896,法国,1874.250000,7.650000
1896,美国,55.666667,6.366667
1896,英国,210.000000,6.600000
1897,法国,67.000000,6.633333


3. 也可以指定需要统计汇总的数据

In [69]:
pd.pivot_table(df,index=['年代','产地'],values=['评分'])

Unnamed: 0_level_0,Unnamed: 1_level_0,评分
年代,产地,Unnamed: 2_level_1
1888,英国,7.950000
1890,美国,4.800000
1892,法国,7.500000
1894,法国,7.000000
1894,美国,6.450000
1895,法国,7.575000
1896,法国,7.650000
1896,美国,6.366667
1896,英国,6.600000
1897,法国,6.633333


4. 还可以指定函数，来统计不同的统计值

In [70]:
import numpy as np
pd.pivot_table(df,index=['年代','产地'],values=['投票人数'],aggfunc=np.sum)

Unnamed: 0_level_0,Unnamed: 1_level_0,投票人数
年代,产地,Unnamed: 2_level_1
1888,英国,776
1890,美国,51
1892,法国,176
1894,法国,148
1894,美国,190
1895,法国,7679
1896,法国,7497
1896,美国,167
1896,英国,210
1897,法国,201


按产地进行分组，分别对“投票人数”列和“评分”列实现数据聚合

In [71]:
pd.pivot_table(df,index=['产地'],values=['投票人数','评分'],aggfunc=[np.sum,np.mean])

Unnamed: 0_level_0,sum,sum,mean,mean
Unnamed: 0_level_1,投票人数,评分,投票人数,评分
产地,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
中国台湾,5237466,4367.2,8474.864078,7.066667
中国大陆,41435313,23058.0,10898.293793,6.064703
中国香港,23285309,18464.0,8164.554348,6.474053
丹麦,394784,1434.7,1993.858586,7.24596
俄罗斯,486127,3603.5,1019.134172,7.554507
其他,3054119,13895.9,1590.686979,7.237448
加拿大,1384765,4868.4,1915.304288,6.73361
印度,1146271,2453.4,3210.843137,6.872269
墨西哥,139613,843.4,1173.218487,7.087395
巴西,357136,733.5,3536.0,7.262376


5. 非数值(NaN)难以处理。如果想移除它们，可以使用“fill_value”将其设置为0

In [72]:
pd.pivot_table(df,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0)

Unnamed: 0_level_0,sum,sum,sum,mean,mean,mean
Unnamed: 0_level_1,年代,投票人数,评分,年代,投票人数,评分
产地,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
中国台湾,1235388,5237466,4367.2,1999.009709,8474.864078,7.066667
中国大陆,7621488,41435313,23058.0,2004.599684,10898.293793,6.064703
中国香港,5678612,23285309,18464.0,1991.098177,8164.554348,6.474053
丹麦,395820,394784,1434.7,1999.090909,1993.858586,7.24596
俄罗斯,946797,486127,3603.5,1984.899371,1019.134172,7.554507
其他,3837588,3054119,13895.9,1998.74375,1590.686979,7.237448
加拿大,1447780,1384765,4868.4,2002.461964,1915.304288,6.73361
印度,716133,1146271,2453.4,2005.97479,3210.843137,6.872269
墨西哥,237145,139613,843.4,1992.815126,1173.218487,7.087395
巴西,201987,357136,733.5,1999.871287,3536.0,7.262376


6. 加入margins=True，可以在下方显示一些总和数据。

In [73]:
pd1=pd.pivot_table(df,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0,margins=True)

In [74]:
pd1.tail(5)

Unnamed: 0_level_0,sum,sum,sum,mean,mean,mean
Unnamed: 0_level_1,年代,投票人数,评分,年代,投票人数,评分
产地,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
荷兰,310199,144836,1114.5,2001.283871,934.425806,7.190323
西班牙,894710,1486733,3139.9,2001.588367,3326.024609,7.024385
阿根廷,232468,258271,843.7,2004.034483,2226.474138,7.273276
韩国,2712969,8761080,8596.4,2008.119171,6484.88527,6.36299
All,76230127,239111980,264236.9,1996.96453,6263.903282,6.922089


7. 对不同值执行不同的函数：可以向aggfunc传递一个字典

对各个地区的投票人数求和，对评分求平均值

In [75]:
pd.pivot_table(df,index=['产地'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0,margins=True)

Unnamed: 0_level_0,投票人数,评分
产地,Unnamed: 1_level_1,Unnamed: 2_level_1
中国台湾,5237466,7.066667
中国大陆,41435313,6.064703
中国香港,23285309,6.474053
丹麦,394784,7.24596
俄罗斯,486127,7.554507
其他,3054119,7.237448
加拿大,1384765,6.73361
印度,1146271,6.872269
墨西哥,139613,7.087395
巴西,357136,7.262376


透视表过滤

In [76]:
table=pd.pivot_table(df,index=['年代'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0,margins=True)

In [58]:
type(table)

pandas.core.frame.DataFrame

In [77]:
table[:5]

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1888,776,7.95
1890,51,4.8
1892,176,7.5
1894,338,6.633333
1895,7679,7.575


In [81]:
table[table.index==1994]

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1994,5670752,7.262348


1994年被誉为电影史上伟大的一年，但是通过数据我们发现，1994年的平均得分其实并不是很高。（1992年最高）

In [83]:
df[df.年代==1994]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
3,阿甘正传,580897,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
9,这个杀手不太冷,662552,剧情/动作/犯罪,法国,1994-09-14 00:00:00,133,1994,9.4,法国
314,34街的,768,剧情/家庭/奇幻,美国,1994-12-23 00:00:00,114,1994,7.9,美国
402,活着,202794,剧情/家庭,中国大陆,1994-05-18 00:00:00,132,1994,9.0,法国
424,94独臂刀之情 9,763,剧情/动作/武侠,中国香港,1905-06-16 00:00:00,96,1994,7.0,美国
548,世界的另一端 Другая сторо,3089,动画/短片,俄罗斯,1994-10-01 00:00:00,60,1994,8.0,渥太华动画节
852,龙的世界,1606,奇幻/冒险,美国,1994-07-27 00:00:00,60,1994,8.1,美国
876,,50,传记,英国,1996-02-22 00:00:00,60,1994,8.4,美国
1004,,2369,喜剧,其他,1905-06-15 00:00:00,83,1994,9.3,美国


### 排序
默认是按index进行排序，假如希望按某个字段的取值排序


如按照投票人数进行排序

In [85]:
table.sort_values(by='投票人数')[:5]

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1890,51,4.8
1899,142,6.9
1892,176,7.5
1897,201,6.633333
1909,293,7.56


In [86]:
table.sort_values(by='投票人数',ascending=False)[:5]

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
All,239626646,6.935577
2010,18061067,6.770361
2011,16351964,6.57701
2009,16229871,6.75
2013,15215050,6.392604


多个值排序，先按照评分，再按照投票人数排序

In [63]:
table.sort_values(by=['评分','投票人数'],ascending=False)[:5]

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1924,10410,8.053571
1888,776,7.95
1928,16193,7.945
1912,761,7.92
1923,7668,7.883333
