## 1 Pandas基本介绍

Python Data Analysis Library或pandas是基于Numpy的一种工具，该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需要的工具。pandas提供了大量能使我们快速便捷的处理数据的函数和方法。

In [3]:
import pandas as pd
import numpy as np

### 1.1 Pandas的基本数据结构

pandas中有两种常用的基本结构

•Series<br>
    一维数组，与Numpy中的一维array类似，二者与Python基本的数据结构List也很相似。**Series能保存不同种数据类型**，字符串、boolean值、数字等都能保存在Series种。

•DataFrame<br>
二维的表格型数据结构，很多功能与R中的data.frame类似。可以将**DataFrame理解为Series的容器**。

#### 1.1.1 Pandas库的Series类型

一维Series可以用一维列表初始化

In [4]:
s=pd.Series([1,3,5,np.nan,6,5])
print(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    5.0
dtype: float64


默认的情况下，Series的下标都是数字（可以使用额外参数指定），类型是统一的。

In [5]:
b=pd.Series([1,3,5,np.nan,6,5],index=['a','b','c','d','e','f'])
print(b)

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    5.0
dtype: float64


**索引——数据行标签**

In [6]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [7]:
b.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

**取值**

In [8]:
s.values

array([ 1.,  3.,  5., nan,  6.,  5.])

In [10]:
s[4]

6.0

**切片操作**

In [11]:
s[2:5]

2    5.0
3    NaN
4    6.0
dtype: float64

In [13]:
s[::2]

0    1.0
2    5.0
4    6.0
dtype: float64

In [12]:
b['b':'f':2]

b    3.0
d    NaN
f    5.0
dtype: float64

**索引赋值**

In [14]:
s.index.name='索引'
s

索引
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    5.0
dtype: float64

In [15]:
s.index=list('abcdef')
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    5.0
dtype: float64

In [16]:
s['a':'c'] #注意这里不是左闭右开 左右都是闭区间

a    1.0
b    3.0
c    5.0
dtype: float64

#### 1.1.2 Pandas库的DataFrame类型

##### DataFrame初始化

DataFrame是个二维结构，这里首先构造一组时间序列，作为第一维的下标

In [17]:
date=pd.date_range('20200101',periods=6)#起点20200101 6个日期
print(date)

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')


然后创建一个DataFream结构 传入一个二维数组 6行4列

In [21]:
df=pd.DataFrame(np.random.randn(6,4))
df    #默认使用0、1、2.。。作为索引index

Unnamed: 0,0,1,2,3
0,-1.490125,1.298987,-0.543361,1.22198
1,-0.849709,0.118608,-0.955715,0.14498
2,-0.599598,-0.756037,-1.795249,-0.282495
3,-0.332586,1.750622,-1.493345,-2.100013
4,-0.905893,-0.254791,-1.476728,-0.001651
5,-1.121065,-1.861881,-0.50242,0.523135


In [21]:
df=pd.DataFrame(np.random.randn(6,4),index=date,columns=list('ABCD'))
df    #index参数设置行索引，columns参数设置列索引

Unnamed: 0,A,B,C,D
2020-01-01,-0.632187,1.388384,-1.141516,0.555858
2020-01-02,-1.03337,0.220262,-0.348647,-1.784751
2020-01-03,2.162017,-0.374234,-0.636569,0.49051
2020-01-04,0.392639,-0.32927,-1.017615,0.153913
2020-01-05,-1.302436,0.436321,-0.186632,-0.17994
2020-01-06,-1.105173,0.068276,-1.644065,0.815162


除了向DataFrame中传入二维数组，我们也可以使用**字典**传入数据

In [18]:
df1=pd.DataFrame({'A':1,'B':pd.Timestamp('20200101'),'C':pd.Series(1,index=list(range(4)),dtype=float),'D':np.array([3]*4,dtype=int),'E':pd.Categorical(['test','train','test','train']),'F':'abc'})
df1

Unnamed: 0,A,B,C,D,E,F
0,1,2020-01-01,1.0,3,test,abc
1,1,2020-01-01,1.0,3,train,abc
2,1,2020-01-01,1.0,3,test,abc
3,1,2020-01-01,1.0,3,train,abc


字典的每个key代表一列，其value可以是各种能够转化为Series的对象<br>
与Series要求所有的类型都一致不同，DataFrame只要求每一列数据的格式相同

In [19]:
df1.dtypes

A             int64
B    datetime64[ns]
C           float64
D             int32
E          category
F            object
dtype: object

###### DataFrame查看数据

头尾数据<br>
head和tail方法可以分别查看最前面几行和最后面几行的数据（默认为5）

In [22]:
df.head()

Unnamed: 0,A,B,C,D
2020-01-01,-0.632187,1.388384,-1.141516,0.555858
2020-01-02,-1.03337,0.220262,-0.348647,-1.784751
2020-01-03,2.162017,-0.374234,-0.636569,0.49051
2020-01-04,0.392639,-0.32927,-1.017615,0.153913
2020-01-05,-1.302436,0.436321,-0.186632,-0.17994


In [23]:
df.tail(3)  #看最后三行

Unnamed: 0,A,B,C,D
2020-01-04,0.392639,-0.32927,-1.017615,0.153913
2020-01-05,-1.302436,0.436321,-0.186632,-0.17994
2020-01-06,-1.105173,0.068276,-1.644065,0.815162


下标、列标、数据

下标使用index属性查看

In [35]:
df.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06'],
              dtype='datetime64[ns]', freq='D')

列标使用columns属性查看

In [36]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

数据值使用values查看

In [37]:
df.values

array([[ 0.44397794, -0.56828038,  0.53942245, -1.8088147 ],
       [-0.94194603,  1.60065473, -0.16541752, -0.14333282],
       [ 0.05818642,  1.2996908 , -0.72258188, -0.25816996],
       [ 0.91244089, -1.34726583, -0.82709665, -1.18962492],
       [ 0.42712501,  0.01041125, -0.39041139,  1.17227685],
       [-0.58428589, -0.42811927,  0.53630517,  1.32747977]])

### 1.2 Pandas读取数据及数据操作

我们以豆瓣的电影数据作为我们深入了解Pandas的示例

In [4]:
df_mv=pd.read_excel(r'豆瓣电影数据.xlsx') #加 r 防止转义
df_mv.head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


#### 1.2.1 行操作

In [30]:
df_mv.iloc[0] #第一行

Unnamed: 0                      1
名字                           控方证人
投票人数                        42995
类型                       剧情/悬疑/犯罪
产地                             美国
上映时间          1957-12-17 00:00:00
时长                            116
年代                           1957
评分                            9.5
首映地点                           美国
Name: 1, dtype: object

In [50]:
df_mv.iloc[0:5] #前五行

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


也可以使用 loc

In [51]:
df_mv.loc[0:5]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,5,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆


##### 添加一行

In [5]:
dit={'名字':'复仇者联盟3',
     '投票人数':123456,
     '类型':'剧情/科幻',
     '产地':'美国',
     '上映时间':'2017-05-04 00:00:00',
     '时长':142,
     '年代':2017,
     '评分':8.7,
     '首映地点':'美国'}
s=pd.Series(dit)
s.name=38738 #名称 索引号
s

名字                   复仇者联盟3
投票人数                 123456
类型                    剧情/科幻
产地                       美国
上映时间    2017-05-04 00:00:00
时长                      142
年代                     2017
评分                      8.7
首映地点                     美国
Name: 38738, dtype: object

In [6]:
df_mv=df_mv.append(s) #append添加
df_mv.tail()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38734,38734.0,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,38735.0,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,38736.0,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,38737.0,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国
38738,,复仇者联盟3,123456.0,剧情/科幻,美国,2017-05-04 00:00:00,142,2017,8.7,美国


##### 删除一行

In [7]:
df_mv=df_mv.drop([38738])
df_mv.tail()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38733,38733.0,神学院 S,46.0,Adult,法国,1905-06-05 00:00:00,58,1983,8.6,美国
38734,38734.0,1935年,57.0,喜剧/歌舞,美国,1935-03-15 00:00:00,98,1935,7.6,美国
38735,38735.0,血溅画屏,95.0,剧情/悬疑/犯罪/武侠/古装,中国大陆,1905-06-08 00:00:00,91,1986,7.1,美国
38736,38736.0,魔窟中的幻想,51.0,惊悚/恐怖/儿童,中国大陆,1905-06-08 00:00:00,78,1986,8.0,美国
38737,38737.0,列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме...,32.0,剧情/战争,苏联,1905-05-30 00:00:00,97,1977,6.6,美国


#### 1.2.2 列操作

In [8]:
df_mv.columns

Index(['Unnamed: 0', '名字', '投票人数', '类型', '产地', '上映时间', '时长', '年代', '评分',
       '首映地点'],
      dtype='object')

In [62]:
df_mv['名字'][0:5] #名字列的前五行

0    肖申克的救赎
1      控方证人
2     美丽人生 
3      阿甘正传
4      霸王别姬
Name: 名字, dtype: object

In [64]:
df_mv[['名字','类型']][:5] #取多列 采用list的形式

Unnamed: 0,名字,类型
0,肖申克的救赎,剧情/犯罪
1,控方证人,剧情/悬疑/犯罪
2,美丽人生,剧情/喜剧/爱情
3,阿甘正传,剧情/爱情
4,霸王别姬,剧情/爱情/同性


##### 增加一列

In [66]:
df_mv['序号']=range(1,len(df_mv)+1)#左闭右开
df_mv.head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点,序号
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节,1
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国,2
2,2.0,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利,3
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映,4
4,4.0,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港,5


##### 删除一列

In [68]:
df_mv=df_mv.drop('序号',axis=1) #axis=0 表示行 默认 axis=1 表示列
df_mv.head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2.0,美丽人生,327855.0,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4.0,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


#### 1.2.3 通过标签选择数据

df.loc[[index],[column]]通过标签选择数据

In [9]:
df_mv.loc[[1,3,5,7,9],['名字','评分']]

Unnamed: 0,名字,评分
1,控方证人,9.5
3,阿甘正传,9.4
5,泰坦尼克号,9.4
7,新世纪福音战士剧场版：Air/真心为你 新世紀エヴァンゲリオン劇場版 Ai,9.4
9,这个杀手不太冷,9.4


In [71]:
df_mv.loc[1,'名字']

'控方证人'

##### 条件选择

选取产地为美国的所有电音

In [10]:
df_mv[df_mv['产地']=='美国']#布尔型取数

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
5,5.0,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,6.0,辛德勒的名单,306904.0,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映
...,...,...,...,...,...,...,...,...,...,...
38724,38724.0,跷家的一夜,82.0,喜剧/动作/惊悚/冒险,美国,1987-07-01 00:00:00,102,1987,7.8,美国
38726,38726.0,零下的激情,199.0,剧情/爱情/犯罪,美国,1987-11-06 00:00:00,98,1987,7.4,美国
38728,38728.0,离别秋波,240.0,剧情/爱情/音乐,美国,1986-02-19 00:00:00,90,1986,8.2,美国
38732,38732.0,极乐森林,45.0,纪录片,美国,1986-09-14 00:00:00,90,1986,8.1,美国


In [11]:
df_mv[df_mv['产地']=='中国大陆'][:5] # 前5行

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
4,4.0,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
21,21.0,大闹天宫,74881.0,动画/奇幻,中国大陆,1905-05-14 00:00:00,114,1961,9.2,上集
29,29.0,穹顶之下,51113.0,纪录片,中国大陆,2015-02-28 00:00:00,104,2015,9.2,中国大陆
38,38.0,茶馆,10678.0,剧情/历史,中国大陆,1905-06-04 00:00:00,118,1982,9.2,美国
45,45.0,山水情,10781.0,动画/短片,中国大陆,1905-06-10 00:00:00,19,1988,9.2,美国


选取产地为美国，且评分大于9的电影

In [81]:
df_mv[(df_mv.产地=='美国')&(df_mv.评分>9)].head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
5,5.0,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,6.0,辛德勒的名单,306904.0,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映


选取产地为美国或中国大陆，且评分大于9的电影

In [82]:
df_mv[((df_mv.产地=='美国')|(df_mv.产地=='中国大陆'))&(df_mv.评分>9)].head()#用括号划分逻辑

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795.0,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995.0,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
3,3.0,阿甘正传,580897.0,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4.0,霸王别姬,478523.0,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,5.0,泰坦尼克号,157074.0,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆


### 1.3 数据清洗

#### 1.3.1 缺失值处理

dropna：根据标签中的缺失值进行过滤，删除缺失值<br>
fillna：对缺失值进行填充<br>
isnull：返回一个布尔值对象，判断哪些值是缺失值<br>
notnull：isnull的否定式

###### 判断缺失值
isnull

In [12]:
# 所有电影名称缺失的
df_mv[df_mv['名字'].isnull()].head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
231,231.0,,144.0,纪录片/音乐,韩国,2011-02-02 00:00:00,90,2011,9.7,美国
361,361.0,,80.0,短片,其他,1905-05-17 00:00:00,4,1964,5.7,美国
369,369.0,,5315.0,剧情,日本,2004-07-10 00:00:00,111,2004,7.5,日本
372,372.0,,263.0,短片/音乐,英国,1998-06-30 00:00:00,34,1998,9.2,美国
374,374.0,,47.0,短片,其他,1905-05-17 00:00:00,3,1964,6.7,美国


###### 填充缺失值

填充字符类

In [15]:
df_mv['名字'].fillna('未知电影',inplace=True) #用'未知电影'填充没有名字的电影

In [18]:
df_mv[df_mv['名字']=='未知电影'].head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
231,231.0,未知电影,144.0,纪录片/音乐,韩国,2011-02-02 00:00:00,90,2011,9.7,美国
361,361.0,未知电影,80.0,短片,其他,1905-05-17 00:00:00,4,1964,5.7,美国
369,369.0,未知电影,5315.0,剧情,日本,2004-07-10 00:00:00,111,2004,7.5,日本
372,372.0,未知电影,263.0,短片/音乐,英国,1998-06-30 00:00:00,34,1998,9.2,美国
374,374.0,未知电影,47.0,短片,其他,1905-05-17 00:00:00,3,1964,6.7,美国


填充数值类

In [19]:
##添加一行，用于实验。此处设置评分为空nan
dit={'名字':'复仇者联盟3',
     '投票人数':123456,
     '类型':'剧情/科幻',
     '产地':'美国',
     '上映时间':'2017-05-04 00:00:00',
     '时长':142,
     '年代':2017,
     '评分':np.nan,
     '首映地点':'美国'}
s=pd.Series(dit)
s.name=38738
df_mv=df_mv.append(s)

In [20]:
##判断“评分”为空的
df_mv[df_mv['评分'].isnull()].head()

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38738,,复仇者联盟3,123456.0,剧情/科幻,美国,2017-05-04 00:00:00,142,2017,,美国


In [21]:
##填充评分，此处填充 均值
df_mv['评分'].fillna(np.mean(df_mv['评分']),inplace=True)
df_mv[-1:]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
38738,,复仇者联盟3,123456.0,剧情/科幻,美国,2017-05-04 00:00:00,142,2017,6.935704,美国


###### 删除缺失值<br>
df.dropna(参数)<br><br>
subset=['列名']：删除该列为空的行<br>
how='all'：删除全为空值的行或列<br>
inplace=True：覆盖之前的数据<br>
axis=0：选择行或列（=0，删除一行；=1，删除一列），默认为0

In [22]:
len(df_mv)

38739

In [23]:
df_mv1=df_mv.dropna()
len(df_mv1)

38735

#### 1.3.2 异常值处理

异常值，即在数据集中存在不合理的值，又称离群点。比如年龄为-1，笔记本电脑重量为1吨等等，都属与异常值的范围。

对于异常值，一般来说数量都会很少，在不影响整体数据分布的情况下，我们直接删除就可以了。

In [24]:
df_mv[(df_mv.投票人数<0)|(df_mv['投票人数']%1!=0)]

Unnamed: 0.1,Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
19777,19777.0,皇家大贼 皇家大,-80.0,剧情/犯罪,中国香港,1985-05-31 00:00:00,60,1985,6.3,美国
19786,19786.0,日本的垃圾去中国大陆 にっぽんの“ゴミ” 大陆へ渡る ～中国式リサイクル錬,-80.0,纪录片,日本,1905-06-26 00:00:00,60,2004,7.9,美国
19791,19791.0,女教师 女教,8.3,剧情/犯罪,日本,1977-10-29 00:00:00,100,1977,6.6,日本
19797,19797.0,女教徒,-118.0,剧情,法国,1966-05-06 00:00:00,135,1966,7.8,美国
19804,19804.0,女郎漫游仙境 ドレミファ娘の血は騒,5.9,喜剧/歌舞,日本,1985-11-03 00:00:00,80,1985,6.7,日本
19820,19820.0,女仆日记,12.87,剧情,法国,2015-04-01 00:00:00,96,2015,5.7,法国
38055,38055.0,逃出亚卡拉,12.87,剧情/动作/惊悚/犯罪,美国,1979-09-20 00:00:00,112,1979,7.8,美国


In [27]:
df_mv=df_mv[df_mv.投票人数>0]
df_mv=df_mv[df_mv['投票人数']%1==0]

### 1.4 数据保存

数据处理之后，然后将数据重新保存到原文件

In [26]:
df_mv.to_excel('movie_data.xlsx')

## 2 Pandas操作

In [1]:
import pandas as pd
import numpy as np

以豆瓣电影为例

In [4]:
df=pd.read_excel('movie_data.xlsx')
df=df.drop('Unnamed: 0',axis=1)
df.head()

Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2.0,美丽人生,327855,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3.0,阿甘正传,580897,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4.0,霸王别姬,478523,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


### 2.1 数据格式转换

在做数据分析的时候，原始数据往往会因为各种各样的原因 产生各种数据格式的问题。<br/>
数据格式是我们非常需要注意的一点，数据格式错误往往会造成很严重的后果。<br/>
并且，很多异常值也是我们经过格式转换之后才会发现，对我们规整数据，清洗数据有很重要的作用。<br/>

**查看格式**

In [5]:
df['投票人数'].dtype

dtype('int64')

**格式转化**

In [6]:
df['投票人数']=df['投票人数'].astype('int')
df['投票人数'].dtype

dtype('int32')

**将年代格式转化为整型**

In [7]:
df['年代'].dtype

dtype('O')

In [8]:
df['年代']=df['年代'].astype('int')

ValueError: invalid literal for int() with base 10: '2008\u200e'

通过条件判断找到异常数据

In [9]:
##年代中有异常值 '2008\u200e'，无法正常转化
df[df.年代=='2008\u200e']

Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
15205,15205.0,狂蟒惊魂,544,恐怖,中国大陆,2008-04-08 00:00:00,93,2008‎,2.7,美国


In [26]:
df[df.年代=='2008\u200e']['年代'].values

array(['2008\u200e'], dtype=object)

In [None]:
带有Unicode的格式控制字符,从左到右的书写标记

In [13]:
df.loc[15205,'年代']=2008
df.loc[15205]

Unnamed: 0.1                  15205
名字                             狂蟒惊魂
投票人数                            544
类型                               恐怖
产地                             中国大陆
上映时间            2008-04-08 00:00:00
时长                               93
年代                             2008
评分                              2.7
首映地点                             美国
Name: 15205, dtype: object

In [14]:
df['年代']=df['年代'].astype('int')
df['年代'][:5]

0    1994
1    1957
2    1997
3    1994
4    1993
Name: 年代, dtype: int32

将时长转化为整数格式

In [15]:
df['时长']=df['时长'].astype('int')

ValueError: invalid literal for int() with base 10: '8U'

In [21]:
df[df.时长=='8U']

Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
31638,31644.0,一个被隔绝的世界,46,纪录片/短片,瑞典,2001-10-25 00:00:00,8U,1948,7.8,美国


In [23]:
df.drop(31638,inplace=True)
# inplace=False，默认该删除操作不改变原数据，而是返回一个执行删除操作后的新dataframe；
# inplace=True，则会直接在原数据上进行删除操作，删除后无法返回。

In [24]:
df['时长']=df['时长'].astype('int')

ValueError: invalid literal for int() with base 10: '12J'

In [25]:
df[df.时长=='12J']

Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
32943,32949.0,渔业危机,41,纪录片,英国,2009-06-19 00:00:00,12J,2008,8.2,USA


In [26]:
df.drop(32943,inplace=True)

In [27]:
df['时长']=df['时长'].astype('int')

In [28]:
df['时长'][:5]

0    142
1    116
2    116
3    142
4    171
Name: 时长, dtype: int32

### 2.2 排序

#### 2.2.1 单值排序

**默认排序**

In [29]:
df[:10]  ##根据index进行排序

Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,1.0,控方证人,42995,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,2.0,美丽人生,327855,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,3.0,阿甘正传,580897,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,4.0,霸王别姬,478523,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,5.0,泰坦尼克号,157074,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,6.0,辛德勒的名单,306904,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映
7,7.0,新世纪福音战士剧场版：Air/真心为你 新世紀エヴァンゲリオン劇場版 Ai,24355,剧情/动作/科幻/动画/奇幻,日本,1997-07-19 00:00:00,87,1997,9.4,日本
8,8.0,银魂完结篇：直到永远的万事屋 劇場版 銀魂 完結篇 万事屋よ,21513,剧情/动画,日本,2013-07-06 00:00:00,110,2013,9.4,日本
9,9.0,这个杀手不太冷,662552,剧情/动作/犯罪,法国,1994-09-14 00:00:00,133,1994,9.4,法国


**按照投票人数进行排序**

In [30]:
## 默认升序排列
df.sort_values(by='投票人数')[:5]

Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
37035,37041.0,魂惊一线,21,惊悚/恐怖,美国,2003-08-21 00:00:00,108,2002,5.3,美国
35589,35595.0,川崎的玫瑰,21,剧情,其他,2009-12-21 00:00:00,100,2009,6.1,美国
1990,1990.0,爱和一颗子弹,21,动作/犯罪,美国,2002-08-30 00:00:00,85,2002,7.0,美国
22869,22875.0,少年邓恩铭,21,剧情/传记,中国大陆,2011-07-01 00:00:00,90,2011,3.8,美国
37267,37273.0,生生舞不息,21,剧情/歌舞,法国,2002-04-12 00:00:00,100,2002,6.8,美国


In [31]:
## 降序排列
df.sort_values(by='投票人数',ascending=False)[:5]

Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,0.0,肖申克的救赎,692795,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
9,9.0,这个杀手不太冷,662552,剧情/动作/犯罪,法国,1994-09-14 00:00:00,133,1994,9.4,法国
22,22.0,盗梦空间,642134,剧情/动作/科幻/悬疑/冒险,美国,2010-09-01 00:00:00,148,2010,9.2,中国大陆
3,3.0,阿甘正传,580897,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
99,99.0,三傻大闹宝莱坞,549808,剧情/喜剧/爱情/歌舞,印度,2011-12-08 00:00:00,171,2009,9.1,中国大陆


**按照年代进行排序**

In [32]:
df.sort_values(by='年代')[:5]

Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
14048,14048.0,利兹大桥,126,短片,英国,1888-10,60,1888,7.2,美国
1700,1700.0,朗德海花园场景,650,短片,英国,1888-10-14,60,1888,8.7,美国
26164,26170.0,恶作剧,51,短片,美国,1905-03-04 00:00:00,60,1890,4.8,美国
10627,10627.0,可怜的比埃洛,176,喜剧/爱情/动画/短片,法国,1892-10-28,60,1892,7.5,法国
14455,14455.0,迪克森实验音膜,121,短片,美国,1905-03-08 00:00:00,60,1894,7.2,美国


#### 2.2.2 多个值排序

先按照评分降序序，再按照投票人数降序

In [52]:
df.sort_values(by=['评分','投票人数'],ascending=False)[:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
9278,平安结祈 平安結,208,音乐,日本,2012-02-24 00:00:00,60,2012,9.9,美国
13882,武之舞,128,纪录片,中国大陆,1997-02-01 00:00:00,60,34943,9.9,美国
1110,未知电影,76,科幻/纪录片,美国,1905-06-23 00:00:00,75,2001,9.9,美国
23559,未作回答的问题：伯恩斯坦哈佛六讲,61,纪录片,美国,1905-05-29 00:00:00,60,1973,9.9,美国
35470,未知电影,46,纪录片/音乐,韩国,2013-10-31 00:00:00,90,2013,9.9,韩国


先按照评分降序序，再按照投票人数升序

In [119]:
df.sort_values(by=['评分','投票人数'],ascending=[False,True])[:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
25270,索科洛夫：巴黎现场,43,音乐,法国,2002-11-04 00:00:00,127,2002,9.9,美国
35465,未知电影,46,纪录片/音乐,韩国,2013-10-31 00:00:00,90,2013,9.9,韩国
23556,未作回答的问题：伯恩斯坦哈佛六讲,61,纪录片,美国,1905-05-29 00:00:00,60,1973,9.9,美国
1110,未知电影,76,科幻/纪录片,美国,1905-06-23 00:00:00,75,2001,9.9,美国
9278,平安结祈 平安結,208,音乐,日本,2012-02-24 00:00:00,60,2012,9.9,美国


### 2.3基本统计分析

#### 2.3.1 描述性统计

dataframe.describe()：对dataframe中的数值数据进行描述性统计

In [34]:
df.describe()

Unnamed: 0,Unnamed: 0.1,投票人数,时长,年代,评分
count,38727.0,38728.0,38728.0,38728.0,38728.0
mean,19366.615669,6190.442212,89.031424,1998.791753,6.935577
std,11183.251156,26153.495394,83.233344,253.224718,1.270158
min,0.0,21.0,1.0,1888.0,2.0
25%,9681.5,98.0,60.0,1990.0,6.3
50%,19363.0,341.0,92.0,2005.0,7.1
75%,29050.5,1741.0,106.0,2010.0,7.8
max,38737.0,692795.0,11500.0,39180.0,9.9


**通过描述性统计，可以发现一些异常值，很多异常值往往是需要我们逐步去发现的** <br/>
比如年代的最大值，上映时间的最大值等


In [35]:
df[df.年代>2021]

Unnamed: 0,Unnamed: 0.1,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
13882,13882.0,武之舞,128,纪录片,中国大陆,1997-02-01 00:00:00,60,34943,9.9,美国
17115,17115.0,妈妈回来吧-中国打工村的孩子,49,纪录片,日本,2007-04-08 00:00:00,109,39180,8.9,美国


In [55]:
df[df.时长>1000]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
19690,怒海余生,54,剧情/家庭/冒险,美国,1937-09-01 00:00:00,11500,1937,7.9,美国
38730,喧闹村的孩子们,36,家庭,瑞典,1986-12-06 00:00:00,9200,1986,8.7,瑞典


In [36]:
df.drop(df[df.年代>2021].index,inplace=True)
df.drop(df[df.时长>1000].index,inplace=True)
df.describe()

Unnamed: 0,Unnamed: 0.1,投票人数,时长,年代,评分
count,38723.0,38724.0,38724.0,38724.0,38724.0
mean,19366.307053,6191.07476,88.501704,1996.982776,6.935379
std,11183.355143,26154.772096,37.708162,19.934715,1.270054
min,0.0,21.0,1.0,1888.0,2.0
25%,9680.5,98.0,60.0,1990.0,6.3
50%,19363.0,341.0,92.0,2005.0,7.1
75%,29050.5,1741.0,106.0,2010.0,7.8
max,38737.0,692795.0,958.0,2017.0,9.9


In [37]:
##删除 行 后，重新分配 索引index 从0到len(df)的整数序列作为新的index
df.index=range(len(df))

#### 2.3.2 最值

In [59]:
df['投票人数'].max()

692795

In [63]:
df['投票人数'].min()

5

#### 2.3.3 均值和中值

In [65]:
df['投票人数'].mean()

6190.297004905758

In [66]:
df['投票人数'].median()

341.0

#### 2.3.4 方差和标准差

In [68]:
df['评分'].var()

1.6129445680877672

In [67]:
df['评分'].std()

1.2700175463700363

#### 2.3.5 求和

In [69]:
df['投票人数'].sum()

239750203

#### 2.3.6 相关系数、协方差

In [39]:
## 相关性
df[['投票人数','评分']].corr()

Unnamed: 0,投票人数,评分
投票人数,1.0,0.12293
评分,0.12293,1.0


In [38]:
## 协方差
df[['投票人数','评分']].cov()

Unnamed: 0,投票人数,评分
投票人数,684072100.0,4083.474416
评分,4083.474,1.613036


#### 2.3.7 计数

统计电影数量

In [42]:
len(df)

38724

In [43]:
## 某列的所有取值
df['产地'].unique()

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',
       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',
       '丹麦', '比利时', 'USA', '苏联', '墨西哥', '巴西', '瑞典', '西德'], dtype=object)

In [76]:
len(df['产地'].unique())

28

**产地中包含了一些重复数据，比如美国和USA，德国和西德，俄罗斯和苏联**

我们可以通过数据替换的方法将这些相同的国家的电影数据合并一下

In [44]:
df['产地'].replace('USA','美国',inplace=True)
df['产地'].replace(['西德','苏联'],['德国','俄罗斯'],inplace=True)
len(df['产地'].unique())

25

计算每一年代电影的数量

In [47]:
df['年代'].value_counts()[:10]

2012    2042
2013    2001
2008    1963
2014    1887
2010    1886
2011    1866
2009    1861
2007    1711
2015    1591
2006    1515
Name: 年代, dtype: int64

电影产出前5位的国家或地区

In [48]:
df['产地'].value_counts()[:5]

美国      11978
日本       5049
中国大陆     3802
中国香港     2851
法国       2815
Name: 产地, dtype: int64

In [49]:
df.to_excel('./movie_data2.xlsx')

### 2.4 数据透视

Pandas提供了一个数据透视表功能，名为pivot_table。<br>
使用pivot_table的一个挑战是，你需要确保你理解你的数据，并清楚的知道你通过透视表解决了什么问题，虽然pivot_table看起来知识一个简单的函数，但是它能够快速的对数据进行强大的分析。

#### 2.4.1 基础形式

In [55]:
pd.set_option('max_columns',100)  ##设置显示的最大列
pd.set_option('max_rows',500)  ##设置显示的最大行

In [56]:
pd.pivot_table(df,index=['年代'])#以年代为索引，统计各个年代数值型变量的均值

Unnamed: 0_level_0,Unnamed: 0.1,投票人数,时长,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1888,7874.0,388.0,60.0,7.95
1890,26170.0,51.0,60.0,4.8
1892,10627.0,176.0,60.0,7.5
1894,16198.0,112.666667,60.0,6.633333
1895,13011.5,959.875,60.0,7.575
1896,17808.25,984.25,60.0,7.0375
1897,23881.0,67.0,60.0,6.633333
1898,6247.5,578.5,60.0,7.45
1899,9307.5,71.0,9.5,6.9
1900,11274.571429,175.285714,36.714286,7.228571


#### 2.4.2 多个索引  index=['','']

实际上，大多数的pivot_table参数可以通过列表获取多个值

In [61]:
pd.pivot_table(df,index=['年代','产地'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0.1,投票人数,时长,评分
年代,产地,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1888,英国,7874.000000,388.000000,60.000000,7.950000
1890,美国,26170.000000,51.000000,60.000000,4.800000
1892,法国,10627.000000,176.000000,60.000000,7.500000
1894,法国,12374.000000,148.000000,60.000000,7.000000
1894,美国,18110.000000,95.000000,60.000000,6.450000
...,...,...,...,...,...
2016,法国,23068.750000,39.000000,93.250000,7.475000
2016,美国,18957.272727,10563.848485,91.984848,6.540909
2016,英国,22602.090909,14607.272727,85.545455,7.200000
2016,韩国,18906.100000,1739.850000,106.100000,5.730000


#### 2.4.3 指定需要统计汇总的数据  values

In [62]:
pd.pivot_table(df,index=['年代','产地'],values=['评分'])

Unnamed: 0_level_0,Unnamed: 1_level_0,评分
年代,产地,Unnamed: 2_level_1
1888,英国,7.950000
1890,美国,4.800000
1892,法国,7.500000
1894,法国,7.000000
1894,美国,6.450000
...,...,...
2016,法国,7.475000
2016,美国,6.540909
2016,英国,7.200000
2016,韩国,5.730000


#### 2.4.4 指定函数  aggfunc

In [66]:
pd.pivot_table(df,index=['年代','产地'],values=['投票人数'],aggfunc=np.sum)#投票人数的总计数

Unnamed: 0_level_0,Unnamed: 1_level_0,投票人数
年代,产地,Unnamed: 2_level_1
1888,英国,776
1890,美国,51
1892,法国,176
1894,法国,148
1894,美国,190
...,...,...
1965,中国台湾,461
1965,中国大陆,44280
1965,中国香港,1456
1965,俄罗斯,1389


通过将“投票人数”和“评分”列进行对应分组，对“产地”实现数据聚合和总结

In [67]:
pd.pivot_table(df,index=['产地'],values=['投票人数','评分'],aggfunc=[np.sum,np.mean])

Unnamed: 0_level_0,sum,sum,mean,mean
Unnamed: 0_level_1,投票人数,评分,投票人数,评分
产地,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
中国台湾,5237466,4367.2,8474.864078,7.066667
中国大陆,41435313,23058.0,10898.293793,6.064703
中国香港,23285389,18457.7,8167.446159,6.474114
丹麦,394784,1434.7,1993.858586,7.24596
俄罗斯,486127,3603.5,1019.134172,7.554507
其他,3053775,13888.2,1591.336634,7.237207
加拿大,1384765,4868.4,1915.304288,6.73361
印度,1146271,2453.4,3210.843137,6.872269
墨西哥,139613,843.4,1173.218487,7.087395
巴西,357136,733.5,3536.0,7.262376


#### 2.4.5 非数值处理 fillvalue

非数值（NaN）难以处理，如果想移除他们，可以使用 fill_value 将其设置为0

In [68]:
pd.pivot_table(df,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0)

Unnamed: 0_level_0,sum,sum,sum,sum,sum,mean,mean,mean,mean,mean
Unnamed: 0_level_1,Unnamed: 0.1,年代,投票人数,时长,评分,Unnamed: 0.1,年代,投票人数,时长,评分
产地,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
中国台湾,11959927,1235388,5237466,53925,4367.2,19352.632686,1999.009709,8474.864078,87.257282,7.066667
中国大陆,77537941,7621488,41435313,309608,23058.0,20393.987638,2004.599684,10898.293793,81.43293,6.064703
中国香港,54830747,5676627,23285389,252431,18457.7,19232.110488,1991.100316,8167.446159,88.541214,6.474114
丹麦,4042735,395820,394784,17444,1434.7,20417.853535,1999.090909,1993.858586,88.10101,7.24596
俄罗斯,9581404,946797,486127,45753,3603.5,20086.800839,1984.899371,1019.134172,95.918239,7.554507
其他,38510728,3835622,3053775,167097,13888.2,20068.122981,1998.760813,1591.336634,87.075039,7.237207
加拿大,14046604,1447780,1384765,57919,4868.4,19428.2213,2002.461964,1915.304288,80.109267,6.73361
印度,7342014,716133,1146271,43203,2453.4,20565.865546,2005.97479,3210.843137,121.016807,6.872269
墨西哥,2529161,237145,139613,10929,843.4,21253.453782,1992.815126,1173.218487,91.840336,7.087395
巴西,2134066,201987,357136,8869,733.5,21129.366337,1999.871287,3536.0,87.811881,7.262376


#### 2.4.6 计算总合数据 margins=True

在最后给出一行总和的数据

In [104]:
pd.pivot_table(df,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0,margins=True)

Unnamed: 0_level_0,sum,sum,sum,sum,mean,mean,mean,mean
Unnamed: 0_level_1,年代,投票人数,时长,评分,年代,投票人数,时长,评分
产地,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
中国台湾,1235388,5237466,53925,4367.2,1999.009709,8474.864078,87.257282,7.066667
中国大陆,7621488,41435313,309608,23058.0,2004.599684,10898.293793,81.43293,6.064703
中国香港,5676627,23285389,252431,18457.7,1991.100316,8167.446159,88.541214,6.474114
丹麦,395820,394784,17444,1434.7,1999.090909,1993.858586,88.10101,7.24596
俄罗斯,3006734,3167110,140761,11031.9,1992.534129,2098.813784,93.280981,7.310736
其他,3837588,3054119,167168,13895.9,1998.74375,1590.686979,87.066667,7.237448
加拿大,1447780,1384765,57919,4868.4,2002.461964,1915.304288,80.109267,6.73361
印度,716133,1146271,43203,2453.4,2005.97479,3210.843137,121.016807,6.872269
墨西哥,237145,139613,10929,843.4,1992.815126,1173.218487,91.840336,7.087395
巴西,201987,357136,8869,733.5,1999.871287,3536.0,87.811881,7.262376


#### 2.4.7 对不同值执行不同函数

可以向**aggfunc传递一个字典**。不过，这样做有一个副作用，那就是必须将标签做的更加简洁才性。

对各个产地的投票人数求和，对评分求均值

In [70]:
pd.pivot_table(df,index=['产地'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0)

Unnamed: 0_level_0,投票人数,评分
产地,Unnamed: 1_level_1,Unnamed: 2_level_1
中国台湾,5237466,7.066667
中国大陆,41435313,6.064703
中国香港,23285389,6.474114
丹麦,394784,7.24596
俄罗斯,486127,7.554507
其他,3053775,7.237207
加拿大,1384765,6.73361
印度,1146271,6.872269
墨西哥,139613,7.087395
巴西,357136,7.262376


对各个年份的投票人数求和，对评分求均值

In [77]:
pd.pivot_table(df,index=['年代'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0)

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1888,776,7.95
1890,51,4.8
1892,176,7.5
1894,338,6.633333
1895,7679,7.575
1896,7874,7.0375
1897,201,6.633333
1898,1157,7.45
1899,142,6.9
1900,1227,7.228571


**1994年被誉为电影史上伟大的一年，但是通过数据我们可以发现，1994年的平均分并不是很高。1924年的电影平均分最高。**

#### 2.4.8 透视表过滤

In [78]:
table = pd.pivot_table(df,index=['年代'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0)
table[table.index==1994]

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1994,5670752,7.262348


In [79]:
table.sort_values('评分',ascending=False)[:10]

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1924,10410,8.053571
1888,776,7.95
1928,16193,7.945
1912,761,7.92
1923,7668,7.883333
1922,16876,7.804545
1925,27607,7.788
1926,10203,7.773913
1916,7364,7.758333
1927,20163,7.751724


#### 2.4.9 按照多个索引来进行汇总

In [80]:
pd.pivot_table(df,index=['产地','年代'],values=['投票人数','评分'],aggfunc={'投票人数':np.sum,'评分':np.mean},fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,投票人数,评分
产地,年代,Unnamed: 2_level_1,Unnamed: 3_level_1
中国台湾,1963,121,6.400000
中国台湾,1965,461,6.800000
中国台湾,1966,51,7.900000
中国台湾,1967,4444,8.000000
中国台湾,1968,178,7.400000
...,...,...,...
韩国,2012,610829,6.064151
韩国,2013,1130983,6.098198
韩国,2014,453152,5.650833
韩国,2015,349808,5.423853
