# Python数据分析之Pandas-2 

**首先：读入我们上节课保存的数据文件movie_data.xlsx** 

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_excel(r"movie_data.xlsx",index_col=0)

In [4]:
df[:5]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


## 2.1 数据格式转换 

在做数据分析的时候，原始数据往往会因为各种各样的原因产生各种数据格式的问题。  
数据格式是我们非常需要注意的一点，数据格式错误往往会造成很严重的后果。  
并且，很多异常值也是我们经过格式转换后才会发现，对我们规整数据，清洗数据有着重要的作用。

### 查看格式 

In [5]:
df["投票人数"].dtype

dtype('int64')

In [6]:
df["投票人数"].astype(int)

0        692795
1         42995
2        327855
3        580897
4        478523
          ...  
38734        57
38735        95
38736        51
38737        32
38738    123456
Name: 投票人数, Length: 38169, dtype: int32

In [7]:
df.head()

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


In [8]:
df["产地"].dtype

dtype('O')

In [9]:
df["产地"] = df["产地"].astype("str")

### 将年份转化为整数格式 

In [10]:
df["年代"] = df["年代"].astype(int)

ValueError: invalid literal for int() with base 10: '2008\u200e'

In [11]:
df[df.年代 == "2008\u200e"] #找到异常数据

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
15205,狂蟒惊魂,544,恐怖,中国大陆,2008-04-08 00:00:00,93,2008‎,2.7,美国


In [12]:
df[df.年代 == "2008\u200e"]["年代"].values #后面是unicode的控制字符，使得其显示靠左，因此需要处理删除

array(['2008\u200e'], dtype=object)

In [13]:
df.loc[15205,'年代']=2008

In [14]:
df.loc[15205]

名字                     狂蟒惊魂
投票人数                    544
类型                       恐怖
产地                     中国大陆
上映时间    2008-04-08 00:00:00
时长                       93
年代                     2008
评分                      2.7
首映地点                     美国
Name: 15205, dtype: object

In [15]:
df["年代"] = df["年代"].astype("int")

In [16]:
df["年代"].head()

0    1994
1    1957
2    1997
3    1994
4    1993
Name: 年代, dtype: int32

### 将时长转化为整数格式 

In [17]:
df["时长"] = df["时长"].astype("int")

ValueError: invalid literal for int() with base 10: '8U'

In [18]:
df[df["时长"] == "8U"] #寻找异常值，不知道怎么改的话可以删除

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
31644,一个被隔绝的世界,46,纪录片/短片,瑞典,2001-10-25 00:00:00,8U,1948,7.8,美国


In [19]:
df.drop([31644],inplace=True)

In [20]:
df["时长"] = df["时长"].astype("int")

ValueError: invalid literal for int() with base 10: '12J'

In [21]:
df[df["时长"] == "12J"]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
32949,渔业危机,41,纪录片,英国,2009-06-19 00:00:00,12J,2008,8.2,USA


In [22]:
df.drop([32949], inplace = True) #删数据

In [23]:
df["时长"] = df["时长"].astype("int")

In [24]:
df.head()

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港


## 2.2 排序 

### 默认排序 

In [25]:
df[:10]

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
1,控方证人,42995,剧情/悬疑/犯罪,美国,1957-12-17 00:00:00,116,1957,9.5,美国
2,美丽人生,327855,剧情/喜剧/爱情,意大利,1997-12-20 00:00:00,116,1997,9.5,意大利
3,阿甘正传,580897,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
4,霸王别姬,478523,剧情/爱情/同性,中国大陆,1993-01-01 00:00:00,171,1993,9.4,香港
5,泰坦尼克号,157074,剧情/爱情/灾难,美国,2012-04-10 00:00:00,194,2012,9.4,中国大陆
6,辛德勒的名单,306904,剧情/历史/战争,美国,1993-11-30 00:00:00,195,1993,9.4,华盛顿首映
7,新世纪福音战士剧场版：Air/真心为你 新世紀エヴァンゲリオン劇場版 Ai,24355,剧情/动作/科幻/动画/奇幻,日本,1997-07-19 00:00:00,87,1997,9.4,日本
8,银魂完结篇：直到永远的万事屋 劇場版 銀魂 完結篇 万事屋よ,21513,剧情/动画,日本,2013-07-06 00:00:00,110,2013,9.4,日本
9,这个杀手不太冷,662552,剧情/动作/犯罪,法国,1994-09-14 00:00:00,133,1994,9.4,法国


### 按照投票人数进行排序 

In [26]:
df.sort_values(by='投票人数',ascending=False).head()

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
0,肖申克的救赎,692795,剧情/犯罪,美国,1994-09-10 00:00:00,142,1994,9.6,多伦多电影节
9,这个杀手不太冷,662552,剧情/动作/犯罪,法国,1994-09-14 00:00:00,133,1994,9.4,法国
22,盗梦空间,642134,剧情/动作/科幻/悬疑/冒险,美国,2010-09-01 00:00:00,148,2010,9.2,中国大陆
3,阿甘正传,580897,剧情/爱情,美国,1994-06-23 00:00:00,142,1994,9.4,洛杉矶首映
99,三傻大闹宝莱坞,549808,剧情/喜剧/爱情/歌舞,印度,2011-12-08 00:00:00,171,2009,9.1,中国大陆


### 按照年代进行排序

In [27]:
df.sort_values(by="年代")

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
1700,朗德海花园场景,650,短片,英国,1888-10-14,60,1888,8.700000,美国
14048,利兹大桥,126,短片,英国,1888-10,60,1888,7.200000,美国
26170,恶作剧,51,短片,美国,1905-03-04 00:00:00,60,1890,4.800000,美国
10627,可怜的比埃洛,176,喜剧/爱情/动画/短片,法国,1892-10-28,60,1892,7.500000,法国
21765,胚胎植入前遗传学筛查,69,纪录片/短片,美国,1894-05-18,60,1894,5.700000,美国
...,...,...,...,...,...,...,...,...,...
38042,大风水师,71,剧情/奇幻,中国大陆,2016-05-01 00:00:00,80,2016,4.600000,美国
4834,撤离科威特,317,剧情/动作/惊悚/传记,印度,2016-01-22 00:00:00,130,2016,6.900000,美国
38738,复仇者联盟3,123456,剧情/科幻,美国,2018-05-04 00:00:00,142,2018,6.935704,美国
13882,武之舞,128,纪录片,中国大陆,1997-02-01 00:00:00,60,34943,9.900000,美国


### 多个值排序，先按照评分，再按照投票人数 

In [28]:
df.sort_values(by=['评分','投票人数'],ascending=[False,True]).head()

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
25273,索科洛夫：巴黎现场,43,音乐,法国,2002-11-04 00:00:00,127,2002,9.9,美国
23559,未作回答的问题：伯恩斯坦哈佛六讲,61,纪录片,美国,1905-05-29 00:00:00,60,1973,9.9,美国
13882,武之舞,128,纪录片,中国大陆,1997-02-01 00:00:00,60,34943,9.9,美国
9278,平安结祈 平安結,208,音乐,日本,2012-02-24 00:00:00,60,2012,9.9,美国
31092,急救精英,37,纪录片,美国,1905-06-27 00:00:00,60,2008,9.8,美国


## 2.3 基本统计分析 

（ 1 ）描述性统计

dataframe.describe()：对dataframe中的数值型数据进行描述性统计

In [29]:
df.describe()

Unnamed: 0,投票人数,时长,年代,评分
count,38167.0,38167.0,38167.0,38167.0
mean,6268.131291,89.475594,1998.805277,6.922154
std,26298.331602,83.763856,255.065396,1.263782
min,21.0,1.0,1888.0,2.0
25%,101.0,60.0,1990.0,6.3
50%,354.0,93.0,2005.0,7.1
75%,1798.5,106.0,2010.0,7.8
max,692795.0,11500.0,39180.0,9.9


### 通过描述性统计，可以发现一些异常值，很多异常值往往是需要我们逐步去发现的。 

In [30]:
df[df["年代"] > 2018] #异常值

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
13882,武之舞,128,纪录片,中国大陆,1997-02-01 00:00:00,60,34943,9.9,美国
17115,妈妈回来吧-中国打工村的孩子,49,纪录片,日本,2007-04-08 00:00:00,109,39180,8.9,美国


In [31]:
df[df["时长"] > 1000] #异常值

Unnamed: 0,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点
19690,怒海余生,54,剧情/家庭/冒险,美国,1937-09-01 00:00:00,11500,1937,7.9,美国
38730,喧闹村的孩子们,36,家庭,瑞典,1986-12-06 00:00:00,9200,1986,8.7,瑞典


In [32]:
df.drop(df[df["年代"] > 2018].index,inplace=True)
df.drop(df[df["时长"] > 1000].index,inplace=True)

In [33]:
df.index = range(len(df)) #解决删除后索引不连续的问题

（ 2 ）最值

In [34]:
df["投票人数"].max()

692795

In [35]:
df["投票人数"].min()

21

In [36]:
df["评分"].max()

9.9

In [37]:
df["评分"].min()

2.0

In [38]:
df["年代"].min()

1888

（ 3 ）均值和中值

In [39]:
df["投票人数"].mean()

6268.7812802976705

In [40]:
df["投票人数"].median()

354.0

In [41]:
df["评分"].mean()

6.921951515969828

In [42]:
df["评分"].median()

7.1

（ 4 ）方差和标准差

In [43]:
df["评分"].var()

1.5968697056255758

In [44]:
df["评分"].std()

1.263673100776295

（ 5 ）求和

In [45]:
df["投票人数"].sum()

239235500

（ 6 ）相关系数和协方差

In [46]:
df[["投票人数","评分"]].corr()

Unnamed: 0,投票人数,评分
投票人数,1.0,0.126953
评分,0.126953,1.0


In [47]:
df[["投票人数", "评分"]].cov()

Unnamed: 0,投票人数,评分
投票人数,691670700.0,4219.174348
评分,4219.174,1.59687


（ 7 ）计数

In [48]:
len(df)

38163

In [52]:
df['产地'].unique()

array(['美国', '意大利', '中国大陆', '日本', '法国', '英国', '韩国', '中国香港', '阿根廷', '德国',
       '印度', '其他', '加拿大', '波兰', '泰国', '澳大利亚', '西班牙', '俄罗斯', '中国台湾', '荷兰',
       '丹麦', '比利时', '苏联', '巴西', '瑞典', '西德', '墨西哥'], dtype=object)

In [53]:
len(df["产地"].unique())

27

### 产地中包含了一些重复的数据，比如美国和USA，德国和西德，俄罗斯和苏联
我们可以通过数据替换的方法将这些相同国家的电影数据合并一下。

In [51]:
df["产地"].replace("USA","美国",inplace=True)

In [54]:
df["产地"].replace(["USA","苏联"],["德国","俄罗斯"],inplace=True)

In [55]:
len(df["产地"].unique())

26

In [62]:
df["年代"].unique()

array([1994, 1957, 1997, 1993, 2012, 2013, 2003, 2016, 2009, 2008, 2001,
       1931, 1961, 2010, 2004, 1998, 1972, 1939, 2015, 1946, 2011, 1982,
       1960, 2006, 1988, 2002, 1995, 1996, 1984, 2014, 1953, 2007, 2000,
       1967, 1983, 1963, 1977, 1966, 1971, 1974, 1985, 1987, 1973, 1962,
       1969, 1989, 1979, 1981, 1936, 1954, 1992, 1970, 1991, 2005, 1920,
       1933, 1990, 1999, 1896, 1965, 1921, 1947, 1975, 1964, 1943, 1928,
       1986, 1895, 1949, 1932, 1905, 1940, 1908, 1900, 1978, 1951, 1958,
       1898, 1976, 1938, 1907, 1948, 1952, 1926, 1955, 1906, 1959, 1934,
       1944, 1888, 1909, 1925, 1956, 1923, 1945, 1913, 1903, 1904, 1980,
       1968, 1917, 1935, 1942, 1950, 1902, 1941, 1930, 1937, 1922, 1916,
       1929, 1927, 1919, 1914, 1912, 1924, 1918, 1899, 1901, 1915, 1892,
       1894, 1910, 1897, 1911, 1890, 2018])

In [56]:
len(df["年代"].unique())

127

计算每一年电影的数量：

In [58]:
df["年代"].value_counts().head()

2012    2018
2013    1977
2008    1926
2014    1867
2010    1863
Name: 年代, dtype: int64

电影产出前5的国家或地区：

In [59]:
df["产地"].value_counts()[:5]

美国      11714
日本       5006
中国大陆     3791
中国香港     2847
法国       2787
Name: 产地, dtype: int64

**保存数据**

In [60]:
df.to_excel("movie_data2.xlsx")

## 2.4 数据透视 

Excel中数据透视表的使用非常广泛，其实Pandas也提供了一个类似的功能，名为pivot_table。

pivot_table非常有用，我们将重点解释pandas中的函数pivot_table。

使用pandas中的pivot_table的一个挑战是，你需要确保你理解你的数据，并清楚地知道你想通过透视表解决什么问题。虽然pivot_table看起来只是一个简单的函数，但是它能够快速地对数据进行强大的分析。

1、基础形式

In [67]:
pd.set_option("display.max_columns",10) #设置可展示的行和列，让数据进行完整展示
pd.set_option("display.max_rows",5)

In [68]:
pd.pivot_table(df, index = ["年代"]) #统计各个年代中所有数值型数据的均值（默认）

Unnamed: 0_level_0,投票人数,时长,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1888,388.000000,60.000000,7.950000
1890,51.000000,60.000000,4.800000
...,...,...,...
2016,7341.388889,91.646825,5.834524
2018,123456.000000,142.000000,6.935704


2、也可以有多个索引。实际上，大多数的pivot_table参数可以通过列表获取多个值。

In [69]:
pd.pivot_table(df, index = ["年代", "产地"]) #双索引

Unnamed: 0_level_0,Unnamed: 1_level_0,投票人数,时长,评分
年代,产地,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1888,英国,388.00,60.0,7.950000
1890,美国,51.00,60.0,4.800000
...,...,...,...,...
2016,韩国,1739.85,106.1,5.730000
2018,美国,123456.00,142.0,6.935704


3、也可以指定需要统计汇总的数据

In [70]:
pd.pivot_table(df, index = ["年代", "产地"], values = ["评分"])

Unnamed: 0_level_0,Unnamed: 1_level_0,评分
年代,产地,Unnamed: 2_level_1
1888,英国,7.950000
1890,美国,4.800000
...,...,...
2016,韩国,5.730000
2018,美国,6.935704


4、还可以指定函数，来统计不同的统计值

In [71]:
pd.pivot_table(df, index = ["年代", "产地"], values=['投票人数'],aggfunc=np.sum)

Unnamed: 0_level_0,Unnamed: 1_level_0,投票人数
年代,产地,Unnamed: 2_level_1
1888,英国,776
1890,美国,51
...,...,...
2016,韩国,34797
2018,美国,123456


通过将“投票人数”列和“评分”列进行对应分组，对“产地”实现数据聚合和总结。

In [72]:
pd.pivot_table(df, index = ["产地"], values = ["投票人数", "评分"], aggfunc = [np.sum, np.mean])

Unnamed: 0_level_0,sum,sum,mean,mean
Unnamed: 0_level_1,投票人数,评分,投票人数,评分
产地,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
中国台湾,5237466,4367.2,8474.864078,7.066667
中国大陆,41380993,22984.8,10915.587708,6.062991
...,...,...,...,...
阿根廷,258085,819.1,2283.938053,7.248673
韩国,8759930,8523.2,6527.518629,6.351118


5、非数值（NaN）难以处理。如果想移除它们，可以使用“fill_value”将其设置为0。

In [74]:
pd.pivot_table(df,index=['产地'],aggfunc=[np.sum,np.mean],fill_value=0)

Unnamed: 0_level_0,sum,sum,sum,sum,mean,mean,mean,mean
Unnamed: 0_level_1,年代,投票人数,时长,评分,年代,投票人数,时长,评分
产地,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
中国台湾,1235388,5237466,53925,4367.2,1999.009709,8474.864078,87.257282,7.066667
中国大陆,7599372,41380993,309031,22984.8,2004.582432,10915.587708,81.517014,6.062991
...,...,...,...,...,...,...,...,...
阿根廷,226476,258085,10458,819.1,2004.212389,2283.938053,92.548673,7.248673
韩国,2694873,8759930,134225,8523.2,2008.102086,6527.518629,100.018629,6.351118


6、加入margins = True，可以在下方显示一些总和数据。

In [75]:
pd.pivot_table(df, index = ["产地"], aggfunc = [np.sum, np.mean], fill_value = 0, margins = True)

Unnamed: 0_level_0,sum,sum,sum,sum,mean,mean,mean,mean
Unnamed: 0_level_1,年代,投票人数,时长,评分,年代,投票人数,时长,评分
产地,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
中国台湾,1235388,5237466,53925,4367.200000,1999.009709,8474.864078,87.257282,7.066667
中国大陆,7599372,41380993,309031,22984.800000,2004.582432,10915.587708,81.517014,6.062991
...,...,...,...,...,...,...,...,...
韩国,2694873,8759930,134225,8523.200000,2008.102086,6527.518629,100.018629,6.351118
All,76210355,239235500,3394146,264162.435704,1996.969709,6268.781280,88.938134,6.921952


7、对不同值执行不同的函数：可以向aggfunc传递一个字典。不过，这样做有一个副作用，那就是必须将标签做的更加整洁才行。

In [76]:
pd.pivot_table(df, index = ["产地"], values = ["投票人数", "评分"], aggfunc = {"投票人数":np.sum, "评分":np.mean}, fill_value = 0)

Unnamed: 0_level_0,投票人数,评分
产地,Unnamed: 1_level_1,Unnamed: 2_level_1
中国台湾,5237466,7.066667
中国大陆,41380993,6.062991
...,...,...
阿根廷,258085,7.248673
韩国,8759930,6.351118


对各个地区的投票人数求和，对评分求均值

对各个年份的投票人数求和，对评分求均值

In [77]:
pd.pivot_table(df, index = ["年代"], values = ["投票人数", "评分"], aggfunc = {"投票人数":np.sum, "评分":np.mean}, fill_value = 0, margins = True)

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1888,776,7.950000
1890,51,4.800000
...,...,...
2018,123456,6.935704
All,239235500,6.921952


###  透视表过滤 

In [78]:
table = pd.pivot_table(df, index = ["年代"], values = ["投票人数", "评分"], aggfunc = {"投票人数":np.sum, "评分":np.mean}, fill_value = 0)

In [79]:
type(table)

pandas.core.frame.DataFrame

In [80]:
table[:5]

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1888,776,7.95
1890,51,4.8
1892,176,7.5
1894,338,6.633333
1895,7679,7.575


**1994年被誉为电影史上最伟大的一年，但是通过数据我们可以发现，1994年的平均得分其实并不是很高。1924年的电影均分最高。**

In [81]:
table[table.index == 1994]

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1994,5668165,7.25726


In [82]:
table.sort_values("评分", ascending = False)

Unnamed: 0_level_0,投票人数,评分
年代,Unnamed: 1_level_1,Unnamed: 2_level_1
1924,10382,8.059259
1928,16133,7.964103
...,...,...
2016,1850030,5.834524
1890,51,4.800000


**同样的，我们也可以按照多个索引来进行汇总。**

In [83]:
pd.pivot_table(df, index = ["产地", "年代"], values = ["投票人数", "评分"], aggfunc = {"投票人数":np.sum, "评分":np.mean}, fill_value = 0)

Unnamed: 0_level_0,Unnamed: 1_level_0,投票人数,评分
产地,年代,Unnamed: 2_level_1,Unnamed: 3_level_1
中国台湾,1963,121,6.400000
中国台湾,1965,461,6.800000
...,...,...,...
韩国,2015,349808,5.423853
韩国,2016,34797,5.730000
