## 探索电影数据集

在这个项目中，你将尝试使用所学的知识，使用 `NumPy`、`Pandas`、`matplotlib`、`seaborn` 库中的函数，来对电影数据集进行探索。

下载数据集：
[TMDb电影数据](https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/explore+dataset/tmdb-movies.csv)


数据集各列名称的含义：
<table>
<thead><tr><th>列名称</th><th>id</th><th>imdb_id</th><th>popularity</th><th>budget</th><th>revenue</th><th>original_title</th><th>cast</th><th>homepage</th><th>director</th><th>tagline</th><th>keywords</th><th>overview</th><th>runtime</th><th>genres</th><th>production_companies</th><th>release_date</th><th>vote_count</th><th>vote_average</th><th>release_year</th><th>budget_adj</th><th>revenue_adj</th></tr></thead><tbody>
 <tr><td>含义</td><td>编号</td><td>IMDB 编号</td><td>知名度</td><td>预算</td><td>票房</td><td>名称</td><td>主演</td><td>网站</td><td>导演</td><td>宣传词</td><td>关键词</td><td>简介</td><td>时常</td><td>类别</td><td>发行公司</td><td>发行日期</td><td>投票总数</td><td>投票均值</td><td>发行年份</td><td>预算（调整后）</td><td>票房（调整后）</td></tr>
</tbody></table>


**请注意，你需要提交该报告导出的 `.html`、`.ipynb` 以及 `.py` 文件。**



---

---

## 第一节 数据的导入与处理

在这一部分，你需要编写代码，使用 Pandas 读取数据，并进行预处理。


**任务1.1：** 导入库以及数据

1. 载入需要的库 `NumPy`、`Pandas`、`matplotlib`、`seaborn`。
2. 利用 `Pandas` 库，读取 `tmdb-movies.csv` 中的数据，保存为 `movie_data`。

提示：记得使用 notebook 中的魔法指令 `%matplotlib inline`，否则会导致你接下来无法打印出图像。

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb

%matplotlib inline

In [2]:
movie_data = pd.read_csv('tmdb-movies.csv')

---

**任务1.2: ** 了解数据

你会接触到各种各样的数据表，因此在读取之后，我们有必要通过一些简单的方法，来了解我们数据表是什么样子的。

1. 获取数据表的行列，并打印。
2. 使用 `.head()`、`.tail()`、`.sample()` 方法，观察、了解数据表的情况。
3. 使用 `.dtypes` 属性，来查看各列数据的数据类型。
4. 使用 `isnull()` 配合 `.any()` 等方法，来查看各列是否存在空值。
5. 使用 `.describe()` 方法，看看数据表中数值型的数据是怎么分布的。



### 通关提示 ：把上面的每个方法都要运行一遍
* `.head(n=5)`、`.tail(n=5)`、`.sample(n=1)`都可以传入相应的数量
* `.dtypes`查看数据类型有助于我们对数据做修改、赋值等处理
* `isnull()`配合 `.any()`、 `.sum()`是检查Nan值的常用方法
* `.describe()` 会返回各个数值类型列的分位数、平均值、最大最小值等信息。分位数的计算可以使用`series.quantile()`方法。   
https://www.cnblogs.com/gispathfinder/p/5770091.html

In [3]:
# .head()


In [None]:
# .tril()


In [None]:
# .sample()


In [5]:
#..dtypes


In [None]:
#.isnull() .any()


In [6]:
# .describe()
movie_data.describe()

Unnamed: 0,id,popularity,budget,revenue,runtime,vote_count,vote_average,release_year,budget_adj,revenue_adj
count,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0
mean,66064.177434,0.646441,14625700.0,39823320.0,102.070863,217.389748,5.974922,2001.322658,17551040.0,51364360.0
std,92130.136561,1.000185,30913210.0,117003500.0,31.381405,575.619058,0.935142,12.812941,34306160.0,144632500.0
min,5.0,6.5e-05,0.0,0.0,0.0,10.0,1.5,1960.0,0.0,0.0
25%,10596.25,0.207583,0.0,0.0,90.0,17.0,5.4,1995.0,0.0,0.0
50%,20669.0,0.383856,0.0,0.0,99.0,38.0,6.0,2006.0,0.0,0.0
75%,75610.0,0.713817,15000000.0,24000000.0,111.0,145.75,6.6,2011.0,20853250.0,33697100.0
max,417859.0,32.985763,425000000.0,2781506000.0,900.0,9767.0,9.2,2015.0,425000000.0,2827124000.0


In [11]:
movie_data.id.quantile([0.33, 0.75])

0.33    12473.9
0.75    75610.0
Name: id, dtype: float64

---

**任务1.3: ** 清理数据

在真实的工作场景中，数据处理往往是最为费时费力的环节。但是幸运的是，我们提供给大家的 tmdb 数据集非常的「干净」，不需要大家做特别多的数据清洗以及处理工作。在这一步中，你的核心的工作主要是对数据表中的空值进行处理。你可以使用 `.fillna()` 来填补空值，当然也可以使用 `.dropna()` 来丢弃数据表中包含空值的某些行或者列。

任务：使用适当的方法来清理空值，并将得到的数据保存。

### 通关必备：
1. 表格中的数据类型分为两大类，字符类型和数值类型，字符类型是object，数值类型包括 int64 和 float64。其中，数值类型的空值已经再数据中用数值0表示，字符类型的数据是Nan,处理的适合可以分开处理。   
2. 可以使用`movie_data.info()`查看各个列的数据类型和数据长度。
3. 使用`movie_data.select_dtypes(inlude=)`可以根据数据类型赛选数据。
4. 使用`replace(0, np.nan)`可以把数据0替换为Nan。
5. 使用`dropna(subset=[])`对指定列进行操作。
6. 使用`fillna(value= )`把Nan的值填充为指定值。
7. 使用`interpolate()`对数值类型列的Nan值做插值填充。

In [14]:
# 使用movie_data.info()查看各个列的数据类型和数据长度
movie_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10866 entries, 0 to 10865
Data columns (total 21 columns):
id                      10866 non-null int64
imdb_id                 10856 non-null object
popularity              10866 non-null float64
budget                  10866 non-null int64
revenue                 10866 non-null int64
original_title          10866 non-null object
cast                    10790 non-null object
homepage                2936 non-null object
director                10822 non-null object
tagline                 8042 non-null object
keywords                9373 non-null object
overview                10862 non-null object
runtime                 10866 non-null int64
genres                  10843 non-null object
production_companies    9836 non-null object
release_date            10866 non-null object
vote_count              10866 non-null int64
vote_average            10866 non-null float64
release_year            10866 non-null int64
budget_adj              1

In [13]:
# 查看非数值类型的格列Nan的个数
movie_data.isnull().sum()

id                         0
imdb_id                   10
popularity                 0
budget                     0
revenue                    0
original_title             0
cast                      76
homepage                7930
director                  44
tagline                 2824
keywords                1493
overview                   4
runtime                    0
genres                    23
production_companies    1030
release_date               0
vote_count                 0
vote_average               0
release_year               0
budget_adj                 0
revenue_adj                0
dtype: int64

In [None]:
# 因为imdb_id、overview，genres的包含nan的值较少，
# 所以这里drop掉这些包含non值的行，不会过分影响数据

# 其他列含nan的值填充'Unknown'


In [None]:
# 再次查看数值类型的格列Nan的个数， 确认处理结果


In [17]:
# 根据movie_data.describe()，budget、revenue、budget_adj、revenue_adj 
# 这4列数据存在大量的0
print(movie_data[(movie_data.budget == 0)].budget.value_counts())
print(movie_data[(movie_data.revenue == 0)].revenue.value_counts())

0    5696
Name: budget, dtype: int64
0    6016
Name: revenue, dtype: int64


In [20]:
# 把0值替换为 nan
movie_data[['budget', 'revenue', 'budget_adj', 'revenue_adj' ]].replace(0, np.nan)
# 把nan做插值
movie_data.interpolate?

In [None]:
# 查看是否处理完
movie_data.describe()

---

---

## 第二节 根据指定要求读取数据


相比 Excel 等数据分析软件，Pandas 的一大特长在于，能够轻松地基于复杂的逻辑选择合适的数据。因此，如何根据指定的要求，从数据表当获取适当的数据，是使用 Pandas 中非常重要的技能，也是本节重点考察大家的内容。



---

**任务2.1: ** 简单读取

1. 读取数据表中名为 `id`、`popularity`、`budget`、`runtime`、`vote_average` 列的数据。
2. 读取数据表中前1～20行以及48、49行的数据。
3. 读取数据表中第50～60行的 `popularity` 那一列的数据。

要求：每一个语句只能用一行代码实现。

### 通关必备：
1. 读取多列 `movie_data[]`中传入一个list.
2. 读取多行`movie_data.iloc[]`中传入一个list
3. 某行某列`movie['popularity'].iloc[]`先选列再选行

In [None]:
movie_data[[]]

In [22]:
movie_data.iloc[[1,2,3, 48, 49]]

Unnamed: 0,id,imdb_id,popularity,budget,revenue,original_title,cast,homepage,director,tagline,...,overview,runtime,genres,production_companies,release_date,vote_count,vote_average,release_year,budget_adj,revenue_adj
1,76341,tt1392190,28.419936,150000000,378436354,Mad Max: Fury Road,Tom Hardy|Charlize Theron|Hugh Keays-Byrne|Nic...,http://www.madmaxmovie.com/,George Miller,What a Lovely Day.,...,An apocalyptic story set in the furthest reach...,120,Action|Adventure|Science Fiction|Thriller,Village Roadshow Pictures|Kennedy Miller Produ...,5/13/15,6185,7.1,2015,137999900.0,348161300.0
2,262500,tt2908446,13.112507,110000000,295238201,Insurgent,Shailene Woodley|Theo James|Kate Winslet|Ansel...,http://www.thedivergentseries.movie/#insurgent,Robert Schwentke,One Choice Can Destroy You,...,Beatrice Prior must confront her inner demons ...,119,Adventure|Science Fiction|Thriller,Summit Entertainment|Mandeville Films|Red Wago...,3/18/15,2480,6.3,2015,101200000.0,271619000.0
3,140607,tt2488496,11.173104,200000000,2068178225,Star Wars: The Force Awakens,Harrison Ford|Mark Hamill|Carrie Fisher|Adam D...,http://www.starwars.com/films/star-wars-episod...,J.J. Abrams,Every generation has a story.,...,Thirty years after defeating the Galactic Empi...,136,Action|Adventure|Science Fiction|Fantasy,Lucasfilm|Truenorth Productions|Bad Robot,12/15/15,5292,7.5,2015,183999900.0,1902723000.0
48,265208,tt2231253,2.93234,30000000,0,Wild Card,Jason Statham|Michael Angarano|Milo Ventimigli...,,Simon West,Never bet against a man with a killer hand.,...,When a Las Vegas bodyguard with lethal skills ...,92,Thriller|Crime|Drama,Current Entertainment|Lionsgate|Sierra / Affin...,1/14/15,481,5.3,2015,27599990.0,0.0
49,254320,tt3464902,2.885126,4000000,9064511,The Lobster,Colin Farrell|Rachel Weisz|LÃ©a Seydoux|John C...,http://tickets.picturehouseentertainment.co.uk...,Yorgos Lanthimos,An unconventional love story...,...,"In a dystopian near future, single people, acc...",118,Thriller|Comedy|Drama|Romance|Science Fiction,Haut et Court|Eurimages|Lemming Film|Element P...,10/8/15,638,6.6,2015,3679998.0,8339346.0


In [None]:
movie['popularity'].iloc[[]]
movie.iloc[[]].popularity

---

**任务2.2: **逻辑读取（Logical Indexing）

1. 读取数据表中 **`popularity` 大于5** 的所有数据。
2. 读取数据表中 **`popularity` 大于5** 的所有数据且**发行年份在1996年之后**的所有数据。

提示：Pandas 中的逻辑运算符如 `&`、`|`，分别代表`且`以及`或`。

要求：请使用 Logical Indexing实现。

### 通关必备
条件筛选：`movie_data[(movie_data['popularity'] > 5) & (movie_data['popularity'] < 7)]`

---

**任务2.3: **分组读取

1. 对 `release_year` 进行分组，使用 [`.agg`](http://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.core.groupby.DataFrameGroupBy.agg.html) 获得 `revenue` 的均值。
2. 对 `director` 进行分组，使用 [`.agg`](http://pandas.pydata.org/pandas-docs/version/0.22/generated/pandas.core.groupby.DataFrameGroupBy.agg.html) 获得 `popularity` 的均值，从高到低排列。

要求：使用 `Groupby` 命令实现。

### 通关必备
1. .agg()可以传入一个函数名，比如'sum'按列计算和，'mean'按列计算平均值。
2. .agg()返回一个DataFrame， 然后再选取'revenue'列
3. 使用`sort_values('列名', ascending=False)`进行排序，ascending参数为True是升序，False是降序

In [28]:
movie_data.groupby('release_year').agg('sum')

Unnamed: 0_level_0,id,popularity,budget,revenue,runtime,vote_count,vote_average,budget_adj,revenue_adj
release_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1960,502889,14.685834,22056948,145005000,3541,2481,202.4,162625200.0,1069117000.0
1961,578367,13.107641,46137000,337720188,3702,2405,197.6,336563000.0,2463622000.0
1962,544034,14.553069,54722126,215579846,3979,2392,203.0,394461600.0,1553996000.0
1963,562904,17.092019,73331500,187404989,3785,2816,215.2,522133400.0,1334357000.0
1964,729942,17.321989,39483161,340981782,4587,3137,260.9,277577200.0,2397193000.0
1965,614765,11.990529,70205115,458081854,4136,1820,216.8,485859000.0,3170185000.0
1966,759644,13.989152,57554800,84736689,4917,1460,281.9,386654000.0,569262300.0
1967,697188,18.846147,100652200,737834637,4198,3102,249.7,657939700.0,4823051000.0
1968,726515,18.883866,71939000,264732980,4184,4217,248.8,450983000.0,1659601000.0
1969,591357,13.106127,42129087,243957076,3304,1733,184.8,250426400.0,1450145000.0


---

---

## 第三节 绘图与可视化

接着你要尝试对你的数据进行图像的绘制以及可视化。这一节最重要的是，你能够选择合适的图像，对特定的可视化目标进行可视化。所谓可视化的目标，是你希望从可视化的过程中，观察到怎样的信息以及变化。例如，观察票房随着时间的变化、哪个导演最受欢迎等。

<table>
<thead><tr><th>可视化的目标</th><th>可以使用的图像</th></tr></thead><tbody>
 <tr><td>表示某一属性数据的分布</td><td>饼图、直方图、散点图</td></tr>
 <tr><td>表示某一属性数据随着某一个变量变化</td><td>条形图、折线图、热力图</td></tr>
 <tr><td>比较多个属性的数据之间的关系</td><td>散点图、小提琴图、堆积条形图、堆积折线图</td></tr>
</tbody></table>

在这个部分，你需要根据题目中问题，选择适当的可视化图像进行绘制，并进行相应的分析。对于选做题，他们具有一定的难度，你可以尝试挑战一下～

**任务3.1：**对 `popularity` 最高的20名电影绘制其 `popularity` 值。

### 通关必备
1. 首先按照'popularity'对movie_data按降序排序`.sort_values('列名', ascending=False)`，并取出排在前20的数据，保存为popularity_movies。
2. 针对popularity_movies，选择适合的图形，图中坐标轴，一个是original_title，一个是popularity。
3. 如果画条形图，使用sb.barplot()，或者pandas自带的api,plot.barh(), 又或者使用matplotlib直接画图

In [None]:
# 按popularity排序，取出前20
popularity_movies = movie_data.sort_values('popularity', ascending=False)[][:20]

In [None]:
# 画图


---
**任务3.2：**分析电影净利润（票房-成本）随着年份变化的情况，并简单进行分析。

### 通关必备：
1. profit = revenue - budge
2. 可以求出每年利润的平均值(mean)再画图, 还可以求出标准差作为误差(sem)
3. 使用`plt.errorbar()`画图，或者使用pandas api画图 `.plot(x = y_means.index, yerr=y_sems)`

In [None]:
# 计算利润 movie_data['revenue'] - movie_data['budget']


In [None]:
# 计算平均值和标准差
y_means = movie_data.groupby('release_year')['profit'].mean()
y_sems = movie_data.groupby('release_year')['profit'].sem()

In [None]:
# 使用plt画图


分析：

---

**[选做]任务3.3：**选择最多产的10位导演（电影数量最多的），绘制他们排行前3的三部电影的票房情况，并简要进行分析。

### 通关必备： 
1. 原来数据中单部电影多名导演是用’|’隔开的， 会需要处理包含'|'的director数据
2. 讲director数据分成两类，第一类分为带分割符的，第二类分为带分割符的， 把第一类数据融入第二类数据中。比如，如果导演数据是'Kyle Balda|Pierre Coffin',这需要把其分为Kyle Balda和Coffin做处理。
3. 使用value_counts来快速统计每个导演的作品数量。
4. 根据统计结果找到排名前十的导演。
5. 然后找到排名前十导演的前3部最受欢迎的电影。
6. 画图，建议使用`sb.barplot(data=target_data, x='original_title', y='revenue_adj', hue='director')`

In [39]:
movie_data.dropna(inplace=True)

In [45]:
select_split_director = movie_data.director.str.contains('\|')
split_director = movie_data[select_split_director].director.str.split('|')

In [46]:
split_director

8                             [Kyle Balda, Pierre Coffin]
11                      [Lana Wachowski, Lilly Wachowski]
64                            [Glenn Ficarra, John Requa]
132                       [Mark Burton, Richard Starzack]
143                       [Gerado Olivares, Otmar Penker]
214                              [Ryan Fleck, Anna Boden]
239                         [Toby Genkel, Sean McCormack]
241                            [Jill Bauer, Ronna Gradus]
242                          [Travis Cluff, Chris Lofing]
255                             [Tom Gianas, Ross Shuman]
397                            [Ben Blaine, Chris Blaine]
596                       [Robert Gordon, Morgan Neville]
631                            [Joe Russo, Anthony Russo]
632                        [Chad Stahelski, David Leitch]
635                            [Don Hall, Chris Williams]
666                       [Phil Lord, Christopher Miller]
676                       [Phil Lord, Christopher Miller]
710           

In [47]:
non_split_director = movie_data[~select_split_director].director.value_counts()

In [48]:
non_split_director

John Carpenter          17
Steven Soderbergh       11
Steven Spielberg        11
Clint Eastwood           8
Peter Jackson            8
Robert Zemeckis          8
Ridley Scott             8
Paul W.S. Anderson       7
Christopher Nolan        7
David Fincher            7
Ron Howard               7
Martin Scorsese          7
Quentin Tarantino        6
Michael Bay              6
Francis Ford Coppola     6
Francis Lawrence         6
Martin Campbell          5
Brian Robbins            5
Guy Ritchie              5
George Lucas             5
Gore Verbinski           5
Kevin Smith              5
Rob Zombie               5
James Wan                5
Marc Forster             5
Chris Columbus           5
Peter Berg               5
John Glen                5
Dennis Dugan             5
Darren Aronofsky         5
                        ..
Ben Ketai                1
Michael Lehmann          1
J Blakeson               1
Bradley King             1
Rodrigo GarcÃ­a          1
Ed Decter                1
J

In [49]:
for director in split_director:
    for d in director:
        if d in non_split_director:
            non_split_director[d] += 1
        else:
            non_split_director[d] = 1

John Carpenter          18
Steven Soderbergh       11
Steven Spielberg        11
Clint Eastwood           8
Peter Jackson            8
Robert Zemeckis          8
Ridley Scott             8
Paul W.S. Anderson       7
Christopher Nolan        7
David Fincher            7
Ron Howard               7
Martin Scorsese          7
Quentin Tarantino        7
Michael Bay              6
Francis Ford Coppola     6
Francis Lawrence         6
Martin Campbell          5
Brian Robbins            5
Guy Ritchie              5
George Lucas             5
Gore Verbinski           5
Kevin Smith              5
Rob Zombie               5
James Wan                5
Marc Forster             5
Chris Columbus           5
Peter Berg               5
John Glen                5
Dennis Dugan             5
Darren Aronofsky         5
                        ..
Yvette Kaplan            1
Greg Tiernan             1
Mat Whitecross           1
Will Finn                1
John Sanford             1
Jan Pinkava              1
C

In [None]:
# 再次排序
non_split_director

In [50]:
non_split_director[:10]

John Carpenter        18
Steven Soderbergh     11
Steven Spielberg      11
Clint Eastwood         8
Peter Jackson          8
Robert Zemeckis        8
Ridley Scott           8
Paul W.S. Anderson     7
Christopher Nolan      7
David Fincher          7
Name: director, dtype: int64

In [51]:
# 排行前十的director

top10_director = pd.Series(non_split_director[:10].index, name='director').reset_index()
top10_director

Unnamed: 0,index,director
0,0,John Carpenter
1,1,Steven Soderbergh
2,2,Steven Spielberg
3,3,Clint Eastwood
4,4,Peter Jackson
5,5,Robert Zemeckis
6,6,Ridley Scott
7,7,Paul W.S. Anderson
8,8,Christopher Nolan
9,9,David Fincher


In [53]:
sort_data = movie_data.merge(top10_director, on='director').sort_values(['index', 'revenue_adj'],ascending=[True, False])

In [55]:
target_data = sort_data.groupby('director').head(3)
target_data

Unnamed: 0,id,imdb_id,popularity,budget,revenue,original_title,cast,homepage,director,tagline,...,runtime,genres,production_companies,release_date,vote_count,vote_average,release_year,budget_adj,revenue_adj,index
73,948,tt0077651,1.198849,300000,70000000,Halloween,Donald Pleasence|Jamie Lee Curtis|P.J. Soles|N...,http://www.theofficialjohncarpenter.com/hallow...,John Carpenter,The Night HE Came Home!,...,91,Horror|Thriller,Compass International Pictures|Falcon Internat...,10/25/78,522,7.3,1978,1002810.0,233989000.0,0
64,1103,tt0082340,1.003963,6000000,50000000,Escape from New York,Kurt Russell|Lee Van Cleef|Ernest Borgnine|Don...,http://www.theofficialjohncarpenter.com/escape...,John Carpenter,1997. New York City is now a maximum security ...,...,99,Science Fiction|Action,AVCO Embassy Pictures|Goldcrest Films Internat...,5/22/81,336,6.5,1981,14389140.0,119909500.0,0
60,9663,tt0088172,0.637446,22000000,28744356,Starman,Jeff Bridges|Karen Allen|Charles Martin Smith|...,http://www.theofficialjohncarpenter.com/starman/,John Carpenter,"In 1977 Voyager II was launched into space, in...",...,115,Action|Adventure|Drama|Romance|Science Fiction,Columbia Pictures|Delphi II Productions|Indust...,12/14/84,91,6.3,1984,46178920.0,60335610.0,0
48,161,tt0240772,2.642249,85000000,450717150,Ocean's Eleven,George Clooney|Brad Pitt|Matt Damon|Andy GarcÃ...,http://www.warnerbros.co.uk/movies/oceans-eleven,Steven Soderbergh,Are you in or out?,...,116,Thriller|Crime,Village Roadshow Pictures|Section Eight|NPV En...,12/7/01,2645,7.0,2001,104676500.0,555052800.0,1
54,163,tt0349903,2.175284,110000000,362744280,Ocean's Twelve,George Clooney|Brad Pitt|Catherine Zeta-Jones|...,http://oceans12.warnerbros.com/,Steven Soderbergh,Twelve is the new eleven.,...,125,Thriller|Crime,Village Roadshow Pictures|Section Eight|Jerry ...,12/9/04,1376,6.4,2004,126989000.0,418768500.0,1
55,298,tt0496806,1.41435,85000000,311312624,Ocean's Thirteen,George Clooney|Brad Pitt|Matt Damon|Al Pacino|...,http://oceans13.warnerbros.com/,Steven Soderbergh,What are the odds of getting even? 13 to one.,...,122,Crime|Thriller,Village Roadshow Pictures|Section Eight|Jerry ...,6/7/07,1371,6.4,2007,89391830.0,327397700.0,1
89,578,tt0073195,2.563191,7000000,470654000,Jaws,Roy Scheider|Robert Shaw|Richard Dreyfuss|Lorr...,http://www.jaws25.com/,Steven Spielberg,Don't go in the water.,...,124,Horror|Thriller|Adventure,Universal Pictures|Zanuck/Brown Productions,6/18/75,1415,7.3,1975,28362750.0,1907006000.0,2
87,601,tt0083866,2.900556,10500000,792910554,E.T. the Extra-Terrestrial,Henry Thomas|Drew Barrymore|Robert MacNaughton...,http://www.et20.com/,Steven Spielberg,He is afraid. He is alone. He is three million...,...,115,Science Fiction|Adventure|Family|Fantasy,Universal Pictures|Amblin Entertainment,4/3/82,1830,7.2,1982,23726250.0,1791694000.0,2
91,329,tt0107290,2.204926,63000000,920100000,Jurassic Park,Sam Neill|Laura Dern|Jeff Goldblum|Richard Att...,http://www.jurassicpark.com/,Steven Spielberg,An adventure 65 million years in the making.,...,127,Adventure|Science Fiction,Universal Pictures|Amblin Entertainment,6/11/93,3169,7.4,1993,95096610.0,1388863000.0,2
38,190859,tt2179136,3.863074,58800000,542307423,American Sniper,Bradley Cooper|Sienna Miller|Kyle Gallner|Cole...,http://www.americansnipermovie.com,Clint Eastwood,The most lethal sniper in U.S. history.,...,134,War|Action,Village Roadshow Pictures|Malpaso Productions|...,12/11/14,3004,7.5,2014,54160150.0,499514500.0,3


分析：

---

**[选做]任务3.4：**分析1968年~2015年六月电影的数量的变化。

### 通关必备：
1. 使用`pd.to_datetime()`把`movie_data['release_date']`转换成datetime格式。
2. `movie_data['release_date'].dt.year`可以访问年份，`movie_data['release_date'].dt.month`可以访问月份
3. 设置年份筛选条件，可以使用 `.dt.year.between()` 进行范围筛选。
4. 设置月份筛选条件， 可以使用 `.dt.month == `进行特定值筛选。
5. 根据前两个筛选条件，对`movie_data`筛选数据，并按年份统计结果。可以使用 `.release_year.value_counts().sort_index()`。
6. 对结果进行画图。

In [None]:
# movie_data['release_date']转化成datetime格式
movie_data['release_date'] = 

In [None]:
# 筛选条件1 年份
select_years = 

In [None]:
# 筛选条件2 六月
select_month = 

In [None]:
# 筛选数据并画图
ret = movie_data[select_years & select_month]
ret.plot()

分析：

---

**[选做]任务3.5：**分析1968年~2015年六月电影 `Comedy` 和 `Drama` 两类电影的数量的变化。

### 通关必备：
1. 使用`pd.to_datetime()`把`movie_data['release_date']`转换成datetime格式。
2. `movie_data['release_date'].dt.year`可以访问年份，`movie_data['release_date'].dt.month`可以访问月份
3. 设置年份筛选条件，可以使用 `.dt.year.between()` 进行范围筛选。
4. 设置月份筛选条件， 可以使用 `.dt.month == `进行特定值筛选。
5. 如果上一步的任务已经完成，可以直接使用上一步的筛选条件。
5. 设置电影类型筛选Comedy，由于电影类型是包含分割符的，一个电影可以是多种类型，所以可以使用`movie_data.genres.str.contains('Comedy')`来筛选。 
6. 设置电影类型筛选Drama，`.str.contains('Drama')`
7. 根据前3个筛选条件，对`movie_data`筛选数据，并按年份统计结果。可以使用 `.release_year.value_counts().sort_index()`。
8. 对结果进行画图,图中包含两个类型的数据，Comedy和Drama。

In [None]:
# 筛选条件1 年份
select_years = 

In [None]:
# 筛选条件2 六月
select_month = 

In [None]:
# # 筛选条件3 类型 Comedy
select_comedy = 

In [None]:
# # 筛选条件3 类型 Drama
select_drama = 

In [None]:
# 筛选出Comedy数据
ret_comedy =
# 筛选出Drama数据
ret_drama = 

In [None]:
# 画图, 自由发挥吧


分析：

> 注意: 当你写完了所有的代码，并且回答了所有的问题。你就可以把你的 iPython Notebook 导出成 HTML 文件。你可以在菜单栏，这样导出**File -> Download as -> HTML (.html)、Python (.py)** 把导出的 HTML、python文件 和这个 iPython notebook 一起提交给审阅者。