## 探索电影数据集

在这个项目中，你将尝试使用所学的知识，使用 `NumPy`、`Pandas`、`matplotlib`、`seaborn` 库中的函数，来对电影数据集进行探索。

下载数据集：
[TMDb电影数据](https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/explore+dataset/tmdb-movies.csv)

---

---

## 第一节 数据的导入与处理

在这一部分，你需要编写代码，使用 Pandas 读取数据，并进行预处理。


**任务1.1：** 导入库以及数据

1. 载入需要的库 `NumPy`、`Pandas`、`matplotlib`、`seaborn`。
2. 利用 `Pandas` 库，读取 `tmdb-movies.csv` 中的数据，保存为 `movie_data`。

提示：记得使用 notebook 中的魔法指令 `%matplotlib inline`，否则会导致你接下来无法打印出图像。

In [5]:
import numpy as np
import pandas as pd

In [6]:
df = pd.read_csv('tmdb-movies.csv')

---

**任务1.2: ** 了解数据

你会接触到各种各样的数据表，因此在读取之后，我们有必要通过一些简单的方法，来了解我们数据表是什么样子的。

1. 获取数据表的行列，并打印。
2. 使用 `.head()`、`.tail()`、`.sample()` 方法，观察、了解数据表的情况。
3. 使用 `.dtypes` 属性，来查看各列数据的数据类型。
4. 使用 `isnull()` 配合 `.any()` 等方法，来查看各列是否存在空值。
5. 使用 `.describe()` 方法，看看数据表中数值型的数据是怎么分布的。



---

**任务1.3: ** 清理数据

在真实的工作场景中，数据处理往往是最为费时费力的环节。但是幸运的是，我们提供给大家的 tmdb 数据集非常的「干净」，不需要大家做特别多的数据清洗以及处理工作。在这一步中，你的核心的工作主要是对数据表中的空值进行处理。你可以使用 `.fillna()` 来填补空值，当然也可以使用 `.dropna()` 来丢弃数据表中包含空值的某些行或者列。

任务：使用适当的方法来清理空值，并将得到的数据保存。

3. 使用 `.head()` 方法，来获取数据的前几条数据。
4. 根据获取的数据，提出两个问题，作为接下来探索数据的目标。

提示：
1. 记得使用 notebook 中的魔法指令 `%matplotlib inline`，否则会导致你接下来无法打印出图像。
2. 提出的问题应当和数据中的**某个**特征息息相关，例如：大部分电影的票房（revenue）是怎样分布的、大部分电影的知名度（popularity）是怎样分布的。

---

**任务2：**根据上述数据，提出两个问题，作为接下来探索数据的目标。

---

---

## 第二节 根据指定要求读取数据


相比 Excel 等数据分析软件，Pandas 的一大特长在于，能够轻松地基于复杂的逻辑选择合适的数据。因此，如何根据指定的要求，从数据表当获取适当的数据，是使用 Pandas 中非常重要的技能，也是本节重点考察大家的内容。



In [67]:
df.groupby(['director']).max()

KeyboardInterrupt: 

In [47]:
(df['popularity']>5) | (df['release_year']>1996)

0         True
1         True
2         True
3         True
4         True
5         True
6         True
7         True
8         True
9         True
10        True
11        True
12        True
13        True
14        True
15        True
16        True
17        True
18        True
19        True
20        True
21        True
22        True
23        True
24        True
25        True
26        True
27        True
28        True
29        True
         ...  
10836    False
10837    False
10838    False
10839    False
10840    False
10841    False
10842    False
10843    False
10844    False
10845    False
10846    False
10847    False
10848    False
10849    False
10850    False
10851    False
10852    False
10853    False
10854    False
10855    False
10856    False
10857    False
10858    False
10859    False
10860    False
10861    False
10862    False
10863    False
10864    False
10865    False
Length: 10866, dtype: bool

**任务2.1: ** 简单读取

1. 读取数据表中名为 `id`、`popularity`、`budget`、`runtime`、`vote_average` 列的数据。
2. 读取数据表中前1～20行以及48、49行的数据。
3. 读取数据表中第50～60行的 `popularity` 那一列的数据。

要求：每一个语句只能用一行代码实现。

**任务2.2: ** 逻辑读取（Logical Indexing）

1. 读取数据表中 **`popularity` 大于5**的所有数据。
2. 读取数据表中 **`popularity` 大于5**的所有数据且**发行年份在1996年之后**的所有数据。
2. 读取数据表中

要求：每一个语句只能用一行代码实现。

---

**任务4：**获取数据中任意两列的一些统计信息，可以是最大值、最小值、平均数、中位数、标准差等。你可以使用 `.describe` 方法获取整张数据表的统计信息。

---

**任务5：**上述获取的统计信息，对你回答提出的两个问题有何帮助？


- 问题 1：（回答区）

- 问题 2：（回答区）

---

---

## 第三节 绘图与可视化

接着你要尝试对你的数据进行图像的绘制以及可视化。根据课程的所学内容，你可以根据不同的数据类型，绘制这些图像：

1. 条形图
2. 饼图
3. 直方图
4. 散点图
5. 折线图
6. 箱线图
7. 热力图
8. 小提琴图
9. 轴须图
10. 带状图
11. 堆积图

那么接下来该你尝试使用所学的知识，来对我们的数据进行可视化啦！

**任务6：**请根据你的问题1，来对某个数据特征进行适当的可视化，并尝试回答你的问题。

（问题回答）

---

**任务7：**请根据你的问题2，来对某个数据特征进行适当的可视化，并尝试回答你的问题。

（问题回答）

---

**任务8：**（挑战）请尝试挑选一组特征，进行多变量的可视化。多变量的可视化能够帮我们揭示数据之间的关系，例如：电影的票房和知名度的关系。

> 注意: 当你写完了所有的代码，并且回答了所有的问题。你就可以把你的 iPython Notebook 导出成 HTML 文件。你可以在菜单栏，这样导出**File -> Download as -> HTML (.html)**把这个 HTML 和这个 iPython notebook 一起做为你的作业提交。