# 项目：探索TMDB电影数据集调查数据集

## 加载工具

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

pd.set_option("display.max_columns",0)


## 整理数据

In [2]:
# 加载数据集
def load_data():
    df = pd.read_csv("tmdb-movies.csv")
    return df
if __name__ == '__main__':
    df = load_data()

In [3]:
# 查看数据集的记录和属性的数量。分别是10866条和21个属性。
df.shape

(10866, 21)

In [13]:
df.head(1)

Unnamed: 0,id,imdb_id,popularity,budget,revenue,original_title,cast,homepage,director,tagline,keywords,overview,runtime,genres,production_companies,release_date,vote_count,vote_average,release_year,budget_adj,revenue_adj
0,135397,tt0369610,32.985763,150000000,1513528810,Jurassic World,Chris Pratt|Bryce Dallas Howard|Irrfan Khan|Vi...,http://www.jurassicworld.com/,Colin Trevorrow,The park is open.,monster|dna|tyrannosaurus rex|velociraptor|island,Twenty-two years after the events of Jurassic ...,124,Action|Adventure|Science Fiction|Thriller,Universal Studios|Amblin Entertainment|Legenda...,6/9/15,5562,6.5,2015,137999900.0,1392446000.0


>相关属性的介绍。暂时没有找到官方解释，手动翻译以下。
1. id 编号 
2. imdb_id IMDB编号 
3. popularity 在 Movie Database 上的相对页面查看次数
4. budget 预算，单位是美元
5. revenue 收入，单位是美元
6. original_title 电影名称
7. cast 主要演员，使用"|"进行分隔
8. homepage 电影网站
9. director 导演，使用"|"进行分隔
10. tagline 宣传口号
11. keywords 关键字
12. overview 简介
13. runtime 电影时长，单位是min
14. genres 电影类型，使用"|"进行分隔
15. production_companies 出品公司，使用"|"进行分隔
16. release_date 发行日期
17. vote_count 投票的数量
18. vote_average 投票的平均分
19. release_year 发行年份
20. budget_adj 调整后预算，调整inflation。数量级是10^8(亿元)，货币单位是美元
21. revenue_adj 调整后收入，调整inflation。数量是10^8(亿元)，货币单位是美元
参考网站：https://zhuanlan.zhihu.com/p/48415482

In [5]:
#主要目的是查看每个属性的数据类型，以及数据类型是否与属性相一致。
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10866 entries, 0 to 10865
Data columns (total 21 columns):
id                      10866 non-null int64
imdb_id                 10856 non-null object
popularity              10866 non-null float64
budget                  10866 non-null int64
revenue                 10866 non-null int64
original_title          10866 non-null object
cast                    10790 non-null object
homepage                2936 non-null object
director                10822 non-null object
tagline                 8042 non-null object
keywords                9373 non-null object
overview                10862 non-null object
runtime                 10866 non-null int64
genres                  10843 non-null object
production_companies    9836 non-null object
release_date            10866 non-null object
vote_count              10866 non-null int64
vote_average            10866 non-null float64
release_year            10866 non-null int64
budget_adj              1

1. 其次是看看每个属性是否存在null记录。
2. 从输出结果来看，存在null的记录。需要在后续进行处理。
3. released_date应该是datetime类型，release_year应该是datetime类型。

In [6]:
# 查看是否存在空值
df.isnull().sum()

id                         0
imdb_id                   10
popularity                 0
budget                     0
revenue                    0
original_title             0
cast                      76
homepage                7930
director                  44
tagline                 2824
keywords                1493
overview                   4
runtime                    0
genres                    23
production_companies    1030
release_date               0
vote_count                 0
vote_average               0
release_year               0
budget_adj                 0
revenue_adj                0
dtype: int64

+ 根据实际需要，处理存在null的记录。
+ 首先应该找到所有的属性都是null的记录，直接去除。
+ 如果需要分析主演与电影的关系，那么需要将cast字段缺失的记录去掉。
+ 电影是否有主页，与电影的评分等情况关系较小，没有主页的记录占总记录的比例超过50%，因此不能简单的进行去除空值记录。
+ 如果需要分析出品公司与电影的关系，需要将production_companies字段缺失的记录去掉。
+ 如果需要分析电影类型与电影评分的关系，需要将genres缺失的记录去掉。


In [7]:
# 查看是否存在重复的记录
df.duplicated().sum()

1

+ 对于重复记录，只有一条，删除处理。

+ 根据需要选择无关字段或者属性，并删除处理。
+ 综上，其中“overview”,"keywords","tagline"属于无关字段。
+ 另外，“budget”,"revenue"字段与“budget_adj”,"revenue_adj"选择一组即可，优先选择后者，因为不受物价水平影响。
+ “release_date”与“release_year”应该选择一个即可，如果没有必要详细到发型的日期，那么选择后者即可。
+ "vote_count"字段，与电影评分或者电影本身关系不大，只与投票人数有关或者总票数有关。

In [16]:
# 查看数值类型的字段的描述统计特征，判断是否存在异常值，
df.describe()

Unnamed: 0,id,popularity,budget,revenue,runtime,vote_count,vote_average,release_year,budget_adj,revenue_adj
count,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0,10866.0
mean,66064.177434,0.646441,14625700.0,39823320.0,102.070863,217.389748,5.974922,2001.322658,17551040.0,51364360.0
std,92130.136561,1.000185,30913210.0,117003500.0,31.381405,575.619058,0.935142,12.812941,34306160.0,144632500.0
min,5.0,6.5e-05,0.0,0.0,0.0,10.0,1.5,1960.0,0.0,0.0
25%,10596.25,0.207583,0.0,0.0,90.0,17.0,5.4,1995.0,0.0,0.0
50%,20669.0,0.383856,0.0,0.0,99.0,38.0,6.0,2006.0,0.0,0.0
75%,75610.0,0.713817,15000000.0,24000000.0,111.0,145.75,6.6,2011.0,20853250.0,33697100.0
max,417859.0,32.985763,425000000.0,2781506000.0,900.0,9767.0,9.2,2015.0,425000000.0,2827124000.0


+ “id”字段，最小值是5，需要研究一下。
+ “popularity”字段，最大值是 32,而均值是 0.64，并且这个字段是否有存在的意义，也需要研究一下。
+ “budget”, "revenue" 字段中最小值是0，这个显然不合理，包括"budget_adj"和“revenue_adj”
+ "runtime"字段，最小值为0，这个显然不合理。那么电影时长的合理范围应该是多少？这个可能需要主观选择：至少60min。

### 疑问？
1. 如何找到彼此重复的记录。

### 数据清理（请用更具体的标题来代替该标题。）

In [15]:
# 在讨论数据结构和需要解决的任何问题之后，
#   在本部分的第二小部分进行这些清理步骤。


<a id='eda'></a>
## 探索性数据分析

> **提示**在你完成数据整理和清理之后，现在可以进行探索性数据分析了。你需要计算统计值，创建可视化图表，解决你在一开始的简介部分中提出的研究问题。我们推荐你采用系统化方法。一次只探索一个变量，然后探索变量之间的关系。

### 研究问题 1（请替换这一标题名称。 ）

In [None]:
# 用这个代码框和其它代码框探索数据。请务必记得添加
#   Markdown 框，以便记录你的观察和调查结果。


### 研究问题 2（请替换这一标题名称。）

In [None]:
# 请继续探索数据，解决你额外的研究问题。
#   如果有其它问题要调查，
#   请根据需要添加更多标题。


<a id='conclusions'></a>
## 结论

> **提示**：最后，你需要总结自己的调查结果。请确保你了解在探索过程中的局限性。如果尚未进行任何统计检验，不要做出任何统计结论。切记不要根据相关关系贸然推导出因果关系！

> **提示**：如果你对自己的研究成果感到满意，应将其副本保存为 HTML 或 PDF 形式。在导出报告之前请检查一遍，确保报告结构完整，信息连贯。应删除所有类似的“提示”引用段，以保持报告中的简洁度。在提交之前，你还需要查看在课程结尾的项目提交页面中的项目审阅规范。

> 如需将报告导出到工作区，你可以运行下面的代码框。如果正确，会返回代码 0，工作区目录下会生成 .html 文件（单击左上角的 jupyter 图标）。也可以通过 **文件** > **下载为** 子菜单下载 html 报告，然后手动上传到工作区目录。完成之后，可以单击右下角的“提交项目”，来提交你的项目。恭喜你！

In [None]:
from subprocess import call
call(['python', '-m', 'nbconvert', 'Investigate_a_Dataset.ipynb'])