# 电影数据可视化报告

## 一. 数据整理与清洗

### 1. 数据一览

In [82]:
import numpy as np
import pandas as pd

In [83]:
df = pd.read_csv('movies.csv')

In [84]:
# 显示前五行数据
df.head()

Unnamed: 0,id,imdb_id,popularity,budget,revenue,original_title,cast,homepage,director,tagline,...,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,135397,tt0369610,32.985763,150000000,1513528810,Jurassic World,Chris Pratt|Bryce Dallas Howard|Irrfan Khan|Vi...,http://www.jurassicworld.com/,Colin Trevorrow,The park is open.,...,,,,,,,,,,
1,76341,tt1392190,28.419936,150000000,378436354,Mad Max: Fury Road,Tom Hardy|Charlize Theron|Hugh Keays-Byrne|Nic...,http://www.madmaxmovie.com/,George Miller,What a Lovely Day.,...,,,,,,,,,,
2,262500,tt2908446,13.112507,110000000,295238201,Insurgent,Shailene Woodley|Theo James|Kate Winslet|Ansel...,http://www.thedivergentseries.movie/#insurgent,Robert Schwentke,One Choice Can Destroy You,...,,,,,,,,,,
3,140607,tt2488496,11.173104,200000000,2068178225,Star Wars: The Force Awakens,Harrison Ford|Mark Hamill|Carrie Fisher|Adam D...,http://www.starwars.com/films/star-wars-episod...,J.J. Abrams,Every generation has a story.,...,,,,,,,,,,
4,168259,tt2820852,9.335014,190000000,1506249360,Furious 7,Vin Diesel|Paul Walker|Jason Statham|Michelle ...,http://www.furious7.com/,James Wan,Vengeance Hits Home,...,,,,,,,,,,


In [85]:
# 查看数据各字段类型
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10843 entries, 0 to 10842
Data columns (total 31 columns):
id                      10843 non-null int64
imdb_id                 10833 non-null object
popularity              10843 non-null float64
budget                  10843 non-null int64
revenue                 10843 non-null int64
original_title          10843 non-null object
cast                    10751 non-null object
homepage                2948 non-null object
director                10786 non-null object
tagline                 8032 non-null object
keywords                9362 non-null object
overview                10839 non-null object
runtime                 10842 non-null object
genres                  10816 non-null object
production_companies    9827 non-null object
release_date            10842 non-null object
vote_count              10843 non-null object
vote_average            10842 non-null object
release_year            10843 non-null object
budget_adj             

可以看到，各数据字段行数各不相同，说明有缺失。

### 2. 选择合适的字段

原始数据中字段过多，我们根据需要进行选择。

我们用“imdb_id”唯一识别每部电影，可取代“电影名”、“id”字段；使用“调整后预算”、“调整后收入”代替“预算”、“收入”字段，以排除不同年代购买力差异带来的对金额的误读；使用“关键字”、“风格”、“制作公司”、“上映年份”字段进行指定问题分析；使用“平均评分”字段概括观影者对电影的评价。

In [100]:
#选取需要的字段
movie = df[['imdb_id','keywords','release_year','budget_adj','revenue_adj',
                 'genres','production_companies','vote_average']]
movie.head()

Unnamed: 0,imdb_id,keywords,release_year,budget_adj,revenue_adj,genres,production_companies,vote_average
0,tt0369610,monster|dna|tyrannosaurus rex|velociraptor|island,2015,137999939.3,1392445893.0,Action|Adventure|Science Fiction|Thriller,Universal Studios|Amblin Entertainment|Legenda...,6.5
1,tt1392190,future|chase|post-apocalyptic|dystopia|australia,2015,137999939.3,348161292.5,Action|Adventure|Science Fiction|Thriller,Village Roadshow Pictures|Kennedy Miller Produ...,7.1
2,tt2908446,based on novel|revolution|dystopia|sequel|dyst...,2015,101199955.5,271619025.4,Adventure|Science Fiction|Thriller,Summit Entertainment|Mandeville Films|Red Wago...,6.3
3,tt2488496,android|spaceship|jedi|space opera|3d,2015,183999919.0,1902723130.0,Action|Adventure|Science Fiction|Fantasy,Lucasfilm|Truenorth Productions|Bad Robot,7.5
4,tt2820852,car race|speed|revenge|suspense|car,2015,174799923.1,1385748801.0,Action|Crime|Thriller,Universal Pictures|Original Film|Media Rights ...,7.3


### 3. 数据清理与整理

In [101]:
# 删除有缺失值的行
movie_data = movie.dropna(axis = 0)
movie_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8669 entries, 0 to 10842
Data columns (total 8 columns):
imdb_id                 8669 non-null object
keywords                8669 non-null object
release_year            8669 non-null object
budget_adj              8669 non-null object
revenue_adj             8669 non-null object
genres                  8669 non-null object
production_companies    8669 non-null object
vote_average            8669 non-null object
dtypes: object(8)
memory usage: 338.6+ KB


还剩8669行数据，损失不大~~

In [103]:
# 将数据保存，得到去掉缺失项的数据文件
movie_data.to_csv('movie_data.csv',index = False)

打开保存的文件发现：

1）“上映年份”字段包含有不少错误信息，应该是字段错位带来的；

2）“评分平均值”字段应该只包含0~10的分数，结果出现了少部分错误值；

3）“预算”、“收入”字段包含不少0值和非常小的值，需要做清理。

使用Excel的筛选功能剔除该字段的错误数据，其中对“预算”、“收入”采用简单粗暴的办法，碰到0值一律直接删除。

### 4. 是否原创？

为了从数据中得到是原创或是改编的信息，需要分析“关键字”字段是否包含“based on novel”。通过Excel在表格中右侧新建一列，名为：on_novel，填入公式如下：

 = IF(COUNTIF(B2, "*based on novel*"), "based on novel", "not based on novel")，应用到所有数据行。其中B2为“关键字”字段位置。

### 5. 辨别制作公司

同样的，我们需要根据“制作公司”字段内容来对电影按照制作公司分类：该字段含有“Universal Pictures”则属于环球，含有“Paramount Pictures”属于派拉蒙，两者都不含则属于其他。在表格后方创建“producer”字段，填入公式如下：

= IF(COUNTIF(G2, "*Universal Pictures*"), "Universal Picures", IF(COUNTIF(G2, "*Paramount Pictures*"),  "Paramount Pictures",  "Neither"))，将公式应用到所有数据行。其中G2为“制作公司”字段。

将修改后的文件重新命名为“movie_data_save.csv”。

In [99]:
# 重新将清理后的movie_data数据导入，
# 得到清理掉错误字段、填入制作公司和是否原创标记的数据
movie_data_tidy = pd.read_csv('movie_data_save.csv')
movie_data_tidy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3667 entries, 0 to 3666
Data columns (total 10 columns):
imdb_id                 3667 non-null object
keywords                3667 non-null object
release_year            3667 non-null int64
budget_adj              3667 non-null float64
revenue_adj             3667 non-null float64
genres                  3667 non-null object
production_companies    3667 non-null object
vote_average            3667 non-null float64
on_novel                3667 non-null object
producer                3667 non-null object
dtypes: float64(3), int64(1), object(6)
memory usage: 200.6+ KB


### 4. genres字段的处理

In [104]:
# 单独分列 genres字段
splited_genres = movie_data['genres'].str.split('|',expand=True)
splited_genres.head()

Unnamed: 0,0,1,2,3,4
0,Action,Adventure,Science Fiction,Thriller,
1,Action,Adventure,Science Fiction,Thriller,
2,Adventure,Science Fiction,Thriller,,
3,Action,Adventure,Science Fiction,Fantasy,
4,Action,Crime,Thriller,,


In [105]:
splited_genres.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8669 entries, 0 to 10842
Data columns (total 5 columns):
0    8669 non-null object
1    6982 non-null object
2    4261 non-null object
3    1694 non-null object
4    469 non-null object
dtypes: object(5)
memory usage: 237.0+ KB


可以看到，虽然“风格”字段被提取出来，但是各列长度不一。

In [107]:
# 把原数据的imdb_id字段赋值给splited_genres
splited_genres['imdb_id'] = movie_data['imdb_id'] 
splited_genres.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8669 entries, 0 to 10842
Data columns (total 6 columns):
0          8669 non-null object
1          6982 non-null object
2          4261 non-null object
3          1694 non-null object
4          469 non-null object
imdb_id    8669 non-null object
dtypes: object(6)
memory usage: 270.9+ KB


In [108]:
# 根据字段imdb_id将分列的风格字段表与原数据表进行连接
merged_back = movie_data.merge(splited_genres)
merged_back.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8671 entries, 0 to 8670
Data columns (total 13 columns):
imdb_id                 8671 non-null object
keywords                8671 non-null object
release_year            8671 non-null object
budget_adj              8671 non-null object
revenue_adj             8671 non-null object
genres                  8671 non-null object
production_companies    8671 non-null object
vote_average            8671 non-null object
0                       8671 non-null object
1                       6984 non-null object
2                       4263 non-null object
3                       1696 non-null object
4                       471 non-null object
dtypes: object(13)
memory usage: 508.1+ KB


In [109]:
merged_back.head()

Unnamed: 0,imdb_id,keywords,release_year,budget_adj,revenue_adj,genres,production_companies,vote_average,0,1,2,3,4
0,tt0369610,monster|dna|tyrannosaurus rex|velociraptor|island,2015,137999939.3,1392445893.0,Action|Adventure|Science Fiction|Thriller,Universal Studios|Amblin Entertainment|Legenda...,6.5,Action,Adventure,Science Fiction,Thriller,
1,tt1392190,future|chase|post-apocalyptic|dystopia|australia,2015,137999939.3,348161292.5,Action|Adventure|Science Fiction|Thriller,Village Roadshow Pictures|Kennedy Miller Produ...,7.1,Action,Adventure,Science Fiction,Thriller,
2,tt2908446,based on novel|revolution|dystopia|sequel|dyst...,2015,101199955.5,271619025.4,Adventure|Science Fiction|Thriller,Summit Entertainment|Mandeville Films|Red Wago...,6.3,Adventure,Science Fiction,Thriller,,
3,tt2488496,android|spaceship|jedi|space opera|3d,2015,183999919.0,1902723130.0,Action|Adventure|Science Fiction|Fantasy,Lucasfilm|Truenorth Productions|Bad Robot,7.5,Action,Adventure,Science Fiction,Fantasy,
4,tt2820852,car race|speed|revenge|suspense|car,2015,174799923.1,1385748801.0,Action|Crime|Thriller,Universal Pictures|Original Film|Media Rights ...,7.3,Action,Crime,Thriller,,


In [112]:
# 使用melt分列genres字段
melted = pd.melt( merged_back,id_vars=['imdb_id','release_year'],
                value_vars=[0,1,2,3,4],
                value_name='genres').drop('variable',axis=1).dropna()

In [114]:
# 输出melted
melted.to_csv('genres_in_year.csv',index=False)
melted.head(10)

Unnamed: 0,imdb_id,release_year,genres
0,tt0369610,2015,Action
1,tt1392190,2015,Action
2,tt2908446,2015,Adventure
3,tt2488496,2015,Action
4,tt2820852,2015,Action
5,tt1663202,2015,Western
6,tt1340138,2015,Science Fiction
7,tt3659388,2015,Drama
8,tt2293640,2015,Family
9,tt2096673,2015,Comedy


### 5. 清理脏数据

使用Excel检查上一步生成的文件，使用筛选功能，发现以下问题：

风格字段中，串入了部分大段的文字描述，明显不属于风格内容。

解决方式如下：

1）在新列一个字段，名为len_genres，键入公式: =len(C2)，C为genres列标，将公式应用到全部数据，该列意义为：genres字段文字长度；

2）利用Excel的筛选功能，去除掉“len_genres”字段中大于15、或者小于3的字段，使得剩下的都是正确的风格描述字，保存为"genres_in_year_tidy.csv"。


## 二. 问题的提出

### 1.电影类型如何随着时代变化而变化的？ 

### 2. 环球影业（Universal Pictures）和派拉蒙影业（Paramount Pictures）的电影之间的数据指标有什么区别？ 

### 3. 和非小说改编（not based on novel）电影相比，基于小说改编（based on novel）的电影表现如何？ 

### 4.随着年代变化，电影平均预算与收入变化情况怎样（使用调整后的金额进行比较）？ 

## 三. 问题的解答

### 问题1

总体来看，最多的电影类型包含：剧情、喜剧、惊悚、动作等，西部、TV电影、外语相对较少。

从时间分布来看，早期各个类型都不是很多，且相差不大；各个类型随着时间推移出现得越来越多，其中剧情、惊悚、喜剧、动作类上升速度最快，因而在类型总数上占据优势。

### 问题2

环球在制作电影数量、平均口碑、总预算、总收入方面超过派拉蒙，而派拉蒙则在平均预算、平均收入方面力压环球。

### 问题3

给出的数据中，原创类电影数量占据压倒性优势（3501/166）；在口碑方面，原创电影则弱于改编电影（6.1661/6.4916）；平均预算与平均收入方面，原创类电影均逊色与对手。

### 问题4

随着年代推进，调整后的总预算和总收入都呈现不断上升趋势，其中总预算在进入2005年以后有所下降；从平均值来看，早年电影平均收入远高于近年，且波动极大，平均预算也大于近年，随着时间进入80年代以后，平均收入进入稳定期，略有起伏，而预算则相对稳定；结合是否小说改编这一因素来看，改编电影的口碑、预算、收入都比原创电影波动更大，原创电影各方面都表现得更加平和稳健。结合之前的展示，这也许可以解释为什么原创电影数量远大于改编电影，一方面改编电影需要合适的小说作为改编剧本，这样的小说不是遍地都是；其次稳健的收益表现从投资的角度来讲，更加容易受投资方青睐。

可视化连结：[点我](https://public.tableau.com/profile/liu.yufei#!/vizhome/Homework3_35/Q1-1)