# 项目：整理Netflix电影演员评分数据

## 分析目标

此数据分析的目的是，整理不同流派影视作品，比如喜剧片、动作片、科幻片中，各演员出演作品的平均IMDB评分，从而挖掘出各个流派中的高评分作品演员。

本实战项目的目的在于练习整理数据，从而得到可供下一步分析的数据。

## 简介

原始数据集记录了截止至2022年7月美国地区可观看的所有Netflix电视剧及电影数据。数据集包含两个数据表：`titles.csv`和`credits.csv`。

`titles.csv`包含电影及电视剧相关信息，包括影视作品ID、标题、类型、描述、流派、IMDB（一个国外的在线评分网站）评分，等等。`credits.csv`包含超过7万名出现在Netflix影视作品的导演及演员信息，包括名字、影视作品ID、人物名、演职员类型（导演/演员）等。

`titles.csv`每列的含义如下：
- id：影视作品ID。
- title：影视作品标题。
- show_type：作品类型，电视节目或电影。
- description：简短描述。
- release_year：发布年份。
- age_certification：适龄认证。
- runtime：每集电视剧或电影的长度。
- genres：流派类型列表。
- production_countries：出品国家列表。
- seasons：如果是电视剧，则是季数。
- imdb_id：IMDB的ID。
- imdb_score：IMDB的评分。
- imdb_votes：IMDB的投票数。
- tmdb_popularity：TMDB的流行度。
- tmdb_score：TMDB的评分。

`credits.csv`每列的含义如下：
- person_ID：演职员ID。
- id：参与的影视作品ID。
- name：姓名。
- character_name：角色姓名。
- role：演职员类型，演员或导演。

In [7]:
import pandas as pd
import numpy as np

In [8]:
original_titles=pd.read_csv("C:/Users/p/Desktop/jupyter_Data/05数据整理篇/titles.csv")
original_credits=pd.read_csv("C:/Users/p/Desktop/jupyter_Data/05数据整理篇/credits.csv")

In [9]:
original_titles.head()

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
0,ts300399,Five Came Back: The Reference Films,SHOW,This collection includes 12 World War II-era p...,1945,TV-MA,51,['documentation'],['US'],1.0,,,,0.6,
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,"['drama', 'action', 'thriller', 'european']",['US'],,tt0068473,7.7,107673.0,10.01,7.3
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,"['fantasy', 'action', 'comedy']",['GB'],,tt0071853,8.2,534486.0,15.461,7.811
4,tm120801,The Dirty Dozen,MOVIE,12 American military prisoners in World War II...,1967,,150,"['war', 'action']","['GB', 'US']",,tt0061578,7.7,72662.0,20.398,7.6


In [10]:
original_credits.head()

Unnamed: 0,person_id,id,name,character,role
0,3748,tm84618,Robert De Niro,Travis Bickle,ACTOR
1,14658,tm84618,Jodie Foster,Iris Steensma,ACTOR
2,7064,tm84618,Albert Brooks,Tom,ACTOR
3,3739,tm84618,Harvey Keitel,Matthew 'Sport' Higgins,ACTOR
4,48933,tm84618,Cybill Shepherd,Betsy,ACTOR


In [11]:
original_titles["genres"]=original_titles["genres"].apply(lambda x: eval(x))

In [12]:
original_titles=original_titles.explode("genres")

In [13]:
original_titles["production_countries"]=original_titles["production_countries"].apply(lambda x: eval(x))
original_titles=original_titles.explode("production_countries")
original_titles.head(10)

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
0,ts300399,Five Came Back: The Reference Films,SHOW,This collection includes 12 World War II-era p...,1945,TV-MA,51,documentation,US,1.0,,,,0.6,
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,drama,US,,tt0075314,8.2,808582.0,40.965,8.179
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,crime,US,,tt0075314,8.2,808582.0,40.965,8.179
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,drama,US,,tt0068473,7.7,107673.0,10.01,7.3
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,action,US,,tt0068473,7.7,107673.0,10.01,7.3
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,thriller,US,,tt0068473,7.7,107673.0,10.01,7.3
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,european,US,,tt0068473,7.7,107673.0,10.01,7.3
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,fantasy,GB,,tt0071853,8.2,534486.0,15.461,7.811
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,action,GB,,tt0071853,8.2,534486.0,15.461,7.811
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,comedy,GB,,tt0071853,8.2,534486.0,15.461,7.811


In [14]:
original_titles.info()

<class 'pandas.core.frame.DataFrame'>
Index: 17818 entries, 0 to 5849
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id                    17818 non-null  object 
 1   title                 17817 non-null  object 
 2   type                  17818 non-null  object 
 3   description           17790 non-null  object 
 4   release_year          17818 non-null  int64  
 5   age_certification     10889 non-null  object 
 6   runtime               17818 non-null  int64  
 7   genres                17755 non-null  object 
 8   production_countries  17439 non-null  object 
 9   seasons               6224 non-null   float64
 10  imdb_id               17116 non-null  object 
 11  imdb_score            16976 non-null  float64
 12  imdb_votes            16945 non-null  float64
 13  tmdb_popularity       17663 non-null  float64
 14  tmdb_score            17241 non-null  float64
dtypes: float64(5), int64(2), 

In [15]:
original_titles["release_year"]=pd.to_datetime(original_titles["release_year"], format='%Y')

In [16]:
original_credits.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77801 entries, 0 to 77800
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   person_id  77801 non-null  int64 
 1   id         77801 non-null  object
 2   name       77801 non-null  object
 3   character  68029 non-null  object
 4   role       77801 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.0+ MB


In [17]:
original_credits["person_id"]=original_credits["person_id"].astype("str")

删除imdb_score和genres

In [19]:
original_titles.dropna(subset=["imdb_score"],inplace=True)

In [20]:
original_titles.dropna(subset=["genres"],inplace=True)

把cleaned_titles里，production_countries的"LB"和"Lebanon"统一为LB，并检查替换后是否还存在"LB"：

In [67]:
original_titles["production_countries"].replace("Lebanon","LB",inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  original_titles["production_countries"].replace("Lebanon","LB",inplace=True)


In [69]:
with pd.option_context('display.max_rows', None):
    print(original_titles['production_countries'].value_counts())

production_countries
US    5648
IN    1610
GB    1068
JP    1046
FR     720
KR     637
ES     637
CA     608
DE     383
CN     295
MX     264
IT     224
BR     221
AU     217
TR     195
PH     192
AR     150
ID     149
BE     148
TW     133
NG     131
PL     126
ZA     103
HK     102
NL     102
CO      94
EG      93
DK      89
TH      87
SE      81
LB      71
NO      68
AE      52
IE      49
SG      47
XX      43
IL      42
RU      41
CL      35
CH      33
PS      32
BG      31
MY      30
AT      28
SA      28
IS      28
LU      27
NZ      27
PE      26
RO      25
QA      24
CZ      22
JO      19
FI      18
HU      18
UY      15
MA      15
PT      14
KW      10
KH      10
PK       9
PR       9
UA       8
MT       8
VN       8
LT       7
IR       7
CD       7
SU       7
TN       7
SN       6
AL       6
KE       6
GH       6
IQ       5
MU       5
CY       5
KN       4
GR       4
IO       4
SY       4
TZ       4
MC       4
GL       3
CM       3
AO       3
BS       3
HR       3
BD       3


In [73]:
original_credits["role"]=original_credits["role"].astype("category")

那为了能同时获得流派与演员数据，我们需要把cleaned_titles和cleaned_credits，通过id作为键进行连接，因为两个数据表中id都是影视作品ID

In [92]:
cleaned_data=pd.merge(original_credits,original_titles,on='id')

由于我们只对挖掘演员的参演作品口碑感兴趣，导演不在我们的分析范围内，因此根据role，筛选出类型为ACTOR的观察值，供后续分析。

In [94]:
actor_data=cleaned_data[cleaned_data["role"]=="ACTOR"]
actor_data["role"].value_counts()

role
ACTOR       262614
DIRECTOR         0
Name: count, dtype: int64

为了挖掘出各个流派中的高IMDB评分作品演员，我们需要先根据流派和演员进行分组。

对演员进行分组的时候，选择的是用person_id而不是name变量，原因是名字容易出现错拼或者重名的情况，演职员ID会比演员姓名更加准确地反映是哪位演员。


分组后，我们只需要对imdb_score的值进行聚合计算，因此只提取imdb_score变量，然后调用mean，来计算各个流派影视作品中，每位演员参演作品的平均IMDB评分.

In [113]:
df1=pd.pivot_table(actor_data,index=["genres","person_id"],values="imdb_score",aggfunc=np.mean)

  df1=pd.pivot_table(actor_data,index=["genres","person_id"],values="imdb_score",aggfunc=np.mean)


In [115]:
df2=actor_data.groupby(['genres','person_id'])['imdb_score'].mean()

我们可以调用reset_index，对层次化索引进行重置，得到更加规整的DataFrame。

In [135]:
df_cleaned=df1.reset_index()

现在针对流派和演员分组的IMDB评分数据已经整理好，可以进入后续的分析步骤了。

但我们当前可以继续做一些数据整理，比如对上面的结果再次进行分组，找出各个流派里演员作品最高的平均评分是多少、最高评分对应的演员名字是什么。

要得到这一结果，我们需要再次用genres进行分组，然后提取出imdb_score变量，计算其最大值。


In [137]:
df_max=df1.groupby("genres")["imdb_score"].max()

在我们知道最高分后，可以把以上结果和之前得到的imdb_score_groupby_genres_and_person_id_df再次进行连接，得到最高分对应的各个演员ID是什么，也就是这个最高平均分是哪位演员拿到的。

In [144]:
genres_max_score_with_person_id=pd.merge(df_cleaned,df_max,on=['genres','imdb_score'])

从以上结果可以看出，最高分对应的演员不一定只有一位，可能有多位演员的平均得分相同。

为了得到演员ID所对应的演员名字，我们可以和cleaned_credits这个DataFrame进行连接。这个DataFrame还有其它列，我们只需要得到person_id和name的对应，所以可以先提取出那两列，并把重复行删除。


In [147]:
df_actor_name=original_credits[["person_id","name"]].drop_duplicates()

下一步就可以把actor_id_with_names与前面得到的genres_max_score_with_person_id进行连接，增加name变量，从而展示平均评分最高的演员名字。

In [151]:
df_final=pd.merge(df_actor_name,genres_max_score_with_person_id,on="person_id")

In [155]:
df_final.sort_values('genres').reset_index().drop('index',axis=1)

Unnamed: 0,person_id,name,genres,imdb_score
0,12790,Olivia Hack,action,9.3
1,86591,Cricket Leigh,action,9.3
2,336830,André Sogliuzzo,action,9.3
3,21033,Zach Tyler,action,9.3
4,1303,Jessie Flower,action,9.3
...,...,...,...,...
131,140181,Naoya Uchida,war,8.8
132,93017,Aoi Tada,western,8.9
133,28166,Megumi Hayashibara,western,8.9
134,28180,Unsho Ishizuka,western,8.9


为了把相同流派都排序在一起，我们还可以用sort_values方法，把结果里面的行根据genres进行排序，然后用reset_index把索引重新排序。

索引重新排序后，DataFrame会多出index一列，我们可以再把index列进行删除。


In [157]:
df_final.to_csv("C:/Users/p/Desktop/jupyter/DataAnsysFromZry.csv")