# 專案：整理 Netflix 電影演員評分數據

## 分析目標

此數據分析的目的在於整理不同類型影視作品，比如喜劇片、動作片、科幻片中，各演員出演作品的平均 IMDB 評分，從而挖掘出各類型中的高評分作品演員。

本專案的目的是練習整理數據，以便獲得可供下一步分析的數據。

## 簡介

原始數據集記錄了截至2022年7月美國地區可觀看的所有 Netflix 電視劇及電影數據。數據集包含兩個數據表：`titles.csv`和`credits.csv`。

`titles.csv`包含電影及電視劇的相關資訊，包括影視作品 ID、標題、類型、描述、類別、IMDB（國外的一個線上評分網站）評分等信息。
`credits.csv`包含超過7萬名出現在 Netflix 影視作品中的導演及演員資訊，包括姓名、影視作品 ID、角色名稱、演職人員類型（導演/演員）等。

`titles.csv`每列的含義如下：
- id：影視作品 ID。
- title：影視作品標題。
- show_type：作品類型，電視節目或電影。
- description：簡短描述。
- release_year：發布年份。
- age_certification：適齡認證。
- runtime：每集電視劇或電影的長度。
- genres：流派類型列表。
- production_countries：出品國家列表。
- seasons：如果是電視劇，則為季數。
- imdb_id：IMDB 的 ID。
- imdb_score：IMDB 的評分。
- imdb_votes：IMDB 的投票數。
- tmdb_popularity：TMDB 的流行度。
- tmdb_score：TMDB 的評分。

`credits.csv` 每列的含義如下：
- person_ID：演職人員 ID。
- id：參與的影視作品 ID。
- name：姓名。
- character_name：角色姓名。
- role：演職人員類型，演員或導演。

## 讀取數據

導入數據分析所需的庫，並通過 Pandas 的 `read_csv `函數，將原始數據文件 "titles.csv" 的數據內容解析為 DataFrame，並賦值給變數 original_titles。將原始數據文件 `credits.csv` 的數據內容解析為 DataFrame，並賦值給變數 `original_credits`

In [1]:
import pandas as pd

In [2]:
original_titles = pd.read_csv("titles.csv")
original_credits = pd.read_csv("credits.csv")

In [3]:
original_titles.head()

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
0,ts300399,Five Came Back: The Reference Films,SHOW,This collection includes 12 World War II-era p...,1945,TV-MA,51,['documentation'],['US'],1.0,,,,0.6,
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,"['drama', 'action', 'thriller', 'european']",['US'],,tt0068473,7.7,107673.0,10.01,7.3
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,"['fantasy', 'action', 'comedy']",['GB'],,tt0071853,8.2,534486.0,15.461,7.811
4,tm120801,The Dirty Dozen,MOVIE,12 American military prisoners in World War II...,1967,,150,"['war', 'action']","['GB', 'US']",,tt0061578,7.7,72662.0,20.398,7.6


In [4]:
original_credits.head()

Unnamed: 0,person_id,id,name,character,role
0,3748,tm84618,Robert De Niro,Travis Bickle,ACTOR
1,14658,tm84618,Jodie Foster,Iris Steensma,ACTOR
2,7064,tm84618,Albert Brooks,Tom,ACTOR
3,3739,tm84618,Harvey Keitel,Matthew 'Sport' Higgins,ACTOR
4,48933,tm84618,Cybill Shepherd,Betsy,ACTOR


## 評估和清理數據

在這一部分中，我們將對在上一部分建立的 `original_titles` 及 `original_credits` DataFrame 所包含的數據進行評估和清理。

主要從兩個方面進行：結構和內容，即整齊度和乾淨度。

數據的結構性問題：指不符合「每個變數為一列，每個觀察值為一行，每種類型的觀察單位為一個表格」這三個標準的情況。
數據的內容性問題：包括存在遺失數據、重複數據、無效數據等問題。

為了區分清理後的數據和原始數據，我們創建新的變數` cleaned_titles`，將其作為從 `original_titles` 複製出的副本，並創建新的變數 `cleaned_credits`，將其作為從 `original_credits` 複製出的副本。我們之後的清理步驟都將運用在 `cleaned_titles`和 `cleaned_credits` 上。

In [5]:
cleaned_titles = original_titles.copy()
cleaned_credits = original_credits.copy()

## 數據整齊度

In [6]:
cleaned_titles.head(10)

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
0,ts300399,Five Came Back: The Reference Films,SHOW,This collection includes 12 World War II-era p...,1945,TV-MA,51,['documentation'],['US'],1.0,,,,0.6,
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,"['drama', 'action', 'thriller', 'european']",['US'],,tt0068473,7.7,107673.0,10.01,7.3
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,"['fantasy', 'action', 'comedy']",['GB'],,tt0071853,8.2,534486.0,15.461,7.811
4,tm120801,The Dirty Dozen,MOVIE,12 American military prisoners in World War II...,1967,,150,"['war', 'action']","['GB', 'US']",,tt0061578,7.7,72662.0,20.398,7.6
5,ts22164,Monty Python's Flying Circus,SHOW,A British sketch comedy series with the shows ...,1969,TV-14,30,"['comedy', 'european']",['GB'],4.0,tt0063929,8.8,73424.0,17.617,8.306
6,tm70993,Life of Brian,MOVIE,"Brian Cohen is an average young Jewish man, bu...",1979,R,94,['comedy'],['GB'],,tt0079470,8.0,395024.0,17.77,7.8
7,tm14873,Dirty Harry,MOVIE,When a madman dubbed 'Scorpio' terrorizes San ...,1971,R,102,"['thriller', 'action', 'crime']",['US'],,tt0066999,7.7,155051.0,12.817,7.5
8,tm119281,Bonnie and Clyde,MOVIE,"In the 1930s, bored waitress Bonnie Parker fal...",1967,R,110,"['crime', 'drama', 'action']",['US'],,tt0061418,7.7,112048.0,15.687,7.5
9,tm98978,The Blue Lagoon,MOVIE,Two small children and a ship's cook survive a...,1980,R,104,"['romance', 'action', 'drama']",['US'],,tt0080453,5.8,69844.0,50.324,6.156


從數據的部分 10 行來看，`cleaned_titles` 中的 `genres`和 `production_countries` 變數包含多個值，應當進行拆分。

我們可以先提取任意一個 `genres` 變數的值進行觀察。

In [7]:
cleaned_titles['genres'][1]

"['drama', 'crime']"

雖然 `genres`的表示形式是列表，但其實際類型並非字符串列表，而是字符串，因此無法直接使用 `value_counts `統計各個值出現的次數。

我們可以使用 Python 內建的 `eval` 函數，它可以將字符串轉換成表達式，因此可以幫助我們將表示列表的字符串轉換成真正的列表。

In [8]:
cleaned_titles['genres'] = cleaned_titles['genres'].apply(lambda s: eval(s))
cleaned_titles['genres'][1]

['drama', 'crime']

轉換為列表後，就可以使用 DataFrame 的`explode `方法，將該列中的列表值拆分為單獨的行。

In [9]:
cleaned_titles = cleaned_titles.explode("genres")
cleaned_titles.head(10)

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
0,ts300399,Five Came Back: The Reference Films,SHOW,This collection includes 12 World War II-era p...,1945,TV-MA,51,documentation,['US'],1.0,,,,0.6,
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,drama,['US'],,tt0075314,8.2,808582.0,40.965,8.179
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,crime,['US'],,tt0075314,8.2,808582.0,40.965,8.179
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,drama,['US'],,tt0068473,7.7,107673.0,10.01,7.3
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,action,['US'],,tt0068473,7.7,107673.0,10.01,7.3
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,thriller,['US'],,tt0068473,7.7,107673.0,10.01,7.3
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,european,['US'],,tt0068473,7.7,107673.0,10.01,7.3
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,fantasy,['GB'],,tt0071853,8.2,534486.0,15.461,7.811
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,action,['GB'],,tt0071853,8.2,534486.0,15.461,7.811
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,comedy,['GB'],,tt0071853,8.2,534486.0,15.461,7.811


接下來，針對 `production_countries` 列也可以採用相同的流程。

每個觀察值的 `production_countries` 值並不表示單個國家，而是一系列國家。首先提取任意一個 production_countries 變數的值進行觀察。

In [10]:
cleaned_titles['production_countries'][1]

1    ['US']
1    ['US']
Name: production_countries, dtype: object

可以看到，`production_countries` 也是一樣的問題，雖然表示形式是列表，但其實際類型並非字串列表，而是字串，難以進行拆分。  
我們可以再次利用 `eval` 函數進行類型轉換，並檢查轉換後確實是列表類型。

In [11]:
cleaned_titles['production_countries'] = cleaned_titles['production_countries'].apply(lambda s: eval(s))
cleaned_titles['production_countries'][0]

['US']

確認類型轉換完畢後，仍然可以使用 `explode` 方法，將列表值拆分成單獨的行。

In [12]:
cleaned_titles = cleaned_titles.explode('production_countries')
cleaned_titles.head(10)

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
0,ts300399,Five Came Back: The Reference Films,SHOW,This collection includes 12 World War II-era p...,1945,TV-MA,51,documentation,US,1.0,,,,0.6,
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,drama,US,,tt0075314,8.2,808582.0,40.965,8.179
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,crime,US,,tt0075314,8.2,808582.0,40.965,8.179
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,drama,US,,tt0068473,7.7,107673.0,10.01,7.3
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,action,US,,tt0068473,7.7,107673.0,10.01,7.3
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,thriller,US,,tt0068473,7.7,107673.0,10.01,7.3
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,european,US,,tt0068473,7.7,107673.0,10.01,7.3
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,fantasy,GB,,tt0071853,8.2,534486.0,15.461,7.811
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,action,GB,,tt0071853,8.2,534486.0,15.461,7.811
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,comedy,GB,,tt0071853,8.2,534486.0,15.461,7.811


在處理完 `cleaned_titles` 的結構性問題後，接下來查看 `cleaned_credits`。

In [13]:
cleaned_credits.head(10)

Unnamed: 0,person_id,id,name,character,role
0,3748,tm84618,Robert De Niro,Travis Bickle,ACTOR
1,14658,tm84618,Jodie Foster,Iris Steensma,ACTOR
2,7064,tm84618,Albert Brooks,Tom,ACTOR
3,3739,tm84618,Harvey Keitel,Matthew 'Sport' Higgins,ACTOR
4,48933,tm84618,Cybill Shepherd,Betsy,ACTOR
5,32267,tm84618,Peter Boyle,Wizard,ACTOR
6,519612,tm84618,Leonard Harris,Senator Charles Palantine,ACTOR
7,29068,tm84618,Diahnne Abbott,Concession Girl,ACTOR
8,519613,tm84618,Gino Ardito,Policeman at Rally,ACTOR
9,3308,tm84618,Martin Scorsese,Passenger Watching Silhouette,ACTOR


從前 10 行數據來看，`cleaned_credits` 數據符合「每個變量為一列，每個觀察值為一行，每種類型的觀察單位為一個表格」，因此不存在結構性問題。

### 數據清洗

接下來通過 `info` 方法，對數據內容進行大致了解。

In [14]:
cleaned_titles.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 17818 entries, 0 to 5849
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id                    17818 non-null  object 
 1   title                 17817 non-null  object 
 2   type                  17818 non-null  object 
 3   description           17790 non-null  object 
 4   release_year          17818 non-null  int64  
 5   age_certification     10889 non-null  object 
 6   runtime               17818 non-null  int64  
 7   genres                17755 non-null  object 
 8   production_countries  17439 non-null  object 
 9   seasons               6224 non-null   float64
 10  imdb_id               17116 non-null  object 
 11  imdb_score            16976 non-null  float64
 12  imdb_votes            16945 non-null  float64
 13  tmdb_popularity       17663 non-null  float64
 14  tmdb_score            17241 non-null  float64
dtypes: float64(5), int64

從輸出結果來看，`cleaned_titles` 數據共有 17818 條觀察值，`title`、`description`、`age_certification`、`genres`、`production_countries`、`seasons`、`imdb_id`、`imdb_score`、`tmdb_popularity`、`tmdb_score`、`imdb_votes`、`tmdb_popularity`、`tmdb_score` 變量均存在缺失值，這些問題將在後續進行評估和清理。

此外，`release_year` 表示年份，其數據類型不應為數字，而應為日期，因此需要進行數據格式轉換。

In [15]:
cleaned_titles["release_year"] = pd.to_datetime(cleaned_titles["release_year"], format='%Y')
cleaned_titles["release_year"]

0      1945-01-01
1      1976-01-01
1      1976-01-01
2      1972-01-01
2      1972-01-01
          ...    
5847   2021-01-01
5848   2021-01-01
5849   2021-01-01
5849   2021-01-01
5849   2021-01-01
Name: release_year, Length: 17818, dtype: datetime64[ns]

In [16]:
cleaned_credits.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77801 entries, 0 to 77800
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   person_id  77801 non-null  int64 
 1   id         77801 non-null  object
 2   name       77801 non-null  object
 3   character  68029 non-null  object
 4   role       77801 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.0+ MB


從輸出結果來看，`cleaned_credits` 數據共有 77801 條觀察值，其中 `character` 變量存在缺失值，這些問題將在後續進行評估和清理。

此外，`person_id` 表示演職員 ID，其數據類型不應為數字，而應為字串，因此需要進行數據格式轉換。

In [17]:
cleaned_credits["person_id"] = cleaned_credits["person_id"].astype("str")
cleaned_credits["person_id"]

0           3748
1          14658
2           7064
3           3739
4          48933
          ...   
77796     736339
77797     399499
77798     373198
77799     378132
77800    1950416
Name: person_id, Length: 77801, dtype: object

### 處理缺失值

在 `cleaned_titles` 中，`title`、`description`、`age_certification`、`genres`、`production_countries`、`seasons`、`imdb_id`、`imdb_score`、`tmdb_popularity`、`tmdb_score`、`imdb_votes`、`tmdb_popularity`、`tmdb_score` 變量存在缺失值。

由於影視作品的標題、描述、適齡認證、發行國家、電視劇季數、IMDB 的 ID、TMDB 的流行度、TMDB 的評分，並不影響我們挖掘各個流派中的高 IMDB 評分作品演員，因此可以保留 `title`、`description`、`age_certification`、`production_countries`、`seasons`、`imdb_id`、`tmdb_popularity`、`tmdb_score`、`imdb_votes`、`tmdb_popularity`、`tmdb_score` 變量值存在空缺的觀察值。

但 `imdb_score` 和 `genres`，即 IMDB 評分和流派，與我們後續要做的分析息息相關。

先提取出 `imdb_score` 缺失的觀察值進行查看。

In [18]:
cleaned_titles.query("imdb_score.isnull()")

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
0,ts300399,Five Came Back: The Reference Films,SHOW,This collection includes 12 World War II-era p...,1945-01-01,TV-MA,51,documentation,US,1.0,,,,0.600,
75,tm132164,Bill Hicks: Sane Man,MOVIE,Sane Man was filmed before Bill recorded ‘Dang...,1989-01-01,R,80,comedy,US,,,,,3.377,7.5
145,ts251477,My First Errand,SHOW,“Hajimete no Otsukai” (First Errand) is a Japa...,1991-01-01,TV-G,18,documentation,JP,12.0,,,,7.730,7.8
145,ts251477,My First Errand,SHOW,“Hajimete no Otsukai” (First Errand) is a Japa...,1991-01-01,TV-G,18,family,JP,12.0,,,,7.730,7.8
145,ts251477,My First Errand,SHOW,“Hajimete no Otsukai” (First Errand) is a Japa...,1991-01-01,TV-G,18,reality,JP,12.0,,,,7.730,7.8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5810,tm1225897,Social Man,MOVIE,Two competitive social media Influencers go he...,2021-01-01,,96,drama,,,tt20198164,,,,
5833,ts307884,HQ Barbers,SHOW,When a family run barber shop in the heart of ...,2021-01-01,TV-14,24,comedy,NG,1.0,,,,0.840,
5840,tm1216735,Sun of the Soil,MOVIE,"In 14th-century Mali, an ambitious young royal...",2022-01-01,,26,,,,,,,1.179,7.0
5844,tm1074617,Bling Empire - The Afterparty,MOVIE,"The stars of ""Bling Empire"" discuss the show's...",2021-01-01,,35,,US,,,,,,


由於缺失分析所需的核心數據 `imdb_score`，我們將把這些觀察值刪除，並查看刪除後該列空缺值的個數和：

In [19]:
cleaned_titles = cleaned_titles.dropna(subset=["imdb_score"])
cleaned_titles["imdb_score"].isnull().sum()

0

然後提取出 `genres` 缺失的觀察值進行查看。

In [20]:
cleaned_titles.query("genres.isnull()")

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
1813,ts77824,My Next Guest Needs No Introduction With David...,SHOW,TV legend David Letterman teams up with fascin...,2018-01-01,TV-MA,50,,US,4.0,tt7829834,7.8,5581.0,8.217,7.6
1939,ts215037,Minecraft: Story Mode,SHOW,"MInecraft: Story Mode is an interactive, anima...",2018-01-01,TV-PG,52,,US,1.0,tt10498322,5.6,347.0,,
2386,ts74805,A Little Help with Carol Burnett,SHOW,In this unscripted series starring comedy lege...,2018-01-01,TV-G,24,,US,1.0,tt7204366,6.3,237.0,1.621,6.2
2658,ts265844,#ABtalks,SHOW,#ABtalks is a YouTube interview show hosted by...,2018-01-01,TV-PG,68,,,1.0,tt12635254,9.6,7.0,,
4274,tm1172010,The Lockdown Plan,MOVIE,,2020-01-01,,49,,,,tt13079112,6.5,,,
4648,tm1113921,In Vitro,MOVIE,'In Vitro' is an otherworldly rumination on me...,2019-01-01,,27,,,,tt10545994,7.7,,,


由於缺失分析所需的核心數據 `genres`，我們將把這些觀察值刪除，並查看刪除後該列空缺值的個數和：

In [21]:
cleaned_titles = cleaned_titles.dropna(subset=["genres"])
cleaned_titles["genres"].isnull().sum()

0

接下來評估 `cleaned_credits` 的缺失數據，其中只有 `character` 變量存在缺失值。

角色名並不影響我們挖掘各個流派中的高 IMDB 評分作品演員，並且此變量缺失也可能是因為演職員類別為導演，沒有對應角色，因此可以保留 `character` 變量值存在空缺的觀察值。

### 處理重複數據

根據數據變量的含義以及內容來看，`cleaned_titles` 中不應該存在每個變量值都相同的觀察值，因此需要檢查是否存在重複值。

In [22]:
cleaned_titles.duplicated().sum()

0

輸出結果為 0，說明不存在重複值。

接下來查看 `cleaned_credits` 數據表是否存在重複值。

In [23]:
cleaned_credits.duplicated().sum()

0

輸出結果為 0，說明不存在重複值。

### 處理不一致數據

針對 `cleaned_titles`，不一致數據可能存在於 `genres` 和 `production_countries` 變量中，我們將查看是否存在多個不同值指代同一流派，以及多個不同值指代同一國家的情況。

In [24]:
cleaned_titles['genres'].value_counts()

drama            3357
comedy           2419
thriller         1446
action           1339
romance          1080
crime            1066
documentation     981
family            769
animation         732
fantasy           727
european          679
scifi             647
horror            438
history           336
music             266
reality           226
war               221
sport             188
western            53
Name: genres, dtype: int64

從上面可以看出，`genres` 列裡並不存在不一致的數據，各個值都在指代不同的流派。但是其中仍然存在以空字串表示的流派，這並非有效數據，因此可以進行刪除。

刪除後，檢查 `cleaned_titles` 中是否還存在 `genres` 為空字串的行：

In [25]:
cleaned_titles = cleaned_titles.query('genres != ""')
cleaned_titles.query('genres == ""')

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score


接下來，針對 `production_countries` 列也採用相同的流程，利用 `value_counts` 方法，獲取 `production_countries` 列表中各個值的出現次數。

In [26]:
cleaned_titles['production_countries'].value_counts()

US    5648
IN    1610
GB    1068
JP    1046
FR     720
      ... 
GT       1
CU       1
LK       1
NP       1
FO       1
Name: production_countries, Length: 108, dtype: int64

由於 `value_counts` 的執行結果中包含過多值，Pandas 預設只顯示開頭和結尾的一些值。若需要完整展示結果，可以將 `display.max_rows` 設置為 `None`，即取消顯示行數的上限。

但因為我們只在當前調用 `value_counts` 時才需要查看完整結果，因此可以結合 `option_context`，臨時更改顯示行數的上限。

In [27]:
with pd.option_context('display.max_rows', None):
    print(cleaned_titles['production_countries'].value_counts())

US         5648
IN         1610
GB         1068
JP         1046
FR          720
KR          637
ES          637
CA          608
DE          383
CN          295
MX          264
IT          224
BR          221
AU          217
TR          195
PH          192
AR          150
ID          149
BE          148
TW          133
NG          131
PL          126
ZA          103
NL          102
HK          102
CO           94
EG           93
DK           89
TH           87
SE           81
LB           70
NO           68
AE           52
IE           49
SG           47
XX           43
IL           42
RU           41
CL           35
CH           33
PS           32
BG           31
MY           30
SA           28
AT           28
IS           28
LU           27
NZ           27
PE           26
RO           25
QA           24
CZ           22
JO           19
FI           18
HU           18
UY           15
MA           15
PT           14
KH           10
KW           10
PR            9
PK            9
MT      

從以上輸出結果來看，出品國家都用兩位的國家代碼來表示，但其中存在一個值為 `Lebanon`。

`Lebanon` 的國家代碼是 `LB`，並且出現了 39 次，說明此處數據不一致。`LB` 和 `Lebanon` 都在表示同一國家，因此需要進行統一。

把 `cleaned_titles` 裡，`production_countries` 的 `"LB"` 和 `"Lebanon"` 統一為 `"LB"`，並檢查替換後是否還存在 `"LB"`：

In [28]:
# 對每個觀察值"production_countries"列的列表運用上面的函数
cleaned_titles["production_countries"] = cleaned_titles["production_countries"].replace({"Lebanon": "LB"})

# 檢查"Lebanon"是否還存在
with pd.option_context('display.max_rows', None):
    print(cleaned_titles.explode('production_countries')['production_countries'].value_counts())

US    5648
IN    1610
GB    1068
JP    1046
FR     720
KR     637
ES     637
CA     608
DE     383
CN     295
MX     264
IT     224
BR     221
AU     217
TR     195
PH     192
AR     150
ID     149
BE     148
TW     133
NG     131
PL     126
ZA     103
HK     102
NL     102
CO      94
EG      93
DK      89
TH      87
SE      81
LB      71
NO      68
AE      52
IE      49
SG      47
XX      43
IL      42
RU      41
CL      35
CH      33
PS      32
BG      31
MY      30
AT      28
SA      28
IS      28
LU      27
NZ      27
PE      26
RO      25
QA      24
CZ      22
JO      19
FI      18
HU      18
UY      15
MA      15
PT      14
KW      10
KH      10
PK       9
PR       9
UA       8
MT       8
VN       8
LT       7
IR       7
CD       7
SU       7
TN       7
SN       6
AL       6
KE       6
GH       6
IQ       5
MU       5
CY       5
KN       4
GR       4
IO       4
SY       4
TZ       4
MC       4
GL       3
CM       3
AO       3
BS       3
HR       3
BD       3
PY       3
DZ       3

另外，其中還存在以空字串表示的國家代碼，這並非有效數據。但由於出品國家並非分析所需的關鍵資訊，所以可以保留出品國家為空的觀察值。

針對 `original_credits`，不一致數據可能存在於 `role` 中，我們將查看是否存在多個不同值指同一演員類型的情況。

In [29]:
original_credits['role'].value_counts()

ACTOR       73251
DIRECTOR     4550
Name: role, dtype: int64

從以上輸出結果來看，`role` 只有兩種可能的值，`ACTOR` 或 `DIRECTOR`，不存在不一致數據。我們可以將這一列的類型轉換為 `Category`，這樣的好處是比字串類型更節省記憶體空間，同時也能表明值的類型是有限的。

In [30]:
cleaned_credits["role"] = cleaned_credits["role"].astype("category")
cleaned_credits["role"]

0           ACTOR
1           ACTOR
2           ACTOR
3           ACTOR
4           ACTOR
           ...   
77796       ACTOR
77797       ACTOR
77798       ACTOR
77799       ACTOR
77800    DIRECTOR
Name: role, Length: 77801, dtype: category
Categories (2, object): ['ACTOR', 'DIRECTOR']

### 處理無效或錯誤數據

可以通過 DataFrame 的 `describe` 方法，快速了解數值型數據的統計資訊。

In [31]:
original_titles.describe()

Unnamed: 0,release_year,runtime,seasons,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
count,5850.0,5850.0,2106.0,5368.0,5352.0,5759.0,5539.0
mean,2016.417094,76.888889,2.162868,6.510861,23439.38,22.637925,6.829175
std,6.937726,39.002509,2.689041,1.163826,95820.47,81.680263,1.170391
min,1945.0,0.0,1.0,1.5,5.0,0.009442,0.5
25%,2016.0,44.0,1.0,5.8,516.75,2.7285,6.1
50%,2018.0,83.0,1.0,6.6,2233.5,6.821,6.9
75%,2020.0,104.0,2.0,7.3,9494.0,16.59,7.5375
max,2022.0,240.0,42.0,9.6,2294231.0,2274.044,10.0


從以上統計資訊來看，`original_titles` 裡不存在脫離現實意義的數值。

`original_credits` 由於不包含表示數值含義的變量，因此無需使用 `describe` 進行檢查。

### 整理數據

In [32]:
cleaned_titles

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976-01-01,R,114,drama,US,,tt0075314,8.2,808582.0,40.965,8.179
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976-01-01,R,114,crime,US,,tt0075314,8.2,808582.0,40.965,8.179
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972-01-01,R,109,drama,US,,tt0068473,7.7,107673.0,10.010,7.300
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972-01-01,R,109,action,US,,tt0068473,7.7,107673.0,10.010,7.300
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972-01-01,R,109,thriller,US,,tt0068473,7.7,107673.0,10.010,7.300
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5846,tm898842,C/O Kaadhal,MOVIE,A heart warming film that explores the concept...,2021-01-01,,134,drama,,,tt11803618,7.7,348.0,,
5847,tm1059008,Lokillo,MOVIE,A controversial TV host and comedian who has b...,2021-01-01,,90,comedy,CO,,tt14585902,3.8,68.0,26.005,6.300
5849,ts271048,Mighty Little Bheem: Kite Festival,SHOW,"With winter behind them, Bheem and his townspe...",2021-01-01,,7,family,,1.0,tt13711094,7.8,18.0,2.289,10.000
5849,ts271048,Mighty Little Bheem: Kite Festival,SHOW,"With winter behind them, Bheem and his townspe...",2021-01-01,,7,animation,,1.0,tt13711094,7.8,18.0,2.289,10.000


In [33]:
cleaned_credits

Unnamed: 0,person_id,id,name,character,role
0,3748,tm84618,Robert De Niro,Travis Bickle,ACTOR
1,14658,tm84618,Jodie Foster,Iris Steensma,ACTOR
2,7064,tm84618,Albert Brooks,Tom,ACTOR
3,3739,tm84618,Harvey Keitel,Matthew 'Sport' Higgins,ACTOR
4,48933,tm84618,Cybill Shepherd,Betsy,ACTOR
...,...,...,...,...,...
77796,736339,tm1059008,Adelaida Buscato,María Paz,ACTOR
77797,399499,tm1059008,Luz Stella Luengas,Karen Bayona,ACTOR
77798,373198,tm1059008,Inés Prieto,Fanny,ACTOR
77799,378132,tm1059008,Isabel Gaona,Cacica,ACTOR


對數據的整理與分析方向緊密相關。本次數據分析的目標是整理不同流派的影視作品（例如喜劇片、動作片、科幻片），計算演員出演作品的平均 IMDB 評分，從而挖掘出各個流派中的高評分作品演員。

為了同時獲取流派和演員的數據，我們需要將 `cleaned_titles` 和 `cleaned_credits` 通過 `id` 作為鍵進行連接，因為兩個數據表中的 `id` 都是影視作品的唯一標識符。

In [34]:
credits_with_titles = pd.merge(cleaned_credits, cleaned_titles, on="id", how="inner")

連接後，我們就能知道各個演職員參與過的影視作品的具體資訊。

credits_with_titles.head()

由於我們只對挖掘演員的參演作品口碑感興趣，導演不在我們的分析範圍內，因此可以根據 `role` 篩選出類型為 `ACTOR` 的觀察值，供後續分析。

In [35]:
actor_with_titles = credits_with_titles.query('role == "ACTOR"')

為了挖掘出各個流派中的高 IMDB 評分作品演員，我們需要先根據流派和演員進行分組。

在對演員進行分組時，選擇使用的是 `person_id` 而不是 `name` 變量，原因是名字容易出現拼寫錯誤或者重名的情況，而演職員 ID 能更準確地反映是哪位演員。

In [36]:
groupby_genres_and_person_id = actor_with_titles.groupby(["genres", "person_id"])

分組後，我們只需要對 `imdb_score` 的值進行聚合計算，因此只提取 `imdb_score` 變量，然後調用 `mean`，來計算各個流派影視作品中，每位演員參演作品的平均 IMDB 評分。

In [37]:
imdb_score_groupby_genres_and_person_id = groupby_genres_and_person_id["imdb_score"].mean()
imdb_score_groupby_genres_and_person_id

genres   person_id
action   1000         6.866667
         100007       7.000000
         100013       6.400000
         100019       6.500000
         100020       6.500000
                        ...   
western  993735       6.500000
         998673       7.300000
         998674       7.300000
         998675       7.300000
         99940        4.000000
Name: imdb_score, Length: 168881, dtype: float64

我們可以調用 `reset_index`，對層次化索引進行重置，得到更加規整的 DataFrame。

In [38]:
imdb_score_groupby_genres_and_person_id_df = imdb_score_groupby_genres_and_person_id.reset_index()
imdb_score_groupby_genres_and_person_id_df

Unnamed: 0,genres,person_id,imdb_score
0,action,1000,6.866667
1,action,100007,7.000000
2,action,100013,6.400000
3,action,100019,6.500000
4,action,100020,6.500000
...,...,...,...
168876,western,993735,6.500000
168877,western,998673,7.300000
168878,western,998674,7.300000
168879,western,998675,7.300000


現在針對流派和演員分組的 IMDB 評分數據已經整理好，可以進入後續的分析步驟了。

但我們目前可以繼續進行一些數據整理，例如對上述結果再次進行分組，找出各個流派中演員作品的最高平均評分是多少，以及對應的演員名字是什麼。

要得到這一結果，我們需要再次用 `genres` 進行分組，然後提取出 `imdb_score` 變量，計算其最大值。

In [39]:
genres_max_scores = imdb_score_groupby_genres_and_person_id_df.groupby("genres")["imdb_score"].max()
genres_max_scores

genres
action           9.3
animation        9.3
comedy           9.2
crime            9.5
documentation    9.1
drama            9.5
european         8.9
family           9.3
fantasy          9.3
history          9.1
horror           9.0
music            8.8
reality          8.9
romance          9.2
scifi            9.3
sport            9.1
thriller         9.5
war              8.8
western          8.9
Name: imdb_score, dtype: float64

在我們知道最高分後，可以將以上結果與之前得到的 `imdb_score_groupby_genres_and_person_id_df` 再次進行連接，得到最高分對應的各個演員 ID，也就是這個最高平均分是哪位演員獲得的。

In [40]:
genres_max_score_with_person_id = pd.merge(imdb_score_groupby_genres_and_person_id_df, genres_max_scores, on=["genres", "imdb_score"])
genres_max_score_with_person_id

Unnamed: 0,genres,person_id,imdb_score
0,action,12790,9.3
1,action,1303,9.3
2,action,21033,9.3
3,action,336830,9.3
4,action,86591,9.3
...,...,...,...
131,war,826547,8.8
132,western,22311,8.9
133,western,28166,8.9
134,western,28180,8.9


從以上結果可以看出，最高分對應的演員不一定只有一位，可能有多位演員的平均得分相同。

為了得到演員 ID 所對應的演員名字，我們可以與 `cleaned_credits` 這個 DataFrame 進行連接。由於 `cleaned_credits` 還包含其他列，我們只需要提取 `person_id` 和 `name` 的對應關係，因此可以先提取出這兩列，並刪除重複的行。

In [41]:
actor_id_with_names = cleaned_credits[['person_id', 'name']].drop_duplicates()
actor_id_with_names.head(10)

Unnamed: 0,person_id,name
0,3748,Robert De Niro
1,14658,Jodie Foster
2,7064,Albert Brooks
3,3739,Harvey Keitel
4,48933,Cybill Shepherd
5,32267,Peter Boyle
6,519612,Leonard Harris
7,29068,Diahnne Abbott
8,519613,Gino Ardito
9,3308,Martin Scorsese


下一步就可以將 `actor_id_with_names` 與前面得到的 `genres_max_score_with_person_id` 進行連接，新增 `name` 變量，從而展示平均評分最高的演員名字。

In [42]:
genres_max_score_with_actor_name = pd.merge(genres_max_score_with_person_id, actor_id_with_names, on="person_id")
genres_max_score_with_actor_name

Unnamed: 0,genres,person_id,imdb_score,name
0,action,12790,9.3,Olivia Hack
1,scifi,12790,9.3,Olivia Hack
2,action,1303,9.3,Jessie Flower
3,animation,1303,9.3,Jessie Flower
4,family,1303,9.3,Jessie Flower
...,...,...,...,...
131,war,826547,8.8,Yuto Uemura
132,western,22311,8.9,Koichi Yamadera
133,western,28166,8.9,Megumi Hayashibara
134,western,28180,8.9,Unsho Ishizuka


為了將相同流派的結果排序在一起，我們還可以使用 `sort_values` 方法，將結果中的行按照 `genres` 進行排序，然後使用 `reset_index` 將索引重新排序。

索引重新排序後，DataFrame 會多出一列 `index`，我們可以再將 `index` 列刪除。

In [43]:
genres_max_score_with_actor_name = genres_max_score_with_actor_name.sort_values("genres").reset_index().drop("index", axis=1)
genres_max_score_with_actor_name

Unnamed: 0,genres,person_id,imdb_score,name
0,action,12790,9.3,Olivia Hack
1,action,336830,9.3,André Sogliuzzo
2,action,21033,9.3,Zach Tyler
3,action,86591,9.3,Cricket Leigh
4,action,1303,9.3,Jessie Flower
...,...,...,...,...
131,war,826547,8.8,Yuto Uemura
132,western,28166,8.9,Megumi Hayashibara
133,western,28180,8.9,Unsho Ishizuka
134,western,22311,8.9,Koichi Yamadera
