In [1]:
import numpy as np
import pandas as pd

## Thu thập dữ liệu

Đồ án cuối kỳ lần này, trong quá trình tìm dataset, tụi em đã tìm thấy một bộ dữ liệu thú vị về phim của hai hãng phim lớn nhất của thế giới hiện tại là Marvel và DC. Đây là dữ liệu về điểm đánh giá IMDb của các bộ phim, từ bộ dữ liệu này tụi em muốn khám phá, so sánh một số thông tin giữ hai hãng phim đình đám này. Dữ liệu sử dụng tụi em đã lấy ở [đây](https://www.kaggle.com/hetulmehta/marvel-vs-dc-imdb-dataset).

In [2]:
mdi_df = pd.read_csv("Marvel_DC_imdb.csv")
mdi_df.head()

Unnamed: 0.1,Unnamed: 0,Movie,Year,Genre,RunTime,Rating,Director,Actor,Description,IMDB_Score,Metascore,Votes,USA_Gross,Category
0,0,Eternals,(2021),"Action,Adventure,Drama",,,ChloéZhao,"AngelinaJolie,GemmaChan,RichardMadden,BarryKeo...","The saga of the Eternals, a race of immortal b...",,,,,Marvel
1,1,Loki,(2021– ),"Action,Adventure,Fantasy",,,,"TomHiddleston,OwenWilson,SophiaDiMartino,Richa...",A new Marvel chapter with Loki at its center.,,,,,Marvel
2,2,The Falcon and the Winter Soldier,(2021),"Action,Adventure,Drama",50 min,TV-14,,"AnthonyMackie,SebastianStan,WyattRussell,ErinK...","Following the events of 'Avengers: Endgame,' S...",7.5,,105557.0,,Marvel
3,3,WandaVision,(2021),"Action,Comedy,Drama",350 min,TV-PG,,"ElizabethOlsen,PaulBettany,KathrynHahn,Teyonah...",Blends the style of classic sitcoms with the M...,8.1,,174710.0,,Marvel
4,4,Spider-Man: No Way Home,(2021),"Action,Adventure,Sci-Fi",,,JonWatts,"AngourieRice,TomHolland,Zendaya,MarisaTomei",A continuation of Spider-Man: Far From Home.,,,,,Marvel


## Khám phá dữ liệu

### Các thông tin về bộ dữ liệu và cấu trúc của chúng

Đây là một bộ dữ liệu về một số bộ phim của Marvel và DC. Trong bộ dữ liệu này, ta có các cột như sau:

1. **Unnamed**: index sẵn có từ dataset.
2. **Movie**: tên bộ phim.
3. **Year**: (các) năm thực hiện bộ phim.
4. **Genre**: thể loại.
5. **Runtime**: thời lượng phim.
6. **Rating**: Phân loại đối tượng xem phim theo tiêu chuẩn của MPAA (Motion Picture Association of America - Hiệp hội Điện ảnh Hoa Kỳ).
7. **Director**: đạo diễn phim.
8. **Actor**: Các diễn viên tham gia.
9. **Description**: mô tả tóm tắt về nội dung phim.
10. **IMDB_score**: điểm đánh giá từ IMDb (Internet Movie Database), một thư viện về phim điện ảnh nổi tiếng được nhiều người lựa chọn. Những bộ phim hay thường có IMDB score cao.
11. **Metascore**: điểm đánh giá từ các nhà phê bình từ Metacritic, một trang tổng hợp các bài đánh giá về album nhạc, trò chơi điện tử, phim điện ảnh, chương trình truyền hình và đĩa DVD.
12. **Votes**: số lượt bình chọn cho phim từ các khán giả.
13. **USA_gross**: doanh thu của phim.
14. **Category**: hãng làm phim (Marvel hoặc DC).

In [3]:
mdi_df.shape

(1690, 14)

- Dữ liệu thô có 1690 dòng, và 14 cột.
- Mỗi dòng chứa thông tin của một bộ phim và số điểm đánh giá của bộ phim đó, không có dòng nào lạc loài.
- Có một số các bộ phim không có điểm đánh giá, tỉ lệ là bao nhiêu ta sẽ xem ở các phần tiếp theo.
- Nhiều cột không mang ý nghĩa sẽ xoá bỏ trong phần tiền xử lý.

## Có dòng nào bị trùng không? Có phim nào được đánh giá hơn một lần không?

In [4]:
duplicate_row = mdi_df[mdi_df.duplicated(subset=['Movie','Year', 'Category', 'Director'], keep=False)]
duplicate_row.head()

Unnamed: 0.1,Unnamed: 0,Movie,Year,Genre,RunTime,Rating,Director,Actor,Description,IMDB_Score,Metascore,Votes,USA_Gross,Category
107,107,Mutant X,(2001–2004),"Action,Adventure,Drama",42 min,TV-PG,BradTurner,"JohnShea,VictoriaPratt,LaurenLeeSmith,ForbesMarch",Mutant X encounters a new faction of New Mutan...,7.1,,32,,Marvel
109,109,Mutant X,(2001–2004),"Action,Adventure,Drama",43 min,TV-PG,BillCorcoran,"VictoriaPratt,VictorWebster,ForbesMarch,KarenC...",Mutant X unearths an old military experiment i...,5.4,,19,,Marvel
110,110,Mutant X,(2001–2004),"Action,Adventure,Drama",42 min,TV-PG,AndrewPotter,"ForbesMarch,VictoriaPratt,LaurenLeeSmith,Victo...","A young New Mutant from Adam's past shows up, ...",6.8,,30,,Marvel
111,111,Mutant X,(2001–2004),"Action,Adventure,Drama",43 min,TV-PG,AndrewPotter,"VictoriaPratt,VictorWebster,ForbesMarch,KarenC...",As the Mutant X team fights to retrieve a form...,6.1,,22,,Marvel
112,112,Mutant X,(2001–2004),"Action,Adventure,Drama",43 min,TV-PG,OleySassone,"ForbesMarch,VictoriaPratt,LaurenLeeSmith,Victo...",The team face their most dangerous mission yet...,6.4,,21,,Marvel


Như vậy ta thấy dữ liệu không bị trùng, tuy nhiên, có nhiều bộ phim cùng tên, năm, nhưng lại khác đạo diễn.

## Xử lý giá trị trống

Các giá trị trống được điền mặc định là NaN, ta kiểm tra mức độ dữ liệu bị thiếu trong bộ dữ liệu này.

In [5]:
round(mdi_df.isna().mean(), 2)

Unnamed: 0     0.00
Movie          0.00
Year           0.02
Genre          0.00
RunTime        0.17
Rating         0.13
Director       0.13
Actor          0.02
Description    0.00
IMDB_Score     0.12
Metascore      0.96
Votes          0.12
USA_Gross      0.96
Category       0.00
dtype: float64

- Cột Metascore, USA_Gross có tỉ lệ thiếu dữ liệu quá lớn (0.96), ta sẽ drop hai cột này.
- Cột IMDB_Score sẽ được sử dụng trong phân tích nên sẽ được giữ lại các vị trí trống, còn lại ta sẽ drop các hàng có giá trị thiếu ở những cột khác.
- Ngoài ra, ta cũng không cần cột index có sẵn của dataset.

## Tiền xử lý

In [6]:
mdi_df['IMDB_Score'] = mdi_df['IMDB_Score'].fillna(0)
mdi_df = mdi_df.drop(columns = ['Unnamed: 0', 'Metascore', 'USA_Gross'])
mdi_df = mdi_df.dropna(axis = 0).reset_index().drop(columns = 'index')

In [7]:
mdi_df.shape

(1247, 11)

In [8]:
mdi_df.isna().sum()

Movie          0
Year           0
Genre          0
RunTime        0
Rating         0
Director       0
Actor          0
Description    0
IMDB_Score     0
Votes          0
Category       0
dtype: int64

## Khám phá dữ liệu (tiếp tục)

In [9]:
mdi_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1247 entries, 0 to 1246
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Movie        1247 non-null   object 
 1   Year         1247 non-null   object 
 2   Genre        1247 non-null   object 
 3   RunTime      1247 non-null   object 
 4   Rating       1247 non-null   object 
 5   Director     1247 non-null   object 
 6   Actor        1247 non-null   object 
 7   Description  1247 non-null   object 
 8   IMDB_Score   1247 non-null   float64
 9   Votes        1247 non-null   object 
 10  Category     1247 non-null   object 
dtypes: float64(1), object(10)
memory usage: 107.3+ KB


Xem xét các cột có dtype là Object, ta thấy định dạng ở một số cột có vẻ khá khó để thao tác, ta sẽ xử lý những cột này.

## Tiền xử lý (tiếp tục)

Bắt đầu xử lý với cột Year.

In [10]:
mdi_df['Year'].unique()

array(['(2019)', '(2014)', '(2017)', '(2018)', '(2015)', '(2011)',
       '(2008)', '(2016)', '(2012)', '(2013)', '(2010)', '(2007)',
       '(2017 Video)', '(2013 Video)', '(2016 Video)',
       '(2014 TV Special)', '(2009 Video)', '(2020 TV Special)',
       '(2006 Video)', '(2016 TV Special)', '(2015 TV Special)',
       '(2012 Video)', '(2011 Video)', '(2007 Video)',
       '(2018 TV Special)', '(2017 TV Special)', '(2014 Video)', '(2020)',
       '(2002 Video)', '(III) (2011)', '(2001–2004)', '(2000–2003)',
       '(2021)', '(2021– )', '(2015–2019)', '(2016–2018)', '(2013–2020)',
       '(2017–2019)', '(2009)', '(2002)', '(2005)', '(1989)', '(1997)',
       '(1995)', '(1978)', '(1992)', '(1984)', '(1999)', '(2006)',
       '(1994)', '(2003)', '(1983)', '(1980)', '(2004)', '(1982)',
       '(2008 Video)', '(2000 Video)', '(2015 Video)', '(1998 Video)',
       '(2005 Video)', '(2006 TV Movie)', '(1999 TV Movie)',
       '(2018 Video)', '(1984 TV Movie)', '(2001–2011)', '(1999–2001)'

Theo quan sát, cột Year dùng các dạng sau để thể hiện giá trị (với X, Y là năm và Z là các phần của phim):
- (X)
- (X-)
- (X Video)
- (X Video Game)
- (X TV Special)
- (X TV Movie)
- (X - Y)
- (Z)
- (Z) (X)

In [11]:
mdi_df['Year'] = mdi_df['Year'].apply(lambda x: x.replace('(','')\
                                      .replace(')', '')\
                                      .replace(' Video', '')\
                                      .replace(' TV Special','')\
                                      .replace('III ','')\
                                      .replace('–','')\
                                      .replace(' TV Movie',''))
mdi_df['Year'] = mdi_df['Year'].astype(int)
mdi_df['Year'].unique()

array([    2019,     2014,     2017,     2018,     2015,     2011,
           2008,     2016,     2012,     2013,     2010,     2007,
           2009,     2020,     2006,     2002, 20012004, 20002003,
           2021, 20152019, 20162018, 20132020, 20172019,     2005,
           1989,     1997,     1995,     1978,     1992,     1984,
           1999,     1994,     2003,     1983,     1980,     2004,
           1982,     2000,     1998, 20012011, 19992001, 19921995,
       20042008, 19971999, 20032005, 20042006, 19962000, 20032006,
       20012003, 20052006, 20062010, 20102011, 20122020, 20142019,
       20132014, 20142015, 20152021, 20152016, 20182019, 20172021])

Với cách xử lý này, những bộ phim được thực hiện trong nhiều năm sẽ có cách thể hiện hơi không đúng lắm, ta có thể chuyển cột Year thành 2 cột StartYear và EndYear.

In [12]:
def get_start_year(num):
    if num < 2100:
        return num
    else:
        return num // 10000
    
Start_Year =  mdi_df['Year'].apply(lambda x: get_start_year(x))
Start_Year.name = 'StartYear'
End_Year = mdi_df['Year'].apply(lambda x: x % 10000)
End_Year.name = 'EndYear'
mdi_df = mdi_df.drop(columns = ['Year'])

In [13]:
mdi_df = pd.concat([mdi_df, Start_Year, End_Year], axis = 1)
mdi_df.head()

Unnamed: 0,Movie,Genre,RunTime,Rating,Director,Actor,Description,IMDB_Score,Votes,Category,StartYear,EndYear
0,Avengers: Endgame,"Action,Adventure,Drama",181 min,PG-13,"AnthonyRusso,JoeRusso","RobertDowneyJr.,ChrisEvans,MarkRuffalo,ChrisHe...",After the devastating events of Avengers: Infi...,8.4,880911,Marvel,2019,2019
1,Guardians of the Galaxy,"Action,Adventure,Comedy",121 min,PG-13,JamesGunn,"ChrisPratt,VinDiesel,BradleyCooper,ZoeSaldana",A group of intergalactic criminals must pull t...,8.0,1066222,Marvel,2014,2014
2,Spider-Man: Far from Home,"Action,Adventure,Sci-Fi",129 min,PG-13,JonWatts,"TomHolland,SamuelL.Jackson,JakeGyllenhaal,Mari...",Following the events of Avengers: Endgame (201...,7.5,348047,Marvel,2019,2019
3,Thor: Ragnarok,"Action,Adventure,Comedy",130 min,PG-13,TaikaWaititi,"ChrisHemsworth,TomHiddleston,CateBlanchett,Mar...","Imprisoned on the planet Sakaar, Thor must rac...",7.9,615860,Marvel,2017,2017
4,Avengers: Infinity War,"Action,Adventure,Sci-Fi",149 min,PG-13,"AnthonyRusso,JoeRusso","RobertDowneyJr.,ChrisHemsworth,MarkRuffalo,Chr...",The Avengers and their allies must be willing ...,8.4,881638,Marvel,2018,2018


Tiếp theo ta sẽ xử lý cột RunTime, đơn vị 'min' sẽ được loại bỏ, giá trị thể hiện sẽ chuyển về dạng số.

In [14]:
mdi_df['RunTime'] = mdi_df['RunTime'].apply(lambda x: x.replace('min',''))
mdi_df['RunTime'] = mdi_df['RunTime'].astype(int)
mdi_df['RunTime']

0       181
1       121
2       129
3       130
4       149
       ... 
1242     42
1243     42
1244     42
1245     42
1246     42
Name: RunTime, Length: 1247, dtype: int32

Với cột Votes, giá trị được phân cách hàng nghìn bởi dấu ',' ta sẽ xử lý và đưa về dạng số.

In [15]:
mdi_df['Votes'] = mdi_df['Votes'].apply(lambda x: x.replace(',',''))
mdi_df['Votes'] = mdi_df['Votes'].astype(int)
mdi_df['Votes']

0        880911
1       1066222
2        348047
3        615860
4        881638
         ...   
1242       2050
1243       1259
1244       1053
1245       1036
1246       1037
Name: Votes, Length: 1247, dtype: int32

Dataframe sau xử lý:

In [16]:
mdi_df = mdi_df[['Movie', 'Genre', 'RunTime', 'StartYear', 'EndYear', 'Rating', \
                 'Director', 'Actor', 'Description', 'IMDB_Score', 'Votes', 'Category']]
mdi_df.head()

Unnamed: 0,Movie,Genre,RunTime,StartYear,EndYear,Rating,Director,Actor,Description,IMDB_Score,Votes,Category
0,Avengers: Endgame,"Action,Adventure,Drama",181,2019,2019,PG-13,"AnthonyRusso,JoeRusso","RobertDowneyJr.,ChrisEvans,MarkRuffalo,ChrisHe...",After the devastating events of Avengers: Infi...,8.4,880911,Marvel
1,Guardians of the Galaxy,"Action,Adventure,Comedy",121,2014,2014,PG-13,JamesGunn,"ChrisPratt,VinDiesel,BradleyCooper,ZoeSaldana",A group of intergalactic criminals must pull t...,8.0,1066222,Marvel
2,Spider-Man: Far from Home,"Action,Adventure,Sci-Fi",129,2019,2019,PG-13,JonWatts,"TomHolland,SamuelL.Jackson,JakeGyllenhaal,Mari...",Following the events of Avengers: Endgame (201...,7.5,348047,Marvel
3,Thor: Ragnarok,"Action,Adventure,Comedy",130,2017,2017,PG-13,TaikaWaititi,"ChrisHemsworth,TomHiddleston,CateBlanchett,Mar...","Imprisoned on the planet Sakaar, Thor must rac...",7.9,615860,Marvel
4,Avengers: Infinity War,"Action,Adventure,Sci-Fi",149,2018,2018,PG-13,"AnthonyRusso,JoeRusso","RobertDowneyJr.,ChrisHemsworth,MarkRuffalo,Chr...",The Avengers and their allies must be willing ...,8.4,881638,Marvel


## Phân tích dữ liệu để trả lời câu hỏi

### Câu hỏi 1

Hai hãng phim đình đám nhất của thế giới về các câu chuyện siêu anh hùng, luôn cạnh tranh với nhau, liệu hãng phim nào sỡ hữu trung bình đánh giá cao hơn. Ta cùng xem điều đó thông qua dữ liệu.

In [17]:
group_average_rating = mdi_df['IMDB_Score'].groupby(mdi_df['Category'])
group_average_rating.mean()

Category
DC        8.043434
Marvel    7.592996
Name: IMDB_Score, dtype: float64

Như vậy ta các bộ phim của DC được đánh giá cao hơn cao hơn so với Marvel.

### Câu hỏi 2

### Các diễn viên và đạo diễn có làm việc cho cả hai hãng phim không?

Ngoài những con số ra, ta cùng xem các diễn viên và đạo diễn làm việc như thế nào trong mối quan hệ cạnh tranh của Marvel và DC. Liệu có ai bỏ qua mối quan hệ cạnh tranh của hai hãng phim mà cho ra những vai diễn đình đám ở từ những bộ phim của cả hai hãng hay không? Câu trả lời của câu hỏi này sẽ một phần thực tế hóa khả năng hợp tác ở câu hỏi cuối ở bên dưới. 

### Câu hỏi 3

Hiện tại, hai hãng phim muốn hợp tác để bắt đầu một dự án mới, tuy nhiên hãng cũng muốn đánh giá xem, đâu là thể loại phim được ưa chuộng nhất để lên ý tưởng, đạo diễn cũng như diễn viên cho bộ phim này là những ai để thu lại được kết quả tốt nhất. Chúng ta hãy cùng phân tích qua bộ dữ liệu này để tìm được những tiêu chí phù hợp cho hai hãng phim.

Về sơ bộ, ý tưởng của việc phân tích như sau:
- Một bộ phim được khán giả ưa thích (có lượt Votes cao) thì hẳn nhiên phần lớn các yếu tố của bộ phim cũng vậy. Thể hiện khái quát nhất của điều này nằm ở thể loại phim. Như vậy, ta có thể tìm được thể loại phim được ưa thích nhất qua tổng hợp các lượt Votes.
- Đạo diễn cũng như diễn viên phù hợp nhất cho bộ phim có tham vọng hẳn nhiên phải là những người đã từng thực hiện và cho ra những bộ phim được đánh giá cao ở thể loại phim đó. Như vậy, từ thể loại phim đã chọn ở trên, ta sẽ chọn ra những đạo diễn và diễn viên đã từng tham gia những bộ phim có thể loại này và được cho giới chuyên môn đánh giá cao (IMDB_Score cao).

Lưu ý, để không làm phức tạp thêm bài toán, ta sẽ tạm bỏ qua các yếu tố như:
- : D Chuyện hợp tác này có thực tế hay không?
- Những người được chọn liệu có đang bận thực hiện một bộ phim khác hoặc có từ chối tham gia hay không?
- Những người được chọn thường đóng những bộ phim cho lứa tuổi nào, có thực sự phù hợp hay không?
- Các thể loại phim được chọn có sự giao thoa đủ nhiều trong cộng đồng người xem hay không?
- Cũng như việc lượt Votes có thực sự thể hiện hết lượng người yêu thích bộ phim hay chưa?

### Xếp hạng các thể loại phim được ưa chuộng nhất

Các bộ phim được xếp loại theo tổng lượt Votes và chọn ra ba thể loại được vote nhiều nhất.

In [18]:
df = mdi_df[['Genre', 'Votes']]
df

Unnamed: 0,Genre,Votes
0,"Action,Adventure,Drama",880911
1,"Action,Adventure,Comedy",1066222
2,"Action,Adventure,Sci-Fi",348047
3,"Action,Adventure,Comedy",615860
4,"Action,Adventure,Sci-Fi",881638
...,...,...
1242,"Action,Adventure,Drama",2050
1243,"Action,Adventure,Drama",1259
1244,"Action,Adventure,Drama",1053
1245,"Action,Adventure,Drama",1036


In [19]:
df['Genre'] = df['Genre'].str.split(',')
df = df.explode('Genre')
df.groupby('Genre').sum().sort_values(by = ['Votes'], ascending = False).head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Genre'] = df['Genre'].str.split(',')


Unnamed: 0_level_0,Votes
Genre,Unnamed: 1_level_1
Action,32017312
Adventure,26174909
Sci-Fi,13929388
Drama,9338947
Crime,5360704


Dựa vào kết quả trên, bộ phim mới sẽ có sự kết hợp giữa các thể loại : Action, Adventure và Sci-Fi.

### Chọn ra đạo diễn cho bộ phim

In [20]:
df = mdi_df[['Genre', 'Director', 'IMDB_Score']]
df

Unnamed: 0,Genre,Director,IMDB_Score
0,"Action,Adventure,Drama","AnthonyRusso,JoeRusso",8.4
1,"Action,Adventure,Comedy",JamesGunn,8.0
2,"Action,Adventure,Sci-Fi",JonWatts,7.5
3,"Action,Adventure,Comedy",TaikaWaititi,7.9
4,"Action,Adventure,Sci-Fi","AnthonyRusso,JoeRusso",8.4
...,...,...,...
1242,"Action,Adventure,Drama",GregorySmith,8.5
1243,"Action,Adventure,Drama",CarlSeaton,8.3
1244,"Action,Adventure,Drama",AlexisOstrander,8.1
1245,"Action,Adventure,Drama",ShannonKohli,7.4


Lọc ra những đạo diễn đã thực hiện những bộ phim có thể loại nằm trong ba thể loại đã chọn cùng số điểm tương ứng của những lần thực hiện đó.

In [21]:
genre_lists = ['Action', 'Adventure', 'Sci-Fi']

df['Genre'] = df['Genre'].str.split(',')
df = df.explode('Genre')
df['Director'] = df['Director'].str.split(',')
df = df.explode('Director')
df = df[df['Genre'].isin(genre_lists)]
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Genre'] = df['Genre'].str.split(',')


Unnamed: 0,Genre,Director,IMDB_Score
0,Action,AnthonyRusso,8.4
0,Action,JoeRusso,8.4
0,Adventure,AnthonyRusso,8.4
0,Adventure,JoeRusso,8.4
1,Action,JamesGunn,8.0
...,...,...,...
1244,Adventure,AlexisOstrander,8.1
1245,Action,ShannonKohli,7.4
1245,Adventure,ShannonKohli,7.4
1246,Action,BenHernandezBray,7.5


Lọc ra những đạo diễn đã thực hiện ít nhất hai trong số ba thể loại và tìm ra người tốt nhất.

In [22]:
at_least2_df = df.drop(columns = ['IMDB_Score'])
at_least2_df = at_least2_df.drop_duplicates()
at_least2_df = at_least2_df.groupby('Director').count()
at_least2_df = at_least2_df.reset_index()
at_least2_df = at_least2_df.drop(at_least2_df[at_least2_df['Genre'] < 2].index)

In [23]:
df = df[df['Director'].isin(at_least2_df['Director'])]
df

Unnamed: 0,Genre,Director,IMDB_Score
0,Action,AnthonyRusso,8.4
0,Action,JoeRusso,8.4
0,Adventure,AnthonyRusso,8.4
0,Adventure,JoeRusso,8.4
1,Action,JamesGunn,8.0
...,...,...,...
1244,Adventure,AlexisOstrander,8.1
1245,Action,ShannonKohli,7.4
1245,Adventure,ShannonKohli,7.4
1246,Action,BenHernandezBray,7.5


In [24]:
df = df.groupby('Director').mean().sort_values(by = ['IMDB_Score'], ascending = False)
df.head()

Unnamed: 0_level_0,IMDB_Score
Director,Unnamed: 1_level_1
ElizabethHenstridge,9.6
JedWhedon,9.4
YûichirôYano,9.3
VictorCook,9.3
TomCavanagh,9.1


- Dựa vào kết quả trên, đạo diễn được chọn sẽ là **Elizabeth Henstridge**.
- Một số lựa chọn khác trong trường hợp có vấn đề phát sinh là: Jed Whedon, Yuichiro Yano, Victor Cook và Tom Cavanagh.

### Chọn diễn viên cho bộ phim

Chúng ta sẽ chọn ra năm diễn viên được đánh giá cao nhất cho bộ phim này cùng năm người nữa để dự phòng. Cách thực hiện cũng tương tự với cách chọn ra đạo diễn. (Quá trình chọn được tách ra để dễ quan sát cũng như không bị rối trong lúc tiến hành).

In [25]:
df = mdi_df[['Genre', 'Actor', 'IMDB_Score']]
df

Unnamed: 0,Genre,Actor,IMDB_Score
0,"Action,Adventure,Drama","RobertDowneyJr.,ChrisEvans,MarkRuffalo,ChrisHe...",8.4
1,"Action,Adventure,Comedy","ChrisPratt,VinDiesel,BradleyCooper,ZoeSaldana",8.0
2,"Action,Adventure,Sci-Fi","TomHolland,SamuelL.Jackson,JakeGyllenhaal,Mari...",7.5
3,"Action,Adventure,Comedy","ChrisHemsworth,TomHiddleston,CateBlanchett,Mar...",7.9
4,"Action,Adventure,Sci-Fi","RobertDowneyJr.,ChrisHemsworth,MarkRuffalo,Chr...",8.4
...,...,...,...
1242,"Action,Adventure,Drama","BrandonRouth,CaityLotz,MaisieRichardson-Seller...",8.5
1243,"Action,Adventure,Drama","MelissaBenoist,MehcadBrooks,ChylerLeigh,KatieM...",8.3
1244,"Action,Adventure,Drama","MelissaBenoist,MehcadBrooks,ChylerLeigh,KatieM...",8.1
1245,"Action,Adventure,Drama","MelissaBenoist,MehcadBrooks,ChylerLeigh,KatieM...",7.4


In [26]:
genre_lists = ['Action', 'Adventure', 'Sci-Fi']

df['Genre'] = df['Genre'].str.split(',')
df = df.explode('Genre')
df['Actor'] = df['Actor'].str.split(',')
df = df.explode('Actor')
df = df[df['Genre'].isin(genre_lists)]
df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Genre'] = df['Genre'].str.split(',')


Unnamed: 0,Genre,Actor,IMDB_Score
0,Action,RobertDowneyJr.,8.4
0,Action,ChrisEvans,8.4
0,Action,MarkRuffalo,8.4
0,Action,ChrisHemsworth,8.4
0,Adventure,RobertDowneyJr.,8.4
...,...,...,...
1246,Action,KatieMcGrath,7.5
1246,Adventure,MelissaBenoist,7.5
1246,Adventure,MehcadBrooks,7.5
1246,Adventure,ChylerLeigh,7.5


In [27]:
at_least2_df = df.drop(columns = ['IMDB_Score'])
at_least2_df = at_least2_df.drop_duplicates()
at_least2_df = at_least2_df.groupby('Actor').count()
at_least2_df = at_least2_df.reset_index()
at_least2_df = at_least2_df.drop(at_least2_df[at_least2_df['Genre'] < 2].index)

In [28]:
df = df[df['Actor'].isin(at_least2_df['Actor'])]
df

Unnamed: 0,Genre,Actor,IMDB_Score
0,Action,RobertDowneyJr.,8.4
0,Action,ChrisEvans,8.4
0,Action,MarkRuffalo,8.4
0,Action,ChrisHemsworth,8.4
0,Adventure,RobertDowneyJr.,8.4
...,...,...,...
1246,Action,KatieMcGrath,7.5
1246,Adventure,MelissaBenoist,7.5
1246,Adventure,MehcadBrooks,7.5
1246,Adventure,ChylerLeigh,7.5


In [29]:
df = df.groupby('Actor').mean().sort_values(by = ['IMDB_Score'], ascending = False)
df.head(10)

Unnamed: 0_level_0,IMDB_Score
Actor,Unnamed: 1_level_1
kittieKaBoom,9.35
ArleenSorkin,9.35
GeorgeEads,9.3
YuriLowenthal,9.2
KeithDavid,9.2
MurphyCross,9.15
RoddyMcDowall,9.1
NicoleDubuc,9.05
CameronBowen,9.0
MiguelFerrer,9.0


- Như vậy, năm diễn viên chính sẽ tham gia bộ phim là: **kittie KaBoom**, **Arleen Sorkin**, **George Eads**, **Yuri Lowentha** và **Keith David**.
- Và năm diễn viên dự bị là: **Murphy Cross**, **Roddy McDowall**, **Nicole Dubuc**, **Cameron Bowen**, **Miguel Ferrer**.

#### Tổng kết
Dựa vào kết quả phân tích trên những tiêu chí và phương pháp đã nêu trên, bộ phim sẽ bao gồm:
- Thể loại: **Action**, **Adventure** và **Sci-Fi**.
- Đạo diễn: **Elizabeth Henstridge**.
- Các diễn viên chính: **kittie KaBoom**, **Arleen Sorkin**, **George Eads**, **Yuri Lowentha** và **Keith David**.