**IMDb의 영화 평점 예측 모델 만들기**

Kaggle 사이트에서 가져온 IMDb라는 영화 평점 사이트의 데이터를 이용해, feature를 분석하여 영화가 받게 될 평점을 예측하는 모델을 훈련하고자 합니다.

In [2]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split

import io
from google.colab import files

In [3]:
myfile = files.upload()

Saving IMDb movies.csv to IMDb movies (1).csv
Saving IMDb ratings.csv to IMDb ratings (1).csv


In [4]:
movies = pd.read_csv(io.BytesIO(myfile['IMDb movies.csv']))
# names = pd.read_csv(io.BytesIO(myfile['IMDb names.csv']))
ratings = pd.read_csv(io.BytesIO(myfile['IMDb ratings.csv']))
# titles = pd.read_csv(io.BytesIO(myfile['IMDb title_principals.csv']))

  interactivity=interactivity, compiler=compiler, result=result)


In [16]:
# 글자 분석은 아직 배우지 않았으니, movies와 ratings 만을 이용하여 영화의 평점 예측 모델을 만들겠습니다.
# 공통 column은 imdb_title_id 입니다.
movierating = pd.merge(movies, ratings, how='outer',on='imdb_title_id')

In [6]:
movierating.columns

Index(['imdb_title_id', 'title', 'original_title', 'year', 'date_published',
       'genre', 'duration', 'country', 'language', 'director', 'writer',
       'production_company', 'actors', 'description', 'avg_vote', 'votes',
       'budget', 'usa_gross_income', 'worlwide_gross_income', 'metascore',
       'reviews_from_users', 'reviews_from_critics', 'weighted_average_vote',
       'total_votes', 'mean_vote', 'median_vote', 'votes_10', 'votes_9',
       'votes_8', 'votes_7', 'votes_6', 'votes_5', 'votes_4', 'votes_3',
       'votes_2', 'votes_1', 'allgenders_0age_avg_vote',
       'allgenders_0age_votes', 'allgenders_18age_avg_vote',
       'allgenders_18age_votes', 'allgenders_30age_avg_vote',
       'allgenders_30age_votes', 'allgenders_45age_avg_vote',
       'allgenders_45age_votes', 'males_allages_avg_vote',
       'males_allages_votes', 'males_0age_avg_vote', 'males_0age_votes',
       'males_18age_avg_vote', 'males_18age_votes', 'males_30age_avg_vote',
       'males_30age_votes'

In [7]:
# 우선 목표는 rating이므로, 위 column 중 weighted_average_vote(가중치를 둔 평균평점) 항목이 없는 영화는 삭제하기 위해 빈 칸이 있는지 확인합니다.
movierating['weighted_average_vote'].isna().sum()

0

In [8]:
# 없으므로, 8만개 넘는 영화 데이터 전부를 사용하겠습니다.

1. EDA
데이터를 모델에 넣기 위해 파일이 가지고 있는 column들을 분석해 일부 항목을 잘라내고 합치는 등의 분석을 수행합니다.

In [17]:
# 우선 중복된 column들을 없애겠습니다.
movierating = movierating.drop(['avg_vote', 'votes'], axis=1)

In [10]:
# 다음으로, 추가로 없앨 colum들을 살펴보겠습니다.

In [11]:
# pip install -U pandas-profiling

In [12]:
from pandas_profiling import ProfileReport
profile = ProfileReport(movierating, minimal=True).to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

In [13]:
# pandas profile을 볼 때, 우선 고유값이 너무 많은 다음의 column들은 삭제합니다.
# title, original_title = 영화 제목하고 평점이 관계가 있다고 보기 힘들고, 고유값이 데이터 크기만큼 많습니다. 
# director, writer, production_company = 감독, 작가 및 영화사도 고유값이 3만개(작가의 경우 6만개)가 넘으며, 평점과 영화사 등에 어느정도 관계는 있을수도 있겠으나 분석이 너무 오래 걸릴것으로 보입니다.
# actors = 데이터가 영화에 출연한 모든 배우를 나열하고 있어서, 고유값이 클 뿐더러 분석이 매우 힘듭니다.
# description = 영화 내용 분석의 고유값이 너무 큽니다.(영화마다 내용이 다르니 당연하지만)

# 다음의 column들은 결측치가 너무 많으므로 삭제합니다.
# budget, usa_gross_income, worlwide_gross_income, metascore

# 다음의 column들은 추가적인 처리를 하려고 합니다.
# year = 개봉 연도와 평점의 관계를 볼 수 있을듯 합니다.('date_published' column은 확인하니 첫 개봉 일자가 아닌 경우도 많아서 이렇게 처리하겠습니다.)
# genre = 장르가 하나인 경우와 2개 이상인 경우가 서로 섞여 있으므로, 분리해서 확인하고자 합니다.
# duration = 영화 길이는 대부분이 200분 이하이므로, 평균에서 많이 벗어나는 이상치를 제거하거나 '200분 이상' 항목으로 묶어버리겠습니다.
# country = 고유값이 많은데 1/3은 미국이 차지하고 있으므로, 분포를 확인해 '기타 국가' 항목으로 많은 수를 묶겠습니다.
# language = 국가와 마찬가지로 1/3은 영어가 차지하고 있으므로, 분포를 확인해 '기타 언어' 항목으로 많은 수를 묶겠습니다.
# reviews_from_users, reviews_from_critics = total_votes는 숫자 평점을 한 사람 수이고, 위 2 항목은 평론가와 일반인들이 IMDb 사이트에 글로 남긴 평가를 한 숫자입니다.
#                                            글로 남긴 숫자가 많을수록 더 좋은 평점을 받았는지 확인하려고 합니다.
# 삭제되지 않은 column들 중에서 rating과 review에 관계된 column의 결측치는 평균값 등이 아닌 0으로 채웁니다.
# country의 결측치는 '기타 국가'로 처리하겠습니다.
# language의 결측치는 1936년 이후 영화일 경우 country 항목을 보고 제1언어로 채우도록 하겠습니다.(ex. USA -> 영어, Germany -> 독일어) 기타이면 그냥 기타 언어로 처리하겠습니다.
# 1936년 이전에는 무성 영화가 만들어지던 시기였으므로 복잡합니다. 최초 유성 영화인 The Jazz Singer는 1927년도에 나왔으므로 그 이전 영화는 모든 Language를 None으로 처리하겠습니다.
# 27년과 36년 사이 영화는 전부 확인할 수가 없으므로 결측일 경우는 None으로, 아닌 경우에는 값을 그대로 쓰겠습니다.

In [18]:
movierating = movierating.drop(['title', 'original_title', 'date_published', 'director', 'writer', 'production_company',
                                'actors', 'description', 'budget', 'usa_gross_income', 'worlwide_gross_income', 'metascore'], axis=1)

In [19]:
movierating

Unnamed: 0,imdb_title_id,year,genre,duration,country,language,reviews_from_users,reviews_from_critics,weighted_average_vote,total_votes,mean_vote,median_vote,votes_10,votes_9,votes_8,votes_7,votes_6,votes_5,votes_4,votes_3,votes_2,votes_1,allgenders_0age_avg_vote,allgenders_0age_votes,allgenders_18age_avg_vote,allgenders_18age_votes,allgenders_30age_avg_vote,allgenders_30age_votes,allgenders_45age_avg_vote,allgenders_45age_votes,males_allages_avg_vote,males_allages_votes,males_0age_avg_vote,males_0age_votes,males_18age_avg_vote,males_18age_votes,males_30age_avg_vote,males_30age_votes,males_45age_avg_vote,males_45age_votes,females_allages_avg_vote,females_allages_votes,females_0age_avg_vote,females_0age_votes,females_18age_avg_vote,females_18age_votes,females_30age_avg_vote,females_30age_votes,females_45age_avg_vote,females_45age_votes,top1000_voters_rating,top1000_voters_votes,us_voters_rating,us_voters_votes,non_us_voters_rating,non_us_voters_votes
0,tt0000009,1894,Romance,45,USA,,1.0,2.0,5.9,154,5.9,6.0,12,4,10,43,28,28,9,1,5,14,7.2,4.0,6.0,38.0,5.7,50.0,6.6,35.0,6.2,97.0,7.0,1.0,5.9,24.0,5.6,36.0,6.7,31.0,6.0,35.0,7.3,3.0,5.9,14.0,5.7,13.0,4.5,4.0,5.7,34.0,6.4,51.0,6.0,70.0
1,tt0000574,1906,"Biography, Crime, Drama",70,Australia,,7.0,7.0,6.1,589,6.3,6.0,57,18,58,137,139,103,28,20,13,16,6.0,1.0,6.1,114.0,6.0,239.0,6.3,115.0,6.1,425.0,6.0,1.0,6.2,102.0,6.0,210.0,6.2,100.0,6.2,50.0,,,5.9,12.0,6.2,23.0,6.6,14.0,6.4,66.0,6.0,96.0,6.2,331.0
2,tt0001892,1911,Drama,53,"Germany, Denmark",,5.0,2.0,5.8,188,6.0,6.0,6,6,17,44,52,32,16,5,6,4,,,5.5,25.0,5.8,72.0,6.2,62.0,5.9,146.0,,,5.5,21.0,5.9,67.0,6.2,55.0,5.7,15.0,,,5.8,4.0,5.8,4.0,6.8,7.0,5.4,32.0,6.2,31.0,5.9,123.0
3,tt0002101,1912,"Drama, History",100,USA,English,25.0,3.0,5.2,446,5.3,5.0,15,8,16,62,98,117,63,26,25,16,,,5.3,23.0,5.0,111.0,5.3,193.0,5.1,299.0,,,5.2,20.0,4.9,96.0,5.2,171.0,5.9,39.0,,,5.7,3.0,5.5,14.0,6.1,21.0,4.9,57.0,5.5,207.0,4.7,105.0
4,tt0002130,1911,"Adventure, Drama, Fantasy",68,Italy,Italian,31.0,14.0,7.0,2237,6.9,7.0,210,225,436,641,344,169,66,39,20,87,7.5,4.0,7.0,402.0,7.0,895.0,7.1,482.0,7.0,1607.0,8.0,2.0,7.0,346.0,7.0,804.0,7.0,396.0,7.2,215.0,7.0,2.0,7.0,52.0,7.3,82.0,7.4,77.0,6.9,139.0,7.0,488.0,7.0,1166.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85850,tt9908390,2020,Comedy,95,"France, Belgium",French,,4.0,5.3,398,5.5,6.0,13,9,26,65,104,86,32,28,15,20,6.0,1.0,5.8,42.0,5.3,137.0,5.2,101.0,5.3,267.0,6.0,1.0,5.6,28.0,5.3,121.0,5.2,97.0,6.0,26.0,,,6.2,11.0,5.7,11.0,5.0,2.0,5.5,12.0,6.3,22.0,5.3,214.0
85851,tt9911196,2020,"Comedy, Drama",103,Netherlands,"German, Dutch",6.0,4.0,7.7,724,7.9,8.0,65,139,288,170,42,7,5,2,2,4,,,7.5,105.0,7.7,207.0,7.9,194.0,7.8,412.0,,,7.6,70.0,7.6,150.0,7.9,161.0,7.6,109.0,,,7.4,29.0,8.0,47.0,7.3,30.0,7.0,6.0,6.8,13.0,7.7,388.0
85852,tt9911774,2019,Drama,130,India,Malayalam,,,7.9,265,7.8,8.0,63,29,61,61,31,5,5,6,1,3,,,1.0,1.0,10.0,1.0,3.0,1.0,6.0,4.0,,,1.0,1.0,10.0,1.0,3.0,1.0,,,,,,,,,,,1.0,1.0,,,2.0,2.0
85853,tt9914286,2019,"Drama, Family",98,Turkey,Turkish,,,6.4,194,9.4,10.0,176,0,2,2,1,0,1,1,0,11,,,6.5,2.0,1.8,5.0,3.0,3.0,3.1,10.0,,,6.5,2.0,1.8,5.0,1.0,2.0,4.0,2.0,,,,,,,7.0,1.0,4.0,3.0,1.7,5.0,5.8,5.0
