# Phase 2. Khám phá dữ liệu

### Import thư viện

In [2]:
import pandas as pd
import numpy as np
import datetime as dt
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

### Đọc dữ liệu

In [6]:
df = pd.read_csv('../data/data_after_collect.csv', sep='\t')
df.head(5)

Unnamed: 0,id,name,overview,certificate,runtime,nvote,imdb_rate,director,cast,genre,keyword,release_date,country,language,location,company,budget,gross
0,tt1375666,Kẻ Đánh Cắp Giấc Mơ,A thief who steals corporate secrets through t...,PG-13,148.0,2356036,8.8,Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellio...","Action, Adventure, Sci-Fi, Thriller","dream,ambiguous ending,subconscious,mindbender...","August 6, 2010 (Vietnam)","United States, United Kingdom","English, Japanese, French","Fortress Mountain, Kananaskis Country, Alberta...","Warner Bros., Legendary Entertainment, Syncopy","$160,000,000","$836,848,102"
1,tt0816692,Hố Đen Tử Thần,A team of explorers travel through a wormhole ...,C13,169.0,1835446,8.6,Christopher Nolan,"Matthew McConaughey, Anne Hathaway, Jessica Ch...","Adventure, Drama, Sci-Fi","astronaut,saving the world,space travel,wormho...","November 7, 2014 (Vietnam)","United States, United Kingdom, Canada",English,Iceland,"Paramount Pictures, Warner Bros., Legendary En...","$165,000,000","$773,867,216"
2,tt1345836,Kỵ Sĩ Bóng Đêm Trỗi Dậy,Eight years after the Joker's reign of anarchy...,PG-13,164.0,1707832,8.4,Christopher Nolan,"Christian Bale, Tom Hardy, Anne Hathaway, Gary...","Action, Drama","dc comics,batman character,bruce wayne charact...","July 27, 2012 (Vietnam)","United States, United Kingdom","English, Arabic","Mehrangarh Fort, Jodhpur, Rajasthan, India","Warner Bros., Legendary Entertainment, DC Ente...","$250,000,000","$1,081,169,825"
3,tt1853728,Hành Trình Django,"With the help of a German bounty-hunter, a fre...",R,165.0,1557694,8.4,Quentin Tarantino,"Jamie Foxx, Christoph Waltz, Leonardo DiCaprio...","Drama, Western","slavery,racial vengeance,racial violence,ku kl...","March 15, 2013 (Vietnam)",United States,"English, German, French, Italian","Evergreen Plantation, 4677 Highway 18, Edgard,...","The Weinstein Company, Columbia Pictures","$100,000,000","$426,074,373"
4,tt0993846,Sói Già Phố Wall,"Based on the true story of Jordan Belfort, fro...",R,180.0,1414845,8.2,Martin Scorsese,"Leonardo DiCaprio, Jonah Hill, Margot Robbie, ...","Biography, Comedy, Crime, Drama","based on true story,stockbroker,debauchery,ext...","January 11, 2014 (Vietnam)",United States,"English, French","Portofino, Genoa, Liguria, Italy","Red Granite Pictures, Appian Way, Sikelia Prod...","$100,000,000","$406,878,233"


In [7]:
df = df.head(1500)

### Số dòng và cột

In [8]:
n_rows, n_cols = df.shape
print(f'Dataset has {n_rows} rows and {n_cols} columns!')

Dataset has 1500 rows and 18 columns!


### Ý nghĩa các dòng và cột

Các cột:
- `name`: Tên phim
- `overview`: Mô tả tổng quát phim
- `tagline`: Một văn bản ngắn dùng để làm rõ một ý tưởng hoặc được thiết kế với một dạng hiệu ứng ấn tượng
- `certificate`: Phân loại phim ( Ví dụ 'R' là phim cấm người dưới 18 tuổi, 'C13' là cấm người dưới 13 tuổi)
- `runtime`: Thời lượng phim (min)
- `genre`: Thể loại
- `keyword`: Từ khóa để dễ dàng tìm kiếm hoặc thể hiện sự tương quan giữa cái bộ phim
- `imdb_rate`: Số điểm đánh giá từ IMDB
- `metascore`: Số điểm đánh giá từ Metacritic
- `director	`: Đạo diễn 
- `stars`: Các ngôi sao của phim
- `nvote`: Số lượt đánh giá
- `gross`: Doanh thu của phim (M)
- `release_date`: Ngày phát hành
- `countries`: Quốc gia của công ty hoặc chi nhánh quản lý toàn bộ bộ phim
- `language` : Vì phim phát hành ở nhiều quốc gia nên sẽ có nhiều ngôn ngữ hỗ trợ (bao gồm cả ngôn ngữ gốc)
- `locations` : Những nơi phim thực hiện
- `company` : Công ty chịu trách nhiệm sản xuất

Các dòng: Mỗi dòng là thông tin của một bộ phim

### Có dòng nào trùng lắp không

In [9]:
any(df.duplicated())

False

In [10]:
id_movies = df['id'].value_counts()
index = id_movies > 1 #get id count more than once
id_movies[index].shape

(0,)

Không có phim nào trùng id

### Kiểu dữ liệu:

In [11]:
pd.DataFrame(pd.concat([df.dtypes, df.isnull().sum()], axis=1)).T.rename(index={0:'type', 1:'null values'})

Unnamed: 0,id,name,overview,certificate,runtime,nvote,imdb_rate,director,cast,genre,keyword,release_date,country,language,location,company,budget,gross
type,object,object,object,object,float64,int64,float64,object,object,object,object,object,object,object,object,object,object,object
null values,0,0,0,100,0,0,0,0,0,0,0,0,0,0,60,0,190,79


- Các cột `id` `name` `overview` `certificate` `keyword` `genre` `director` `release_date` `stars` `language` `locations` `company` có type là `object`. Cần tìm type chính xác của các cột này

In [12]:
#get class of column have object type
def open_object_dtype(s):
    dtypes = set()
    dtypes = set(s.apply(type))
    return dtypes

In [13]:
print('id:', open_object_dtype(df['id']))
print('name:', open_object_dtype(df['name']))
print('overview:', open_object_dtype(df['overview']))
print('keyword:', open_object_dtype(df['keyword']))
print('certificate:', open_object_dtype(df['certificate']))
print('genre:', open_object_dtype(df['genre']))
print('director:', open_object_dtype(df['director']))
print('cast:', open_object_dtype(df['cast']))
print('release_date:', open_object_dtype(df['release_date']))
print('country:', open_object_dtype(df['country']))
print('language:', open_object_dtype(df['language']))
print('location:', open_object_dtype(df['location']))
print('company:', open_object_dtype(df['company']))
print('gross:', open_object_dtype(df['gross']))
print('budget:', open_object_dtype(df['budget']))

id: {<class 'str'>}
name: {<class 'str'>}
overview: {<class 'str'>}
keyword: {<class 'str'>}
certificate: {<class 'str'>, <class 'float'>}
genre: {<class 'str'>}
director: {<class 'str'>}
cast: {<class 'str'>}
release_date: {<class 'str'>}
country: {<class 'str'>}
language: {<class 'str'>}
location: {<class 'str'>, <class 'float'>}
company: {<class 'str'>}
gross: {<class 'str'>, <class 'float'>}
budget: {<class 'str'>, <class 'float'>}


- Column `keyword` `certificate` `location` có một số giá trị có kiểu `float` do mang giá trị NULL

- Các column `keyword` `genre` `director` `cast` `language` `location` `company`  phải là list tuy nhiên đang có type là 'str'

- `release_date` chưa có kiểu dữ liệu là datetime

#### Chỉnh sửa các column về kiểu dữ liệu phù hợp

* Chuyển các column dạng string thành list string 

In [14]:
df['keyword'] = df['keyword'].apply(lambda x: x.split(",") if(type(x) == str) else x)
df['genre'] = df['genre'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['director'] = df['director'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['cast'] = df['cast'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['language'] = df['language'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['location'] = df['location'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['company'] = df['company'].apply(lambda x: x.split(", ") if(type(x) == str) else x)

* Chuyển `release_date` thành datetime

In [15]:
df[['release_date']].sample(n = 10)

Unnamed: 0,release_date
1458,"March 13, 2014 (Germany)"
706,"March 13, 2019 (United States)"
482,"September 30, 2011 (Vietnam)"
654,"March 27, 2015 (United States)"
132,"November 18, 2016 (Vietnam)"
262,"March 20, 2019 (Vietnam)"
93,"November 26, 2010 (Vietnam)"
913,"July 8, 2016 (Vietnam)"
487,"June 8, 2012 (Vietnam)"
598,"January 27, 2012 (United States)"


In [16]:
#convert datetime to specific format
def try_parsing_date(text):
    date = text.split(' (')[0]
    for fmt in ('%B %d, %Y', '%B %Y', '%Y'):
        try:
            return dt.datetime.strptime(date, fmt)
        except ValueError:
            pass
    raise ValueError('no valid date format found' ,date )

In [17]:
df['release_date'] = df['release_date'].apply(lambda x: try_parsing_date(x) if((type(x) == str) & (x != ' ')) else x )
df['release_date'].head(5)

0   2010-08-06
1   2014-11-07
2   2012-07-27
3   2013-03-15
4   2014-01-11
Name: release_date, dtype: datetime64[ns]

- Chuyển `gross` và `budget` sang kiểu số. 


In [18]:
df[['gross', 'budget']].sample(5)

Unnamed: 0,gross,budget
1444,"$2,950,880",
1352,"$11,156,836",
980,"$158,261,424","$58,000,000"
35,"$233,555,708","$14,000,000"
1281,"$26,001,227",


- Vì đơn vị tiền khá đa dạng nên ta chuyển về một kiểu thống nhất đó là triệu USD

In [19]:
#get correct unit of money
def get_unit(money):
    money = money.replace(',', '')
    unit = ''.join(x for x in money if not x.isdigit())
    return unit
#get number of money
def get_number(money):
    money = money.replace(',', '')
    number = ''.join(x for x in money if x.isdigit())
    return float(number)

In [20]:
units_gross = df['gross'].apply(lambda x: get_unit(x) if(type(x) == str) else x).unique()
units_budget = df['budget'].apply(lambda x: get_unit(x) if(type(x) == str) else x).unique()

In [21]:
#convert to milion usd
def to_usd(money):
    unit = get_unit(money)
    number = get_number(money)
    if unit == '$':
        number = number
    elif unit == '€':
        number = number * 1.07
    elif unit == '£':
        number = number * 1.22
    elif unit == '¥':
        number = number * 0.0076
    elif unit == '₩':
        number = number * 0.0008
    elif unit == '₹':
        number = number * 0.012
    elif unit == 'TRL\xa0':
        number = number * 0.053
    elif unit == 'NOK\xa0':
        number = number * 0.1
    elif unit == 'NOK\xa0':
        number = number * 0.1
    elif unit == 'A$':
        number = number * 0.69
    elif unit == 'CA$':
        number = number * 0.75
    elif unit == 'DKK\xa0':
        number = number * 0.14
    elif unit == 'SEK\xa0':
        number = number * 0.096
    elif unit == 'MVR\xa0':
        number = number * 0.065
    elif unit == 'NZ$':
        number = number * 0.64
    elif unit == 'PKR\xa0':
        number = number * 0.0044
    elif unit == 'R$':
        number = number * 0.19
    elif unit == 'BDT\xa0':
        number = number * 0.0095
    return number / 1000000

In [22]:
df['budget'] = df['budget'].apply(lambda x: to_usd(x) if(type(x) == str) else x)

In [23]:
df['gross'] = df['gross'].apply(lambda x: to_usd(x) if(type(x) == str) else x)

### Phân bố của từng column

#### Numeric column

In [24]:
num_col_info_df = df.select_dtypes(exclude=['object'])
def missing_ratio(s):
    return (s.isna().mean() * 100)

def median(df):
    return (df.quantile(0.5))

def lower_quartile(df):
    return (df.quantile(0.25))

def upper_quartile(df):
    return (df.quantile(0.75))

In [25]:
num_col_info_df = num_col_info_df.agg([missing_ratio , min, lower_quartile, median, upper_quartile, max])
num_col_info_df

Unnamed: 0,runtime,nvote,imdb_rate,release_date,budget,gross
missing_ratio,0.0,0.0,0.0,0.0,12.666667,5.266667
min,76.0,50661.0,1.0,2010-01-08 00:00:00,1.8e-05,0.000693
lower_quartile,100.0,77073.0,6.2,2012-10-12 00:00:00,15.0,26.236153
median,110.0,122812.0,6.7,2015-06-04 00:00:00,36.0,84.247681
upper_quartile,124.0,233608.5,7.3,2018-04-14 18:00:00,81.8,221.60016
max,321.0,2356036.0,8.8,2022-10-21 00:00:00,356.0,2797.501328


`release_date` tối đa chỉ đến cuối năm 2021. Nên ta không chọn những phim năm 2022 vì dữ liệu rất ít.

In [26]:
#count movie in 2022
y = df['release_date'].apply(lambda x: x.year)
y.loc[y==2022].shape

(4,)

In [27]:
#remove movie in 2022
df = df.loc[df['release_date'].dt.year != 2022]

`Budget` và `gross` null khá nhiều nhưng vẫn chấp nhận được. Các dữ liệu còn lại đều không có gì bất thường.

In [28]:
n_rows, n_cols = df.shape
print(f'Dataset has {n_rows} rows and {n_cols} columns!')

Dataset has 1496 rows and 18 columns!


#### Categorical column

In [29]:
#get missing ratio, number of different and different values

def get_cate_col_profiles(df, cate_col):
    missing_ratio = []
    num_diff_vals = []
    diff_vals = []
    
    for col in cate_col:
        column = df[col].dropna()
        missing_ratio.append( 100 - len(column) / n_rows * 100)
        diff_val = column.to_list()
        if type(column[0]) == list:
            diff_val = pd.Series(sum(diff_val, [])).unique()
        else:
            diff_val = pd.Series(diff_val).unique()
        num_diff_vals.append(len(diff_val))
        diff_vals.append(diff_val)
    profile = pd.DataFrame(([ missing_ratio, num_diff_vals, diff_vals]), columns = cate_col)
    
    index = pd.Series(["missing_ratio%", "num_diff_vals", "diff_vals"])
    profile['Value'] = index
    profile = pd.DataFrame(profile.set_index('Value'))
    
    return profile
cate_col = ['id', 'name', 'overview', 'imdb_rate','certificate', 'director', 'cast', 'genre', 'keyword',
             'country', 'language', 'location', 'company']
cate_col_profiles_df = get_cate_col_profiles(df, cate_col)
cate_col_profiles_df

Unnamed: 0_level_0,id,name,overview,imdb_rate,certificate,director,cast,genre,keyword,country,language,location,company
Value,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
missing_ratio%,0.0,0.0,0.0,0.0,6.617647,0.0,0.0,0.0,0.0,0.0,0.0,4.010695,0.0
num_diff_vals,1496,1494,1496,57,10,930,2639,20,4036,344,119,1575,1486
diff_vals,"[tt1375666, tt0816692, tt1345836, tt1853728, t...","[Kẻ Đánh Cắp Giấc Mơ, Hố Đen Tử Thần, Kỵ Sĩ Bó...",[A thief who steals corporate secrets through ...,"[8.8, 8.6, 8.4, 8.2, 8.0, 8.1, 7.8, 7.2, 7.3, ...","[PG-13, C13, R, P, C18, C16, (Banned), PG, G, ...","[Christopher Nolan, Quentin Tarantino, Martin ...","[Leonardo DiCaprio, Joseph Gordon-Levitt, Elli...","[Action, Adventure, Sci-Fi, Thriller, Drama, W...","[dream, ambiguous ending, subconscious, mindbe...","[United States, United Kingdom, United States,...","[English, Japanese, French, Arabic, German, It...","[Fortress Mountain, Kananaskis Country, Albert...","[Warner Bros., Legendary Entertainment, Syncop..."


`certificate` ta sẽ thay thế các giá trị bị thiếu thành `Unrate`

In [30]:
df['certificate'].value_counts()

R           529
PG-13       298
C16         169
C18         122
C13         114
P            87
PG           63
(Banned)      9
G             3
NC-17         3
Name: certificate, dtype: int64

In [31]:
df['certificate'] = df['certificate'].fillna('Unrate')

- Các dữ liệu khác không có gì bất thường

Lưu dữ liệu để chuẩn bị cho bước tiếp theo

In [32]:
df.to_csv('../data/data_after_explore.csv', index = False, sep='\t', encoding='utf-8')