In [1]:
import pandas as pd
import numpy as np
import datetime as dt
import matplotlib.pyplot as plt
import seaborn as sns

# Data explorations

## 1. Đọc dữ liệu

In [2]:
df = pd.read_csv('film.csv', sep='\t')
df.rename(columns = {'dicrector':'director'}, inplace = True)
df.rename(columns = {' casts':'casts'}, inplace = True)
df.rename(columns = {'relesase_date':'release_date'}, inplace = True)
df.head(5)

Unnamed: 0,id,name,overview,certificate,runtime,nvote,imdb_rate,director,casts,genres,keywords,release_date,countries,languages,locations,companies,budget,gross
0,tt1375666,Kẻ Đánh Cắp Giấc Mơ,A thief who steals corporate secrets through t...,PG-13,148.0,2347285,8.8,Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellio...","Action, Adventure, Sci-Fi, Thriller","dream,ambiguous ending,subconscious,mindbender...","August 6, 2010 (Vietnam)","United States, United Kingdom","English, Japanese, French","Fortress Mountain, Kananaskis Country, Alberta...","Warner Bros., Legendary Entertainment, Syncopy",160.0,836.848102
1,tt0816692,Hố Đen Tử Thần,A team of explorers travel through a wormhole ...,C13,169.0,1824486,8.6,Christopher Nolan,"Matthew McConaughey, Anne Hathaway, Jessica Ch...","Adventure, Drama, Sci-Fi","astronaut,saving the world,space travel,wormho...","November 7, 2014 (Vietnam)","United States, United Kingdom, Canada",English,Iceland,"Paramount Pictures, Warner Bros., Legendary En...",165.0,773.867216
2,tt1345836,Kỵ Sĩ Bóng Đêm Trỗi Dậy,Eight years after the Joker's reign of anarchy...,PG-13,164.0,1702927,8.4,Christopher Nolan,"Christian Bale, Tom Hardy, Anne Hathaway, Gary...","Action, Drama","dc comics,batman character,bruce wayne charact...","July 27, 2012 (Vietnam)","United States, United Kingdom","English, Arabic","Mehrangarh Fort, Jodhpur, Rajasthan, India","Warner Bros., Legendary Entertainment, DC Ente...",250.0,1081.169825
3,tt1853728,Hành Trình Django,"With the help of a German bounty-hunter, a fre...",R,165.0,1551167,8.4,Quentin Tarantino,"Jamie Foxx, Christoph Waltz, Leonardo DiCaprio...","Drama, Western","racial vengeance,racial violence,slavery,one a...","March 15, 2013 (Vietnam)",United States,"English, German, French, Italian","Evergreen Plantation, 4677 Highway 18, Edgard,...","The Weinstein Company, Columbia Pictures",100.0,426.074373
4,tt0993846,Sói Già Phố Wall,"Based on the true story of Jordan Belfort, fro...",R,180.0,1407088,8.2,Martin Scorsese,"Leonardo DiCaprio, Jonah Hill, Margot Robbie, ...","Biography, Comedy, Crime, Drama","based on true story,stockbroker,female nudity,...","January 11, 2014 (Vietnam)",United States,"English, French","Portofino, Genoa, Liguria, Italy","Red Granite Pictures, Appian Way, Sikelia Prod...",100.0,406.878233


In [3]:
df.shape

(10249, 18)

Dữ liệu có 10249 dòng và 18 cột

##### Mỗi dòng dữ liệu là các thông tin về các thuộc tính của một bộ phim

In [4]:
df.index.duplicated(keep='first').sum()

0

Dữ liệu không có dòng bị lặp

#### Các cột là các thuộc tính của một bộ phim

Các cột:
- `id`: id của phim
- `name`: Tên phim
- `overview`: Mô tả tổng quát phim
- `certificate`: Phân loại phim:
                - G, P (General Audiences) – Phim dành cho mọi lứa tuổi
                - PG (Parental Guidance Suggested) – Phim có thể có một số chi tiết (hình ảnh, từ ngữ) không phù hợp với 
                trẻ nhỏ. Bố mẹ cần cân nhắc khi cho con cái xem phim
                - PG-13 (Parents Strongly Cautioned) – Phim có một số chi tiết không phù hợp với trẻ dưới 13 tuổi.
                - R (Restricted) – Thanh thiếu niên dưới 17 tuổi không được xem phim nếu không có sự đồng ý của người lớn.
                - C13 - Phim dành cho người trên 13 tuổi.
                - C16 - Phim dành cho người trên 16 tuổi.
                - C18 - Phim dành cho người trên 18 tuổi.
                - NC17 -(No One 17 and Under Admitted) – Phim hoàn toàn không dành cho khán giả dưới 17 tuổi
                - (Banned) - Phim bị cấm chiếu ở một số nơi.
                - Not Rated, Unrate - Phim không hoặc chưa được đánh giá.
- `runtime`: Thời lượng phim (phút).
- `genre`: Thể loại( Action, Adventure, Animation, Biography, Comedy, Crime, Documentary, Drama, Family, Fantasy, Film Noir, History, Horror, Music Musical, Mystery, Romance, Sci-Fi, Short Film, Sport, Superhero, Thriller, War, Western)
- `keywords`: Các từ khóa liên quan đến phim.
- `imdb_rate`: Số điểm đánh giá từ IMDB
- `nvote`: Số lượt đánh giá
- `director	`: danh sách các đạo diễn 
- `Casts`: danh sách các diễn viên nổi bật của phim
- `relesase_date`: Ngày công chiếu
- `countries`: Country of origin
- `language` : Ngôn ngữ trong phim
- `locations` : Địa điểm quay phim
- `company` : Công ty sản xuất
- `cross`: Doanh thu của phim (M Dollar)


#### Kiểu dữ liệu của các cột:

In [5]:
df.dtypes

id               object
name             object
overview         object
certificate      object
runtime         float64
nvote             int64
imdb_rate       float64
director         object
casts            object
genres           object
keywords         object
release_date     object
countries        object
languages        object
locations        object
companies        object
budget          float64
gross           float64
dtype: object

Các cột có type là `object`. Cần tìm type chính xác của các cột này

In [6]:
def open_object_dtype(s):
    dtypes = set()
    dtypes = set(s.apply(type))
    return dtypes

In [7]:

print('id:', open_object_dtype(df['id']))
print('name:', open_object_dtype(df['name']))
print('overview:', open_object_dtype(df['overview']))
print('keywords:', open_object_dtype(df['keywords']))
print('certificate:', open_object_dtype(df['certificate']))
print('genres:', open_object_dtype(df['genres']))
print('director:', open_object_dtype(df['director']))
print('casts:', open_object_dtype(df['casts']))
print('release_date:', open_object_dtype(df['release_date']))
print('countries:', open_object_dtype(df['countries']))
print('languages:', open_object_dtype(df['languages']))
print('locations:', open_object_dtype(df['locations']))
print('companies:', open_object_dtype(df['companies']))

id: {<class 'str'>}
name: {<class 'str'>}
overview: {<class 'str'>}
keywords: {<class 'str'>, <class 'float'>}
certificate: {<class 'str'>, <class 'float'>}
genres: {<class 'str'>}
director: {<class 'str'>}
casts: {<class 'str'>, <class 'float'>}
release_date: {<class 'str'>, <class 'float'>}
countries: {<class 'str'>, <class 'float'>}
languages: {<class 'str'>, <class 'float'>}
locations: {<class 'str'>, <class 'float'>}
companies: {<class 'str'>, <class 'float'>}


Column `keywords` `tagline` `certificate` `locations` có một số giá trị có kiểu `float` do mang giá trị NULL

Các column `keywords` `genre` `director` `stars` `language` `locations` `company`  phải là list tuy nhiên đang có type là 'str'

`release_date` chưa có kiểu dữ liệu là datetime

#### Chỉnh sửa các column về kiểu dữ liệu phù hợp

* Các column dạng list

In [8]:
df['keywords'] = df['keywords'].apply(lambda x: x.split(",") if(type(x) == str) else x)
df['genres'] = df['genres'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['director'] = df['director'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['casts'] = df['casts'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['languages'] = df['languages'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['locations'] = df['locations'].apply(lambda x: x.split(", ") if(type(x) == str) else x)
df['companies'] = df['companies'].apply(lambda x: x.split(", ") if(type(x) == str) else x)

* Column `release_date`

In [9]:
df[['release_date']].sample(n = 10)

Unnamed: 0,release_date
445,"June 23, 2010 (United States)"
1620,"November 11, 2011 (India)"
5241,"October 30, 2015 (China)"
2566,"June 23, 2017 (United Kingdom)"
5124,"November 10, 2016 (Hungary)"
2681,"January 8, 2016 (India)"
1714,"October 17, 2014 (United States)"
2833,"April 19, 2012 (Hungary)"
1586,"May 16, 2014 (United States)"
4298,"December 20, 2019 (Japan)"


In [10]:
def try_parsing_date(text):
    date = text.split(' (')[0]
    for fmt in ('%B %d, %Y', '%B %Y', '%Y'):
        try:
            return dt.datetime.strptime(date, fmt)
        except ValueError:
            pass
    raise ValueError('no valid date format found' ,date )

In [11]:
df['release_date'] = df['release_date'].apply(lambda x: try_parsing_date(x) if(type(x) == str) else x )

* Thêm column `year` vào dataframe

In [12]:
df['year'] = df['release_date'].apply(lambda x: x.year)

### Phân bố của từng column

### - Numeric column

In [13]:
# YOUR CODE HERE
num_col_info_df = df.select_dtypes(exclude='object').drop('year', axis = 1)
def missing_ratio(s):
    return (s.isna().mean() * 100)

def median(df):
    return (df.quantile(0.5))

def lower_quartile(df):
    return (df.quantile(0.25))

def upper_quartile(df):
    return (df.quantile(0.75))

In [14]:
num_col_info_df = num_col_info_df.agg([missing_ratio , min, lower_quartile, median, upper_quartile, max])

In [15]:
num_col_info_df

Unnamed: 0,runtime,nvote,imdb_rate,release_date,budget,gross
missing_ratio,0.09757,0.0,0.0,0.048785,57.742219,24.421895
min,3.0,1862.0,1.0,2010-01-01 00:00:00,2e-06,2.4e-05
lower_quartile,93.0,3096.0,5.5,2013-09-06 00:00:00,3.5,0.2899
median,103.0,6177.0,6.2,2016-07-29 00:00:00,11.0,2.621596
upper_quartile,118.0,20729.0,6.9,2019-02-20 00:00:00,38.0,18.424225
max,321.0,2347285.0,9.9,2023-01-10 00:00:00,120000.0,2797.501328


### - Categorical column

In [16]:
df.columns

Index(['id', 'name', 'overview', 'certificate', 'runtime', 'nvote',
       'imdb_rate', 'director', 'casts', 'genres', 'keywords', 'release_date',
       'countries', 'languages', 'locations', 'companies', 'budget', 'gross',
       'year'],
      dtype='object')

In [17]:
def get_cate_col_profiles(df, cate_col):
    missing_ratio = []
    num_diff_vals = []
    diff_vals = []
    for col in cate_col:
        column = df[col].dropna()
        missing_ratio.append( 100 - len(column) / 10249 * 100)
        diff_val = column.to_list()
        if type(column[0]) == list:
            diff_val = pd.Series(sum(diff_val, [])).unique()
        else:
            diff_val = pd.Series(diff_val).unique()
        num_diff_vals.append(len(diff_val))
        diff_vals.append(diff_val)
    profile = pd.DataFrame(([ missing_ratio, num_diff_vals, diff_vals]), columns = cate_col)
    
    index = pd.Series(["missing_ratio%", "num_diff_vals", "diff_vals"])
    profile['Value'] = index
    profile = pd.DataFrame(profile.set_index('Value'))
    
    return profile
cate_col = ['id', 'name', 'overview', 'certificate', 'imdb_rate', 'director', 'casts', 'genres', 'keywords',
             'countries', 'languages', 'locations', 'companies', 'year' ]
cate_col_profiles_df = get_cate_col_profiles(df, cate_col)
cate_col_profiles_df

Unnamed: 0_level_0,id,name,overview,certificate,imdb_rate,director,casts,genres,keywords,countries,languages,locations,companies,year
Value,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
missing_ratio%,0.0,0.0,0.0,55.585911,0.0,0.0,0.058542,0.0,2.722217,0.058542,0.585423,21.719192,1.795297,0.048785
num_diff_vals,10249,10152,10244,12,85,6973,20361,21,14534,1378,193,5135,10353,14
diff_vals,"[tt1375666, tt0816692, tt1345836, tt1853728, t...","[Kẻ Đánh Cắp Giấc Mơ, Hố Đen Tử Thần, Kỵ Sĩ Bó...",[A thief who steals corporate secrets through ...,"[PG-13, C13, R, P, C18, C16, (Banned), PG, G, ...","[8.8, 8.6, 8.4, 8.2, 8.0, 8.1, 7.8, 7.2, 7.3, ...","[Christopher Nolan, Quentin Tarantino, Martin ...","[Leonardo DiCaprio, Joseph Gordon-Levitt, Elli...","[Action, Adventure, Sci-Fi, Thriller, Drama, W...","[dream, ambiguous ending, subconscious, mindbe...","[United States, United Kingdom, United States,...","[English, Japanese, French, Arabic, German, It...","[Fortress Mountain, Kananaskis Country, Albert...","[Warner Bros., Legendary Entertainment, Syncop...","[2010.0, 2014.0, 2012.0, 2013.0, 2019.0, 2018...."


`certificate` ta sẽ thay thế các giá trị bị thiếu thành `Unrate`

In [18]:
df['certificate'] = df['certificate'].fillna('Unrate')

Các row có nhiều giá trị Null sẽ không đáng tin cậy. Vì vậy ta sẽ xóa các row có giá trị Null nhiều hơn 3.

In [19]:
df = df[df.isnull().sum(axis=1) < 3]

In [20]:
df.shape

(9478, 19)

# 2. Đặt câu hỏi: