# Data explorations

In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.set_option('display.max_rows', None)

# 1. Đọc và tiền xử lí

## a. Đọc dữ liệu

In [3]:
df = pd.read_csv('data.csv', sep='\t')
df

Unnamed: 0,name,year,overview,certificate,runtime,genre,imdb_rate,metascore,director,stars,nvote,gross
0,Kẻ Đánh Cắp Giấc Mơ,2010,A thief who steals corporate secrets through t...,PG-13,148.0,"Action, Adventure, Sci-Fi",8.8,74.0,Christopher Nolan,"Leonardo DiCaprio, Joseph Gordon-Levitt, Ellio...",2343355.0,292.58
1,Hố Đen Tử Thần,2014,A team of explorers travel through a wormhole ...,C13,169.0,"Adventure, Drama, Sci-Fi",8.6,74.0,Christopher Nolan,"Matthew McConaughey, Anne Hathaway, Jessica Ch...",1819569.0,188.02
2,Kỵ Sĩ Bóng Đêm Trỗi Dậy,2012,Eight years after the Joker's reign of anarchy...,PG-13,164.0,"Action, Drama",8.4,78.0,Christopher Nolan,"Christian Bale, Tom Hardy, Anne Hathaway, Gary...",1700913.0,448.14
3,Hành Trình Django,2012,"With the help of a German bounty-hunter, a fre...",R,165.0,"Drama, Western",8.4,81.0,Quentin Tarantino,"Jamie Foxx, Christoph Waltz, Leonardo DiCaprio...",1548513.0,162.81
4,Sói Già Phố Wall,2013,"Based on the true story of Jordan Belfort, fro...",R,180.0,"Biography, Comedy, Crime",8.2,75.0,Martin Scorsese,"Leonardo DiCaprio, Jonah Hill, Margot Robbie, ...",1403899.0,116.9
5,Avengers: Biệt Đội Siêu Anh Hùng,2012,Earth's mightiest heroes must come together an...,P,143.0,"Action, Adventure, Sci-Fi",8.0,69.0,Joss Whedon,"Robert Downey Jr., Chris Evans, Scarlett Johan...",1389430.0,623.28
6,Đảo Kinh Hoàng,2010,"In 1954, a U.S. Marshal investigates the disap...",R,138.0,"Mystery, Thriller",8.2,63.0,Martin Scorsese,"Leonardo DiCaprio, Emily Mortimer, Mark Ruffal...",1310113.0,128.01
7,Joker,2019,A mentally troubled stand-up comedian embarks ...,C18,122.0,"Crime, Drama, Thriller",8.4,,Todd Phillips,"Joaquin Phoenix, Robert De Niro, Zazie Beetz, ...",1276021.0,335.45
8,Vệ Binh Dải Ngân Hà,2014,A group of intergalactic criminals must pull t...,C13,121.0,"Action, Adventure, Comedy",8.0,76.0,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",1177309.0,333.18
9,Avengers: Hồi Kết,2019,After the devastating events of Avengers: Cuộc...,C13,181.0,"Action, Adventure, Drama",8.4,78.0,"Anthony Russo, Joe Russo","Robert Downey Jr., Chris Evans, Mark Ruffalo, ...",1124823.0,858.37


Các cột:
- `name`: Tên phim
- `year`: Năm phát hành
- `overview`: Mô tả tổng quát phim
- `certificate`: Phân loại phim ( Ví dụ 'R' là phim cấm người dưới 18 tuổi, 'C13' là cấm người dưới 13 tuổi)
- `runtime`: Thời lượng phim (min)
- `genre`: Thể loại
- `imdb_rate`: Số điểm đánh giá từ IMDB
- `metascore`: Số điểm đánh giá từ Metacritic
- `director	`: Đạo diễn 
- `stars`: Các ngôi sao của phim
- `nvote`: Số lượt đánh giá
- `cross`: Doanh thu của phim (M$)

Mỗi dòng là thông tin của một bộ phim

## b. Khám phá dữ liệu

### Kiểu dữ liệu:

In [4]:
df.dtypes

name            object
year             int64
overview        object
certificate     object
runtime        float64
genre           object
imdb_rate      float64
metascore      float64
director        object
stars           object
nvote          float64
gross          float64
dtype: object

Các cột `name` `overview` `certificate` `genre` `director` `stars` có type là `object`. Cần tìm type chính xác của các cột này

In [5]:
def open_object_dtype(s):
    dtypes = set()
    dtypes = set(s.apply(type))
    return dtypes

In [6]:
print('name:', open_object_dtype(df['name']))
print('overview:', open_object_dtype(df['overview']))
print('certificate:', open_object_dtype(df['certificate']))
print('genre:', open_object_dtype(df['genre']))
print('director:', open_object_dtype(df['director']))
print('stars:', open_object_dtype(df['stars']))

name: {<class 'str'>}
overview: {<class 'str'>}
certificate: {<class 'str'>, <class 'float'>}
genre: {<class 'str'>}
director: {<class 'str'>}
stars: {<class 'str'>}


Các collumn `genre` `director` `stars` phải là list tuy nhiên đang có type là 'str'

In [7]:
df['genre'] = df['genre'].apply(lambda x: x.split(", "))
df['director'] = df['director'].apply(lambda x: x.split(", "))
df['stars'] = df['stars'].apply(lambda x: x.split(", "))

### Phân bố của từng column

### - Numeric column

In [8]:
def get_num_col_profle(df, numcol):
    missing_ratio = []
    min_ = []
    max_ = []
    for col in nume_col:
        collumn = df[col]
        missing_ratio.append(collumn.isnull().sum() / len(collumn) * 100)
        min_.append(collumn.min())
        max_.append(collumn.max())
    profile = pd.DataFrame(([ missing_ratio, min_, max_]), columns = nume_col)
    
    index = pd.Series(["missing_ratio(%)", "min", "max"])
    profile['Value'] = index
    profile = profile.set_index('Value')
    return profile

nume_col = ["runtime", "imdb_rate", "metascore", "nvote", "gross"]
nume_col_profiles_df = get_num_col_profle(df, nume_col)
nume_col_profiles_df

Unnamed: 0_level_0,runtime,imdb_rate,metascore,nvote,gross
Value,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
missing_ratio(%),0.0,0.0,50.9,0.0,9.5
min,80.0,1.1,61.0,88375.0,0.01
max,321.0,8.8,100.0,2343355.0,936.66


### - Categorical column

In [9]:
def get_cate_col_profiles(df, cate_col):
    missing_ratio = []
    num_diff_vals = []
    diff_vals = []
    for col in cate_col:
        column = df[col].dropna()
        missing_ratio.append(column.isnull().sum() / len(column) * 100)
        diff_val = column.to_list()
        if type(column[0]) == list:
            diff_val = set(sum(diff_val, []))
        else:
            diff_val = set(diff_val)
        num_diff_vals.append(len(diff_val))
        diff_vals.append(diff_val)
    profile = pd.DataFrame(([ missing_ratio, num_diff_vals, diff_vals]), columns = cate_col)
    
    index = pd.Series(["missing_ratio", "num_diff_vals", "diff_vals"])
    profile['Value'] = index
    profile = pd.DataFrame(profile.set_index('Value'))
    
    return profile
cate_col = ['name', 'year', 'overview', 'certificate', 'genre', 'director', 'stars']
cate_col_profiles_df = get_cate_col_profiles(df, cate_col)
cate_col_profiles_df

Unnamed: 0_level_0,name,year,overview,certificate,genre,director,stars
Value,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0,0.0
num_diff_vals,999,12,1000,10,20,632,1795
diff_vals,"{Những Thành Phố Giấy, Bồng Bột Tuổi Dậy Thì, ...","{2016, 2017, 2018, 2019, 2020, 2021, 2010, 201...","{In a future where people stop aging at 25, bu...","{NC-17, C13, PG-13, R, P, PG, C16, G, C18, (Ba...","{Biography, Action, Comedy, Musical, Adventure...","{David Leitch, Conrad Vernon, Tom Gormican, Je...","{Conrad Vernon, William H. Macy, Ed Oxenbould,..."


# 2. Đặt câu hỏi: