## TIỀN XỬ LÝ VÀ KHÁM PHÁ DỮ LIỆU **MOVIES**

#### 1. Import thư viện

In [1]:
import json
import pandas as pd
import os

#### CHUẨN BỊ DỮ LIỆU

#### 2. Đọc dữ liệu và chuyển đổi thành dataframe

In [2]:
movies_info = {
    "movie_id": [],
    "title": [],
    "introduction": [],
    "runtime": [],
    "runtimeSeconds": [],
    "rating": [],
    "award": [],
    "genre": [],
    "releaseDate": [],
    "releaseLocation": [],
    "actors": [],
    "directors": []
}

In [3]:
directory = 'data/movies_inf'
for filename in os.listdir(directory):
    if filename.endswith('.json'):
        filepath = os.path.join(directory, filename)
        with open(filepath, 'r') as file:
            data_json = json.load(file)

        for key in movies_info.keys():
            if key in data_json:
                movies_info[key].append(data_json[key])


raw_df = pd.DataFrame(movies_info)
raw_df.head(5)

Unnamed: 0,movie_id,title,introduction,runtime,runtimeSeconds,rating,award,genre,releaseDate,releaseLocation,actors,directors
0,tt0012349,The Kid,"The Tramp cares for an abandoned child, but ev...",1h 8m,4080,"{'count': 134289, 'star': 8.2}","{'wins': 2, 'nominations': 0}","[Comedy, Drama, Family]",1921-02-06,United States,"[Charles Chaplin, Edna Purviance, Jackie Coogan]",[Charles Chaplin]
1,tt0015864,The Gold Rush,A prospector goes to the Klondike during the 1...,1h 35m,5700,"{'count': 118269, 'star': 8.1}","{'wins': 5, 'nominations': 3}","[Adventure, Comedy, Drama, Romance, Western]",1925-08-16,United States,"[Charles Chaplin, Mack Swain, Tom Murray]",[Charles Chaplin]
2,tt0017136,Metropolis,In a futuristic city sharply divided between t...,2h 33m,9180,"{'count': 184863, 'star': 8.3}","{'wins': 6, 'nominations': 6}","[Drama, Sci-Fi]",1927-03-13,United States,"[Brigitte Helm, Alfred Abel, Gustav Fröhlich]",[Fritz Lang]
3,tt0017925,The General,After being rejected by the Confederate milita...,1h 18m,4680,"{'count': 97815, 'star': 8.1}","{'wins': 2, 'nominations': 1}","[Action, Adventure, Comedy, Drama, War]",1927-01-02,United States,"[Buster Keaton, Marion Mack, Glen Cavender]","[Clyde Bruckman, Buster Keaton]"
4,tt0019254,The Passion of Joan of Arc,"In 1431, Jeanne d'Arc is placed on trial on ch...",1h 54m,6840,"{'count': 60378, 'star': 8.1}","{'wins': 4, 'nominations': 1}","[Biography, Drama, History]",1928-10-25,France,"[Maria Falconetti, Eugene Silvain, André Berley]",[Carl Theodor Dreyer]


Lưu data dưới dạng file `raw.csv`

In [4]:
raw_df.to_csv('movie_info_raw.csv', index = False)

#### BẮT ĐẦU KHÁM PHÁ VÀ TIỀN XỬ LÝ DỮ LIỆU

In [5]:
raw_df = pd.read_csv('movie_info_raw.csv')

#### 3. Tính số dòng và cột

In [6]:
#Dòng & cột
n_rows, n_cols = raw_df.shape
print(f'Số dòng: {n_rows}\nSố cột: {n_cols}')

Số dòng: 489
Số cột: 12


#### 4. Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?

Mỗi dòng trong tập dữ liệu tương ứng với một bản ghi các thông tin về một bộ phim gồm các thuộc tính như: tên phim, giới thiệu sơ lược, độ dài phim, thể loại, diễn viên, đạo diễn,...
Và không có vấn đề các dòng có ý nghĩa khác nhau.

#### 5. Dữ liệu có các dòng bị lặp không?

In [7]:
n_duplicate = raw_df.duplicated().sum()
print('Số dòng bị lặp:', n_duplicate)

Số dòng bị lặp: 0


#### 6. Mỗi cột có ý nghĩa gì?

Mỗi cột có ý nghĩa:
- movie_id: mã phim
- title: tên phim
- introduction: giới thiệu ngắn gọn nội dung phim
- runtime: độ dài phim tính theo giờ và phút
- runtimeSeconds: độ dài phim tính theo giây
- rating: đánh giá của người xem về phim, bao gồm số lượt đánh giá và số sao đánh giá trung bình
- award: các giải thưởng và đề cử mà bộ phim có được
- genre: thể loại phim
- releaseDate: ngày phát hành
- releaseLocation: nơi phát hành phim
- actors: diễn viên trong phim
- directors: đạo diễn của bộ phim

#### 7. Xử lý tách các cột có kiểu dictionary thành nhiều cột

Nếu lấy data từ file movie_info_raw.csv, thì dữ liệu dict được coi như là string, do đó phải chuyển kiểu dữ liệu về đúng định dạng ban đầu

In [8]:
for i in raw_df.select_dtypes(include = 'object'):
    if raw_df[i][0].find('{') != -1:
        raw_df[i] = raw_df[i].apply(eval)

Nếu đọc dataframe từ file .json thì trực tiếp tách cột

In [9]:
dict_col = []
for col in raw_df.columns:
    if isinstance(raw_df[col][0], dict):
        dict_col.append(col)

print('Cột có kiểu dữ liệu dictionary:', dict_col)

Cột có kiểu dữ liệu dictionary: ['rating', 'award']


In [10]:
raw_df = pd.concat([raw_df, raw_df['rating'].apply(pd.Series), raw_df['award'].apply(pd.Series)],axis = 1)
raw_df.rename(columns = {'count': 'totalRatings', 'star':'ratingStar', 'wins': 'totalAwards',
                         'nominations': 'totalNominations'}, inplace = True)
raw_df.head(3)

Unnamed: 0,movie_id,title,introduction,runtime,runtimeSeconds,rating,award,genre,releaseDate,releaseLocation,actors,directors,totalRatings,ratingStar,totalAwards,totalNominations
0,tt0012349,The Kid,"The Tramp cares for an abandoned child, but ev...",1h 8m,4080,"{'count': 134289, 'star': 8.2}","{'wins': 2, 'nominations': 0}","['Comedy', 'Drama', 'Family']",1921-02-06,United States,"['Charles Chaplin', 'Edna Purviance', 'Jackie ...",['Charles Chaplin'],134289.0,8.2,2,0
1,tt0015864,The Gold Rush,A prospector goes to the Klondike during the 1...,1h 35m,5700,"{'count': 118269, 'star': 8.1}","{'wins': 5, 'nominations': 3}","['Adventure', 'Comedy', 'Drama', 'Romance', 'W...",1925-08-16,United States,"['Charles Chaplin', 'Mack Swain', 'Tom Murray']",['Charles Chaplin'],118269.0,8.1,5,3
2,tt0017136,Metropolis,In a futuristic city sharply divided between t...,2h 33m,9180,"{'count': 184863, 'star': 8.3}","{'wins': 6, 'nominations': 6}","['Drama', 'Sci-Fi']",1927-03-13,United States,"['Brigitte Helm', 'Alfred Abel', 'Gustav Fröhl...",['Fritz Lang'],184863.0,8.3,6,6


#### 8. Loại bỏ một số cột không cần thiết

- Sau khi tìm hiểu các thuộc tính của dữ liệu, ta thấy rằng cột `runtime` và `runtimeSeconds` đều có ý nghĩa là độ dài của bộ phim, do vậy để tránh việc dư thừa, ta tiến hành xóa cột `runtime` và giữ lại `runtimeSeconds`
- Ngoài ra, các cột có kiểu dữ liệu dict ban đầu (`rating` và `award`), sau khi đã tách cột cũng sẽ được xóa khỏi dataframe

In [11]:
raw_df = raw_df.drop(columns = ['runtime', 'rating', 'award'])
raw_df.columns

Index(['movie_id', 'title', 'introduction', 'runtimeSeconds', 'genre',
       'releaseDate', 'releaseLocation', 'actors', 'directors', 'totalRatings',
       'ratingStar', 'totalAwards', 'totalNominations'],
      dtype='object')

#### 9. Mỗi cột hiện có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu không phù hợp để xử lý tiếp không?

In [12]:
raw_df.dtypes

movie_id             object
title                object
introduction         object
runtimeSeconds        int64
genre                object
releaseDate          object
releaseLocation      object
actors               object
directors            object
totalRatings        float64
ratingStar          float64
totalAwards           int64
totalNominations      int64
dtype: object

Ta thấy rằng nên đưa cột `releaseDate` về dạng datetime để tiếp tục khám phá thêm ở cột này.

In [13]:
raw_df['releaseDate'] = pd.to_datetime(raw_df['releaseDate'])

Kiểm tra lại

In [14]:
raw_df.dtypes

movie_id                    object
title                       object
introduction                object
runtimeSeconds               int64
genre                       object
releaseDate         datetime64[ns]
releaseLocation             object
actors                      object
directors                   object
totalRatings               float64
ratingStar                 float64
totalAwards                  int64
totalNominations             int64
dtype: object

#### 10. Xem xét sự phân bố giá trị của các cột dữ liệu dạng số

In [15]:
numeric_df = raw_df.select_dtypes(exclude = 'object')
numeric_df.columns

Index(['runtimeSeconds', 'releaseDate', 'totalRatings', 'ratingStar',
       'totalAwards', 'totalNominations'],
      dtype='object')

Các cột dữ liệu dạng số là: runtimeSeconds, releaseDate, totalRatings, ratingStar, totalAwards, totalNominations

Thực hiện thống kê trên các cột này và lưu vào một dataframe với các dòng đại diện cho các giá trị:
- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu (missing_ratio).
- Giá trị min (min).
- Giá trị lower quartile (phân vị 25) (lower_quartile).
- Giá trị median (phân vị 50) (median).
- Giá trị upper quartile (phân vị 75) (upper_quartile).
- Giá trị max (max).

In [16]:
def missing_ratio(x):
    res = x.isnull().sum()* 100.0 / len(x)
    return res

def lower_quartile(x):
    return x.quantile(0.25)

def median(x):
    return x.quantile(0.5)

def upper_quartile(x):
    return x.quantile(0.75)

numeric_df = numeric_df.agg([missing_ratio, "min", lower_quartile, median, upper_quartile, "max"]).round(1)
numeric_df

Unnamed: 0,runtimeSeconds,releaseDate,totalRatings,ratingStar,totalAwards,totalNominations
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0
min,3060.0,1921-02-06 00:00:00,120.0,4.1,0.0,0.0
lower_quartile,5760.0,1959-03-19 00:00:00,9276.0,6.7,0.0,1.0
median,6780.0,1986-06-27 00:00:00,164132.0,8.0,5.0,7.0
upper_quartile,7920.0,2005-06-17 00:00:00,590544.0,8.2,24.0,28.0
max,14280.0,2023-07-21 00:00:00,2875039.0,9.3,342.0,357.0


Các cột có kiểu dữ liệu dạng numeric không có giá trị thiếu, do những giá trị thuộc tính này là những giá trị cần thiết, thông dụng và dễ có được của một bộ phim

#### 11. Xem xét sự phân bố giá trị của các cột dữ liệu không phải dạng số

In [17]:
category_df = raw_df.select_dtypes(include = 'object')
category_df.columns

Index(['movie_id', 'title', 'introduction', 'genre', 'releaseLocation',
       'actors', 'directors'],
      dtype='object')

Các cột dữ liệu không phải dạng số là: movie_id, title, introduction, genre, releaseLocation, actors, directors

Thực hiện thống kê và lưu vào một dataframe với các dòng có giá trị mang ý nghĩa:
- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu (missing_ratio).
- Số lượng các giá trị khác nhau (không xét giá trị thiếu) (num_values).
- Tỉ lệ % (từ 0 đến 100) của mỗi giá trị được sort theo tỉ lệ % giảm dần (tỉ lệ là tỉ lệ so với số lượng các giá trị không thiếu): dùng dictionary để lưu, key là giá trị, value là tỉ lệ % (value_ratios)

In [18]:
#pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)

def missing_ratio(x):
    res = x.isnull().sum()* 100.0 / len(x)
    return res

def num_values(x):
    return x.dropna().nunique()

def value_ratios(x):
    d = {}
    value_cnt = x.value_counts()
    value_list = list(value_cnt.keys())
    n = x.dropna().count()
    for val in value_list:
        d[val] = round(value_cnt[val] / n * 100.0, 3)
        d = dict(sorted(d.items(), key=lambda item: item[1]))
    return d

category_df = category_df.agg([missing_ratio, num_values, value_ratios])
category_df

Unnamed: 0,movie_id,title,introduction,genre,releaseLocation,actors,directors
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0,0.0
num_values,489,487,489,228,24,486,357
value_ratios,"{'tt0012349': 0.204, 'tt0180093': 0.204, 'tt01...","{'The Kid': 0.204, 'Lock, Stock and Two Smokin...","{'The Tramp cares for an abandoned child, but ...","{'['Action', 'Horror', 'Sci-Fi']': 0.204, '['A...","{'Portugal': 0.204, 'Finland': 0.204, 'United ...","{'['Charles Chaplin', 'Edna Purviance', 'Jacki...","{'['Alejandro G. Iñárritu']': 0.204, '['Floria..."


Các cột có kiểu dữ liệu dạng category không có giá trị thiếu, do những giá trị thuộc tính này là những giá trị cần thiết, thông dụng và dễ có được của một bộ phim

#### 12. Lưu dữ liệu có được vào file .csv để phục vụ cho các phần sau của đồ án

In [19]:
raw_df.to_csv('movies_info_clean.csv', index = False)