# DATA PREPROCESSING
---

Nhiệm vụ của phần này là tổng hợp và tiền xử lý dữ liệu đã được thu thập

### IMPORT

In [510]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sn

### ĐỌC DỮ LIỆU

In [511]:
data_1 = pd.read_csv('../IntroToDS/Data/movie_data_part1.csv')
data_2 = pd.read_csv('../IntroToDS/Data/movie_data_part2.csv')
data_3 = pd.read_csv('../IntroToDS/Data/movie_data_part3.csv')

#### Kiểm tra trước khi tổng hợp
Kiểm tra xem cả 3 file có giống nhau về đặc trưng hay không

In [512]:
def DacTrungGiongNhau(df1, df2, df3):
    columns_1 = df1.columns.tolist()
    columns_2 = df2.columns.tolist()
    columns_3 = df3.columns.tolist()

    if columns_1 == columns_2 == columns_3:
        print("Cả 3 tệp có các đặc trưng giống nhau")
    else:
        print("Các tệp có sự khác biệt trong đặc trưng:")
        if columns_1 != columns_2:
            print(f"- Tệp 1 và tệp 2")
            print(set(columns_1).symmetric_difference(columns_2))
        if columns_2 != columns_3:
            print(f"- Tệp 2 và tệp 3")
            print(set(columns_2).symmetric_difference(columns_3))
        if columns_1 != columns_3:
            print(f"- Tệp 3 và tệp 1")
            print(set(columns_3).symmetric_difference(columns_1))

DacTrungGiongNhau(data_1, data_2, data_3)

Các tệp có sự khác biệt trong đặc trưng:
- Tệp 2 và tệp 3
{'Unnamed: 0'}
- Tệp 3 và tệp 1
{'Unnamed: 0'}


Cột không có tên nằm trong tệp 1 và tệp 2 chỉ là cột số thứ tự của các dòng dữ liệu, ta có thể loại bỏ

In [513]:
data_1 = data_1.iloc[:, 1:]
data_2 = data_2.iloc[:, 1:]

Kiểm tra lại

In [514]:
DacTrungGiongNhau(data_1, data_2, data_3)

Cả 3 tệp có các đặc trưng giống nhau


#### Tổng hợp các tệp

In [515]:
data = pd.concat([data_1, data_2, data_3], ignore_index=True)
data.head() # Xem trước dữ liệu

Unnamed: 0,Title,Release time,Age rating,Runtime,Genre,Lanuage,Awards,Metascore,IMDb Rating,IMDb Votes,Domestic Revenue
0,Goon Squad,18 Jan 2024,NC-17,1h 23min,Crime,English,,,,,
1,The Phantom Warrior,20 Feb 2024,R,1h 23min,"Adventure, Fantasy, Sci-Fi",English,,,2.6,532.0,
2,Beyond the Lake,26 Jan 2024,G,1h 38min,Comedy,English,,,,31.0,
3,Crimes of Fashion: Killer Clutch,15 Mar 2024,PG,1h 24min,"Crime, Drama, Mystery","English, French",,,5.8,503.0,
4,Love on the Danube: Love Song,10 Sep 2024,G,1h 24min,Romance,English,,,5.8,175.0,


### 1. Dữ liệu có bao nhiêu dòng, cột

In [516]:
data.shape

(1796, 11)

### 2. Thông tin về các dòng dữ liệu

#### 2.1 Ý nghĩa từng dòng dữ liệu

- Mỗi dòng là đại diện cho một bộ phim, cung cấp thông tin về tên, thời gian phát hành, thể loại, ngôn ngữ, đánh giá, doanh thu và các thông tin khác liên quan đến bộ phim đó. 

- Không có dòng nào có ý nghĩa khác với các dòng còn lại.

### 2.2 Kiểm tra các dòng dữ liệu trùng lặp

In [517]:
n_duplicate = data.duplicated().sum()
n_duplicate

27

Xử lý các đữ liệu trùng lặp

In [518]:
if n_duplicate > 0:
    data = data.drop_duplicates()

data.shape

(1769, 11)

### 3. Thông tin về các cột dữ liệu
Dữ liệu có các cột sau

In [519]:
data.columns

Index(['Title', 'Release time', 'Age rating', 'Runtime', 'Genre', 'Lanuage',
       'Awards', 'Metascore', 'IMDb Rating', 'IMDb Votes', 'Domestic Revenue'],
      dtype='object')

Có một tên cột bị sai chính tả, sửa lại cho đúng

In [520]:
data = data.rename(columns={'Lanuage': 'Language'})

### 3.1 Ý nghĩa của các cột dữ liệu

Mỗi cột có ý nghĩa sau: 
|Tên cột|Ý nghĩa|
|-------|-------|
| Title| Tên của bộ phim|
| Realease time| Thời gian phát hành của bộ phim|
| Age rating| Đánh giá độ tuổi phù hợp để xem phim|
| Runtime| Thời lượng của bộ phim|
| Genre| Thể loại của bộ phim|
| Language| Ngôn ngữ chính được sử dụng trong bộ phim|
| Awards| Số lượng hoặc tên giải thưởng mà bộ phim nhận được (nếu có)|
| Metascore| Điểm đánh giá từ Metacritic|
| IMDb Rating| Điểm đánh giá của bộ phim trên IMDb|
| IMDb Votes| Số lượt bình chọn của người dùng trên IMDb|
| Domestic Revenue|Doanh thu nội địa|

### 3.2 Kiểm tra kiểu dữ liệu của mỗi cột
Kiểu dữ liệu hiện tại của các cột

In [521]:
column_types = data.dtypes
column_types

Title                object
Release time         object
Age rating           object
Runtime              object
Genre                object
Language             object
Awards               object
Metascore           float64
IMDb Rating         float64
IMDb Votes           object
Domestic Revenue     object
dtype: object

Có một số cột dữ liệu chưa được xác định với các kiểu dữ liệu phù hợp.

Ta chuyển một số cột **Runtime, Awards, IMDb Votes, Domestic Revenue** từ định tính qua định lượng

Runtime

In [522]:
def convert_runtime_to_minutes(runtime):
    try:
        if 'h' in runtime and 'min' in runtime:  # Có cả giờ và phút
            parts = runtime.split('h')
            hours = int(parts[0].strip())  # Phần trước 'h' là số giờ
            minutes = int(parts[1].replace('min', '').strip())  # Phần sau 'h' là số phút
            return hours * 60 + minutes
        elif 'min' in runtime:  # Chỉ có phút
            minutes = int(runtime.replace('min', '').strip())
            return minutes
        elif 'h' in runtime:  # Chỉ có giờ
            hours = int(runtime.replace('h', '').strip())
            return hours * 60
        else:
            return None  # Nếu không đúng định dạng
    except (ValueError, AttributeError):
        return None  # Xử lý ngoại lệ nếu giá trị không hợp lệ


In [523]:
data['Runtime'] = data['Runtime'].dropna().apply(convert_runtime_to_minutes)

Awards

Ta tách cột Awards thành 2 cột riêng là Win và Nomination

In [524]:
data['Win'] = data['Awards'].apply(lambda x: 1 if x == 'win' else 0)
data['Nomination'] = data['Awards'].apply(lambda x: 1 if x == 'nomination' else 0)
data = data.drop(columns=['Awards'])

IMDb Votes

In [525]:
data['IMDb Votes'] = data['IMDb Votes'].replace({',': ''}, regex=True)
data['IMDb Votes'] = data['IMDb Votes'].dropna().astype(float)

Domestic Revenue


In [526]:
data['Domestic Revenue'] = data['Domestic Revenue'].replace({'\$': '', ',': ''}, regex=True)
data['Domestic Revenue'] = data['Domestic Revenue'].dropna().astype(float)

Kiểm tra lại

In [527]:
data.dtypes

Title                object
Release time         object
Age rating           object
Runtime             float64
Genre                object
Language             object
Metascore           float64
IMDb Rating         float64
IMDb Votes          float64
Domestic Revenue    float64
Win                   int64
Nomination            int64
dtype: object

### 3.3. Sự phân bố dữ liệu của các cột có kiểu định lượng
Các cột có dữ liệu định lượng

In [528]:
numerical_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()
print('Numberical columns: ')
for col_name in numerical_columns:
    print(col_name)

Numberical columns: 
Runtime
Metascore
IMDb Rating
IMDb Votes
Domestic Revenue
Win
Nomination


Sự phân bố dữ liệu

In [529]:
# Vẽ biểu đồ

#### 3.3.1 Tỉ lệ phần trăm các giá trị bị thiếu trong mỗi cột

In [530]:
# Tính tỉ lệ phần trăm các giá trị bị thiếu


In [531]:
# Xử lý giá trị bị thiếu (điền giá trị thay thế, ước lượng,...)

#### 3.3.2 Tính toán các giá trị thống kê


Với mỗi cột có kiểu dữ liệu định lượng, chúng em thực hiện tính toán các giá trị thống kê cơ bản sau:
- Min 
- Max
- Mean
- Mod
- Median

In [532]:
# Thêm các cell tính toán và xử lý

#### 3.3.3 Xử lý dữ liệu lỗi hoặc bất thường

#### 3.3.5 Chuẩn hóa dữ liệu nếu cần

### 3.4 Sự phân bố dữ liệu của các cột có kiểu định tính
Các cột có kiểu dữ liệu định tính

In [533]:
categorical_columns = data.select_dtypes(include=['object', 'bool']).columns.tolist()
print('Categorical columns: ')
for col_name in categorical_columns:
    print(col_name)

Categorical columns: 
Title
Release time
Age rating
Genre
Language


#### 3.4.1 Số giá trị phân biệt của mỗi cột

In [534]:
# Hàm tính toán sự phân bố các giá trị
def compute_distribution(dataframe, column):
    value_counts = dataframe[column].value_counts(dropna=False) 
    db = {}
    for value, count in value_counts.items():
        db[value] = count
    
    return db

In [535]:
# Tìm phân bố giá trị
cat_distribution = {}

for column in categorical_columns:
    cat_distribution[column] = compute_distribution(data, column)

In [536]:
# Chuyển thành dạng bảng
# Tạo danh sách để lưu dữ liệu cho DataFrame
df = {
    "Column": [],
    "Distinct_Values": [],
    "Value_Distribution": []
}

# Thêm dữ liệu vào danh sách
for column, distribution in cat_distribution.items():
    different_values = len(set(data[column]))
    df["Column"].append(column)
    df["Distinct_Values"].append(different_values)
    df["Value_Distribution"].append(distribution)

# Tạo DataFrame từ dữ liệu
distribution_df = pd.DataFrame(df)

# In ra DataFrame
distribution_df

Unnamed: 0,Column,Distinct_Values,Value_Distribution
0,Title,1763,"{'Horizon: An American Saga - Chapter 1': 2, '..."
1,Release time,559,"{'2024': 26, '2023': 18, '13 Sep 2024': 17, '1..."
2,Age rating,5,"{'R': 809, 'PG-13': 466, 'PG': 284, 'G': 181, ..."
3,Genre,286,"{'Documentary': 191, 'Comedy': 110, 'Drama': 1..."
4,Language,166,"{'English': 1231, nan: 98, 'Spanish': 39, 'Eng..."


#### 3.4.2 Tỉ lệ phần trăm các giá trị bị thiếu trong mỗi cột

In [537]:
for col_name in categorical_columns:
    missing_rate = data[col_name].isnull().mean() * 100
    print(f'{col_name}: {missing_rate:.2f}%')

Title: 0.00%
Release time: 0.00%
Age rating: 0.00%
Genre: 0.00%
Language: 5.54%


Trong quá trình khám phá dữ liệu, đã phát hiện 1 cột định tính có giá trị bị thiếu. Cụ thể là cột **Language** (5,54%)

Để khắc phục vấn đề này, điền **Unknown** vào những ô bị thiếu. Đảm bảo dữ liệu vẫn đầy đủ và có thể sử dụng trong các phân tích sau mà không mất đi ý nghĩa của các hàng có giá trị bị thiếu.

In [538]:
data['Language'] = data['Language'].fillna('Unknown')

#### 3.4.4 Xử lý dữ liệu phân loại

Cột **Age Rating** có dữ liệu phân loại, ta sẽ thêm một cột mới là **Age Rating Quantification** để chuyển đổi thành các giá trị số để dễ dàng phân tích và sử dụng trong mô hình máy học

In [541]:
# Tạo một từ điển ánh xạ từ phân loại phim sang giá trị định lượng
rating_map = {
    'NC-17': 5,
    'R': 4,
    'PG-13': 3,
    'PG': 2,
    'G': 1
}

data['Age rating quantification'] = data['Age rating'].map(rating_map)

Sau các bước tiền xử lý, ta thực hiện lưu dataframe này vào 1 file mới và thực hiện phân tích trên file này.

In [540]:
data.to_csv('../IntroToDS/Data/movie_data.csv', index=False)