# The Movies Dataset

(Last Updated: 21/11/2024)

---

# <div style="text-align:center; border-radius:15px; padding:15px; margin:0; font-size:110%; font-family:Arial, sans-serif; background-color:#0e560c; color:#E5EFE5;overflow:hidden; box-shadow:0 4px 8px rgba(0, 0, 0, 0.3);"><b> 2. Data preprocessing </b></div>

Import các thư viện cần thiết

In [1]:
import pandas as pd
import ast
import warnings  # Để loại bỏ các warning
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', None) # hiển thị full các cột

Đọc file dữ liệu từ file `movies_metadata.csv` vào Dataframe

In [2]:
raw_df = pd.read_csv('./data/raw/movies_metadata.csv',encoding='utf-8')
raw_df.shape

(45463, 24)

Kiểm tra thông tin các cột

In [3]:
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45463 entries, 0 to 45462
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45463 non-null  bool   
 1   belongs_to_collection  4491 non-null   object 
 2   budget                 45463 non-null  int64  
 3   genres                 45463 non-null  object 
 4   homepage               7779 non-null   object 
 5   id                     45463 non-null  int64  
 6   imdb_id                45446 non-null  object 
 7   original_language      45452 non-null  object 
 8   original_title         45463 non-null  object 
 9   overview               44509 non-null  object 
 10  popularity             45463 non-null  float64
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date           45379 non-null  object 
 15  re

#### Dữ liệu có bao nhiêu dòng và bao nhiêu cột ?

In [4]:
rows, cols = raw_df.shape
print(f'Dữ liệu có {rows} dòng và {cols} cột')

Dữ liệu có 45463 dòng và 24 cột


#### Mỗi hàng trong dữ liệu có ý nghĩa gì?

Mỗi hàng trong tập dữ liệu chứa thông tin cơ bản về một bộ phim.

#### Có hàng bị trùng không?
- Nếu có, có bao nhiêu hàng bị trùng và chúng có giống hệt nhau không?

In [5]:
num_duplicates = raw_df.duplicated().sum()
print(f'Số hàng bị trùng: {num_duplicates}')
if num_duplicates > 0:
    duplicate_rows = raw_df[raw_df.duplicated()]
    print("Các hàng bị trùng có giống hệt nhau không:", duplicate_rows.equals(raw_df.loc[duplicate_rows.index]))

Số hàng bị trùng: 17
Các hàng bị trùng có giống hệt nhau không: True


- Loại bỏ các hàng bị trùng:

In [6]:
raw_df.drop_duplicates(inplace=True)
num_duplicates = raw_df.duplicated().sum()
print(f'Số hàng bị trùng: {num_duplicates}')
print(f'Dữ liệu còn {raw_df.shape[0]} dòng và {raw_df.shape[1]} cột')

Số hàng bị trùng: 0
Dữ liệu còn 45446 dòng và 24 cột


#### Ý nghĩa của mỗi cột

- `adult`: Trạng thái phim phù hợp với đối tượng người xem là người lớn (True/False).
- `belongs_to_collection`: Thông tin về các bộ phim cùng bộ sưu tập với phim đó.
- `budget`: Ngân sách sản xuất của bộ phim.
- `genres`: Thể loại phim.
- `homepage`: Trang web chính thức của bộ phim.
- `imdb_id`: ID phim trên IMDb.
- `id`: ID của bộ phim, dùng để xác định bộ phim trong hệ thống.
- `original_language`: Ngôn ngữ gốc của bộ phim.
- `original_title`: Tiêu đề gốc của bộ phim.
- `overview`: Mô tả ngắn gọn nội dung của bộ phim.
- `popularity`: Độ phổ biến của bộ phim dựa trên số liệu và sự quan tâm từ người dùng.
- `poster_path`: Đường dẫn tới hình ảnh poster của bộ phim.
- `production_companies`: Các công ty sản xuất bộ phim.
- `production_countries`: Các quốc gia sản xuất bộ phim.
- `release_date`: Ngày phát hành của bộ phim.
- `revenue`: Doanh thu của bộ phim.
- `runtime`: Thời gian của bộ phim (phút).
- `spoken_languages`: Các ngôn ngữ được sử dụng trong bộ phim.
- `status`: Trạng thái phát hành.
- `tagline`: Câu slogan của bộ phim.
- `title`: Tiêu đề của bộ phim.
- `video`: Có phải là video chính thức của bộ phim hay không (True/False).
- `vote_average`: Điểm trung bình của các đánh giá từ người dùng.
- `vote_count`: Số lượng người dùng đã đánh giá bộ phim.

#### Kiểu dữ liệu hiện tại của mỗi cột như nào? Có cột nào có kiểu dữ liệu không phù hợp không?

Xem kiểu dữ liệu của mỗi cột

In [7]:
raw_df.dtypes

adult                       bool
belongs_to_collection     object
budget                     int64
genres                    object
homepage                  object
id                         int64
imdb_id                   object
original_language         object
original_title            object
overview                  object
popularity               float64
poster_path               object
production_companies      object
production_countries      object
release_date              object
revenue                    int64
runtime                  float64
spoken_languages          object
status                    object
tagline                   object
title                     object
video                       bool
vote_average             float64
vote_count                 int64
dtype: object

**Nhận xét**

- Cột `id` có kiểu dữ liệu là `int64`, cột này sẽ được chuyển sang kiểu `object` vì nó mang ý nghĩa định danh và không mối quan hệ toán học với các cột khác.
- Cột `release_date` hiện tại có kiểu `object`, cột này sẽ được chuyển sang kiểu `datetime` để thuận tiện cho việc xử lí và phân tích ngày tháng.
- Cột `adult` và `video` có kiểu dữ liệu là `bool`, các gái trị True/False của cột này sẽ được chuyển sang dạng 1/0 tương ứng với kiểu dữ liệu `object` phù hợp cho ý nghĩa phân loại của cột.
- Cột `belongs_to_collection` sẽ được thay đổi để thuận tiện và dễ dàng cho việc phân tích bằng cách chuyển giá trị NaN thành 0 và các giá trị khác thành 1. Giúp xác định nhanh chóng xem một bộ phim có thuộc bộ sưu tập hay không.
- Dữ liệu đang được lưu trong các cột `genres`, `production_companies`, `production_countries`, `spoken_languages` đang được lưu dưới dạng từ điển (dictionary), các cột này sẽ được chuyển đổi thành một chuỗi dữ liệu chỉ chứa thông tin chính của cột đó để dễ dàng thực hiện phân tích.

Chuyển đổi kiểu dữ liệu cho các cột

In [8]:

raw_df['id'] = raw_df['id'].astype('object')
raw_df['release_date'] = pd.to_datetime(raw_df['release_date'], errors='coerce')
raw_df['adult'] = raw_df['adult'].astype(int).astype('object')
raw_df['video'] = raw_df['video'].astype(int).astype('object')

cols_to_convert = ['genres', 'production_companies', 'production_countries', 'spoken_languages']
for col in cols_to_convert:
    raw_df[col] = raw_df[col].fillna('[]')
    raw_df[col] = raw_df[col].apply(ast.literal_eval)

for col in cols_to_convert:
    raw_df[col] = raw_df[col].apply(lambda x: ', '.join([d['name'] for d in x]) if isinstance(x, list) else x)
    
raw_df['belongs_to_collection'] = raw_df['belongs_to_collection'].notnull().astype(int).astype('object')

Kiểm tra lại kiểu dữ liệu của các cột

In [9]:
raw_df.dtypes 

adult                            object
belongs_to_collection            object
budget                            int64
genres                           object
homepage                         object
id                               object
imdb_id                          object
original_language                object
original_title                   object
overview                         object
popularity                      float64
poster_path                      object
production_companies             object
production_countries             object
release_date             datetime64[ns]
revenue                           int64
runtime                         float64
spoken_languages                 object
status                           object
tagline                          object
title                            object
video                            object
vote_average                    float64
vote_count                        int64
dtype: object

Xem lại một số hàng sau khi đã chuyển đối, ta thấy các hàng chứa dữ liệu từ dictionary đã được chuyển sang dạng chuỗi dữ liệu giúp dễ đọc hơn

In [10]:
raw_df.sample(3)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,popularity,poster_path,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
9540,0,0,0,Comedy,,88288,tt0041514,en,It Happens Every Spring,A scientist discovers a formula that makes a b...,0.208891,/j7il9qnRyoAf5JPIstDo85xLmVL.jpg,Twentieth Century Fox Film Corporation,United States of America,1949-06-10,0,87.0,English,Released,"""oh yeah?"" ""Oh yeah!""",It Happens Every Spring,0,6.5,4
10339,0,0,7000000,"Comedy, Drama",http://wip.warnerbros.com/everythingisillumina...,340,tt0404030,en,Everything is Illuminated,A film based on the semi-autobiographical nove...,7.738924,/A3uFw8whRO8Td2pkTRMGlbIh4Op.jpg,"Stillking Films, Warner Independent Pictures (...",United States of America,2005-09-16,2697930,106.0,"English, Pусский, Український",Released,Leave Normal Behind.,Everything is Illuminated,0,7.4,251
4389,0,0,0,"Horror, Thriller",,49365,tt0095484,en,Lady in White,Locked in a school closet during Halloween 196...,1.19789,/6x5CSLEP2EmOGvhXAQUmuhYubWB.jpg,New Sky Communications Inc.,United States of America,1988-04-22,0,112.0,English,Released,The year is 1962. The place is Willowpoint Fal...,Lady in White,0,6.3,25


#### 6. Với mỗi cột dữ liệu dạng số, cách phân bố các giá trị như thế nào?

- Tỉ lệ missing value

In [11]:
(raw_df.select_dtypes('number').isna().sum() / len(raw_df)).round(3)

budget          0.000
popularity      0.000
revenue         0.000
runtime         0.006
vote_average    0.000
vote_count      0.000
dtype: float64

Như vậy có thể thấy chỉ có duy nhất cột `runtime` có missing ratio là 0.006%, với tỉ lệ rất nhỏ, để đơn giản, chúng em thực hiện điền vào giá trị trung vị của toàn bộ cột runtime vào các giá trị thiếu.

In [12]:
raw_df['runtime'].fillna(raw_df['runtime'].median(), inplace=True)

 - Các giá trị thống kê của dữ liệu

In [13]:
raw_df.select_dtypes('number').describe().round(2)

Unnamed: 0,budget,popularity,revenue,runtime,vote_average,vote_count
count,45446.0,45446.0,45446.0,45446.0,45446.0,45446.0
mean,4226138.0,2.92,11212760.0,94.13,5.62,109.92
std,17427200.0,6.01,64341860.0,38.3,1.92,491.38
min,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.39,0.0,85.0,5.0,3.0
50%,0.0,1.13,0.0,95.0,6.0,10.0
75%,0.0,3.68,0.0,107.0,6.8,34.0
max,380000000.0,547.49,2787965000.0,1256.0,10.0,14075.0


#### Với mỗi cột dữ liệu không phải kiểu số, cách phân bố các giá trị như thế nào?

In [14]:
non_numeric_df = raw_df.select_dtypes(exclude='number')

def missing_ratio(s):
    return (s.isna().mean() * 100).round(1)

def num_values(s):
    s = s.astype(str).fillna('')
    s = s.str.split(',')
    s = s.explode()
    return len(s.value_counts())

def value_ratios(s):
    s = s.astype(str).fillna('')
    s = s.str.split(',')
    s = s.explode()
    totalCount = (~s.isna()).sum()
    return ((s.value_counts() / totalCount * 100).round(5)).to_dict()

cat_col_info_df = non_numeric_df.agg([missing_ratio, num_values, value_ratios])
cat_col_info_df

Unnamed: 0,adult,belongs_to_collection,genres,homepage,id,imdb_id,original_language,original_title,overview,poster_path,production_companies,production_countries,release_date,spoken_languages,status,tagline,title,video
missing_ratio,0.0,0.0,0.0,82.9,0.0,0.0,0.0,0.0,2.1,0.8,0.0,0.0,0.2,0.0,0.2,55.1,0.0,0.0
num_values,2,2,41,7677,45433,45417,90,44199,172515,45025,27895,289,17335,144,7,24275,42988,2
value_ratios,"{'0': 99.9802, '1': 0.0198}","{'0': 90.12014, '1': 9.87986}","{'Drama': 12.79199, 'Comedy': 9.43035, ' Drama...","{'nan': 82.87644, 'http://www.georgecarlin.com...","{'13209': 0.0044, '110428': 0.0044, '77221': 0...","{'nan': 0.03741, 'tt0100361': 0.0044, 'tt02702...","{'en': 70.98314, 'fr': 5.36241, 'it': 3.36443,...","{'I': 0.02147, 'Love': 0.02147, 'Hamlet': 0.01...","{'nan': 0.53274, ' however': 0.1988, 'No overv...","{'nan': 0.84276, '/5D7UBSEgdyONE6Lql6xS7s6OLcW...","{'': 14.34404, 'Paramount Pictures': 1.2055, '...","{'United States of America': 33.08905, '': 11....","{'2008-01-01': 0.29926, '2009-01-01': 0.26625,...","{'English': 46.98569, '': 7.08795, 'Français':...","{'Released': 99.02082, 'Rumored': 0.50389, 'Po...","{'nan': 50.40362, '000': 0.02818, ' SHOCKS': 0...","{'I': 0.0322, 'Love': 0.0322, 'Cinderella': 0....","{'0': 99.79536, '1': 0.20464}"


**Nhận xét**: 
- Từ các thông tin ở trên, ta thấy cột `homepage` có missing_ratio rất cao với 82.9% và cột `tagline` có missing_ratio cao là 55.1%, đồng thời vì hai cột này dường như không cung cấp thông tin quan trọng cho việc phân tích và có khả năng không góp phần làm rõ các đặc điểm chính của dữ liệu nên nhóm em quyết định bỏ 2 cột dữ liệu này. 

- Đối với các cột dữ liệu còn lại có giá trị bị thiếu, chúng em sẽ thay thế các giá trị thiếu bằng `unknown` vì chúng vẫn có khả năng cung cấp thông tin hữu ích trong các phân tích sau này.

- Giá trị tỉ lệ trong cột `adult` cho thấy sự chênh lệch rõ rệt, với phần lớn các bộ phim không được gán nhãn là 'Adult' chiếm 99,9%.

In [15]:
cols_with_missing_values = raw_df.columns[raw_df.isnull().any()]
raw_df[cols_with_missing_values] = raw_df[cols_with_missing_values].fillna('unknown')
raw_df.drop(columns=['homepage', 'tagline'], inplace=True)

Xem lại thông tin sau khi xử lí

In [16]:
non_numeric_df = raw_df.select_dtypes(exclude='number')
cat_col_info_df = non_numeric_df.agg([missing_ratio, num_values, value_ratios])
cat_col_info_df

Unnamed: 0,adult,belongs_to_collection,genres,id,imdb_id,original_language,original_title,overview,poster_path,production_companies,production_countries,release_date,spoken_languages,status,title,video
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
num_values,2,2,41,45433,45417,90,44199,172515,45025,27895,289,17335,144,7,42988,2
value_ratios,"{'0': 99.9802, '1': 0.0198}","{'0': 90.12014, '1': 9.87986}","{'Drama': 12.79199, 'Comedy': 9.43035, ' Drama...","{'13209': 0.0044, '110428': 0.0044, '77221': 0...","{'unknown': 0.03741, 'tt0100361': 0.0044, 'tt0...","{'en': 70.98314, 'fr': 5.36241, 'it': 3.36443,...","{'I': 0.02147, 'Love': 0.02147, 'Hamlet': 0.01...","{'unknown': 0.53274, ' however': 0.1988, 'No o...","{'unknown': 0.84276, '/5D7UBSEgdyONE6Lql6xS7s6...","{'': 14.34404, 'Paramount Pictures': 1.2055, '...","{'United States of America': 33.08905, '': 11....","{'2008-01-01 00:00:00': 0.29926, '2009-01-01 0...","{'English': 46.98569, '': 7.08795, 'Français':...","{'Released': 99.02082, 'Rumored': 0.50389, 'Po...","{'I': 0.0322, 'Love': 0.0322, 'Cinderella': 0....","{'0': 99.79536, '1': 0.20464}"


**Lưu vào file csv mới sau khi xử lí**

In [18]:
raw_df.to_csv('./data/processed/movies_processed.csv', index=False)