# Khám Phá Dữ Liệu
The Movies Dataset

---

## 0. Môi trường và Dữ Liệu


Tất cả các thư viện môi trường dùng trong đồ án này được liệt kê trong file `environment.yml`.

Trước khi tiến hành khám phá dữ liệu, chúng ta sẽ import các thư viện sau.

In [1]:
import numpy as np
import pandas as pd
import ast

Để chuẩn bị cho việc khám phá, chúng ta sẽ lưu trữ dữ liệu của tệp tin **movies_metadata.csv** vào DataFrame là `movies`.

In [2]:
movies = pd.read_csv('Data/movies_metadata.csv', low_memory=False)
movies.head(5)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92
3,False,,16000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,1995-12-22,81452156,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,1995-02-10,76578911,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173


## 1. Kích thước dữ liệu

In [3]:
movies_nrows = movies.shape[0]
movies_ncols = movies.shape[1]

print("Số dòng của bảng movies:", movies_nrows)
print("Số cột của bảng movies:", movies_ncols)

Số dòng của bảng movies: 45463
Số cột của bảng movies: 24


## 2. Ý nghĩa của dữ liệu

### 2.1. Các hàng

Trước tiên, chúng ta kiểm tra xem có dòng dữ liệu nào bị trùng không.

In [4]:
duplicate_movies = movies.duplicated().sum()

print("Số lượng dòng trùng lặp trong bảng movies:", duplicate_movies)

Số lượng dòng trùng lặp trong bảng movies: 17


Như vậy, chúng ta có các thông tin sau:
   - Chúng ta có tổng cộng **45,463** phim và **24** trường thông tin.
   - Mỗi dòng trong dữ liệu này chứa thông tin về một bộ phim có thể là tên, ngày phát hành, ngôn ngữ, ngân sách, doanh thu, thể loại, từ khóa, etc.
   - Có 17 dòng dữ liệu bị trùng với nhau, chúng ta sẽ xóa chúng.

In [5]:
movies.drop_duplicates(inplace=True)
duplicate_movies = movies.duplicated().sum()

print("Số lượng dòng trùng lặp sau khi xóa:", duplicate_movies)
print("Số dòng của bảng movies sau khi xóa:", movies.shape[0])

Số lượng dòng trùng lặp sau khi xóa: 0
Số dòng của bảng movies sau khi xóa: 45446


### 2.2. Các cột

Chúng ta hãy xem qua tên của các cột trong từng tệp dữ liệu:

In [6]:
print('Các cột của bảng movies:')
print(pd.Series(movies.columns).to_string())

Các cột của bảng movies:
0                     adult
1     belongs_to_collection
2                    budget
3                    genres
4                  homepage
5                        id
6                   imdb_id
7         original_language
8            original_title
9                  overview
10               popularity
11              poster_path
12     production_companies
13     production_countries
14             release_date
15                  revenue
16                  runtime
17         spoken_languages
18                   status
19                  tagline
20                    title
21                    video
22             vote_average
23               vote_count


Dựa trên tên của các cột và thông tin trên website, chúng ta có thể hiểu ý nghĩa của các cột như sau:

- `adult`: Chỉ định nếu phim là dành cho người lớn hoặc có phân loại X-Rated.
- `belongs_to_collection`: Một từ điển dạng chuỗi chứa thông tin về loạt phim mà phim này thuộc về.
- `budget`: Ngân sách của phim tính bằng đô la.
- `genres`: Một danh sách dạng chuỗi của các từ điển liệt kê tất cả các thể loại liên quan đến phim.
- `homepage`: Trang chủ chính thức của phim.
- `id`: ID của phim.
- `imdb_id`: ID của phim trên IMDB.
- `original_language`: Ngôn ngữ gốc của phim.
- `original_title`: Tựa đề gốc của phim.
- `overview`: Một đoạn tóm tắt ngắn về nội dung phim.
- `popularity`: Điểm phổ biến được TMDB gán cho phim.
- `poster_path`: Đường dẫn URL của hình ảnh áp phích.
- `production_companies`: Một danh sách dạng chuỗi của các công ty sản xuất tham gia làm phim.
- `production_countries`: Một danh sách dạng chuỗi của các quốc gia nơi phim được quay hoặc sản xuất.
- `release_date`: Ngày ra rạp của phim.
- `revenue`: Tổng doanh thu của phim tính bằng đô la.
- `runtime`: Thời lượng của phim tính bằng phút.
- `spoken_languages`: Một danh sách dạng chuỗi của các ngôn ngữ được nói trong phim.
- `status`: Trạng thái của phim (Đã phát hành, Sắp phát hành, Đã công bố, v.v.).
- `tagline`: Khẩu hiệu của phim.
- `title`: Tựa đề chính thức của phim.
- `video`: Chỉ định nếu có video của phim được TMDB cung cấp.
- `vote_average`: Điểm đánh giá trung bình của phim từ 0 đến 10 của người dùng trên TMDB.
- `vote_count`: Số lượt bình chọn của người dùng, được TMDB thống kê.


Trước khi đi vào sâu hơn, chúng ta sẽ thống nhất các cột không cần thiết ngay từ đầu. Cụ thể, chúng ta sẽ loại bỏ các cột `id`, `imdb_id` và `poster_path` vì chúng chỉ là ID và url của ảnh phim, không cần thiết cho việc khám phá và phân tích dữ liệu. Mặc dù đây là phần khám phá dữ liệu, nhưng chúng ta sẽ kết hợp việc xử lý các dữ liệu bị thiếu và trùng lặp ngay từ đầu để hiệu quả hơn.

Do đó, chúng ta sẽ xóa các cột `id`, `imdb_id` và `poster_path`.

In [7]:
movies.drop(['id', 'imdb_id', 'poster_path'], axis=1, inplace=True)

## 3. Kiểu dữ liệu

Sau khi hiểu được ý nghĩa của các cột, chúng ta sẽ kiểm tra kiểu dữ liệu của chúng để xem xét cần chuyển đổi kiểu dữ liệu nào.

In [8]:
print('Kiểu dữ liệu của các cột trong bảng movies:')
print(pd.Series(movies.dtypes).to_string())

Kiểu dữ liệu của các cột trong bảng movies:
adult                       bool
belongs_to_collection     object
budget                     int64
genres                    object
homepage                  object
original_language         object
original_title            object
overview                  object
popularity               float64
production_companies      object
production_countries      object
release_date              object
revenue                    int64
runtime                  float64
spoken_languages          object
status                    object
tagline                   object
title                     object
video                       bool
vote_average             float64
vote_count                 int64


Như ta có thể thấy ở trên, các cột có kiểu dữ liệu đúng như mong đợi, có thể chúng ta sẽ cần chuyển đổi kiểu dữ liệu của một số cột. Ví dụ, cột `release_date` nên chuyển sang kiểu datetime để dễ dàng xử lý, các thông tin có kiểu là object thường là dạng string và có thể chứa các giá trị `NaN`.

Chúng ta sẽ tiến hành kiểm tra các giá trị làm cho các cột không thể chuyển đổi sang kiểu dữ liệu đúng của nó. Đồng thời, chúng ta sẽ xem xét các giá trị `NaN` trong dữ liệu.

### 3.1. Dữ liệu bị thiếu

In [9]:
print(movies.isnull().sum().to_string())
print('-'*30)
print('Tổng số dòng \t\t', movies.shape[0])


adult                        0
belongs_to_collection    40956
budget                       0
genres                       0
homepage                 37669
original_language           11
original_title               0
overview                   954
popularity                   0
production_companies         0
production_countries         0
release_date                84
revenue                      0
runtime                    257
spoken_languages             0
status                      81
tagline                  25038
title                        0
video                        0
vote_average                 0
vote_count                   0
------------------------------
Tổng số dòng 		 45446


Chúng ta thấy rằng, trong các cột có giá trị `NaN`, 3 cột `belongs_to_collection`, `homepage`, `tagline` có tỉ lệ giá trị `NaN` khá cao.
- `belongs_to_collection`: 90.12%
- `homepage`: 82.89%
- `tagline`: 55.10%

Các thông tin này bị thiếu hơn 55% trở lên, chúng ta sẽ xem xét xem có cần thiết giữ lại các cột này hay không bằng cách xem xét ý nghĩa của chúng và 1 vài giá trị mẫu.

`belongs_to_collection`

In [10]:
collection_samples = movies[movies['belongs_to_collection'].notnull()]['belongs_to_collection'].reset_index(drop=True)
print(collection_samples[0])
print(collection_samples[1])
print(collection_samples[2])

{'id': 10194, 'name': 'Toy Story Collection', 'poster_path': '/7G9915LfUQ2lVfwMEEhDsn3kT4B.jpg', 'backdrop_path': '/9FBwqcd9IRruEDUrTdcaafOMKUq.jpg'}
{'id': 119050, 'name': 'Grumpy Old Men Collection', 'poster_path': '/nLvUdqgPgm3F85NMCii9gVFUcet.jpg', 'backdrop_path': '/hypTnLot2z8wpFS7qwsQHW1uV8u.jpg'}
{'id': 96871, 'name': 'Father of the Bride Collection', 'poster_path': '/nts4iOmNnq7GNicycMJ9pSAn204.jpg', 'backdrop_path': '/7qwE57OVZmMJChBpLEbJEmzUydk.jpg'}


`homepage`

In [11]:
homepage_samples = movies[movies['homepage'].notnull()]['homepage'].reset_index(drop=True)
print(homepage_samples[0])
print(homepage_samples[1])
print(homepage_samples[2])

http://toystory.disney.com/toy-story
http://www.mgm.com/view/movie/757/Goldeneye/
http://www.mgm.com/title_title.do?title_star=LEAVINGL


`tagline`

In [12]:
tagline_samples = movies[movies['tagline'].notnull()]['tagline'].reset_index(drop=True)
print(tagline_samples[0])
print(tagline_samples[1])
print(tagline_samples[2])

Roll the dice and unleash the excitement!
Still Yelling. Still Fighting. Still Ready for Love.
Friends are the people who let you be yourself... and never let you forget it.


Các giá trị mẫu của các cột cho thấy không có quá nhiều thông tin quan trọng, chúng ta có thể xóa các cột này. Tuy nhiên, chúng ta vẫn xem xét ý nghĩa của chúng để chắc chắn hơn:
- `belongs_to_collection`: Đây là thông tin về loạt phim mà một bộ phim thuộc về. Cột này bao gồm id, tên, poster, backdrop của loạt phim. Việc tỉ lệ giá trị `NaN` quá cao là vì không phải tất cả các phim đều thuộc loạt phim. Nhưng ta vẫn có thể xem xét việc **phim thuộc 1 loạt phim** có thể ảnh hưởng đến **doanh thu** hay **đánh giá** hay không. Thế nên, ta có thể tạo ra một cột mới để lưu thông tin này. Bên cạnh đó, ta có thể khai thác 1 vài thông tin khi xét trên các phim thuộc 1 franchise nào đó (phim thuộc 1 franchise nổi tiếng thì có ảnh hưởng tốt hơn, v.v.).

- `homepage`: Đây là thông tin trang chủ chính thức của phim. Việc 1 phim có trang chủ chính thức hay không không ảnh hưởng nhiều đến việc phân tích dữ liệu, chúng ta có thể loại bỏ hoàn toàn cột này.

- `tagline`: Đây là khẩu hiệu của phim. Giống như `belongs_to_collection`, chúng ta có thể xem xét việc **có khẩu hiệu** hoặc **số từ** hay **từ khóa** có tác động đến **giá trị** của phim hay không. Thế nên, ta có thể tạo ra một cột mới để lưu thông tin này.

Như vậy, chúng ta sẽ xóa cột `homepage` trước.

In [13]:
movies.drop(['homepage'], axis=1, inplace=True)

### 3.2. Dữ liệu thời gian

Tiếp theo, chúng ta sẽ xem xét cột `release_date` và xem xét xem có giá trị nào không hợp lý không.

In [14]:
invalid_release_date = movies[~pd.to_datetime(movies['release_date'], errors='coerce').notnull()]
print('Các giá trị release_date không hợp lệ:')
print(invalid_release_date['release_date'].unique())

Các giá trị release_date không hợp lệ:
[nan]


Như vậy, ngoài các giá trị `NaN`, chúng ta không thấy có giá trị nào không hợp lý trong cột `release_date`. Chúng ta sẽ chuyển cột này sang kiểu dữ liệu datetime để dễ dàng xử lý.

In [15]:
movies['release_date'] = pd.to_datetime(movies['release_date'], errors='coerce')
movies['release_date'].head(5)

0   1995-10-30
1   1995-12-15
2   1995-12-22
3   1995-12-22
4   1995-02-10
Name: release_date, dtype: datetime64[ns]

## 4. Thống kê mô tả

Sau khi đã kiểm tra kiểu dữ liệu và xử lý một số dữ liệu bị thiếu, chúng ta sẽ xem xét một số thống kê mô tả cơ bản của dữ liệu.

### 4.1. Các cột dạng số

Đâu tiên, chúng ta sẽ xem xét các cột dạng số để biết các thông tin sau:
- Số lượng dữ liệu bị thiếu.
- Các chỉ số thống kê như trung bình, độ lệch chuẩn, min, max, v.v.
- Phân phối của dữ liệu.
- Các giá trị ngoại lệ.

In [16]:
numeric_columns = movies.select_dtypes(include=[np.number]).columns
numeric_nan_count = movies[numeric_columns].isnull().sum()
print("Phần trăm giá trị NaN trên mỗi cột số:")
numeric_nan_percentage = numeric_nan_count / movies.shape[0] * 100
numeric_nan_percentage = numeric_nan_percentage.apply(lambda x: "0 %" if x == 0 else f"{round(x, 3)} %")
print(numeric_nan_percentage.to_string())

Phần trăm giá trị NaN trên mỗi cột số:
budget              0 %
popularity          0 %
revenue             0 %
runtime         0.566 %
vote_average        0 %
vote_count          0 %


Ở đây, chúng ta có thể thấy, chỉ có cột `runtime` có giá trị `NaN` và chỉ chiếm chưa đến 1% tổng số dữ liệu. Mặc dù số lượng dữ liệu bị thiếu không nhiều, nhưng chúng ta vẫn cần xem xét xem có cần điền giá trị thiếu hay xóa dòng dữ liệu đó, vì bộ phim mà thiếu thông tin thời lượng thì không hợp lý. Chúng ta sẽ xem xét thêm một số thông tin khác để quyết định xử lý dữ liệu bị thiếu.

In [17]:
nan_runtime_movies = movies[movies['runtime'].isnull()].drop(columns=['runtime'])
nan_runtime_movies.head(5)

Unnamed: 0,adult,belongs_to_collection,budget,genres,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,spoken_languages,status,tagline,title,video,vote_average,vote_count
634,False,,0,"[{'id': 35, 'name': 'Comedy'}]",de,Peanuts – Die Bank zahlt alles,,0.066123,"[{'name': 'Westdeutscher Rundfunk (WDR)', 'id'...","[{'iso_3166_1': 'DE', 'name': 'Germany'}]",1996-03-21,0,[],Released,,Peanuts – Die Bank zahlt alles,False,4.0,1
635,False,,0,"[{'id': 35, 'name': 'Comedy'}]",de,Happy Weekend,,0.002229,"[{'name': 'Senator Film Produktion', 'id': 191}]","[{'iso_3166_1': 'DE', 'name': 'Germany'}]",1996-03-14,65335,"[{'iso_639_1': 'de', 'name': 'Deutsch'}]",Released,,Happy Weekend,False,0.0,0
644,False,,0,"[{'id': 18, 'name': 'Drama'}]",de,Und keiner weint mir nach,,0.439989,[],"[{'iso_3166_1': 'DE', 'name': 'Germany'}]",1996-02-29,0,"[{'iso_639_1': 'de', 'name': 'Deutsch'}]",Released,,Und keiner weint mir nach,False,0.0,0
802,False,,0,"[{'id': 18, 'name': 'Drama'}]",de,Diebinnen,,0.106345,[],"[{'iso_3166_1': 'DE', 'name': 'Germany'}]",1996-06-20,0,[],Released,,Diebinnen,False,4.0,1
863,False,,0,"[{'id': 53, 'name': 'Thriller'}]",fr,Baton Rouge,,0.437895,[],[],1988-10-08,0,[],Released,,Baton Rouge,False,0.0,0


In [18]:
print("Xét thống số của các cột trong các phim có runtime NaN:")

nan_runtime_movies_with_nan_overview = nan_runtime_movies[nan_runtime_movies['overview'].isnull()]
print("Số lượng phim không có overview:\t", nan_runtime_movies_with_nan_overview.shape[0])

nan_runtime_movies_with_nan_tagline = nan_runtime_movies[nan_runtime_movies['tagline'].isnull()]
print("Số lượng phim không có tagline:\t\t", nan_runtime_movies_with_nan_tagline.shape[0])

nan_runtime_movies_with_nan_collection = nan_runtime_movies[nan_runtime_movies['belongs_to_collection'].isnull()]
print("Số lượng phim không thuộc collection:\t", nan_runtime_movies_with_nan_collection.shape[0])

nan_runtime_movies_with_zero_budget = nan_runtime_movies[nan_runtime_movies['budget'] == 0]
print("Số lượng phim có budget = 0:\t\t", nan_runtime_movies_with_zero_budget.shape[0])

nan_runtime_movies_with_zero_revenue = nan_runtime_movies[nan_runtime_movies['revenue'] == 0]
print("Số lượng phim có revenue = 0:\t\t", nan_runtime_movies_with_zero_revenue.shape[0])

nan_runtime_movies_with_vote_count_smaller_than_3 = nan_runtime_movies[nan_runtime_movies['vote_count'] < 3]
print("Số lượng phim có vote_count < 3:\t", nan_runtime_movies_with_vote_count_smaller_than_3.shape[0])

print("-"*44)
print("Tổng số phim có runtime NaN:\t\t", nan_runtime_movies.shape[0])

Xét thống số của các cột trong các phim có runtime NaN:
Số lượng phim không có overview:	 257
Số lượng phim không có tagline:		 257
Số lượng phim không thuộc collection:	 250
Số lượng phim có budget = 0:		 247
Số lượng phim có revenue = 0:		 251
Số lượng phim có vote_count < 3:	 198
--------------------------------------------
Tổng số phim có runtime NaN:		 257


Ta thấy rằng tất cả các phim không có thông tin thời lượng đều không có thông tin về overview và tagline. Ngoài ra, hơn 97% các phim không thuộc bộ sưu tập phim nào và có doanh thu lẫn ngân sách bằng 0. Hơn nữa, hơn 90% có số lượng vote là nhỏ hơn 3. Vì thế, chúng ta sẽ xóa các dòng dữ liệu này.

In [19]:
movies_len = movies.shape[0]
movies.dropna(subset=['runtime'], inplace=True)
print("Số dòng của bảng movies sau khi xóa các dòng không có runtime :", movies_len, '--->', movies.shape[0])

Số dòng của bảng movies sau khi xóa các dòng không có runtime : 45446 ---> 45189


Sau khi xử lý, các cột dữ liệu số là rất thuận lợi để thực hiện các phân tích sau này. Chúng ta tiếp tục xem xét các chỉ số thống kê của các cột dữ liệu số.

In [20]:
def format_large_numbers(x):
    if x >= 1_000_000_000:
        b = x / 1_000_000_000
        if b.is_integer():
            return f"{int(b)}B"
        else:
            return f"{b:.3f}B"
    elif x >= 1_000_000:
        m = x / 1_000_000
        if m.is_integer():
            return f"{int(m)}M"
        else:
            return f"{m:.3f}M"
    elif x.is_integer():
        return f"{int(x)}"
    else:
        return f"{x:.3f}".rstrip('0').rstrip('.')

In [21]:
numeric_description = movies.describe(include=[np.number])
numeric_description = numeric_description.round(3)
numeric_description = numeric_description.map(format_large_numbers)
numeric_description

Unnamed: 0,budget,popularity,revenue,runtime,vote_average,vote_count
count,45189,45189.0,45189,45189.0,45189.0,45189.0
mean,4.250M,2.937,11.276M,94.126,5.629,110.525
std,17.474M,6.019,64.519M,38.411,1.909,492.711
min,0,0.0,0,0.0,0.0,0.0
25%,0,0.394,0,85.0,5.0,3.0
50%,0,1.136,0,95.0,6.0,10.0
75%,0,3.719,0,107.0,6.8,34.0
max,380M,547.488,2.788B,1256.0,10.0,14075.0


Nhìn bảng số liệu trên, chúng ta thấy rằng:

- `budget`: 
  - **Trung bình** các phim chi hơn 4 triệu USD (4.226M), nhưng **sự phân tán** lớn do độ lệch chuẩn rất cao (17.427M).
  - **Lớn nhất** là 380 triệu USD được bỏ ra để sản xuất phim, đây có thể là các bộ phim bom tấn.
  - **Phân phối** của ngân sách phim đều tập trung ở 0, điều này có thể là do các phim không công bố ngân sách hoặc các phim độc lập nhỏ không có thông tin ngân sách hay đơn giản là các phim có ngân sách rât thấp.

- `revenue`:
  - Tương tự như `budget`, **trung bình** doanh thu của các phim là 11.213 triệu USD, nhưng **sự phân tán** lớn (64.342 triệu USD).
  - **Lớn nhất** là 2.788 tỷ USD, đây có thể là phim bom tấn toàn cầu.
  - **Phân phối** của doanh thu phim cũng tập trung ở 0, tương tự thì doanh thu của phần lớn các phim rất nhỏ hoặc không được công bố hoặc không được ghi lại, nhưng phân phối cũng bị ảnh hưởng mạnh bởi một số ít phim bom tấn.

- `runtime`:
  - Thời lượng **trung bình** của các phim là 94 phút.
  - Phim có **thời lượng lớn nhất** là 1256 phút, có thể là các bộ phim truyền hình hoặc phim tài liệu.
  - Một nửa (50%) số phim có thời lượng từ 85 đến 107 phút, vậy đa số các phim đều là phim ngắn. Có một số ngoại lệ với thời lượng dài hơn, như đã nói, có thể là các bộ phim trong các series hoặc phim tài liệu.

- `popularity`:
  - **Trung bình** điểm phổ biến của các phim là 2.921.
  - Phim **phổ biến nhất** có điểm là 547.488, điểm này rất cao so với trung bình, có thể là phim rất nổi tiếng.
  - Chỉ 1/4 số phim có điểm phổ biến trên 3.679, và đa số phim (50%) đều có điểm phổ biến từ 1.128 trở xuống. Điều này cho thấy độ phổ biến bị chi phối bởi một số phim nổi bật. Phần lớn các phim có độ phổ biến rất thấp.

- `vote_average`:
  - Điểm **trung bình** của các phim là 5.618, điều này cho thấy phần lớn các phim đều có điểm trung bình trên thang điểm 10.
  - Điểm cao nhất là 10, mặc dù vậy, điểm đánh giá chủ yếu nằm trong khoảng trung bình, ít phim đạt điểm 7 trở lên.

- `vote_count`:
  - Có vẻ như **số lượt bình chọn** của các phim không phân phối đều, với **trung bình** là 109.916, nhưng **sự phân tán** rất lớn (491.383).
  - **Phim được bình chọn nhiều nhất** có 14075 lượt bình chọn.
  - 50% số phim có số lượt bình chọn nhỏ hơn 10, và chỉ 25% số phim có số lượt bình chọn lớn hơn 34. Điều này cho thấy phần lớn phim nhận được ít sự quan tâm từ người dùng, nhưng một số ít phim rất nổi bật và nhận được hàng ngàn đánh giá.

### 4.2. Các cột dạng categorical

Tiếp theo, chúng ta sẽ xem xét các cột dạng categorical, ta sẽ phân ra thành các nhóm như sau:
- Các cột có giá trị đơn: `adult`, `original_language`, `status`, `video`, `belongs_to_collection`, `release_date`, `title`, `original_title`.
- Các cột có nhiều giá trị khác nhau: `genres`, `production_companies`, `production_countries`, `spoken_languages`.
- Các cột có giá trị là chuỗi dài: `overview`, `tagline`.

Chúng ta sẽ đánh giá các cột theo từng nhóm.

In [22]:
single_value_columns = ['adult', 'video', 'status', 'original_language', 'belongs_to_collection', 'release_date', 'title', 'original_title']
multi_value_columns = ['genres', 'production_companies', 'production_countries', 'spoken_languages']
text_columns = ['overview', 'tagline']

In [23]:
single_nan_count = movies[single_value_columns].isnull().sum()
single_nan_percentage = single_nan_count / movies.shape[0] * 100
single_nan_percentage = single_nan_percentage.apply(lambda x: "0 %" if x == 0 else f"{round(x, 3)} %")
print("Phần trăm giá trị NaN trên mỗi cột dạng single value:")
print(single_nan_percentage.to_string())

Phần trăm giá trị NaN trên mỗi cột dạng single value:
adult                         0 %
video                         0 %
status                     0.17 %
original_language         0.024 %
belongs_to_collection    90.079 %
release_date              0.162 %
title                         0 %
original_title                0 %


Ngoại trừ cột `belongs_to_collection` mà chúng ta đã xem xét ở trên, chỉ có 3 cột là `status`, `original_language` và `release_date` là bị thiếu dữ liệu với tỷ lệ rất thấp (chưa đến 0.2%). Tiếp theo, chúng ta sẽ xem các thông số của các cột này, lưu ý, cột `release_date` sẽ được xem xét riêng vì nó là cột thời gian.

In [24]:
movies[single_value_columns].describe(exclude=['datetime']).T

Unnamed: 0,count,unique,top,freq
adult,45189,2,False,45180
video,45189,2,False,45097
status,45112,6,Released,44750
original_language,45178,89,en,32253
belongs_to_collection,4483,1692,"{'id': 415931, 'name': 'The Bowery Boys', 'pos...",29
title,45189,42029,Cinderella,11
original_title,45189,43122,Alice in Wonderland,8


Sau khi xem qua mô tả cơ bản thì ta có các nhận xét sau:

- Giá trị chủ yếu của 2 cột boolean `adult` và `video` là **False** (chiếm hơn 99%), điều này cho thấy phần lớn các phim không phải là phim dành cho người lớn và không có video trên TMDB.

- Các cột `original_language` và `status` có số giá trị khác nhau là rất ít, có thể chúng ta sẽ chuyển các cột này thành dạng category để tối ưu hơn. Bên cạnh đó, ta có thể thấy rằng phần lớn các phim đều có ngôn ngữ gốc là **tiếng Anh (en)** và trạng thái là **Released**, điều này là dễ hiểu vì dữ liệu này chủ yếu là về các bộ phim đã được phát hành và chủ yếu là phim tiếng Anh.

- Chúng ta có thể thấy cột `belongs_to_collection` chứa các giá trị dưới dạng json, chúng ta phải xử lý cột này riêng để lấy thông tin cần thiết. Cột này có tỷ lệ giá trị khác nhau cũng khá thấp (khoảng 33%), ta có thể xem xét chuyển cột này sang category sau khi xử lý.

- Hai cột còn lại là `title` và `original_title` có tỷ lệ giá trị khác nhau rất cao (hơn 92%), điều này là dễ hiểu vì mỗi phim sẽ có 1 tên khác biệt. Có 1 số phim trùng tên với nhau, nhưng vì ta đã xóa các dòng dữ liệu trùng lặp nên không cần phải xử lý thêm, các phim này có thể vô tình trùng tên hoặc là các bản remake. Chúng ta sẽ giữ nguyên 2 cột này.

Như đã biết ở phần đánh giá các dữ liệu bị thiếu, các giá trị không `NaN` của cột `belongs_to_collection` chứa thông tin về id, tên, url của poster và backdrop của loạt phim mà phim này thuộc về. Ở đây, chúng ta chỉ cần thông tin về tên loạt phim, vậy nên ta sẽ lấy ra tên loạt phim làm giá trị mới cho cột này.

In [25]:
def extract_name(value):
    if pd.isna(value):
        return np.nan
    try:
        json_data = ast.literal_eval(value)
        return json_data['name']
    except (ValueError, SyntaxError):
        return np.nan

movies['belongs_to_collection'] = movies['belongs_to_collection'].apply(extract_name)

In [26]:
print(movies['belongs_to_collection'].unique())
print(movies['belongs_to_collection'].describe())

['Toy Story Collection' nan 'Grumpy Old Men Collection' ...
 'Ducobu Collection' 'Mister Blot Collection' 'Red Lotus Collection']
count                4483
unique               1692
top       The Bowery Boys
freq                   29
Name: belongs_to_collection, dtype: object


Tới đây, vì số lượng giá trị khác nhau của cột cũng khá ổn, và do một số tên loạt phim khó đọc nên chúng ta cũng sẽ chuyển sang dạng category cùng với `status` và `original_language` để dễ quản lý hơn.

In [27]:
movies[['belongs_to_collection', 'status', 'original_language']] = movies[['belongs_to_collection', 'status', 'original_language']].astype('category')

Xong, chúng ta có các giá trị category như sau:

In [28]:
print('belongs_to_collection')
print(movies['belongs_to_collection'].cat.categories)
print('-'*80)
print('status')
print(movies['status'].cat.categories.to_list())
print('-'*80)
print('original_language')
print(movies['original_language'].cat.categories)

belongs_to_collection
Index(['... Has Fallen Collection', '00 Schneider Filmreihe',
       '08/15 Collection', '100 Girls Collection',
       '101 Dalmatians (Animated) Collection',
       '101 Dalmatians (Live-Action) Collection', '12 Rounds Collection',
       '1920 Collection', '2 Days In... Collection', '2001 Maniacs Collection',
       ...
       'Ирония судьбы (Коллекция)', 'Никто не знает про секс - Коллекция',
       'Облако-рай (Коллекция)', 'Параграф 78 - Дилогия',
       'Самый лучший фильм - Коллекция', 'Сказки Чуковского',
       'Чебурашка и крокодил Гена', 'Что Творят мужчины! (Коллекция)',
       '男はつらいよ シリーズ', '식객 시리즈'],
      dtype='object', length=1692)
--------------------------------------------------------------------------------
status
['Canceled', 'In Production', 'Planned', 'Post Production', 'Released', 'Rumored']
--------------------------------------------------------------------------------
original_language
Index(['ab', 'af', 'am', 'ar', 'ay', 'bg', 'bm', 

Bây giờ, ta xem xét cột `release_date`:

In [29]:
movies['release_date'].describe()

count                            45116
mean     1992-05-06 20:07:13.442680960
min                1874-12-09 00:00:00
25%                1978-10-01 00:00:00
50%                2001-08-21 00:00:00
75%                2010-12-11 06:00:00
max                2020-12-16 00:00:00
Name: release_date, dtype: object

In [30]:
movies['release_date'].astype(str).describe()

count          45189
unique         17289
top       2008-01-01
freq             135
Name: release_date, dtype: object

Ta có thông tin về ngày phát hành phim như sau:

- Phim đầu tiên được phát hành vào năm **1874**, và phim phát hành gần nhất mà dữ liệu ghi nhận là vào năm **2020**.
- Ngày có nhiều phim được ra mắt nhất là **1/1/2008** với **136** phim.
- Ngoài ra, từ **1978** tới **2010** có nhiều phim ra mắt, điều này cho thấy sự tăng trưởng trong giai đoạn này, có thể là do sự phát triển của ngành công nghiệp điện ảnh.

Bước kế tiếp, ta sẽ xem xét và xử lý các cột có nhiều giá trị khác nhau.

In [31]:
multi_nan_count = movies[multi_value_columns].isnull().sum()
multi_nan_percentage = multi_nan_count / movies.shape[0] * 100
multi_nan_percentage = multi_nan_percentage.apply(lambda x: "0 %" if x == 0 else f"{round(x, 3)} %")
print("Phần trăm giá trị NaN trên mỗi cột dạng multi value:")
print(multi_nan_percentage.to_string())

Phần trăm giá trị NaN trên mỗi cột dạng multi value:
genres                  0 %
production_companies    0 %
production_countries    0 %
spoken_languages        0 %


Ở đây, 4 trường thông tin này đều không bị thiếu dữ liệu nào cả. Điều này cho thấy, các trường thông tin này đều được cung cấp đầy đủ thông tin. Hãy xem các thông số của các cột này.

In [32]:
movies[multi_value_columns].describe().T

Unnamed: 0,count,unique,top,freq
genres,45189,4060,"[{'id': 18, 'name': 'Drama'}]",4968
production_companies,45189,22644,[],11704
production_countries,45189,2386,"[{'iso_3166_1': 'US', 'name': 'United States o...",17843
spoken_languages,45189,1928,"[{'iso_639_1': 'en', 'name': 'English'}]",22385


- Đầu tiên, ta có thể thấy ngay dữ liệu của các cột này đều ở dạng danh sách và chứa các giá trị khác nhau theo dạng json. Ta sẽ xử lý các cột này để lấy thông tin cần thiết.
- Cột `production_companies` chứa tới **11870** giá trị **[]**, điều này cho thấy có rất nhiều phim không có thông tin về công ty sản xuất. Ta sẽ thay thế các giá trị này bằng `NaN` để dễ quản lý hơn. Có thể các cột còn lại cũng có vài giá trị **[]**, chúng ta cũng sẽ xử lý tương tự.

Vậy nên, trước khi nhận xét thêm, ta sẽ xử lý các cột này.

In [33]:
def extract_name_list(value):
    if pd.isna(value):
        return np.nan
    try:
        json_data = ast.literal_eval(value)
        if json_data == []:
            return np.nan 
        return ",".join(data.get('name', '') for data in json_data)
    except (ValueError, SyntaxError, TypeError):
        return np.nan
    
movies[multi_value_columns] = movies[multi_value_columns].map(extract_name_list)

Sau khi xử lý, ta có các thông số như sau:

In [34]:
multi_nan_count = movies[multi_value_columns].isnull().sum()
multi_nan_percentage = multi_nan_count / movies.shape[0] * 100
multi_nan_percentage = multi_nan_percentage.apply(lambda x: "0 %" if x == 0 else f"{round(x, 3)} %")
print("Phần trăm giá trị NaN trên mỗi cột dạng multi value sau khi xử lý:")
print(multi_nan_percentage.to_string())

Phần trăm giá trị NaN trên mỗi cột dạng multi value sau khi xử lý:
genres                   5.231 %
production_companies      25.9 %
production_countries    13.649 %
spoken_languages         8.221 %


In [35]:
movies[multi_value_columns].describe().T

Unnamed: 0,count,unique,top,freq
genres,42825,4059,Drama,4968
production_companies,33485,22608,Metro-Goldwyn-Mayer (MGM),742
production_countries,39021,2385,United States of America,17843
spoken_languages,41474,1840,English,22385


Với giá trị rõ ràng hơn, ta có các nhận xét sau:

- Sau khi xử lý, tỷ lệ dữ liệu bị thiếu của các cột này tăng lên khá nhiều, nhưng vẫn ở mức chấp nhận được. Các thông tin này mặc dù có giá trị thiếu, nhưng các giá trị đó cũng mang lại nhiều hướng nhìn cho chúng ta. Ví dụ như các phim không có công ty sản xuất thường là các phim độc lập, chúng ta cũng có thể khai thác từ những thông tin như vậy.
- Thể loại phim phổ biến nhất là **Drama** với **4999** phim trong số 43004 phim, chiếm **11.63%** tổng số phim.
- Công ty độc quyền sản xuất nhiều phim nhất là **MGM** với **742** phim, chiếm **2.21%** tổng số phim.
- Quốc gia sản xuất nhiều phim nhất là **United States of America** với **17847** phim, chiếm **45.56%** tổng số phim. Điều này cho thấy, phần lớn các phim trong dữ liệu đều được sản xuất tại Mỹ, và vì thế, ngôn ngữ được sử dụng chủ yếu là tiếng Anh (22390 trên tổng số 41619 phim).

Ta xem thêm 1 số giá trị đơn lẻ khác của các cột trên:

In [36]:
column_types = ['thể loại', 'công ty', 'nước', 'ngôn ngữ']
for column, column_types in zip(multi_value_columns, column_types):
    single_unique_values = movies[column].str.split(',').explode().dropna().value_counts()
    print(f"{column}: \n\t{len(single_unique_values)} {column_types}:\n\t{', '.join(single_unique_values.head(3).index)},...")
    print("-"*71)

genres: 
	20 thể loại:
	Drama, Comedy, Thriller,...
-----------------------------------------------------------------------
production_companies: 
	23520 công ty:
	Warner Bros., Metro-Goldwyn-Mayer (MGM), Paramount Pictures,...
-----------------------------------------------------------------------
production_countries: 
	160 nước:
	United States of America, United Kingdom, France,...
-----------------------------------------------------------------------
spoken_languages: 
	75 ngôn ngữ:
	English, Français, Deutsch,...
-----------------------------------------------------------------------


Tiếp theo, ta sẽ xem xét các cột có giá trị là chuỗi dài. Ở đây, ta sẽ xem xét 2 cột `overview` và `tagline`. Hai cột này chứa thông tin dài về nội dung và khẩu hiệu của phim, các thông tin này chắc chắn là độc đáo và không trùng lặp. Ta sẽ xem xét các thông số của các cột này.

In [37]:
text_nan_count = movies[text_columns].isnull().sum()
text_nan_percentage = text_nan_count / movies.shape[0] * 100
text_nan_percentage = text_nan_percentage.apply(lambda x: "0 %" if x == 0 else f"{round(x, 3)} %")
print("Phần trăm giá trị NaN trên mỗi cột dạng text:")
print(text_nan_percentage.to_string())

Phần trăm giá trị NaN trên mỗi cột dạng text:
overview     1.542 %
tagline     54.839 %


Như đã nói ở trên, cột `tagline` dù có tỷ lệ giá trị `NaN` khá cao, nhưng chúng ta vẫn giữ lại cột này để xem xét xem có ảnh hưởng đến giá trị của phim hay không. Còn cột `overview`, với tỷ lệ dữ liệu bị thiếu là khoảng 2%, đây là một tỷ lệ thấp, chúng ta cũng sẽ giữ lại cột này.

In [38]:
movies[text_columns].describe().T

Unnamed: 0,count,unique,top,freq
overview,44492,44306,No overview found.,133
tagline,20408,20284,Based on a true story.,7


Chúng ta có thể thấy:

- Giá trị 'No overview found.' xuất hiện nhiều nhất trong cột `overview`, các giá trị này không giúp ích gì cho việc phân tích dữ liệu, chúng ta sẽ thay thế chúng bằng `NaN`. Bên cạnh đó, ta thấy có **44306** giá trị khác nhau trong số 44492 phim, nhưng giá trị 'No overview found.' chỉ lặp lại **133** lần, điều này cho thấy còn các giá trị khác lặp lại nhiều lần, chúng ta sẽ xem xét xử lý chúng.

- Cột `tagline` có giá trị 'Based on a true story.' xuất hiện nhiều nhất, đây cũng là câu thường hay gặp trong các bộ phim. Chúng chưa cho thấy điều gì đặc biệt, chúng ta sẽ xem xét các giá trị khác để xử lý thêm.

In [39]:
print(movies.loc[movies['overview'].notnull(), 'overview'].value_counts().head(6).to_string())

overview
No overview found.                                            133
No Overview                                                     7
                                                                5
A few funny little novels about different aspects of life.      3
No movie overview available.                                    3
Adaptation of the Jane Austen novel.                            3


In [40]:
print(movies.loc[movies['tagline'].notnull(), 'tagline'].value_counts().head(6).to_string())

tagline
Based on a true story.           7
Be careful what you wish for.    4
-                                4
Trust no one.                    4
Know Your Enemy                  3
The end is near.                 3


Cột `overview` xuất hiện các thông tin không hợp lý như 'No overview found.', ' ' hoặc 'No movie overview available.', chúng ta sẽ tìm hết các giá trị tương tự và thay thế chúng bằng `NaN` vì chúng không giúp ích gì cho việc phân tích dữ liệu và có thể ảnh hưởng đến kết quả.

Cột `tagline` thì có giá trị '-' là không hợp lý, nhưng chúng xuất hiện khá ít (4 lần), chúng ta có thể mặc kệ.

In [41]:
invalid_overview = movies.loc[
    (movies['overview'].notnull() & movies['overview'].str.contains('no ', case=False) & movies['overview'].str.contains('overview', case=False)) |
    (movies['overview'] == ' '), 
    'overview']
print("Các giá trị không hợp lệ trong cột", invalid_overview.value_counts().to_string())
print ('-'*69)
print("Tổng:",'\t'*8, invalid_overview.count())

Các giá trị không hợp lệ trong cột overview
No overview found.                                               133
No Overview                                                        7
                                                                   5
No movie overview available.                                       3
No overview yet.                                                   2
No overview found                                                  1
No movie overview available, please add one at themoviedb.org      1
No overview                                                        1
no overview yet                                                    1
No overview.                                                       1
No plot overview available                                         1
---------------------------------------------------------------------
Tổng: 								 156


In [42]:
nan_overview_count = movies['overview'].isnull().sum()
movies.loc[invalid_overview.index, 'overview'] = np.nan

print('Giá trị NaN sau khi xử lý:', nan_overview_count, '--->', movies['overview'].isnull().sum())

Giá trị NaN sau khi xử lý: 697 ---> 853


In [43]:
movies[text_columns].describe().T

Unnamed: 0,count,unique,top,freq
overview,44336,44295,Adaptation of the Jane Austen novel.,3
tagline,20408,20284,Based on a true story.,7


Trước khi tổng kết, ta sẽ thay tất cả giá trị `NaN` trong dữ liệu bằng `UNKNOWN` để việc minh họa dễ nhìn hơn.

In [44]:
for col in movies.select_dtypes(['category']).columns:
    movies[col] = movies[col].cat.add_categories('UNKNOWN')

movies = movies.fillna('UNKNOWN')
movies = movies.replace('', 'UNKNOWN')
movies.head(5)

Unnamed: 0,adult,belongs_to_collection,budget,genres,original_language,original_title,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,Toy Story Collection,30000000,"Animation,Comedy,Family",en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",21.946943,Pixar Animation Studios,United States of America,1995-10-30 00:00:00,373554033,81.0,English,Released,UNKNOWN,Toy Story,False,7.7,5415
1,False,UNKNOWN,65000000,"Adventure,Fantasy,Family",en,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,"TriStar Pictures,Teitler Film,Interscope Commu...",United States of America,1995-12-15 00:00:00,262797249,104.0,"English,Français",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413
2,False,Grumpy Old Men Collection,0,"Romance,Comedy",en,Grumpier Old Men,A family wedding reignites the ancient feud be...,11.7129,"Warner Bros.,Lancaster Gate",United States of America,1995-12-22 00:00:00,0,101.0,English,Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92
3,False,UNKNOWN,16000000,"Comedy,Drama,Romance",en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",3.859495,Twentieth Century Fox Film Corporation,United States of America,1995-12-22 00:00:00,81452156,127.0,English,Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34
4,False,Father of the Bride Collection,0,Comedy,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,8.387519,"Sandollar Productions,Touchstone Pictures",United States of America,1995-02-10 00:00:00,76578911,106.0,English,Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173


Như vậy, tổng kết lại, ta có các nhận xét sau:

- Dữ liệu sau khi xử lý xuất hiện nhiều chỗ bị thiếu hơn, nhưng các giá trị bị thiếu này, như chúng ta đã nói ở trên, cũng cung cấp cho chúng ta nhiều hướng phân tích hơn. Vì dữ liệu phim trải dài từ năm 1874 đến 2020, nên có thể phim không còn thông tin, các phim cũ, phim độc lập hoặc phim ít người biết sẽ không có nhiều thông tin như các phim thời hiện đại.
- Đa số các cột dữ liệu số đều có phân phối tập trung về 1 phía (`budget`, `revenue`, `popularity`), điều này là do các giá trị cao đột biến (các phim bom tấn) ảnh hưởng đến phân phối. Số lượng phim như vậy rất ít, nhưng chúng ảnh hưởng rất lớn đến phân phối.
- Đa số các phim đều có giá trị 0 ở các cột `budget` và `revenue`, điều này là do các phim không công bố ngân sách hoặc doanh thu, hoặc là các phim độc lập nhỏ không có thông tin ngân sách hoặc doanh thu, cũng có thể là tập dữ liệu phim cũ và ít người biết chiếm số lượng lớn.

Tóm lại, sau khi khám phá và xử lý các thông tin của bộ dữ liệu, chúng ta đã có cái nhìn tổng quan về dữ liệu, tiếp theo ta sẽ xuất dữ liệu ra file mới để sử dụng cho việc phân tích và trả lời câu hỏi.

In [45]:
movies.to_csv('Data/movies_cleaned.csv', index=False)