# EXPLORING DATA
---

Nhiệm vụ của phần này là làm sạch và phân tích dữ liệu đã được thu thập

## IMPORT

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Đọc dữ liệu

In [None]:
data = pd.read_csv('../Data/Time-Wasters on Social Media.csv')

In [8]:
data.head()

Unnamed: 0,Title,Release time,Age rating,Runtime,Genre,Lanuage,Awards,Metascore,IMDb Rating,IMDb Votes,Domestic Revenue
0,Goon Squad,18 Jan 2024,NC-17,1h 23min,Crime,English,,,,,
1,The Phantom Warrior,20 Feb 2024,R,1h 23min,"Adventure, Fantasy, Sci-Fi",English,,,2.6,532.0,
2,Beyond the Lake,26 Jan 2024,G,1h 38min,Comedy,English,,,,31.0,
3,Crimes of Fashion: Killer Clutch,15 Mar 2024,PG,1h 24min,"Crime, Drama, Mystery","English, French",,,5.8,503.0,
4,Love on the Danube: Love Song,10 Sep 2024,G,1h 24min,Romance,English,,,5.8,175.0,


## LÀM SẠCH VÀ PHÂN TÍCH DỮ LIỆU

### 1. Dữ liệu có bao nhiêu dòng, cột

In [9]:
data.shape

(1796, 11)

### 2. Thông tin về các dòng dữ liệu

#### 2.1 Ý nghĩa từng dòng dữ liệu

- Mỗi dòng là đại diện cho  

- Không có dòng nào có ý nghĩa khác với các dòng còn lại.

#### 2.2 Kiểm tra các dòng dữ liệu trùng lặp

In [10]:
n_duplicate = data.duplicated().sum()
n_duplicate

27

Xử lý các đữ liệu trùng lặp

In [11]:
if n_duplicate > 0:
    data = data.drop_duplicates()

data.shape

(1769, 11)

### 3. Thông tin về các cột dữ liệu
Dữ liệu có các cột sau

In [12]:
data.columns

Index(['Title', 'Release time', 'Age rating', 'Runtime', 'Genre', 'Lanuage',
       'Awards', 'Metascore', 'IMDb Rating', 'IMDb Votes', 'Domestic Revenue'],
      dtype='object')

### 3.1 Ý nghĩa của các cột dữ liệu

Mỗi cột có ý nghĩa sau: 
|Tên cột|Ý nghĩa|
|-------|-------|
| Title| Tên của bộ phim|
| Realease time| Thời gian phát hành của bộ phim|
| Age rating| Đánh giá độ tuổi phù hợp để xem phim|
| Runtime| Thời lượng của bộ phim|
| Genre| Thể loại của bộ phim|
| Language| Ngôn ngữ chính được sử dụng trong bộ phim|
| Awards| Số lượng hoặc tên giải thưởng mà bộ phim nhận được (nếu có)|
| Metascore| Điểm đánh giá từ Metacritic|
| IMDb Rating| Điểm đánh giá của bộ phim trên IMDb|
| IMDb Votes| Số lượt bình chọn của người dùng trên IMDb|
| Domestic Revenue|Doanh thu nội địa|

### 3.2 Kiểm tra kiểu dữ liệu của mỗi cột
Kiểu dữ liệu hiện tại của các cột

In [14]:
data.dtypes

Title                object
Release time         object
Age rating           object
Runtime              object
Genre                object
Language             object
Awards               object
Metascore           float64
IMDb Rating         float64
IMDb Votes           object
Domestic Revenue     object
dtype: object

Có một số cột dữ liệu chưa được xác định với các kiểu dữ liệu phù hợp.



Kiểm tra lại

In [27]:
data.dtypes

Title                              object
Release time               datetime64[ns]
Age rating                         object
Runtime                           float64
Language                           object
Metascore                         float64
IMDb Rating                       float64
IMDb Votes                        float64
Domestic Revenue                  float64
Action/Adventure                     bool
Animation                            bool
Biography/History/War                bool
Comedy                               bool
Crime                                bool
Docummentary                         bool
Drama                                bool
Fantasy/Sci-Fi                       bool
Horror/Thriller/Mystery              bool
Kids/Family                          bool
Music/Musical                        bool
Other                                bool
Romance                              bool
Win                               float64
Nomination                        

Các cột đã có kiểu dữ liệu phù hợp

### 3.3. Sự phân bố dữ liệu của các cột có kiểu định lượng
Các cột có dữ liệu định lượng

In [None]:
numerical_columns = data.select_dtypes(include=['int64', 'float64']).columns.tolist()
print('Numberical columns: ')
for col_name in numerical_columns:
    print(col_name)

#### 3.3.1 Tính toán các giá trị thống kê

Với mỗi cột có kiểu dữ liệu định lượng, thực hiện tính toán các giá trị thống kê cơ bản sau:
- Min 
- Max
- Mean
- Mod
- Median

#### 3.3.2 Sự phân bố dữ liệu

#### 3.3.3 Xử lý giá trị bị thiếu

#### 3.3.4 Xử lý dữ liệu lỗi hoặc bất thường

Chuẩn hóa dữ liệu nếu có

### 3.4 Sự phân bố dữ liệu của các cột có kiểu định tính
Các cột có kiểu dữ liệu định tính

In [None]:
categorical_columns = data.select_dtypes(include=['object', 'bool', 'datetime64[ns]']).columns.tolist()
print('Categorical columns: ')
for col_name in categorical_columns:
    print(col_name)

#### 3.4.1 Số giá trị phân biệt của mỗi cột


Sự phân bố, vẽ biểu đồ

Đại khái d, tự đổi tên cell nha

#### 3.4.2 Tỉ lệ phần trăm các giá trị bị thiếu trong mỗi cột

#### 3.4.3 Xử lý dữ liệu bất thường

#### 3.4.4 Xử lý dữ liệu phân loại

Xử lý nếu có, không thì xóa cell

## Sau các bước tiền xử lý

Số hàng, số cột của dữ liệu:

In [42]:
data.shape

(1693, 23)

Các cột có ý nghĩa như sau:
|Tên cột|Ý nghĩa|
|-------|-------|
| Title| Tên của bộ phim|
| Realease time| Thời gian phát hành của bộ phim|
| Age rating| Đánh giá độ tuổi phù hợp để xem phim|
| Runtime| Thời lượng của bộ phim|
| Language| Ngôn ngữ chính được sử dụng trong bộ phim|
| IMDb Rating| Điểm đánh giá của bộ phim trên IMDb|
| IMDb Votes| Số lượt bình chọn của người dùng trên IMDb|
| Action/Adventure| Phim thuộc thể loại hành động hoặc phiêu lưu|
| Animation| Phim hoạt hình|
| Biography/History/War| Phim thuộc thể loại tiểu sử, lịch sử, hoặc chiến tranh|
| Comedy| Phim hài|
| Crime| Phim thuộc thể loại hình sự |
| Docummentary| Phim tài liệu|
| Drama| Phim chính kịch|
| Fantasy/Sci-Fi| Phim thuộc thể loại giả tưởng hoặc khoa học viễn tưởng|
| Horror/Thriller/Mystery| Phim thuộc thể loại kinh dị, hồi hộp, hoặc bí ẩn|
| Kids/Family| Phim dành cho trẻ em hoặc gia đình|
| Music/Musical| Phim âm nhạc hoặc nhạc kịch|
| Other| Các thể loại phim khác|
| Romance| Phim thuộc thể loại lãng mạn|
| Win | Số lượng giải phim đạt được |
| Nomination| Số lần phim được đề cử |
| Age rating quantification| Đánh giá định lượng cho độ tuổi phù hợp để xem phim|


Kiểu dữ liệu của các cột

In [43]:
data.dtypes

Title                                object
Release time                 datetime64[ns]
Age rating                           object
Runtime                             float64
Language                             object
IMDb Rating                         float64
IMDb Votes                          float64
Action/Adventure                       bool
Animation                              bool
Biography/History/War                  bool
Comedy                                 bool
Crime                                  bool
Docummentary                           bool
Drama                                  bool
Fantasy/Sci-Fi                         bool
Horror/Thriller/Mystery                bool
Kids/Family                            bool
Music/Musical                          bool
Other                                  bool
Romance                                bool
Win                                 float64
Nomination                          float64
Age rating quantification       

Thực hiện lưu dữ liệu này vào 1 tệp mới và thực hiện phân tích trên tệp này.

In [None]:
data.to_csv('../Data/Time-Wasters on Social Media Clean.csv', index=False)