# <p style="text-align: center;"> <b> Data Exploration and Preprocessing </b></p>

---

## 0. Import libraries

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# from dateutil.parser import parse
from datetime import datetime as dt
import ast
import re

## 1. Data Overview

In [2]:
anime_df = pd.read_csv('../data/anime.csv')
anime_df.head()

Unnamed: 0,MAL_ID,Name,Score,Genres,English name,Japanese name,Type,Episodes,Aired,Premiered,...,Score-10,Score-9,Score-8,Score-7,Score-6,Score-5,Score-4,Score-3,Score-2,Score-1
0,1,Cowboy Bebop,8.78,"Action, Adventure, Comedy, Drama, Sci-Fi, Space",Cowboy Bebop,カウボーイビバップ,TV,26,"Apr 3, 1998 to Apr 24, 1999",Spring 1998,...,229170.0,182126.0,131625.0,62330.0,20688.0,8904.0,3184.0,1357.0,741.0,1580.0
1,5,Cowboy Bebop: Tengoku no Tobira,8.39,"Action, Drama, Mystery, Sci-Fi, Space",Cowboy Bebop:The Movie,カウボーイビバップ 天国の扉,Movie,1,"Sep 1, 2001",Unknown,...,30043.0,49201.0,49505.0,22632.0,5805.0,1877.0,577.0,221.0,109.0,379.0
2,6,Trigun,8.24,"Action, Sci-Fi, Adventure, Comedy, Drama, Shounen",Trigun,トライガン,TV,26,"Apr 1, 1998 to Sep 30, 1998",Spring 1998,...,50229.0,75651.0,86142.0,49432.0,15376.0,5838.0,1965.0,664.0,316.0,533.0
3,7,Witch Hunter Robin,7.27,"Action, Mystery, Police, Supernatural, Drama, ...",Witch Hunter Robin,Witch Hunter ROBIN (ウイッチハンターロビン),TV,26,"Jul 2, 2002 to Dec 24, 2002",Summer 2002,...,2182.0,4806.0,10128.0,11618.0,5709.0,2920.0,1083.0,353.0,164.0,131.0
4,8,Bouken Ou Beet,6.98,"Adventure, Fantasy, Shounen, Supernatural",Beet the Vandel Buster,冒険王ビィト,TV,52,"Sep 30, 2004 to Sep 29, 2005",Fall 2004,...,312.0,529.0,1242.0,1713.0,1068.0,634.0,265.0,83.0,50.0,27.0


## 1.1 Rows and Columns

### Tổng số cột và hàng

In [3]:
n_rows , n_cols = anime_df.shape
print(f'Dữ liệu có {n_rows} dòng và {n_cols} cột')

Dữ liệu có 17562 dòng và 35 cột


### Ý nghĩa của từng cột và hàng

In [4]:
anime_df.columns

Index(['MAL_ID', 'Name', 'Score', 'Genres', 'English name', 'Japanese name',
       'Type', 'Episodes', 'Aired', 'Premiered', 'Producers', 'Licensors',
       'Studios', 'Source', 'Duration', 'Rating', 'Ranked', 'Popularity',
       'Members', 'Favorites', 'Watching', 'Completed', 'On-Hold', 'Dropped',
       'Plan to Watch', 'Score-10', 'Score-9', 'Score-8', 'Score-7', 'Score-6',
       'Score-5', 'Score-4', 'Score-3', 'Score-2', 'Score-1'],
      dtype='object')

+ Mỗi hàng là thông tin của 1 anime 

+ Ý nghĩa của từng cột trong dữ liệu được tóm tắt trong bảng sau:

| **TÊN CỘT**          |**Ý NGHĨA**               |
|:---------------------|:-------------------------------------------------------------|
|**`MAL_ID`**          | ID của mỗi anime trong MyAnimeList (MAL), mỗi anime sẽ có 1 ID riêng biệt               |
|**`Name`**            | Tựa đề của anime                                                             |
|**`Score`**           | Điểm trung bình của anime được tính trên toàn bộ cơ sở dữ liệu trên MAL                   |
|**`Genres`**          | Danh sách các thể loại của anime                                                    |
|**`English name`**    | Tựa đề tiếng Anh của anime                                                |
|**`Japanese name`**   | Tựa đề tiếng Nhật của anime                       |
|**`Type`**            | Dạng phát hành của anime (TV, movie, OVA,...)                               |
|**`Episodes`**        | Số tập của anime                                                                      |
|**`Aired`**           | Ngày phát hành anime                                                                      |
|**`Premiered`**       | Thời gian phát hành của anime tính theo 4 mùa trong 1 năm                                  |
|**`Producers'`**      | Danh sách những đơn vị sản xuất anime                                                       |
|**`Licensors`**       | Danh sách những đơn vị cấp phép cho anime                                                    |
|**`Studios`**         | Danh sách các Studios làm ra anime                            |
|**`Source`**          | Nguồn gốc của anime trước khi được chuyển thể (Manga, Light novel, Book,...)                      |
|**`Duration`**        | Độ dài của 1 tập anime phát sóng                                                |
|**`Rating`**          | Độ tuổi giới hạn để có thể coi anime    |
|**`Ranked`**          | Xếp hạng của anime dựa trên điểm trung     |
|**`Popularity`**      | Độ phổ biến của anime dựa trên số lượng người thêm anime vào danh sách của họ    |
|**`Members`**         | Số lượng người dùng có anime này trong list của họ    |
|**`Favorites`**       | Số lượng người dùng yêu thích anime này    |
|**`Watching`**        | Số lượng người đã xem anime này   |
|**`Completed`**       | Số lượng người dùng đã xem hết anime    |
|**`On-Hold`**         | Số lượng người dùng đang xem anime này nhưng đang tạm dừng lại    |
|**`Dropped`**         | Số lượng người dùng đang xem anime này nhưng bỏ không xem nữa   |
|**`Plan to Watch`**   | Số lượng người dùng dự định xem anime.|
|**`Score-10`**        | Số lượng người chấm anime 10 điểm     |
|**`Score-9`**         | Số lượng người chấm anime 9 điểm     |
|**`Score-8`**         | Số lượng người chấm anime 8 điểm     |
|**`Score-7`**         | Số lượng người chấm anime 7 điểm     |
|**`Score-6`**         | Số lượng người chấm anime 6 điểm     |
|**`Score-5`**         | Số lượng người chấm anime 5 điểm     |
|**`Score-4`**         | Số lượng người chấm anime 4 điểm     |
|**`Score-3`**         | Số lượng người chấm anime 3 điểm     |
|**`Score-2`**         | Số lượng người chấm anime 2 điểm     |
|**`Score-1`**         | Số lượng người chấm anime 1 điểm     |


### 👉 **Kiểm tra và xử lý những hàng trùng nhau** 

In [5]:
duplicated_rows = anime_df.duplicated().sum()

if duplicated_rows == 0:
    print('There are 0 rows that are duplicated, which means each row in the DataFrame is unique.')
    print('So that we do not need to continue processing duplicate lines')
else:
    print(f'There are {duplicated_rows} rows that are duplicated so we need to drop those {duplicated_rows} rows')
    anime_df = anime_df.drop_duplicates()
    print(f'After drop duplicated rows, there are {anime_df.shape[0]} rows left')

There are 0 rows that are duplicated, which means each row in the DataFrame is unique.
So that we do not need to continue processing duplicate lines


<a class = "anchor" id = "1.3"></a>
## <span style='color:#2B9C15 '> 1.3 Kiểu dữ liệu </span>

Trong phần này, chúng tôi sẽ **kiểm tra các loại dữ liệu hiện tại** của từng cột và **chuyển đổi chúng thành loại dữ liệu chính xác** nếu cần.

### 👉 **Kiểm tra kiểu dữ liệu hiện tại của từng cột**

Đầu tiên chúng ta tính toán kiểu dữ liệu (dtype) của mỗi cột trong `anime_df` bằng cách sử dụng hàm `dtypes` của thư viện `pandas`.

In [6]:
anime_df.dtypes.to_frame('Data Type')

Unnamed: 0,Data Type
MAL_ID,int64
Name,object
Score,object
Genres,object
English name,object
Japanese name,object
Type,object
Episodes,object
Aired,object
Premiered,object


Để hiểu rõ hơn về các cột kiểu `object`, chúng ta sẽ phân tích chúng thành từng kiểu con bằng hàm `open_object_dtype()`

In [7]:
def open_object_dtype(s):
    dtypes = set()
    dtypes.update(s.apply(lambda x: type(x).__name__))
    return ', '.join(sorted(dtypes))  # Converting set to a sorted string

unique_types_per_column = anime_df.apply(open_object_dtype)
unique_types_per_column

MAL_ID           int
Name             str
Score            str
Genres           str
English name     str
Japanese name    str
Type             str
Episodes         str
Aired            str
Premiered        str
Producers        str
Licensors        str
Studios          str
Source           str
Duration         str
Rating           str
Ranked           str
Popularity       int
Members          int
Favorites        int
Watching         int
Completed        int
On-Hold          int
Dropped          int
Plan to Watch    int
Score-10         str
Score-9          str
Score-8          str
Score-7          str
Score-6          str
Score-5          str
Score-4          str
Score-3          str
Score-2          str
Score-1          str
dtype: object

Kế đến chúng ta hãy tiến hành đánh giá các loại dữ liệu của các cột trong tập dữ liệu của để đảm bảo tính phù hợp:

+ Các cột có kiểu dữ liệu phù hợp: `Popularity`, `Members`, `Favorites`, `Watching`, `Completed`, `On-Hold`, `Dropped`, `Plan to Watch`, `Source` và `Duration`          

+ Các cột cần phải chuyển đổi về kiểu **int/float**: `Score`, `Episodes`, `Ranked`, `Score-10`, `Score-9`, `Score-8`, `Score-7`, `Score-6`, `Score-5`, `Score-4`, `Score-3`, `Score-2` và `Score-1`          

+ Các cột cần phải chuyển đổi về kiểu **list**: `Genres`, `Producers`, `Licensors` và `Studios` 

+ Cột cần phải chuyển đổi về kiểu **datetime**: `Aired`

### 👉 **Chuyển đổi kiểu dữ liệu**

Đầu tiên chuyển đổi kiểu dữ liệu của các cột thành **int/float**

In [8]:
columns_to_convert = ['Score', 'Episodes', 'Ranked', 
                      'Score-10', 'Score-9', 'Score-8', 
                      'Score-7', 'Score-6', 'Score-5', 
                      'Score-4', 'Score-3', 'Score-2', 'Score-1']

# Convert columns to numeric
for col in columns_to_convert:
    # Using errors='coerce' to handle non-numeric values and missing data
    anime_df[col] = pd.to_numeric(anime_df[col], errors='coerce')

Sau đó, chúng ta hãy kiểm tra lại kiểu dữ liệu của các cột `Score`, `Episodes`, `Ranked`, `Score-10`, `Score-9`, `Score-8`, `Score-7`, `Score-6`, `Score-5`, `Score-4`, `Score-3`, `Score-2` và `Score-1`.          

In [9]:
anime_df[columns_to_convert].dtypes

Score       float64
Episodes    float64
Ranked      float64
Score-10    float64
Score-9     float64
Score-8     float64
Score-7     float64
Score-6     float64
Score-5     float64
Score-4     float64
Score-3     float64
Score-2     float64
Score-1     float64
dtype: object

Bước tiếp theo, chúng ta sẽ tiến hành chuyển đổi kiểu dữ liệu của các cột thành **list**

In [10]:
list_columns = ['Genres', 'Producers', 'Licensors', 'Studios']

def convert_to_list(s):
    if pd.isna(s) or s == 'Unknown':
        return []
    return s.split(', ')

for col in list_columns:
    anime_df[col] = anime_df[col].apply(convert_to_list)

anime_df[list_columns].head(10)

Unnamed: 0,Genres,Producers,Licensors,Studios
0,"[Action, Adventure, Comedy, Drama, Sci-Fi, Space]",[Bandai Visual],"[Funimation, Bandai Entertainment]",[Sunrise]
1,"[Action, Drama, Mystery, Sci-Fi, Space]","[Sunrise, Bandai Visual]",[Sony Pictures Entertainment],[Bones]
2,"[Action, Sci-Fi, Adventure, Comedy, Drama, Sho...",[Victor Entertainment],"[Funimation, Geneon Entertainment USA]",[Madhouse]
3,"[Action, Mystery, Police, Supernatural, Drama,...","[TV Tokyo, Bandai Visual, Dentsu, Victor Enter...","[Funimation, Bandai Entertainment]",[Sunrise]
4,"[Adventure, Fantasy, Shounen, Supernatural]","[TV Tokyo, Dentsu]",[],[Toei Animation]
5,"[Action, Sports, Comedy, Shounen]","[TV Tokyo, Nihon Ad Systems, TV Tokyo Music, S...","[VIZ Media, Sentai Filmworks]",[Gallop]
6,"[Comedy, Drama, Josei, Romance, Slice of Life]","[Genco, Fuji TV, Shueisha]","[VIZ Media, Discotek Media]",[J.C.Staff]
7,"[Slice of Life, Comedy, Sports, Shounen]",[],[],[Nippon Animation]
8,"[Action, Cars, Sports, Drama, Seinen]","[OB Planning, Studio Jack]",[Funimation],[A.C.G.T.]
9,"[Drama, Horror, Mystery, Police, Psychological...","[VAP, Shogakukan-Shueisha Productions, Nippon ...",[VIZ Media],[Madhouse]


Cuối cùng, chúng ta tiến hành chuyển đổi `Aired` về kiểu **datetime**.
- Do sự phức tạp của việc lưu trữ thông tin trong cột `Aired`, biểu thị phạm vi từ ngày phát hành đến ngày kết thúc, chúng tôi dự định tăng cường xử lý dữ liệu bằng cách tách cột này thành hai cột mới: `Start Date` và `End Date` .

- Sau thao tác này, chúng tôi sẽ xóa cột `Aired` ban đầu để tránh dư thừa.

In [16]:
# Splitting the 'Aired' column into 'Start Date' and 'End Date'
anime_df[['Start Date', 'End Date']] = anime_df['Aired'].str.split(' to ', expand=True)

anime_df['Start Date'] = pd.to_datetime(anime_df['Start Date'], errors='coerce')
anime_df['End Date'] = pd.to_datetime(anime_df['End Date'], errors='coerce')

anime_df = anime_df.drop(columns = 'Aired')

Sau khi chuyển đổi thì kiểm tra lại kiểu dữ liệu của hai cột `Start Date` và `End Date`

In [19]:
anime_df[['Start Date', 'End Date']].dtypes

Start Date    datetime64[ns]
End Date      datetime64[ns]
dtype: object

Sau cùng, kiểm tra lại kiểu dữ liệu của toàn bộ các cột trong tập dữ liệu

In [20]:
unique_types_per_column = anime_df.apply(open_object_dtype)
unique_types_per_column

MAL_ID                          int
Name                            str
Score                         float
Genres                         list
English name                    str
Japanese name                   str
Type                            str
Episodes                      float
Premiered                       str
Producers                      list
Licensors                      list
Studios                        list
Source                          str
Duration                        str
Rating                          str
Ranked                        float
Popularity                      int
Members                         int
Favorites                       int
Watching                        int
Completed                       int
On-Hold                         int
Dropped                         int
Plan to Watch                   int
Score-10                      float
Score-9                       float
Score-8                       float
Score-7                     