# **Data Preprocessing**

---

<div class="list-group" id="list-tab" role="tablist">

## MỤC LỤC:
- [1. IMPORT THƯ VIỆN](#1)

- [2. RELATIVE PATHS](#2)
 
- [3. ĐỌC DỮ LIỆU TRONG FILE `anime-dataset-2023.csv`](#3)
    - [3.1 Số dòng và số cột của bộ dữ liệu](#3.1)
    - [3.2 Ý nghĩa của các hàng và các cột](#3.2)
    - [2.3. KIỂU DỮ LIỆU CỦA CÁC THUỘC TÍNH](#2.3)
        - [Kiểm tra kiểu dữ liệu hiện tại của các thuộc tính](#2.3.1)
        - [Thay đổi kiểu dữ liệu các thuộc tính](#2.3.2)

- [4. LOẠI BỎ CÁC CỘT KHÔNG CÓ GIÁ TRỊ SỬ DỤNG](#4)

- [5. KIỂM TRA DỮ LIỆU BỊ TRÙNG](#5)

- [6. XEM XÉT VÀ PHÂN TÍCH CÁC THUỘC TÍNH LIÊN QUAN ĐẾN BỘ DỮ LIỆU](#6)
    - [6.1. Kiểm tra các giá trị `UNKNOWN`](#6.1)
    - [6.2. Xem xét các giá trị `UNKNOWN` trong `Score`](#6.2)
    - [6.3. Loại bỏ các giá trị `UNKNOWN` trong cột `Genres`](#6.3)
    - [6.4. Xem xét các giá trị `UNKNOWN` của cột `Type`](#6.4)
    - [6.5. Điều chỉnh giá trị của cột `Duration`](#6.5)
    - [6.6. Điều chỉnh giá trị cột `Aired`. Tạo ra 2 cột mới là `Realeased date` và `Completed date` từ `Aired`](#6.6)
    - [6.7. Xem xét dữ liệu của cột `Episodes`](#6.7)
    - [6.8. Kiểm tra dữ liệu của cột `Rating`](#6.8)
    - [6.9. Kiểm tra dữ liệu của cột `Score By`](#6.9)
    - [6.10. Điều chỉnh lại dữ liệu của cột `Rank`](#6.10)

- [7. LƯU DỮ LIỆU ĐÃ ĐƯỢC XỬ LÝ](#7)
    - [7.1. Kiểm tra lại kiểu dữ liệu của các cột, các thuộc tính](#7.1)
    - [7.2. Xuất ra file .csv](#7.2)

- [8. KIỂM TRA LẠI BỘ DỮ LIỆU](#8)

---

<a class="anchor" id="1"></a>

## 1. IMPORT THƯ VIỆN

Đây là những thư viện dùng cho Data Preprocessing:
- `numpy`: Dùng cho các phép toán trên ma trận
- `pandas`: Dùng để lưu trữ dữ liệu từ các tệp `.csv` và vận hành các hàm trên DataFrame
- `ast`: Dùng cho literal_eval để đánh giá an toàn các chuỗi chứa biểu thức Python
- `re`: Dùng cho các biểu thức chính quy để trích xuất, phân tích cú pháp, làm sạch chuỗi
- `datetime` từ `datetime`: Cung cấp các lớp để làm việc với ngày và giờ

In [1]:
import numpy as np
import pandas as pd
from datetime import datetime
import ast
import re

# Disable future warnings and user warnings
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)
warnings.simplefilter(action='ignore', category=UserWarning)

## 2. ĐỌC DỮ LIỆU TRONG FILE `raw_manga.csv`

In [2]:
file_path = "../data/raw_manga.csv"

raw_df = pd.read_csv(file_path)
raw_df.head()

Unnamed: 0,Title,Score,Vote,Ranked,Popularity,Members,Favorite,Types,Volumes,Chapters,Status,Published,Genres,Themes,Demographic,Serialization,Author,Total Review,Type Review
0,Berserk,9.47,363720.0,1,1,725079,130489,Manga,Unknown,Unknown,Publishing,"Aug 25, 1989 to ?","['Action', 'Adventure', 'Award Winning', 'Dram...","['Gore', 'Military', 'Mythology', 'Psychologic...",Seinen,Young Animal,"Miura, Kentarou (Story & Art), Studio Gaga (Art)",289,"[252, 17, 20]"
1,JoJo no Kimyou na Bouken Part 7: Steel Ball Ru...,9.31,172219.0,2,23,280428,46269,Manga,24,96,Finished,"Jan 19, 2004 to Apr 19, 2011","['Action', 'Adventure', 'Mystery', 'Supernatur...",['Historical'],Seinen,Ultra Jump,"Araki, Hirohiko (Story & Art)",131,"[123, 7, 1]"
2,Vagabond,9.26,154583.0,3,13,406082,44258,Manga,37,327,On Hiatus,"Sep 3, 1998 to May 21, 2015","['Action', 'Adventure', 'Award Winning']","['Historical', 'Samurai']",Seinen,Morning,"Inoue, Takehiko (Story & Art), Yoshikawa, Eiji...",104,"[93, 9, 2]"
3,One Piece,9.22,392811.0,4,4,642620,119974,Manga,Unknown,Unknown,Publishing,"Jul 22, 1997 to ?","['Action', 'Adventure', 'Fantasy']",[],Shounen,Shounen Jump (Weekly),"Oda, Eiichiro (Story & Art)",231,"[190, 21, 20]"
4,Monster,9.16,104327.0,5,29,258581,22008,Manga,18,162,Finished,"Dec 5, 1994 to Dec 20, 2001","['Award Winning', 'Drama', 'Mystery']","['Adult Cast', 'Psychological']",Seinen,Big Comic Original,"Urasawa, Naoki (Story & Art)",86,"[69, 11, 6]"


### 2.1. Số dòng và số cột của bộ dữ liệu

In [3]:
rows, cols = raw_df.shape
print(f'Có {rows} dòng và {cols} cột trong bộ dữ liệu')

Có 20000 dòng và 19 cột trong bộ dữ liệu


**Nhận xét**
- Tập dữ liệu gồm 20000 dòng với 19 cột tương ứng với 19 thuộc tính của bộ dữ liệu
- Bộ dữ liệu này mô tả các thông tin chi tiết về các bộ truyện tính đến tháng **11/2024**

<a class="anchor" id="3.2"></a>

### 2.2 Ý nghĩa của các hàng và các cột

- Mỗi dòng dữ liệu trong bộ dữ liệu này là dữ liệu về một bộ truyện được thu thập trên MyAnimeList tính đến tháng **11/2024**
- Mỗi cột dữ liệu trong bộ dữ liệu gốc lần lượt có ý nghĩa như sau:

| **ATTRIBUTES**            | **MÔ TẢ**                                                                 |
|:----------------------|:-------------------------------------------------------------------------|
| **`Title`**            | Tên của bộ truyện được viết theo phiên âm tiếng Anh|
| **`Score`**            | Điểm số của bộ truyện trên trang MyAnimeList (MAL)|
| **`Vote`**             | Số lượng độc giả đã tham gia bình chọn và đánh giá cho bộ truyện. |
| **`Ranked`**           | Thứ hạng của bộ truyện trên MyAnimeList |
| **`Popularity`**       | Mức độ phổ biến của bộ truyện  |
| **`Members`**          | Số lượng độc giả đã thêm bộ truyện này vào danh sách cá nhân|
| **`Favorite`**         | Số lượng độc giả đã thêm bộ truyện này vào danh sách yêu thích|
| **`Type`**		        | Loại hình của tác phẩm (Manga, Light Novel,...)|
| **`Volumes`**          | Tổng số tập của bộ truyện. Một tập thường bao gồm một hoặc nhiều chương truyện. |
| **`Chapters`**         | Tổng số chương truyện của bộ truyện. |
| **`Status`**           | Trạng thái hiện tại của bộ truyện (Publishing, Finished,...) |
| **`Published`**        | Thời gian phát hành của bộ truyện, bao gồm ngày bắt đầu và ngày kết thúc. |
| **`Genres`**           | Thể loại của bộ truyện. |
| **`Themes`**           | Chủ đề của bộ truyện. |
| **`Demographic`** 	    | Đối tượng độc giả mà bộ truyện hướng đến. |
| **`Serialization`** 	| Thông tin về tạp chí hoặc nền tảng phát hành bộ truyện|
| **`Author`**           | Tên tác giả của bộ truyện. |
| **`Total Review`**     | Tổng số lượng độc giả đã để lại nhận xét hoặc đánh giá cho bộ truyện. |
| **`Type Review`**      | Số lượng nhận xét của độc giả thành từng nhóm cụ thể: "Recommended", "Mixed feeling", và "Not recommended". |

- Kiểu dữ liệu của từng thuộc tính được biểu diễn như sau:

In [4]:
print(raw_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 19 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Title          20000 non-null  object 
 1   Score          19929 non-null  float64
 2   Vote           19929 non-null  float64
 3   Ranked         20000 non-null  int64  
 4   Popularity     20000 non-null  int64  
 5   Members        20000 non-null  object 
 6   Favorite       20000 non-null  object 
 7   Types          20000 non-null  object 
 8   Volumes        20000 non-null  object 
 9   Chapters       20000 non-null  object 
 10  Status         20000 non-null  object 
 11  Published      20000 non-null  object 
 12  Genres         20000 non-null  object 
 13  Themes         20000 non-null  object 
 14  Demographic    11785 non-null  object 
 15  Serialization  16698 non-null  object 
 16  Author         19951 non-null  object 
 17  Total Review   20000 non-null  int64  
 18  Type R

<a class="anchor" id="5"></a>

## 3. KIỂM TRA DỮ LIỆU BỊ TRÙNG

In [5]:
duplicate_rows = raw_df[raw_df.duplicated()]
duplicate_rows

Unnamed: 0,Title,Score,Vote,Ranked,Popularity,Members,Favorite,Types,Volumes,Chapters,Status,Published,Genres,Themes,Demographic,Serialization,Author,Total Review,Type Review
5755,Ore no Class ni Wakagaetta Motoyome ga Iru,7.22,541.0,5756,7919,2498,6,Manga,Unknown,Unknown,Publishing,"Apr 11, 2024 to ?",['Romance'],"['School', 'Time Travel']",,Suiyoubi no Sirius,"Nekomata, Nuko (Story), Akanbou (Art)",1,"[1, 0, 0]"


Có một dòng bị trùng dữ liệu, cho nên sẽ xóa dòng này đi

In [6]:
# Xóa các dòng bị trùng lặp và giữ lại bản ghi đầu tiên
raw_df = raw_df.drop_duplicates()
raw_df = raw_df.reset_index(drop=True)

## 4. XEM XÉT VÀ PHÂN TÍCH CÁC THUỘC TÍNH LIÊN QUAN ĐẾN BỘ DỮ LIỆU

<a class="anchor" id="6.1"></a>

### 4.1. Kiểm tra tỷ lệ `Missing` của các thuộc tính

Trong bộ dữ liệu này, có một vài giá trị trong các cột có giá trị là **None** hoặc rỗng. Để đảm bảo rằng các giá trị **None** này không làm ảnh hưởng đến chất lượng của bộ dữ liệu, nhóm sẽ kiểm tra các giá trị **None** này.

In [7]:
# Kiểm tra Missing ratio của các thuộc tính
print("Missing ratio (%):\n")
print(round(raw_df.isnull().sum().sort_values(ascending=False)/len(raw_df.index),4)*100)

Missing ratio (%):

Demographic      41.07
Serialization    16.51
Vote              0.36
Score             0.36
Author            0.25
Title             0.00
Published         0.00
Total Review      0.00
Themes            0.00
Genres            0.00
Chapters          0.00
Status            0.00
Volumes           0.00
Types             0.00
Favorite          0.00
Members           0.00
Popularity        0.00
Ranked            0.00
Type Review       0.00
dtype: float64


In [8]:
def parse_themes(theme_str):
  """Parses a string representation of a list into a list, removing brackets."""
  if isinstance(theme_str, str):
    theme_str = theme_str.replace('[', '').replace(']', '')
    if theme_str:
      return [item.strip() for item in theme_str.split(',')]
    else:
      return []
  else:
    return []


raw_df['Themes'] = raw_df['Themes'].apply(parse_themes)
raw_df['Genres'] = raw_df['Genres'].apply(parse_themes)
# Calculate the percentage of empty lists in the 'Themes' column
percentage_empty_themes = (raw_df['Themes'].apply(len) == 0).mean() * 100
percentage_empty_genres = (raw_df['Genres'].apply(len) == 0).mean() * 100
print(f"Tỉ lệ empty lists (missing ratio) 'Themes': {percentage_empty_themes:.2f}%")
print(f"Tỉ lệ empty lists (missing ratio) 'Genres': {percentage_empty_genres:.2f}%")


Tỉ lệ empty lists (missing ratio) 'Themes': 46.38%
Tỉ lệ empty lists (missing ratio) 'Genres': 2.79%


Nhóm thực hiện thay thế các giá trị thiếu hoặc empty lists bằng giá trị `NaN`

In [9]:
# Replace missing values and empty lists with NaN
raw_df.fillna(np.nan, inplace=True)
for column in raw_df.columns:
    if isinstance(raw_df[column].iloc[0], list):
        raw_df[column] = raw_df[column].apply(lambda x: np.nan if not x else x)

In [10]:
raw_df.head()

Unnamed: 0,Title,Score,Vote,Ranked,Popularity,Members,Favorite,Types,Volumes,Chapters,Status,Published,Genres,Themes,Demographic,Serialization,Author,Total Review,Type Review
0,Berserk,9.47,363720.0,1,1,725079,130489,Manga,Unknown,Unknown,Publishing,"Aug 25, 1989 to ?","['Action', 'Adventure', 'Award Winning', 'Dram...","['Gore', 'Military', 'Mythology', 'Psychologic...",Seinen,Young Animal,"Miura, Kentarou (Story & Art), Studio Gaga (Art)",289,"[252, 17, 20]"
1,JoJo no Kimyou na Bouken Part 7: Steel Ball Ru...,9.31,172219.0,2,23,280428,46269,Manga,24,96,Finished,"Jan 19, 2004 to Apr 19, 2011","['Action', 'Adventure', 'Mystery', 'Supernatur...",['Historical'],Seinen,Ultra Jump,"Araki, Hirohiko (Story & Art)",131,"[123, 7, 1]"
2,Vagabond,9.26,154583.0,3,13,406082,44258,Manga,37,327,On Hiatus,"Sep 3, 1998 to May 21, 2015","['Action', 'Adventure', 'Award Winning']","['Historical', 'Samurai']",Seinen,Morning,"Inoue, Takehiko (Story & Art), Yoshikawa, Eiji...",104,"[93, 9, 2]"
3,One Piece,9.22,392811.0,4,4,642620,119974,Manga,Unknown,Unknown,Publishing,"Jul 22, 1997 to ?","['Action', 'Adventure', 'Fantasy']",,Shounen,Shounen Jump (Weekly),"Oda, Eiichiro (Story & Art)",231,"[190, 21, 20]"
4,Monster,9.16,104327.0,5,29,258581,22008,Manga,18,162,Finished,"Dec 5, 1994 to Dec 20, 2001","['Award Winning', 'Drama', 'Mystery']","['Adult Cast', 'Psychological']",Seinen,Big Comic Original,"Urasawa, Naoki (Story & Art)",86,"[69, 11, 6]"


Nhóm thấy không có cột nào có tỉ lệ giá trị **Missing** lớn hơn 75%. Cho nên nhóm sẽ xem xét các thuộc tính nhằm mục đích xóa hoặc điền giá trị cho các giá trị **UNKNOWN** của thuộc tính đó ở các bước sau.

### 4.2. Xử lý dữ liệu cột `Published`

Nhóm sẽ xử lý các dữ liệu dạng datetime và các trường hợp ngoại lệ trong cột `Published`. Đầu tiên, loại bỏ những dòng có giá trị ở cột `Published` là **Not available**

In [11]:
raw_df = raw_df[raw_df['Published'] != 'Not available']

Nhóm nhận thấy rằng dữ liệu cột `Published` rất quan trọng với bộ dữ liệu này, nguyên nhân là do mỗi bộ truyện đều cần có ngày phát hành và ngày kết thúc. Tuy nhiên, cách biểu diễn dữ liệu trong cột `Published` là chưa hợp lý. Do đó, nhóm sẽ thêm vào hai cột mới là `Realeased date` và `Completed date` để biểu diễn tốt hơn dữ liệu.

In [12]:
def preprocess_published(df):
    """
    Preprocesses the 'Published' column in the DataFrame.

    Args:
        df: The DataFrame containing the 'Published' column.

    Returns:
        The DataFrame with 'Released date' and 'Completed date' columns preprocessed.
    """
    def parse_single_date(date_str, is_start_date=True):
        if "," in date_str:
          parts = date_str.split(",")
          if len(parts) == 2 and parts[0].isdigit() and len(parts[0].strip()) <= 2:  # "12, 1999"
              try:
                  month = int(parts[0].strip())
                  year = int(parts[1].strip())
                  if 1 <= month <= 12:  # Nếu tháng hợp lệ
                      return f"{year:04d}-{month:02d}-01"  # Chuyển thành "YYYY-MM-DD"
              except ValueError:
                  pass
        for fmt in ["%b %d, %Y", "%b %Y", "%Y", "%b-%y"]:
            try:
                return datetime.strptime(date_str, fmt).strftime("%Y-%m-%d")
            except ValueError:
                continue
        return "Unknown" if is_start_date else "Updating"

    def parse_published(published_str):
        if not isinstance(published_str, str) or not published_str.strip():
            return "Unknown", "Updating"

        published_str = published_str.strip()

        if 'to' in published_str:
            try:
                start_date_str, end_date_str = map(str.strip, published_str.split('to'))
            except ValueError:
                return "Unknown", "Updating"

            start_date = parse_single_date(start_date_str, is_start_date=True)
            end_date = parse_single_date(end_date_str, is_start_date=False)
            return start_date, end_date
        else:
            start_date = parse_single_date(published_str, is_start_date=True)
            return start_date, "Updating"

    # Áp dụng hàm xử lý và tạo hai cột mới
    df['Released date'], df['Completed date'] = zip(*df['Published'].apply(parse_published))
    return df

# Sử dụng hàm
raw_df = preprocess_published(raw_df)


In [13]:
def update_completed_date(row):
    """Updates 'Completed date' based on 'Published' and 'Completed date'."""
    if 'to' not in str(row['Published']) and row['Completed date'] == 'Updating':
        return row['Released date']
    return row['Completed date']

raw_df['Completed date'] = raw_df.apply(update_completed_date, axis=1)

### 4.3. Xử lý dữ liệu cột `Score`

Bởi vì tỉ lệ giá trị **Missing** trong cột `Score` không quá lớn, cho nên nhóm sẽ điền những giá trị **Missing** bằng giá trị nhỏ nhất (**Min**) trong cột `Score`, vì các giá trị đó đều nằm cuối bộ dữ liệu

In [14]:
min_score = raw_df['Score'].min(skipna=True)
raw_df['Score'].fillna(min_score, inplace=True)

### 4.4. Xử lý dữ liệu cột `Vote`

Bởi vì tỉ lệ giá trị **Missing** trong cột `Vote` không quá lớn, cho nên nhóm sẽ điền những giá trị **Missing** bằng giá trị trung vị (**Median**) trong cột `Vote`. Đồng thời chuyển kiểu dữ liệu của cột này sang `int64`

In [15]:
# Tính toán trung vị
median_vote = raw_df['Vote'].median(skipna=True)

# Điền giá trị trung vị cho các giá trị NaN
raw_df['Vote'].fillna(median_vote, inplace=True)

# Đổi kiểu dữ liệu sang int64
raw_df['Vote'] = raw_df['Vote'].astype(np.int64)

### 4.5. Xử lý kiểu dữ liệu `Members` và `Favourite`

Dữ liệu ở cột `Members` và `Favourite` không bị thiếu dữ liệu, tuy nhiên kiểu dữ liệu của 2 cột này là `object`, không phù hợp do 2 cột này chứa các giá trị là số. Cho nên, nhóm sẽ đổi kiểu dữ liệu này thành dạng số học

In [16]:
raw_df.dtypes

Title              object
Score             float64
Vote                int64
Ranked              int64
Popularity          int64
Members            object
Favorite           object
Types              object
Volumes            object
Chapters           object
Status             object
Published          object
Genres             object
Themes             object
Demographic        object
Serialization      object
Author             object
Total Review        int64
Type Review        object
Released date      object
Completed date     object
dtype: object

In [17]:
# 'Members' to int64
raw_df['Members'] = raw_df['Members'].astype(str).str.replace(',', '', regex=False)
raw_df['Members'] = pd.to_numeric(raw_df['Members'], errors='coerce').fillna(0).astype(np.int64)

# 'Favorite' to int64
raw_df['Favorite'] = raw_df['Favorite'].astype(str).str.replace(',', '', regex=False)
raw_df['Favorite'] = pd.to_numeric(raw_df['Favorite'], errors='coerce').fillna(0).astype(np.int64)


In [18]:
raw_df.dtypes

Title              object
Score             float64
Vote                int64
Ranked              int64
Popularity          int64
Members             int64
Favorite            int64
Types              object
Volumes            object
Chapters           object
Status             object
Published          object
Genres             object
Themes             object
Demographic        object
Serialization      object
Author             object
Total Review        int64
Type Review        object
Released date      object
Completed date     object
dtype: object

### 4.6. Xử lý dữ liệu cột `Volumes` và `Chapters`

Nhóm sẽ tính toán tỉ lệ phần trăm các giá trị `Unknown` và `0` trong cột `Volumes` và `Chapters`. `Mising ratio` trong 2 cột này bằng $0$ do chúng chứa dữ liệu `Unknown` và `0` thay vì để trống hoặc là `NaN`

In [19]:
# Tính tỉ lệ giá trị 'unknown' trong 'Chapters' và 'Volumes'
unknown_chapters_percentage = (raw_df['Chapters'] == 'Unknown').sum() / len(raw_df) * 100
unknown_volumes_percentage = (raw_df['Volumes'] == 'Unknown').sum() / len(raw_df) * 100

# Tính tỉ lệ giá trị '0' trong 'Chapters' và 'Volumes'
zero_chapters_percentage = (raw_df['Chapters'] == 0).sum() / len(raw_df) * 100
zero_volumes_percentage = (raw_df['Volumes'] == 0).sum() / len(raw_df) * 100

print(f"'Unknown' values in 'Chapters': {unknown_chapters_percentage:.2f}%")
print(f"'Unknown' values in 'Volumes': {unknown_volumes_percentage:.2f}%")
print(f"'0' values in 'Chapters': {zero_chapters_percentage:.2f}%")
print(f"'0' values in 'Volumes': {zero_volumes_percentage:.2f}%")

'Unknown' values in 'Chapters': 22.03%
'Unknown' values in 'Volumes': 30.65%
'0' values in 'Chapters': 0.00%
'0' values in 'Volumes': 0.00%


In [20]:
# Chuyển 'Volumes' và 'Chapters' sang int64
raw_df['Volumes'] = pd.to_numeric(raw_df['Volumes'], errors='coerce').fillna(0).astype(np.int64)
raw_df['Chapters'] = pd.to_numeric(raw_df['Chapters'], errors='coerce').fillna(0).astype(np.int64)

# Tính toán quartiles cho 'Volumes'
quartiles_volumes = np.percentile(raw_df['Volumes'], [25, 50, 75])
print("Quartiles for Volumes:", quartiles_volumes)

# Tính toán quartiles cho 'Chapters'
quartiles_chapters = np.percentile(raw_df['Chapters'], [25, 50, 75])
print("Quartiles for Chapters:", quartiles_chapters)

# Hàm tính tỉ lệ phần trăm các giá trị trong mỗi khoảng quartile
def quartile_percentages(data):
    q1, q2, q3 = np.percentile(data, [25, 50, 75])
    percentages = {
        '0-25%': len(data[data <= q1]) / len(data) * 100,
        '25-50%': len(data[(data > q1) & (data <= q2)]) / len(data) * 100,
        '50-75%': len(data[(data > q2) & (data <= q3)]) / len(data) * 100,
        '75-100%': len(data[data > q3]) / len(data) * 100
    }
    return percentages

# Tỉ lệ phần trăm của 'Volumes'
volumes_percentages = quartile_percentages(raw_df['Volumes'])
print("Percentage of Volumes:")
for range, percentage in volumes_percentages.items():
    print(f"{range}: {percentage:.2f}%")

# Tỉ lệ phần trăm của 'Chapters'
chapters_percentages = quartile_percentages(raw_df['Chapters'])
print("\nPercentage of Chapters:")
for range, percentage in chapters_percentages.items():
    print(f"{range}: {percentage:.2f}%")


Quartiles for Volumes: [0. 1. 4.]
Quartiles for Chapters: [ 1.  9. 30.]
Percentage of Volumes:
0-25%: 30.65%
25-50%: 21.82%
50-75%: 24.40%
75-100%: 23.13%

Percentage of Chapters:
0-25%: 30.90%
25-50%: 19.84%
50-75%: 24.32%
75-100%: 24.95%


In [21]:
# Tính toán trung vị của 'Chapters' and 'Volumes', ngoại trừ zeros
median_chapters = raw_df.loc[raw_df['Chapters'] != 0, 'Chapters'].median()
median_volumes = raw_df.loc[raw_df['Volumes'] != 0, 'Volumes'].median()

# Thay zeros trong 'Chapters' và 'Volumes' với giá trị median của từng cột
raw_df['Chapters'] = raw_df['Chapters'].replace(0, median_chapters)
raw_df['Volumes'] = raw_df['Volumes'].replace(0, median_volumes)

# Tính toán và in ra giá trị percentages cho 'Volumes'
volumes_percentages = quartile_percentages(raw_df['Volumes'])
print("Percentage of Volumes:")
for range, percentage in volumes_percentages.items():
    print(f"{range}: {percentage:.2f}%")

# Tính toán và in ra giá trị percentages cho 'Chapters'
chapters_percentages = quartile_percentages(raw_df['Chapters'])
print("\nPercentage of Chapters:")
for range, percentage in chapters_percentages.items():
    print(f"{range}: {percentage:.2f}%")

Percentage of Volumes:
0-25%: 31.67%
25-50%: 39.33%
50-75%: 5.86%
75-100%: 23.13%

Percentage of Chapters:
0-25%: 27.08%
25-50%: 34.93%
50-75%: 13.04%
75-100%: 24.95%


### 4.7. Xử lý dữ liệu cột `Type Review`

Nhóm sẽ phân tách dữ liệu trong cột `Type Review` thành 3 cột dữ liệu đơn là `Recommended`, `Mixed Feelings`, `Not Recommended` để các công đoạn sau sử dụng dữ liệu dễ dàng hơn.

In [22]:
# Recommended - int64
# Mixed Feelings - int64
# Not Recommended - int64

def split_type_review(type_review_str):
    try:
        type_review_list = ast.literal_eval(type_review_str)
        recommended = type_review_list[0] if len(type_review_list) > 0 else 0
        mixed_feelings = type_review_list[1] if len(type_review_list) > 1 else 0
        not_recommended = type_review_list[2] if len(type_review_list) > 2 else 0
        return recommended, mixed_feelings, not_recommended
    except (ValueError, SyntaxError, IndexError):
        return 0, 0, 0

raw_df[['Recommended', 'Mixed Feelings', 'Not Recommended']] = \
     raw_df['Type Review'].apply(lambda x: pd.Series(split_type_review(x)))

### 4.8. Xử lý dữ liệu cột `Author`

Do tính đặc thù của dữ liệu cột này cũng như giúp cho các công đoạn sử dụng dữ liệu được dễ dàng hơn, nhóm sẽ điều chỉnh giá trị của cột `Author` từ dạng `string` sang `list`

In [23]:
def convert_author_to_list(author_str):
    if isinstance(author_str, str):
        return [author_str.strip()]
    elif pd.isna(author_str):
        return []
    else:
        return []

raw_df['Author'] = raw_df['Author'].apply(convert_author_to_list)

In [24]:
raw_df.head(3)

Unnamed: 0,Title,Score,Vote,Ranked,Popularity,Members,Favorite,Types,Volumes,Chapters,...,Demographic,Serialization,Author,Total Review,Type Review,Released date,Completed date,Recommended,Mixed Feelings,Not Recommended
0,Berserk,9.47,363720,1,1,725079,130489,Manga,3,16,...,Seinen,Young Animal,"[Miura, Kentarou (Story & Art), Studio Gaga (A...",289,"[252, 17, 20]",1989-08-25,Updating,252,17,20
1,JoJo no Kimyou na Bouken Part 7: Steel Ball Ru...,9.31,172219,2,23,280428,46269,Manga,24,96,...,Seinen,Ultra Jump,"[Araki, Hirohiko (Story & Art)]",131,"[123, 7, 1]",2004-01-19,2011-04-19,123,7,1
2,Vagabond,9.26,154583,3,13,406082,44258,Manga,37,327,...,Seinen,Morning,"[Inoue, Takehiko (Story & Art), Yoshikawa, Eij...",104,"[93, 9, 2]",1998-09-03,2015-05-21,93,9,2


Khi kiểm tra các giá trị của cột `Author`, nhóm thấy vẫn có những đoạn dữ liệu không cần thiết như `(Story & Art)`, `Art`,... Những đoạn dữ liệu này không cần thiết cho nên nhóm sẽ loại bỏ những đoạn dữ liệu đó ra khỏi các dữ liệu cột `Author`

In [25]:
# Liệt kê các trường hợp
def extract_authors(author_list):
  authors = set()
  for author_str in author_list:
    if isinstance(author_str, str):
      matches = re.findall(r'\((.*?)\)', author_str)
      for match in matches:
          authors.add(match.strip())
  return authors

all_authors = set()
for index in raw_df.index:
  author_list = raw_df.loc[index, 'Author']
  if author_list:
    extracted_authors = extract_authors(author_list)
    all_authors.update(extracted_authors)

for author in all_authors:
  print(author)

A
Art
Story
Story & Art


In [26]:
# Tìm dữ liệu cột 'Author' chứa '(A)'
rows_with_A = raw_df[raw_df['Author'].astype(str).str.contains(r'\(A\)')]

# Print the rows
rows_with_A

Unnamed: 0,Title,Score,Vote,Ranked,Popularity,Members,Favorite,Types,Volumes,Chapters,...,Demographic,Serialization,Author,Total Review,Type Review,Released date,Completed date,Recommended,Mixed Feelings,Not Recommended
8202,Ninja Hattori-kun,7.04,178,8204,26172,411,7,Manga,16,16,...,Shounen,Shounen,"[Fujiko, Fujio (A) (Story & Art)]",0,"[0, 0, 0]",1964-01-01,1968-01-01,0,0,0


In [27]:
def remove_parentheses_substring(author_list):
  cleaned_authors = []
  for author_str in author_list:
    if isinstance(author_str, str):
      cleaned_str = re.sub(r'\(.*?\)', '', author_str).strip()
      if cleaned_str:  # Check if the string is not empty after removal
        cleaned_authors.append(cleaned_str)
    elif isinstance(author_str, list):
        cleaned_authors.extend(remove_parentheses_substring(author_str))
  return cleaned_authors

raw_df['Author'] = raw_df['Author'].apply(remove_parentheses_substring)

In [28]:
def format_author(author_list):
    formatted_authors = []
    for author_str in author_list:
        if isinstance(author_str, str):
            # Split the string by comma and strip extra spaces
            parts = [part.strip() for part in author_str.split(',')]
            # Remove empty strings (if any)
            parts = [part for part in parts if part]
            # If there are at least two parts, combine first part and last part correctly
            while len(parts) >= 2:
              author_name = "'" + parts[0] + ',' + parts[1] + "'"
              formatted_authors.append(author_name)
              parts = parts[2:]
            if parts:
              author_name = "'" + parts[0] + "'"
              formatted_authors.append(author_name)
        elif isinstance(author_str, list):
            formatted_authors.extend(format_author(author_str))  # Handle nested lists
    return formatted_authors

# Assuming raw_df is already defined and has a column 'Author'
raw_df['Author'] = raw_df['Author'].apply(format_author)
raw_df.head(5)

Unnamed: 0,Title,Score,Vote,Ranked,Popularity,Members,Favorite,Types,Volumes,Chapters,...,Demographic,Serialization,Author,Total Review,Type Review,Released date,Completed date,Recommended,Mixed Feelings,Not Recommended
0,Berserk,9.47,363720,1,1,725079,130489,Manga,3,16,...,Seinen,Young Animal,"['Miura,Kentarou', 'Studio Gaga']",289,"[252, 17, 20]",1989-08-25,Updating,252,17,20
1,JoJo no Kimyou na Bouken Part 7: Steel Ball Ru...,9.31,172219,2,23,280428,46269,Manga,24,96,...,Seinen,Ultra Jump,"['Araki,Hirohiko']",131,"[123, 7, 1]",2004-01-19,2011-04-19,123,7,1
2,Vagabond,9.26,154583,3,13,406082,44258,Manga,37,327,...,Seinen,Morning,"['Inoue,Takehiko', 'Yoshikawa,Eiji']",104,"[93, 9, 2]",1998-09-03,2015-05-21,93,9,2
3,One Piece,9.22,392811,4,4,642620,119974,Manga,3,16,...,Shounen,Shounen Jump (Weekly),"['Oda,Eiichiro']",231,"[190, 21, 20]",1997-07-22,Updating,190,21,20
4,Monster,9.16,104327,5,29,258581,22008,Manga,18,162,...,Seinen,Big Comic Original,"['Urasawa,Naoki']",86,"[69, 11, 6]",1994-12-05,2001-12-20,69,11,6


# 5. Chuẩn hóa bộ dữ liệu

Để dữ liệu trở nên gọn gàng và sạch hơn, nhóm sẽ chuẩn hóa bộ dữ liệu lại như sau:

#### 5.1. Ghép cột `Genres` và cột `Themes` thành 1 cột duy nhất tên là `Genres`

In [29]:
raw_df['Genres'] = raw_df['Genres'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)
raw_df['Themes'] = raw_df['Themes'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)
raw_df['Genres'] = raw_df.apply(lambda row: (row['Genres'] or []) + (row['Themes'] or [])
                                if isinstance(row['Genres'], list) and isinstance(row['Themes'], list) else row['Genres'], axis=1)

In [30]:
raw_df = raw_df.drop(columns=['Themes'])

In [31]:
raw_df.head(3)

Unnamed: 0,Title,Score,Vote,Ranked,Popularity,Members,Favorite,Types,Volumes,Chapters,...,Demographic,Serialization,Author,Total Review,Type Review,Released date,Completed date,Recommended,Mixed Feelings,Not Recommended
0,Berserk,9.47,363720,1,1,725079,130489,Manga,3,16,...,Seinen,Young Animal,"['Miura,Kentarou', 'Studio Gaga']",289,"[252, 17, 20]",1989-08-25,Updating,252,17,20
1,JoJo no Kimyou na Bouken Part 7: Steel Ball Ru...,9.31,172219,2,23,280428,46269,Manga,24,96,...,Seinen,Ultra Jump,"['Araki,Hirohiko']",131,"[123, 7, 1]",2004-01-19,2011-04-19,123,7,1
2,Vagabond,9.26,154583,3,13,406082,44258,Manga,37,327,...,Seinen,Morning,"['Inoue,Takehiko', 'Yoshikawa,Eiji']",104,"[93, 9, 2]",1998-09-03,2015-05-21,93,9,2


### 5.2. Sau khi ghép xong, kiểm tra dòng nào nếu không có dữ liệu của cột `Genres`, thì sẽ tiến hành xóa dòng đó đi

In [32]:
# Calculate the percentage of missing values (NaN) in the 'Genres' column
missing_genres_nan = raw_df['Genres'].isnull().sum()
percentage_missing_genres_nan = (missing_genres_nan / len(raw_df)) * 100

# Calculate the percentage of empty lists in the 'Genres' column
empty_genres_list = raw_df['Genres'].apply(lambda x: isinstance(x, list) and len(x) == 0).sum()
percentage_empty_genres_list = (empty_genres_list / len(raw_df)) * 100

# Calculate the total percentage of missing values (NaN or empty lists)
total_missing_genres = missing_genres_nan + empty_genres_list
percentage_total_missing_genres = (total_missing_genres / len(raw_df)) * 100

print(f"Percentage of NaN values in 'Genres': {percentage_missing_genres_nan:.2f}%")
print(f"Percentage of empty lists in 'Genres': {percentage_empty_genres_list:.2f}%")
print(f"Total percentage of missing values (NaN or empty lists) in 'Genres': {percentage_total_missing_genres:.2f}%")

Percentage of NaN values in 'Genres': 2.62%
Percentage of empty lists in 'Genres': 0.00%
Total percentage of missing values (NaN or empty lists) in 'Genres': 2.62%


In [33]:
# Assuming 'raw_df' is your DataFrame
raw_df = raw_df.dropna(subset=['Genres'])
#Further remove rows where Genres is an empty list
raw_df = raw_df[raw_df['Genres'].apply(lambda x: isinstance(x, list) and len(x) > 0)]

In [34]:
missing_genres_nan = raw_df['Genres'].isnull().sum()
percentage_missing_genres_nan = (missing_genres_nan / len(raw_df)) * 100

empty_genres_list = raw_df['Genres'].apply(lambda x: isinstance(x, list) and len(x) == 0).sum()
percentage_empty_genres_list = (empty_genres_list / len(raw_df)) * 100

print(f"Percentage of NaN values in 'Genres': {percentage_missing_genres_nan:.2f}%")
print(f"Percentage of empty lists in 'Genres': {percentage_empty_genres_list:.2f}%")

Percentage of NaN values in 'Genres': 0.00%
Percentage of empty lists in 'Genres': 0.00%


### 5.3. Xóa đi cột `Published` để không có các thuộc tính trùng nhau về ý nghĩa

Do trong bộ dữ liệu đã có 2 cột dữ liệu là `Released date` và `Completed date`, cho nên nhóm sẽ xóa cột `Published` để bộ dữ liệu không chứa các thuộc tính trùng nhau về ý nghĩa

In [35]:
raw_df = raw_df.drop(columns=['Published'])

### 5.4. Kiểm tra xem tổng của `Type Review` có bằng `Total Review` không?

In [36]:
diff_count = 0
for index, row in raw_df.iterrows():
    total_review = row['Total Review']
    sum_type_review = row['Recommended'] + row['Mixed Feelings'] + row['Not Recommended']
    if total_review != sum_type_review:
      diff_count += 1

print(f"Số giá trị của 'Total Review' khác tổng các cột 'Type Review': {diff_count}")

Số giá trị của 'Total Review' khác tổng các cột 'Type Review': 0


Từ đây nhóm thấy được bộ dữ liệu được xử lý tốt.

### 5.5. Xóa cột `Type Review` để không có các thuộc tính trùng nhau về ý nghĩa

Tương tự như trường hợp của cột `Published`, trong bộ dữ liệu đã có 3 cột dữ liệu là `Recommended`, `Mixed Feelings`, `Not Recommended`, cho nên nhóm sẽ xóa cột `Type Review` để bộ dữ liệu không chứa các thuộc tính trùng nhau về ý nghĩa.

In [37]:
raw_df = raw_df.drop(columns=['Type Review'])

### 5.6. Sắp xếp lại thứ tự các cột

Nhóm sẽ sắp xếp lại thứ tự các cột để dữ liệu dễ nhìn và dễ phân tích hơn

In [38]:
print(raw_df.columns)

Index(['Title', 'Score', 'Vote', 'Ranked', 'Popularity', 'Members', 'Favorite',
       'Types', 'Volumes', 'Chapters', 'Status', 'Genres', 'Demographic',
       'Serialization', 'Author', 'Total Review', 'Released date',
       'Completed date', 'Recommended', 'Mixed Feelings', 'Not Recommended'],
      dtype='object')


In [39]:
# Get the column names
cols = raw_df.columns.tolist()

# Find the index of 'Total Review' and 'Recommended'
total_review_index = cols.index('Total Review')
completed_index = cols.index('Completed date')


# Move 'Total Review' before 'Recommended'
cols.insert(completed_index, cols.pop(total_review_index))

# Reorder the DataFrame
raw_df = raw_df[cols]

raw_df.head(3)

Unnamed: 0,Title,Score,Vote,Ranked,Popularity,Members,Favorite,Types,Volumes,Chapters,...,Genres,Demographic,Serialization,Author,Released date,Completed date,Total Review,Recommended,Mixed Feelings,Not Recommended
0,Berserk,9.47,363720,1,1,725079,130489,Manga,3,16,...,"['Action', 'Adventure', 'Award Winning', 'Dram...",Seinen,Young Animal,"['Miura,Kentarou', 'Studio Gaga']",1989-08-25,Updating,289,252,17,20
1,JoJo no Kimyou na Bouken Part 7: Steel Ball Ru...,9.31,172219,2,23,280428,46269,Manga,24,96,...,"['Action', 'Adventure', 'Mystery', 'Supernatur...",Seinen,Ultra Jump,"['Araki,Hirohiko']",2004-01-19,2011-04-19,131,123,7,1
2,Vagabond,9.26,154583,3,13,406082,44258,Manga,37,327,...,"['Action', 'Adventure', 'Award Winning', 'Hist...",Seinen,Morning,"['Inoue,Takehiko', 'Yoshikawa,Eiji']",1998-09-03,2015-05-21,104,93,9,2


## 6. Lưu dữ liệu đã được xử lý

Nhóm sẽ kiểm tra lại các kiểu dữ liệu của các thuộc tính

In [40]:
raw_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 19057 entries, 0 to 19998
Data columns (total 21 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Title            19057 non-null  object 
 1   Score            19057 non-null  float64
 2   Vote             19057 non-null  int64  
 3   Ranked           19057 non-null  int64  
 4   Popularity       19057 non-null  int64  
 5   Members          19057 non-null  int64  
 6   Favorite         19057 non-null  int64  
 7   Types            19057 non-null  object 
 8   Volumes          19057 non-null  int64  
 9   Chapters         19057 non-null  int64  
 10  Status           19057 non-null  object 
 11  Genres           19057 non-null  object 
 12  Demographic      11052 non-null  object 
 13  Serialization    16135 non-null  object 
 14  Author           19057 non-null  object 
 15  Released date    19057 non-null  object 
 16  Completed date   19057 non-null  object 
 17  Total Review     

Kiểu dữ liệu của các thuộc tính đã hợp lý. Nhóm sẽ lưu lại dữ liệu thành file .csv

In [41]:
raw_df.head(5)

Unnamed: 0,Title,Score,Vote,Ranked,Popularity,Members,Favorite,Types,Volumes,Chapters,...,Genres,Demographic,Serialization,Author,Released date,Completed date,Total Review,Recommended,Mixed Feelings,Not Recommended
0,Berserk,9.47,363720,1,1,725079,130489,Manga,3,16,...,"['Action', 'Adventure', 'Award Winning', 'Dram...",Seinen,Young Animal,"['Miura,Kentarou', 'Studio Gaga']",1989-08-25,Updating,289,252,17,20
1,JoJo no Kimyou na Bouken Part 7: Steel Ball Ru...,9.31,172219,2,23,280428,46269,Manga,24,96,...,"['Action', 'Adventure', 'Mystery', 'Supernatur...",Seinen,Ultra Jump,"['Araki,Hirohiko']",2004-01-19,2011-04-19,131,123,7,1
2,Vagabond,9.26,154583,3,13,406082,44258,Manga,37,327,...,"['Action', 'Adventure', 'Award Winning', 'Hist...",Seinen,Morning,"['Inoue,Takehiko', 'Yoshikawa,Eiji']",1998-09-03,2015-05-21,104,93,9,2
3,One Piece,9.22,392811,4,4,642620,119974,Manga,3,16,...,"['Action', 'Adventure', 'Fantasy']",Shounen,Shounen Jump (Weekly),"['Oda,Eiichiro']",1997-07-22,Updating,231,190,21,20
4,Monster,9.16,104327,5,29,258581,22008,Manga,18,162,...,"['Award Winning', 'Drama', 'Mystery', 'Adult C...",Seinen,Big Comic Original,"['Urasawa,Naoki']",1994-12-05,2001-12-20,86,69,11,6


In [42]:
# Lưu raw_df vào file csv tên là 'manga_processed'
raw_df.to_csv('manga_processed.csv', index=False)