# KHÁM PHÁ VÀ TIỀN XỬ LÝ DỮ LIỆU

## Import thư viện cần thiết

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Thu thập dữ liệu

### Thông tin chung

- **Chủ đề dữ liệu**: Thông tin về Anime (Phim hoạt hình Nhật Bản)
- **Cách thu thập dữ liệu**: Bộ dữ liệu được thu thập từ nền tảng MyAnimeList, một cộng đồng và cơ sở dữ liệu trực tuyến phổ biến dành cho những người đam mê anime và manga. Nền tảng này cung cấp thông tin về các anime, hồ sơ người dùng và điểm của người dùng đánh giá cho các anime khác nhau. Chúng em sử dụng ngôn ngữ lập trình Python, cùng Selenium để trích xuất dữ liệu từ web.

## Khám phá và tiền xử lý dữ liệu

### Đọc dữ liệu từ file csv

In [2]:
anime_df = pd.read_csv('animes.csv')

#### Hiển thị 5 hàng đầu tiên trong tập dữ liệu

In [3]:
anime_df.head()

Unnamed: 0,ID,Title,Episodes,Type,Aired,Producers,Studios,Source,Genres,Duration,Score,Rating count,Rank,Popularity
0,1.0,Cowboy Bebop,26,TV,"Apr 3, 1998 to Apr 24, 1999",Bandai Visual,Sunrise,Original,"Action, Award Winning, Sci-Fi",24 min. per ep.,8.75,988000.0,482,43.0
1,5.0,Cowboy Bebop: Tengoku no Tobira,1,Movie,"Sep 1, 2001","Sunrise, Bandai Visual",Bones,Original,"Action, Sci-Fi",1 hr. 55 min.,8.38,219779.0,2092,631.0
2,6.0,Trigun,26,TV,"Apr 1, 1998 to Sep 30, 1998",Victor Entertainment,Madhouse,Manga,"Action, Adventure, Sci-Fi",24 min. per ep.,8.22,380049.0,3602,258.0
3,7.0,Witch Hunter Robin,26,TV,"Jul 3, 2002 to Dec 25, 2002","Bandai Visual, Dentsu, Victor Entertainment",Sunrise,Original,"Action, Drama, Mystery, Supernatural",25 min. per ep.,7.24,44600.0,30982,1908.0
4,8.0,Bouken Ou Beet,52,TV,"Sep 30, 2004 to Sep 29, 2005","TV Tokyo, Dentsu",Toei Animation,Manga,"Action, Adventure, Fantasy",23 min. per ep.,6.93,6891.0,45862,5485.0


### Số hàng và số cột của tập dữ liệu

In [4]:
nrows, ncols = anime_df.shape
print('Số hàng của dataset:', nrows)
print('Số cột của dataset:', ncols)

Số hàng của dataset: 25012
Số cột của dataset: 14


### Ý nghĩa của mỗi hàng

Mỗi hàng chứa thông tin về 1 bộ anime như tên, thể loại, số tập, thời lượng, nhà sản xuất,... và xếp hạng dựa trên một số tiêu chí cũng như là điểm đánh giá trung bình cho anime đó do người dùng đánh giá trên nền tảng MyAnimeList.

### Loại bỏ những hàng không có dữ liệu

In [5]:
anime_df.dropna(how='all', inplace=True)

### Loại bỏ những hàng trùng lặp

In [6]:
num_duplicates = anime_df.duplicated().sum()
print(f"Số hàng trùng lặp: {num_duplicates}")

Số hàng trùng lặp: 19


In [7]:
anime_df = anime_df.drop_duplicates()

In [8]:
nrows, ncols = anime_df.shape
print('Số hàng của dataset sau khi xử lý:', nrows)

Số hàng của dataset sau khi xử lý: 24990


### Ý nghĩa của mỗi cột

In [9]:
# Xem tên của từng cột
anime_df.columns

Index(['ID', 'Title', 'Episodes', 'Type', 'Aired', 'Producers', 'Studios',
       'Source', 'Genres', 'Duration', 'Score', 'Rating count', 'Rank',
       'Popularity'],
      dtype='object')

#### Ý nghĩa của mỗi cột:
- Cột đầu tiên cho biết ID của anime (ID)
- Cột thứ 2 cho biết tên gốc của anime (Title)
- Cột thứ 3 cho biết số tập của anime (Episodes)
- Cột thứ 4 cho biết anime thuộc dạng phim dài tập hay movie,... (Type)
- Cột thứ 5 cho biết ngày bắt đầu và kết thúc việc phát sóng anime (Aired)
- Cột thứ 6 cho biết công ty hoặc nhà sản xuất của anime (Producers)
- Cột thứ 7 cho biết hãng làm phim hoạt hình làm ra anime (Studios)
- Cột thứ 8 cho biết nguồn tài liệu để làm ra anime (Source)
- Cột thứ 9 cho biết thể loại của anime, một anime có thể thuộc nhiều thể loại được phân tách bởi dấu phẩy (Genres)
- Cột thứ 10 cho biết thời lượng của mỗi tập trong anime (Duration)
- Cột thứ 11 cho biết điểm số trung bình đánh giá cho anime bởi người dùng (Score)
- Cột thứ 12 cho biết số lượng người dùng đã chấm điểm cho anime (Rating count)
- Cột thứ 13 cho biết xếp hạng của anime dựa trên Score, nếu cùng điểm sẽ so sánh các tiêu chí khác (Rank)
- Cột thứ 14 cho biết xếp hạng độ phổ biến của anime (Popularity)

Cột thứ 12 cho biết số lượng người dùng đã chấm điểm cho anime nhưng có tên Rating count chưa phù hợp lắm nên ta sẽ đổi tên cột thành Scored By.

In [10]:
anime_df.rename(columns={'Rating count': 'Scored By'}, inplace=True)

In [11]:
anime_df.head()

Unnamed: 0,ID,Title,Episodes,Type,Aired,Producers,Studios,Source,Genres,Duration,Score,Scored By,Rank,Popularity
0,1.0,Cowboy Bebop,26,TV,"Apr 3, 1998 to Apr 24, 1999",Bandai Visual,Sunrise,Original,"Action, Award Winning, Sci-Fi",24 min. per ep.,8.75,988000.0,482,43.0
1,5.0,Cowboy Bebop: Tengoku no Tobira,1,Movie,"Sep 1, 2001","Sunrise, Bandai Visual",Bones,Original,"Action, Sci-Fi",1 hr. 55 min.,8.38,219779.0,2092,631.0
2,6.0,Trigun,26,TV,"Apr 1, 1998 to Sep 30, 1998",Victor Entertainment,Madhouse,Manga,"Action, Adventure, Sci-Fi",24 min. per ep.,8.22,380049.0,3602,258.0
3,7.0,Witch Hunter Robin,26,TV,"Jul 3, 2002 to Dec 25, 2002","Bandai Visual, Dentsu, Victor Entertainment",Sunrise,Original,"Action, Drama, Mystery, Supernatural",25 min. per ep.,7.24,44600.0,30982,1908.0
4,8.0,Bouken Ou Beet,52,TV,"Sep 30, 2004 to Sep 29, 2005","TV Tokyo, Dentsu",Toei Animation,Manga,"Action, Adventure, Fantasy",23 min. per ep.,6.93,6891.0,45862,5485.0


### Kiểu dữ liệu hiện tại của mỗi cột là gì? Có cột nào có kiểu dữ liệu không phù hợp không? 


Ta sẽ thử xem xét các kiểu dữ liệu của của từng cột đã phù hợp chưa. 

In [12]:
anime_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 24990 entries, 0 to 25011
Data columns (total 14 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   ID          24990 non-null  float64
 1   Title       24990 non-null  object 
 2   Episodes    24990 non-null  object 
 3   Type        24990 non-null  object 
 4   Aired       24990 non-null  object 
 5   Producers   24990 non-null  object 
 6   Studios     24990 non-null  object 
 7   Source      24990 non-null  object 
 8   Genres      10879 non-null  object 
 9   Duration    24990 non-null  object 
 10  Score       16943 non-null  float64
 11  Scored By   16943 non-null  float64
 12  Rank        24990 non-null  object 
 13  Popularity  24990 non-null  float64
dtypes: float64(4), object(10)
memory usage: 2.9+ MB


Sau khi xem qua các cột dữ liệu ta thấy các cột nên có dữ liệu dạng số nhưng lại có dữ liệu object là: 
- Episodes
- Rank

Do đó ta sẽ chuẩn hóa kiểu dữ liệu cho các cột này về dạng số.

In [13]:
col_convert = ['Episodes', 'Rank']
for col in col_convert:
    anime_df[col] = pd.to_numeric(anime_df[col], errors='coerce')

In [14]:
anime_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 24990 entries, 0 to 25011
Data columns (total 14 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   ID          24990 non-null  float64
 1   Title       24990 non-null  object 
 2   Episodes    24725 non-null  float64
 3   Type        24990 non-null  object 
 4   Aired       24990 non-null  object 
 5   Producers   24990 non-null  object 
 6   Studios     24990 non-null  object 
 7   Source      24990 non-null  object 
 8   Genres      10879 non-null  object 
 9   Duration    24990 non-null  object 
 10  Score       16943 non-null  float64
 11  Scored By   16943 non-null  float64
 12  Rank        19849 non-null  float64
 13  Popularity  24990 non-null  float64
dtypes: float64(6), object(8)
memory usage: 2.9+ MB


Các kiểu dữ liệu còn lại đã phù hợp với nội dung nên ta sẽ tiếp tục phần tiếp theo

### Với mỗi cột có kiểu dữ liệu dạng số, các giá trị được phân bố như thế nào?

#### Đầu tiên ta sẽ lấy tên các cột có dữ liệu dạng số và lưu vào `numeric_columns`

In [15]:
numeric_columns = anime_df.select_dtypes(include='number').columns[:] 
numeric_columns

Index(['ID', 'Episodes', 'Score', 'Scored By', 'Rank', 'Popularity'], dtype='object')

#### Sau đó, ta sẽ xem tỉ lệ giá trị bị thiếu trong các cột dữ liệu kiểu số là bao nhiêu:

In [16]:
percentage_missing_dic = {}
for col in numeric_columns:
    percentage_missing = anime_df[col].isna().mean() * 100
    percentage_missing_dic[col] = percentage_missing
    print(f'Phần trăm giá trị còn thiếu của cột \'{col}\' là {percentage_missing:.2f}%')

Phần trăm giá trị còn thiếu của cột 'ID' là 0.00%
Phần trăm giá trị còn thiếu của cột 'Episodes' là 1.06%
Phần trăm giá trị còn thiếu của cột 'Score' là 32.20%
Phần trăm giá trị còn thiếu của cột 'Scored By' là 32.20%
Phần trăm giá trị còn thiếu của cột 'Rank' là 20.57%
Phần trăm giá trị còn thiếu của cột 'Popularity' là 0.00%


Sau khi xem qua ta thấy Score và Scored By là các cột có nhiều giá trị bị thiếu nhất. Tuy nhiên tỉ lệ giá trị bị thiếu của các cột này chưa đến 50%, hơn nữa hai cột này có nhiều giá trị trong quá trình tính toán nên chúng em sẽ chọn giữ lại nó trong bước tiền xử lý dữ liệu.

#### Tiếp theo ta xem qua mô tả của các cột có dữ liệu dạng số xem có gì bất thường không (tối thiểu, tối đa)

In [17]:
anime_df.describe()

Unnamed: 0,ID,Episodes,Score,Scored By,Rank,Popularity
count,24990.0,24725.0,16943.0,16943.0,19849.0,24990.0
mean,30411.921128,14.950617,6.398052,29841.3,104564.428838,13290.988756
std,18427.199078,49.519797,0.892995,118221.2,61002.392085,7780.432629
min,1.0,1.0,1.88,103.0,12.0,1.0
25%,10562.25,1.0,5.78,371.5,51852.0,6565.75
50%,35258.5,2.0,6.38,1673.0,103702.0,13173.5
75%,46053.75,13.0,7.04,10523.5,156392.0,19932.5
max,57179.0,3057.0,9.32,2858563.0,211302.0,27166.0


Ta xem xét từng cột và nhận xét:
- ID có giá trị từ 1 đến 57179 mặc dù số lượng anime là 24990, vậy nên ta có thể suy ra ID của các anime là không liên tục.
- Cột Score có giá trị từ 1.88 đến 9.32 đây là 1 khoảng hợp lý cho đánh giá điểm số của anime, không có anime nào 10 và không có anime bị đánh giá 0 điểm. Điểm trung bình của các anime nằm quanh khoảng 6.4, với phần lớn từ 5 đến 7.
- Số lượng tập có sự chênh lệch lớn giữa các anime.
- Độ phổ biến và số lượng người đánh giá cho thấy có sự chênh lệch đáng kể về mức độ phổ biến giữa các anime.
- Các cột đều có khoảng giá trị phù hợp với ý nghĩa của từng cột.

### Với mỗi cột có kiểu dữ liệu dạng phân loại, các giá trị được phân bố như thế nào?

Ở phần này sẽ có 2 dạng:
- Cột có giá trị đơn: Title, Type, Source.
- Cột có nhiều giá trị: Genres, Producers, Studios

#### Do đó đầu tiên ta sẽ xử lý trên các cột đơn trước

Đầu tiên lưu tên các cột có một giá trị vào `single_columns`

In [18]:
single_columns = ['Title', 'Type', 'Source', 'Duration', 'Aired']

Sau đó tính phần trăm giá trị còn thiếu của mỗi cột này

Ở bộ dữ liệu này các dữ liệu `NULL` đang được đánh dấu bằng nhiều chuỗi string khác nhau như: `Unknown`, `Not available`, `None found, add some`. Do đó ta sẽ thay thế các giá trị trên cũng như cả các dữ liệu `NULL` bằng một giá trị nhất quán `UNKNOWN` để đánh dấu các giá trị bị thiếu. 

In [19]:
values_to_replace = ["Unknown", "Not available", "None found, add some", np.nan]

# Thay thế các giá trị không mong muốn bằng "UNKNOWN"
for column in anime_df.columns:     
    if anime_df[column].dtype == "object":
        anime_df[column] = anime_df[column].replace(values_to_replace, "UNKNOWN")

In [20]:
for col in single_columns:
    percentage_missing = (anime_df[col] == 'UNKNOWN').mean() * 100
    percentage_missing_dic[col] = percentage_missing
    print(f'Phần trăm giá trị còn thiếu của cột \'{col}\' là {percentage_missing:.2f}%')

Phần trăm giá trị còn thiếu của cột 'Title' là 0.00%
Phần trăm giá trị còn thiếu của cột 'Type' là 0.12%
Phần trăm giá trị còn thiếu của cột 'Source' là 11.22%
Phần trăm giá trị còn thiếu của cột 'Duration' là 1.35%
Phần trăm giá trị còn thiếu của cột 'Aired' là 2.88%


Ta thấy các cột này có giá trị thiếu rất ít có thể do các dữ liệu này là các thông tin cơ bản của một anime nên hầu như tất cả các anime được sản xuất đều phải có các thông tin này

Lưu số lượng giá trị khác nhau và đếm số lượng từng loại và lưu vào mảng `single_cate_profile`

In [21]:
single_cate_profile = pd.DataFrame(index=["num_diff_vals", "distribution"])
num_diff_vals = anime_df[single_columns].nunique()
distribution = anime_df[single_columns].agg(lambda column: pd.Series(column).value_counts().to_dict())
single_cate_profile[single_columns] = [num_diff_vals, distribution]

single_cate_profile

Unnamed: 0,Title,Type,Source,Duration,Aired
num_diff_vals,24989,10,17,331,15596
distribution,{'Shen Lan Qi Yu Wushuang Zhu: Tianmo Pian': 2...,"{'TV': 7552, 'Movie': 4335, 'OVA': 4006, 'ONA'...","{'Original': 10265, 'Manga': 4891, 'UNKNOWN': ...","{'24 min. per ep.': 1987, '23 min. per ep.': 1...","{'UNKNOWN': 719, '2012 to ?': 74, '2005': 72, ..."


Các cột đều có giá trị không có gì bất thường. Riêng cột Title có số giá trị ít hơn số hàng của bộ dữ liệu (24990 hàng). Ta sẽ in thử distribution ở cột Title để xem.

In [22]:
single_cate_profile.loc['distribution','Title']

{'Shen Lan Qi Yu Wushuang Zhu: Tianmo Pian': 2,
 'Cowboy Bebop': 1,
 'Dokyuu Hentai HxEros OVA': 1,
 'Mug': 1,
 'Xin Yu Gong Yu Shan': 1,
 'Black Channel': 1,
 'Shokubutsu no Kimochi-hen': 1,
 'Zone: Intro': 1,
 'Shenmue the Animation': 1,
 'MTV Town': 1,
 'Tasuuketsu: Judgement Assizes': 1,
 'Onegai Patron-sama!': 1,
 'Execute': 1,
 'Project Scard: Praeter no Kizu': 1,
 'Gummies': 1,
 'Wild Cleaner': 1,
 'Nakado Riku Animation: Hijouyou Mochidashi Bukuro wo Youi Shiyou': 1,
 'Sayonara Watashi no Cramer Movie: First Touch': 1,
 'Rebirth: Virtual to no Souguu': 1,
 'Jing: Shuang Cheng - Feng Qi Pian': 1,
 'Carol (Music)': 1,
 'Nijiiro Love Letter': 1,
 'Sakura Kakumei: Hanasaku Otome-tachi': 1,
 'Chicchana Photographer': 1,
 'Kai Byoui Ramune': 1,
 'Seijo no Maryoku wa Bannou desu': 1,
 'Ashi': 1,
 'Float': 1,
 'Otona no Bouguya-san II': 1,
 'Fudanshi Shoukan: Isekai de Shinjuu ni Hameraremashita': 1,
 'Kotobadori (July 2019)': 1,
 'Kotobadori': 1,
 'Little Village People': 1,
 'Shikoya

Ta thấy rằng bộ dữ liệu có 2 bộ phim trùng tên là: Shen Lan Qi Yu Wushuang Zhu: Tianmo Pian. 

In [23]:
duplicate_titles = anime_df[anime_df['Title'] == "Shen Lan Qi Yu Wushuang Zhu: Tianmo Pian"]
duplicate_titles

Unnamed: 0,ID,Title,Episodes,Type,Aired,Producers,Studios,Source,Genres,Duration,Score,Scored By,Rank,Popularity
22752,53367.0,Shen Lan Qi Yu Wushuang Zhu: Tianmo Pian,15.0,ONA,"Jan 14, 2023 to Apr 15, 2023","iQIYI, High Energy Studio, Xuanshi Tangmen",CG Year,Web novel,"Action, Fantasy",20 min. per ep.,7.6,385.0,15502.0,14176.0
24119,55740.0,Shen Lan Qi Yu Wushuang Zhu: Tianmo Pian,15.0,ONA,"Jul 15, 2023 to Oct 14, 2023","iQIYI, High Energy Studio",CG Year,Web novel,"Action, Fantasy",22 min. per ep.,7.46,262.0,20462.0,14602.0


Khi truy cập lại thông tin trên nền tảng MyAnimeList, ta thấy 2 bộ phim bị trùng tên có thể phân biệt dựa vào tên Tiếng Anh của chúng (English name). Do đó để tránh nhầm lẫn thông tin ta sẽ đổi giá trị cột Title của 2 bộ phim thành tên Tiếng Anh (dựa vào cột Aired).

In [24]:
# Sắp xếp các hàng trùng lặp theo thời gian 'Aired' (thời gian sớm hơn sẽ đứng trước)
duplicate_titles_sorted = duplicate_titles.sort_values(by='Aired')

# Cập nhật tên Title theo thứ tự đã sắp xếp
anime_df.loc[duplicate_titles_sorted.index[0], 'Title'] = "The Land of Miracles 2nd Season"
anime_df.loc[duplicate_titles_sorted.index[1], 'Title'] = "The Land of Miracles 3rd Season"

# Kiểm tra kết quả
print(anime_df[anime_df['Title'].str.contains("The Land of Miracles")])

            ID                            Title  Episodes Type  \
22752  53367.0  The Land of Miracles 2nd Season      15.0  ONA   
24119  55740.0  The Land of Miracles 3rd Season      15.0  ONA   

                              Aired  \
22752  Jan 14, 2023 to Apr 15, 2023   
24119  Jul 15, 2023 to Oct 14, 2023   

                                        Producers  Studios     Source  \
22752  iQIYI, High Energy Studio, Xuanshi Tangmen  CG Year  Web novel   
24119                   iQIYI, High Energy Studio  CG Year  Web novel   

                Genres         Duration  Score  Scored By     Rank  Popularity  
22752  Action, Fantasy  20 min. per ep.   7.60      385.0  15502.0     14176.0  
24119  Action, Fantasy  22 min. per ep.   7.46      262.0  20462.0     14602.0  


#### Tiếp theo ta tính toán số lượng các cột có nhiều giá trị

Tương tự với cột đơn ta ta tiếp tục lưu tên các cột có nhiều giá trị vào `multi_columns`

In [25]:
multi_columns = ['Genres', 'Producers', 'Studios']

Sau đó tính giá trị thiếu của các cột này

In [26]:
for col in multi_columns:
    percentage_missing = (anime_df[col] == 'UNKNOWN').mean() * 100
    percentage_missing_dic[col] = percentage_missing
    print(f'Phần trăm giá trị còn thiếu của cột \'{col}\' là {percentage_missing:.2f}%')

Phần trăm giá trị còn thiếu của cột 'Genres' là 56.47%
Phần trăm giá trị còn thiếu của cột 'Producers' là 52.15%
Phần trăm giá trị còn thiếu của cột 'Studios' là 39.97%


Rõ ràng, ta nhận thấy rằng các giá trị của cột Producers và Studios có khá nhiều giá trị `UNKNOWN` có thể là do việc tìm kiếm thông tin của Producers hay Studios có thể bị bảo mật hoặc các anime không do các Producers và Studios chuyên nghiệp tổ chức.

Lưu số lượng giá trị khác nhau và đếm số lượng từng loại và lưu vào mảng `multiple_cate_profile`

In [27]:
# Tạo dataframe kết quả
def split_and_melt(column):
    df_split = column.str.split(', ', expand=True).melt().drop('variable', axis=1)
    return df_split['value']
long_df = anime_df[multi_columns].agg(split_and_melt)
distribution = long_df.agg(lambda column: pd.Series(column).value_counts().to_dict())
num_diff_vals = long_df.nunique()

In [28]:
multiple_cate_profile = pd.DataFrame(index=["num_diff_vals", "distribution"])
multiple_cate_profile[multi_columns] = [num_diff_vals, distribution]

multiple_cate_profile

Unnamed: 0,Genres,Producers,Studios
num_diff_vals,22,1618,1133
distribution,"{'UNKNOWN': 14111, 'Comedy': 4624, 'Action': 4...","{'UNKNOWN': 13032, 'NHK': 1008, 'TV Tokyo': 62...","{'UNKNOWN': 9988, 'Toei Animation': 864, 'Sunr..."


Ta có thể trích xuất cột thể loại để xem thử:

In [29]:
multiple_cate_profile.loc['distribution','Genres']

{'UNKNOWN': 14111,
 'Comedy': 4624,
 'Action': 4300,
 'Fantasy': 3922,
 'Adventure': 3476,
 'Sci-Fi': 2794,
 'Drama': 2168,
 'Romance': 1720,
 'Supernatural': 1212,
 'Slice of Life': 836,
 'Mystery': 809,
 'Ecchi': 745,
 'Horror': 464,
 'Suspense': 373,
 'Sports': 335,
 'Hentai': 286,
 'Award Winning': 231,
 'Avant Garde': 198,
 'Boys Love': 146,
 'Gourmet': 132,
 'Girls Love': 95,
 'Erotica': 58}

Có tổng cộng 21 thể loại, 1617 producer, và 1132 Studios khác nhau còn các giá trị còn lại `UNKNOWN`.


#### Nhận xét chung

- Các giá trị của các cột và các hàng sau khi tiền xử lý không có gì bất thường, các con số đều phù hợp với ý nghĩa của từng cột dữ liệu.
- Phần lớn các giá trị thiếu nằm ở ở các cột chứa thông tin của anime, điều này không quá bất ngờ vì khó mà có thể thu thập đủ dữ liệu của các anime mới ra hoặc các anime không nổi tiếng không được nhiều người biết tới.
- Các cột Episodes, Type và Popularity có giá trị bị thiếu rất ít hoặc không có do đó các cột này rất có giá trị trong việc đánh giá và xử lý trong bộ dữ liệu này.
- Các giá trị số các cột Score, Scored By, Rank là những thông tin hữu ích để đánh giá, xếp hạng anime. Tuy nhiên các cột này có tỉ lệ bị thiếu dữ liệu tương đối cao nên cần phải cân nhắc khi sử dụng chúng để phân tích dữ liệu.
- Các cột số cũng có các khoảng giá trị phù hợp với tên cột.
- Các cột có nhiều giá trị trong một ô là có số lượng giá trị bị mất nhiều nhất còn các cột phân loại có một giá trị thì hầu như dữ liệu rất đầy đủ. Cho thấy là thông tin Producers hay Studios của một anime có thể không được công bố hoặc rất khó để tìm kiếm thông tin này.

Vậy cuối cùng ta sẽ xuất file vừa tiền xử lý để dùng cho việc trả lời các câu hỏi.

In [30]:
anime_df.to_csv('anime_preprocessing.csv', index=False)