# PHÂN TÍCH DỮ LIỆU, ĐẶT VÀ TRẢ LỜI CÂU HỎI

## 1. Import thư viện cần thiết

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## 2. Đọc dữ liệu từ file csv

In [None]:
anime23_df = pd.read_csv('anime23_preprocessing.csv')
anime23_df.head()

## 3. Đặt câu hỏi

### Câu 1

### Câu 2

 Trong năm 2023, nguồn tài liệu (Source) nào được chọn để sản xuất nhiều anime nhất? Animes xuất bản theo nguồn tài liệu nào được nhiều người quan tâm (Members) và yêu thích nhất (Favorites)?


Trả lời câu hỏi này ta biết được xu hướng sản xuất anime của các nhà làm phim trong năm nay thường chọn nguồn tài liệu nào. Và dựa trên các bộ anime đã xuất bản thì trong năm nay xu hướng người xem quan tâm và yêu thích những bộ anime thuộc nguồn gốc nào nhất.

### Câu 3

## 4. Trả lời câu hỏi

### Câu 1

### Câu 2


Tiến hành lọc thông tin cột Source để xem có tổng cộng bao nhiêu nguồn gốc được lựa chọn sản xuất anime trong năm 2023

In [None]:
source_df=anime23_df['Source'].unique()
source_df

Chúng ta sẽ làm việc trên 3 cột Source, Favorites và Members để trả lời câu hỏi, nên ta sẽ lấy dữ liệu của 3 cột này

In [None]:
filtered_df=anime23_df[['Source','Favorites','Members']]
filtered_df

Tiến hành thống kê số lượng phim, tổng số và trung bình người quan tâm và yêu thích theo từng loại nguồn phim 

In [None]:
new_df=filtered_df.copy()
group_df=new_df.groupby('Source').agg({'Favorites': ['count', 'sum', 'mean'], 'Members': ['count', 'sum', 'mean']})
group_df.columns = ['Favorites_count', 'Favorites_sum', 'Favorites_mean', 'Members_count', 'Members_sum', 'Members_mean']
group_df=group_df.reset_index()
group_df

Vì cột Favorites_count và Members_count cũng đều là tính số lượng phim nên dễ dàng nhìn thấy hai cột này là một, ta tiến hành giữ lại một cột và đặt lại tên là Count, rồi xóa đi một cột nhé

In [None]:
group_df.rename(columns={'Favorites_count': 'Count'}, inplace=True)
group_df.drop('Members_count', axis=1, inplace=True)
group_df

Như vậy là đã hoàn thành việc xử lý dữ liệu 

#### Thống kê lượng phim theo từng nguồn phim

In [None]:
# Lấy dữ liệu từ group_df
sources = group_df['Source']
count = group_df['Count']

# Vẽ biểu đồ cột
plt.figure(figsize=(10, 6))
bars = plt.bar(sources, count, color='skyblue')
plt.xlabel('Sources')
plt.ylabel('Count')
plt.title('Number of Movies by Source')
plt.xticks(rotation=70)
plt.tight_layout()

# Gắn số liệu ở giữa đỉnh mỗi cột
for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width() / 2, yval, round(yval, 2), ha='center', va='bottom')

plt.show()


In [None]:
# Vẽ biểu đồ tròn
plt.figure(figsize=(8, 8))
wedges, texts, autotexts = plt.pie(count, labels=None, autopct='%1.1f%%', startangle=140, colors=plt.cm.tab20.colors)
plt.title('Percentage of Movies by Source')

plt.legend(wedges, sources, loc='center left', bbox_to_anchor=(1, 0.5), title='Sources')

plt.axis('equal')  
plt.tight_layout()
plt.show()

#### Nhận xét

- Trong năm 2023, xu hướng sản xuất phim thường chọn các nguồn từ Original, Manga
  + Original nhiều nhất với 9622 bộ chiếm 38,6% 
  + Manga xếp thứ nhì với 4687 bộ chiếm 18,8%
- Như vậy, ta có thể thấy trong năm 2023 các nhà sản xuất anime ưu tiên việc chuyển thể các bộ phim từ nguyên tác và từ Manga. Bởi vì Original và Manga thường có cốt truyện phong phú và sâu sắc, giúp nhà làm phim xây dựng nên nền tảng nội dung vững chắc nên thường được các nhà làm phim ưu ái lựa chọn.
- Tuy nhiên, ngoài hai nguồn này chiếm số lượng lớn thì trong năm 2023, vẫn còn có đa dạng nhiều nguồn khác như: Game (4,9%), Visual novel (4,4%), Light novel (3,9%)

#### Thống kê lượng người quan tâm trung bình theo từng nguồn phim 

In [None]:
# Lấy dữ liệu từ group_df
sources = group_df['Source']
members = group_df['Members_mean']

# Vẽ biểu đồ cột
plt.figure(figsize=(10, 6))
bars = plt.bar(sources, members, color='skyblue')
plt.xlabel('Sources')
plt.ylabel('Members')
plt.title('Average number of members by source')
plt.xticks(rotation=70)
plt.tight_layout()

for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width() / 2, yval, round(yval, 2), ha='center', va='bottom', fontsize=8)

plt.show()

In [None]:
# Vẽ biểu đồ tròn
plt.figure(figsize=(8, 8))
wedges, texts, autotexts = plt.pie(members, labels=None, autopct='%1.1f%%', startangle=140, colors=plt.cm.tab20.colors)
plt.title('Percentage of average of members by Source')

plt.legend(wedges, sources, loc='center left', bbox_to_anchor=(1, 0.5), title='Sources')

plt.axis('equal')  
plt.tight_layout()
plt.show()

#### Nhận xét:

- Tuy lượng phim sản xuất lấy nguồn từ Light novel chỉ chiếm 3,9% tổng số phim năm nay nhưng lại nhận về độ quan tâm trung bình của khán giả cao nhất 31,3%. Điều này chứng tỏ các anime có nguồn từ Light novel tiếp cận đến khán giả khá tốt và dàn trải.
- Tiếp theo là Manga với độ quan tâm trung bình của khán giả là 15%, Web manga với độ quan tâm trung bình là 14,1%
- Tuy nguồn từ Original được sản xuất nhiều phim nhất nhưng độ quan tâm trung bình lại khá thấp chỉ 2,3%
- Qua các thông số này, các nhà làm phim có thể hiểu rõ hơn về sở thích của khán giả, từ đó điều chỉnh chiến lược sản xuất và đáp ứng nhu cầu thị trường một cách hiệu quả.

#### Thống kê lượng người yêu thích trung bình theo từng nguồn phim 

In [None]:
# Lấy dữ liệu từ group_df
sources = group_df['Source']
favorites = group_df['Favorites_mean']

# Vẽ biểu đồ cột
plt.figure(figsize=(10, 6))
bars = plt.bar(sources, favorites, color='skyblue')
plt.xlabel('Sources')
plt.ylabel('Favorites')
plt.title('Average number of favorites by source')
plt.xticks(rotation=70)
plt.tight_layout()

for bar in bars:
    yval = bar.get_height()
    plt.text(bar.get_x() + bar.get_width() / 2, yval, round(yval, 2), ha='center', va='bottom', fontsize=8)

plt.show()

In [None]:
# Vẽ biểu đồ tròn
plt.figure(figsize=(8, 8))
wedges, texts, autotexts = plt.pie(favorites, labels=None, autopct='%1.1f%%', startangle=140, colors=plt.cm.tab20.colors)
plt.title('Percentage of average of favorites by Source')

plt.legend(wedges, sources, loc='center left', bbox_to_anchor=(1, 0.5), title='Sources')

plt.axis('equal')  
plt.tight_layout()
plt.show()

#### Nhận xét:

- Light novel chiếm độ yêu thích trung bình lớn nhất đến 29,1% và tiếp theo là Manga là 20,5%
- Tương tự như độ quan tâm trung bình thì đa phần khán giả cũng bày tỏ yêu thích cho các bộ anime có nguồn từ Light novel và Manga một cách đồng đều. 
- Đây cũng là một số liệu giúp các nhà làm phim cân nhắc thử sức sản xuất anime từ nguồn Light novel hay đa dạng các nguồn khác nhiều hơn như: Web Manga (15,1%), 4-koma manga (7,7%), ...

### Câu 3

# PHẢN ÁNH

## 1. Bạn đã gặp những khó khăn gì?

### Hân

### Khuê

- Chưa biết cách khai thác sâu và nhiều khía cạch của dữ liệu
- Việc xử lý dữ liệu còn khá sơ sài
- Chưa biết cách mở rộng câu hỏi để phán ảnh nhiều hơn về nguồn dữ liệu

### Tuấn

## 2. Bạn đã học được những gì

### Hân

### Khuê

- Học được cách xử lý và hiểu nhiều hơn về một bộ dữ liệu có nhiều tính chất
- Biết được có những dữ liệu sẽ có những cột không cần thiết và không có ích cho quá trình đánh giá dữ liệu


### Tuấn

## 3. Nếu có nhiều thời gian hơn bạn sẽ làm gì?