In [None]:
# Import thư viện pandas và numpy
import pandas as pd
import numpy as np

# Câu 1: Đọc dữ liệu & Data Structures
# Đọc file ratings.csv vào biến ratings
ratings = pd.read_csv('ratings.csv')
# Hiển thị 5 dòng đầu tiên của ratings
print(ratings.head())
# Cho biết kích thước, kiểu dữ liệu và thông tin tổng quát của ratings
print(ratings.shape)
print(ratings.dtypes)
print(ratings.info())

# Đọc file movies.csv vào biến movies
movies = pd.read_csv('movies.csv')
# Hiển thị 5 dòng đầu tiên của movies
print(movies.head())
# Cho biết kích thước, kiểu dữ liệu và thông tin tổng quát của movies
print(movies.shape)
print(movies.dtypes)
print(movies.info())

# Câu 2: Xử lý dữ liệu bị thiếu/ không hợp lệ
# Kiểm tra xem có dữ liệu bị thiếu (NaN) hay không
print(ratings.isna().sum())
print(movies.isna().sum())
# Kết quả cho thấy không có dữ liệu bị thiếu trong cả hai bảng

# Kiểm tra xem có dữ liệu bị trùng lặp hay không
print(ratings.duplicated().sum())
print(movies.duplicated().sum())
# Kết quả cho thấy không có dữ liệu bị trùng lặp trong cả hai bảng

# Kiểm tra xem có dữ liệu bị không hợp lệ hay không
# Ví dụ: ratings nằm ngoài khoảng [0.5, 5.0] hoặc timestamp âm
print(ratings[(ratings['rating'] < 0.5) | (ratings['rating'] > 5.0)])
print(ratings[ratings['timestamp'] < 0])
# Kết quả cho thấy không có dữ liệu bị không hợp lệ trong bảng ratings

# Câu 3: Gộp DataFrame
# Gộp hai bảng ratings và movies theo cột movieId
data = pd.merge(ratings, movies, on='movieId')
# Hiển thị 5 dòng đầu tiên của data
print(data.head())
# Cho biết kích thước, kiểu dữ liệu và thông tin tổng quát của data
print(data.shape)
print(data.dtypes)
print(data.info())

# Câu 4: Lọc dữ liệu theo yêu cầu
# Lọc ra những bộ phim có thể loại là Comedy
comedy = data[data['genres'].str.contains('Comedy')]
# Hiển thị 5 dòng đầu tiên của comedy
print(comedy.head())

# Lọc ra những bộ phim có năm sản xuất là 2015
# Tạo một cột mới là year bằng cách lấy năm từ cột title
data['year'] = data['title'].str.extract('(\(\d{4}\))', expand=False)
data['year'] = data['year'].str.extract('(\d{4})', expand=False)
# Lọc ra những dòng có year bằng 2015
year_2015 = data[data['year'] == '2015']
# Hiển thị 5 dòng đầu tiên của year_2015
print(year_2015.head())

# Lọc ra những bộ phim có rating trung bình cao hơn 4
# Tạo một bảng mới là mean_rating bằng cách nhóm data theo movieId và tính mean của rating
mean_rating = data.groupby('movieId')['rating'].mean()
# Lọc ra những movieId có mean_rating lớn hơn 4
high_rating = mean_rating[mean_rating > 4]
# Hiển thị 5 dòng đầu tiên của high_rating
print(high_rating.head())

# Câu 5: Thống kê dữ liệu
# Tính số lượng ratings, rating trung bình, rating độ lệch chuẩn của mỗi bộ phim
# Sử dụng hàm agg để áp dụng nhiều hàm thống kê cho cột rating sau khi nhóm theo movieId
stats = data.groupby('movieId')['rating'].agg(['count', 'mean', 'std'])
# Đổi tên các cột cho phù hợp
stats.columns = ['num_ratings', 'avg_rating', 'std_rating']
# Hiển thị 5 dòng đầu tiên của stats
print(stats.head())

# Tính số lượng bộ phim, số lượng ratings, rating trung bình, rating độ lệch chuẩn của mỗi thể loại
# Tạo một bảng mới là genres bằng cách tách cột genres thành nhiều cột nhị phân cho mỗi thể loại
genres = data['genres'].str.get_dummies(sep='|')
# Nối bảng genres với bảng data theo cột index
data_genres = pd.concat([data, genres], axis=1)
# Nhóm data_genres theo movieId và tính tổng của các cột thể loại
genres_count = data_genres.groupby('movieId')[genres.columns].sum()
# Loại bỏ những dòng có tổng bằng 0, nghĩa là không có thể loại nào
genres_count = genres_count[genres_count.sum(axis=1) > 0]
# Nối bảng genres_count với bảng stats theo cột index
stats_genres = pd.concat([stats, genres_count], axis=1)
# Nhóm stats_genres theo từng thể loại và tính mean của các cột thống kê
stats_by_genres = stats_genres.groupby(genres.columns).mean()
# Hiển thị kết quả của stats_by_genres
print(stats_by_genres)

# Câu 6: Parsing Timestamps
# Chuyển đổi cột timestamp từ kiểu int sang kiểu datetime
data['datetime'] = pd.to_datetime(data['timestamp'], unit='s')
# Hiển thị 5 dòng đầu tiên của data
print(data.head())
# Tạo một cột mới là month bằng cách lấy tháng từ cột datetime
data['month'] = data['datetime'].dt.month
# Tạo một bảng mới là ratings_by_month bằng cách nhóm data theo month và tính mean của rating
ratings_by_month = data.groupby('month')['rating'].mean()
# Hiển thị kết quả của ratings_by_month
print(ratings_by_month)
