In [6]:
import pandas as pd
import numpy as np
import io
movies_data = """
movieId,title,genres
1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
2,Jumanji (1995),Adventure|Children|Fantasy
3,Grumpier Old Men (1995),Comedy|Romance
4,Waiting to Exhale (1995),Comedy|Drama
5,Father of the Bride Part II (1995),Comedy
"""
movies = pd.read_csv(io.StringIO(movies_data))
ratings_data = """
userId,movieId,rating,timestamp
1,1,4.0,964981467
1,3,4.0,964982703
2,1,5.0,835355493
2,3,3.0,835355493
3,2,2.0,835355493
"""
ratings = pd.read_csv(io.StringIO(ratings_data))

print("--- 1. Đọc dữ liệu & Data Structures ---")
print("\nDataFrame 'movies' (Head):")
print(movies.head())
print("\nDataFrame 'ratings' (Head):")
print(ratings.head())
print("-" * 50)
ratings['timestamp'] = pd.to_datetime(ratings['timestamp'], unit='s')


--- 1. Đọc dữ liệu & Data Structures ---

DataFrame 'movies' (Head):
   movieId                               title  \
0        1                    Toy Story (1995)   
1        2                      Jumanji (1995)   
2        3             Grumpier Old Men (1995)   
3        4            Waiting to Exhale (1995)   
4        5  Father of the Bride Part II (1995)   

                                        genres  
0  Adventure|Animation|Children|Comedy|Fantasy  
1                   Adventure|Children|Fantasy  
2                               Comedy|Romance  
3                                 Comedy|Drama  
4                                       Comedy  

DataFrame 'ratings' (Head):
   userId  movieId  rating  timestamp
0       1        1     4.0  964981467
1       1        3     4.0  964982703
2       2        1     5.0  835355493
3       2        3     3.0  835355493
4       3        2     2.0  835355493
--------------------------------------------------


In [8]:

ratings['timestamp'] = pd.to_datetime(ratings['timestamp'], unit='s')

print("--- 2. Parsing Timestamps ---")
print("Cột 'timestamp' sau khi chuyển đổi (Head):")
print(ratings['timestamp'].head())
print(f"\nKiểu dữ liệu mới: **{ratings['timestamp'].dtype}**")
print("-" * 50)

--- 2. Parsing Timestamps ---
Cột 'timestamp' sau khi chuyển đổi (Head):
0   2000-07-30 18:24:27
1   2000-07-30 18:45:03
2   1996-06-21 11:11:33
3   1996-06-21 11:11:33
4   1996-06-21 11:11:33
Name: timestamp, dtype: datetime64[ns]

Kiểu dữ liệu mới: **datetime64[ns]**
--------------------------------------------------


In [9]:

df_merged = pd.merge(ratings, movies, on='movieId', how='inner')

print("--- 3. Gộp DataFrame (df_merged) ---")
print("DataFrame sau khi gộp (Head):")
print(df_merged.head())
print(f"\nKích thước của DataFrame gộp: **{df_merged.shape}**")
print("-" * 50)

--- 3. Gộp DataFrame (df_merged) ---
DataFrame sau khi gộp (Head):
   userId  movieId  rating           timestamp                    title  \
0       1        1     4.0 2000-07-30 18:24:27         Toy Story (1995)   
1       1        3     4.0 2000-07-30 18:45:03  Grumpier Old Men (1995)   
2       2        1     5.0 1996-06-21 11:11:33         Toy Story (1995)   
3       2        3     3.0 1996-06-21 11:11:33  Grumpier Old Men (1995)   
4       3        2     2.0 1996-06-21 11:11:33           Jumanji (1995)   

                                        genres  
0  Adventure|Animation|Children|Comedy|Fantasy  
1                               Comedy|Romance  
2  Adventure|Animation|Children|Comedy|Fantasy  
3                               Comedy|Romance  
4                   Adventure|Children|Fantasy  

Kích thước của DataFrame gộp: **(5, 6)**
--------------------------------------------------


In [10]:
print("--- 4. Xử lý dữ liệu bị thiếu/không hợp lệ ---")
null_counts = df_merged.isnull().sum()

print("Số lượng giá trị Null trên mỗi cột:")
print(null_counts)
if df_merged.isnull().sum().any():
    print("\nCó giá trị Null. Đang thực hiện loại bỏ hàng có Null...")
    df_merged.dropna(inplace=True)
else:
    print("\nKhông tìm thấy giá trị Null đáng kể trong dữ liệu đã gộp.")

print("-" * 50)

--- 4. Xử lý dữ liệu bị thiếu/không hợp lệ ---
Số lượng giá trị Null trên mỗi cột:
userId       0
movieId      0
rating       0
timestamp    0
title        0
genres       0
dtype: int64

Không tìm thấy giá trị Null đáng kể trong dữ liệu đã gộp.
--------------------------------------------------


In [5]:

df_comedy = df_merged[df_merged['genres'].str.contains('Comedy', na=False)]

print("--- 5. Lọc dữ liệu theo yêu cầu (Ví dụ: Thể loại 'Comedy') ---")
print("5 dòng đầu của các phim thể loại Comedy:")
print(df_comedy[['title', 'genres', 'rating']].head())
print(f"\nTổng số đánh giá cho phim Comedy: **{df_comedy.shape[0]}**")
print("-" * 50)

--- 5. Lọc dữ liệu theo yêu cầu (Ví dụ: Thể loại 'Comedy') ---
5 dòng đầu của các phim thể loại Comedy:
                     title                                       genres  \
0         Toy Story (1995)  Adventure|Animation|Children|Comedy|Fantasy   
1  Grumpier Old Men (1995)                               Comedy|Romance   
2         Toy Story (1995)  Adventure|Animation|Children|Comedy|Fantasy   
3  Grumpier Old Men (1995)                               Comedy|Romance   

   rating  
0     4.0  
1     4.0  
2     5.0  
3     3.0  

Tổng số đánh giá cho phim Comedy: **4**
--------------------------------------------------
