In [3]:
# -*- coding: utf-8 -*-
# Tên tệp: film_review_data_loader.py
# Mô tả:
# Đoạn mã này tạo ra một tập dữ liệu đánh giá phim giả lập,
# sau đó lưu nó vào một tệp CSV và tải lại vào DataFrame.

# Cài đặt các thư viện cần thiết nếu bạn chưa có:
# pip install pandas numpy Faker

import pandas as pd
import numpy as np
from faker import Faker
import os

# Khởi tạo Faker để tạo dữ liệu giả lập
fake_en = Faker('en_US') # Use for English-based text generation
fake_vi = Faker('vi_VN') # Use for Vietnamese-based text generation

def generate_realistic_review_text(rating):
    """
    Tạo văn bản đánh giá chân thực dựa trên điểm số (rating).
    """
    if rating >= 8:
        # Reviews with positive tone
        review = (f"This film is a masterpiece! The acting is phenomenal, "
                  f"and the story is deeply moving. Highly recommend it.")
    elif rating >= 5:
        # Reviews with a mixed or neutral tone
        review = (f"An average movie with some good moments, but it fails to leave a lasting impression. "
                  f"The plot is a bit predictable, but it's okay for a casual watch.")
    else:
        # Reviews with a negative or critical tone
        review = (f"Completely disappointed. The plot is weak, and the characters are unconvincing. "
                  f"A huge waste of time, I would not watch it again.")

    return review

def create_and_load_dataset(filepath="filmReview_1.csv"):
    """
    Tạo một bộ dữ liệu đánh giá phim giả lập, lưu vào CSV và tải lại.

    Args:
        filepath (str): Đường dẫn tệp để lưu và tải dữ liệu.
    """
    print("--- Bước 1: Tạo bộ dữ liệu đánh giá phim giả lập ---")

    # Số lượng dữ liệu
    num_films = 200
    num_users = 500
    num_reviews = 5000

    # Danh sách các bộ phim nổi tiếng
    film_titles = [f'Phim_title_{i+1}' for i in range(num_films)]

    # Danh sách người dùng
    user_ids = [f'user_{i+1:03d}' for i in range(num_users)]
    user_names = [fake_vi.name() for _ in range(num_users)]

    # Tạo DataFrame rỗng
    reviews_df = pd.DataFrame()

    # Tạo dữ liệu ngẫu nhiên cho 5000 đánh giá
    print(f"Đang tạo {num_reviews} đánh giá...")
    reviews_df['review_id'] = range(1, num_reviews + 1)
    reviews_df['user_id'] = np.random.choice(user_ids, size=num_reviews, replace=True)
    
    # Gán tên người dùng tương ứng
    user_id_to_name = dict(zip(user_ids, user_names))
    reviews_df['user_name'] = reviews_df['user_id'].map(user_id_to_name)
    
    reviews_df['film_title'] = np.random.choice(film_titles, size=num_reviews, replace=True)
    reviews_df['rating'] = np.random.randint(1, 11, size=num_reviews) # Xếp hạng từ 1 đến 10
    
    # Tạo văn bản đánh giá chân thực hơn dựa trên điểm số
    reviews_df['review_text'] = reviews_df['rating'].apply(generate_realistic_review_text)
    
    # Tạo ngày đánh giá giả lập
    reviews_df['review_date'] = [fake_vi.date_between(start_date='-5y', end_date='today') for _ in range(num_reviews)]
    
    # Sắp xếp các cột theo yêu cầu
    reviews_df = reviews_df[['review_id', 'user_id', 'user_name', 'film_title', 'rating', 'review_text', 'review_date']]
    
    print("Hoàn thành việc tạo DataFrame.")
    print("Thông tin DataFrame giả lập:")
    reviews_df.info()
    print("\n")
    
    # Lưu DataFrame vào tệp CSV
    print(f"--- Bước 2: Lưu DataFrame vào tệp tin '{filepath}' ---")
    reviews_df.to_csv(filepath, index=False, encoding='utf-8-sig')
    print(f"Đã lưu thành công DataFrame vào '{filepath}'.")
    print("\n")

    # Tải lại DataFrame từ tệp CSV
    print(f"--- Bước 3: Tải DataFrame từ tệp tin '{filepath}' ---")
    if os.path.exists(filepath):
        loaded_df = pd.read_csv(filepath)
        print("Đã tải DataFrame thành công.")
        print("Thông tin về DataFrame đã tải:")
        loaded_df.info()
        print("\n")
        print("5 hàng đầu tiên của DataFrame đã tải:")
        print(loaded_df.head())
    else:
        print(f"Không tìm thấy tệp tin '{filepath}' để tải.")

# Gọi hàm chính
if __name__ == "__main__":
    create_and_load_dataset()


--- Bước 1: Tạo bộ dữ liệu đánh giá phim giả lập ---
Đang tạo 5000 đánh giá...
Hoàn thành việc tạo DataFrame.
Thông tin DataFrame giả lập:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   review_id    5000 non-null   int64 
 1   user_id      5000 non-null   object
 2   user_name    5000 non-null   object
 3   film_title   5000 non-null   object
 4   rating       5000 non-null   int32 
 5   review_text  5000 non-null   object
 6   review_date  5000 non-null   object
dtypes: int32(1), int64(1), object(5)
memory usage: 254.0+ KB


--- Bước 2: Lưu DataFrame vào tệp tin 'filmReview_1.csv' ---
Đã lưu thành công DataFrame vào 'filmReview_1.csv'.


--- Bước 3: Tải DataFrame từ tệp tin 'filmReview_1.csv' ---
Đã tải DataFrame thành công.
Thông tin về DataFrame đã tải:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns 