In [1]:
## KHỞI TẠO VÀ TẢI DỮ LIỆU SẠCH

import pandas as pd
import sys
import os

# 1. Đảm bảo có thể import file preprocessing.py
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))

# Import các hàm từ module preprocessing
from src.preprocessing import (
    normalize_text, 
    remove_stopwords, 
    build_similarity_text, 
    build_full_text,
    load_and_process_data
)

# Đường dẫn đến file dữ liệu sạch
DATA_PATH = '../data/clean_movies.csv'

# 2. Chạy hàm chính để load và xử lý dữ liệu
try:
    df_processed = load_and_process_data(DATA_PATH)
    print("\n--- 1. Kiểm tra Dữ liệu Đã Xử lý ---")
    print(f"Kích thước DataFrame: {df_processed.shape}")
    print(df_processed.head(2).T) # In 2 dòng đầu tiên, xoay ngang để dễ xem
except FileNotFoundError:
    print(f"LỖI: Hãy đảm bảo file '{DATA_PATH}' tồn tại và đúng đường dẫn.")

--- Bắt đầu tạo cột văn bản đầu vào cho mô hình ---
--- Hoàn tất tạo văn bản xử lý ---

--- 1. Kiểm tra Dữ liệu Đã Xử lý ---
Kích thước DataFrame: (9947, 11)
                                                                 0  \
title                                              The Idea of You   
year                                                          2023   
genre                                       Comedy, Drama, Romance   
rating                                                         6.4   
description      Solène, a 40-year-old single mom, begins an un...   
director                                         Michael Showalter   
cast             Anne Hathaway, Nicholas Galitzine, Ella Rubin,...   
poster           https://m.media-amazon.com/images/M/MV5BYWRkZj...   
review           This film, as well as the reaction to it, is a...   
similarity_text  idea comedy drama romance solene 40 year old s...   
full_text        the idea of you comedy drama romance solene a ...   

 

In [2]:
print("\n--- 2. Test Hàm normalize_text ---")
test_text = "TÍT LỚN, phim HÀNH động/Phiêu Lưu! (2023) - The best."
print(f"Input: {test_text}")

normalized = normalize_text(test_text)
print(f"Output (Chuẩn hóa): {normalized}")

# Kết quả mong đợi: tit lon phim hanh dong phieu luu 2023 the best


--- 2. Test Hàm normalize_text ---
Input: TÍT LỚN, phim HÀNH động/Phiêu Lưu! (2023) - The best.
Output (Chuẩn hóa): tit lon phim hanh ong phieu luu 2023 the best


In [3]:
print("\n--- 3. Test Hàm remove_stopwords (TF-IDF) ---")
test_text_norm = "this is a movie about great adventures and the action scenes are amazing"
print(f"Input: {test_text_norm}")

stopword_removed = remove_stopwords(test_text_norm)
print(f"Output (Xóa Stopwords): {stopword_removed}")

# Kết quả mong đợi: movie great adventures action scenes amazing


--- 3. Test Hàm remove_stopwords (TF-IDF) ---
Input: this is a movie about great adventures and the action scenes are amazing
Output (Xóa Stopwords): movie great adventures action scenes amazing


In [4]:
# Lấy một dòng dữ liệu mẫu
sample_row = df_processed.iloc[1]

print("\n--- 4. So sánh Output TF-IDF vs SBERT ---")

print("\n[A] TEXT CHO TF-IDF (similarity_text - Đã Xóa Stopwords):")
print(sample_row['similarity_text'])
# Kết quả sẽ ngắn gọn, chỉ giữ lại từ khóa.

print("\n[B] TEXT CHO SBERT (full_text - Giữ Nguyên Ngữ cảnh):")
print(sample_row['full_text'])
# Kết quả sẽ dài hơn, giữ lại 'a', 'the', 'is',...


--- 4. So sánh Output TF-IDF vs SBERT ---

[A] TEXT CHO TF-IDF (similarity_text - Đã Xóa Stopwords):
kingdom planet apes action adventure sci fi years reign caesar young ape goes journey lead question s taught past make choices define future apes humans alike m big fan planet apes nailed usually start milking series like come bad amazing cinematography great acting succeeded movies just deserve watched big screen movie intrigued interested storyline unlike lot movies ve seen year m looking forward come assure watching matter grab popcorn enjoy phenomenal graphics movies offer godspeed wes ball owen teague freya allan kevin durand peter macon

[B] TEXT CHO SBERT (full_text - Giữ Nguyên Ngữ cảnh):
kingdom of the planet of the apes action adventure sci fi many years after the reign of caesar a young ape goes on a journey that will lead him to question everything he s been taught about the past and make choices that will define a future for apes and humans alike i m a big fan of all the p

In [5]:
# Kiểm tra số lượng dòng trống rỗng sau khi xử lý (ngoại trừ NaN)
empty_tfidf = (df_processed['similarity_text'].str.strip() == '').sum()
empty_sbert = (df_processed['full_text'].str.strip() == '').sum()

print("\n--- 5. Kiểm tra Chuỗi rỗng ---")
print(f"Số lượng phim có 'similarity_text' rỗng: {empty_tfidf}")
print(f"Số lượng phim có 'full_text' rỗng: {empty_sbert}")

# Nếu các giá trị này là 0 (hoặc rất gần 0) thì dữ liệu của bạn đã sạch!


--- 5. Kiểm tra Chuỗi rỗng ---
Số lượng phim có 'similarity_text' rỗng: 0
Số lượng phim có 'full_text' rỗng: 0
