In [1]:
# data_augmentation_adv.ipynb – Back-translation + làm sạch nâng cao trong Jupyter
import pandas as pd
import re
import emoji
from tqdm.notebook import tqdm
from transformers import MarianMTModel, MarianTokenizer
from langdetect import detect
import contractions

In [2]:
# Load dữ liệu đã làm sạch
df = pd.read_csv("cleaned_data.csv")

In [12]:
# --- Làm sạch nâng cao ---
def clean_advanced(text):
    text = contractions.fix(text)  # mở rộng từ viết tắt
    text = emoji.replace_emoji(text, replace="")  # xoá emoji
    text = re.sub(r"\b\d+\s?(kg|km|cm|lb|%|°c|°f|m|mm|in|s|h)?\b", "", text, flags=re.IGNORECASE)  # đơn vị đo
    text = re.sub(r"[^a-zA-Z\s]", "", text)  # chỉ giữ chữ cái và khoảng trắng
    return text

# Lọc tiếng Anh
def is_english(text):
    try:
        return detect(text) == 'en'
    except:
        return False

# --- Tiến trình làm sạch và lọc ---
print("🧹 Đang lọc dữ liệu chỉ giữ tiếng Anh...")
english_flags = []
for i, text in enumerate(tqdm(df['clean_text'].tolist(), desc="🌍 Detecting English", unit="text")):
    english_flags.append(is_english(text))
    if (i + 1) % 50 == 0 or (i + 1) == len(df):
        percent = (i + 1) * 100 / len(df)
        print(f"➡️ Kiểm tra ngôn ngữ {i + 1}/{len(df)} mẫu ({percent:.2f}%)")

df = df[english_flags].reset_index(drop=True)

print("🧼 Đang làm sạch văn bản nâng cao...")
df['clean_text'] = [clean_advanced(t) for t in tqdm(df['clean_text'].tolist(), desc="🧽 Cleaning", unit="text")]

🧹 Đang lọc dữ liệu chỉ giữ tiếng Anh...


🌍 Detecting English:   0%|          | 0/89738 [00:00<?, ?text/s]

➡️ Kiểm tra ngôn ngữ 50/89738 mẫu (0.06%)
➡️ Kiểm tra ngôn ngữ 100/89738 mẫu (0.11%)
➡️ Kiểm tra ngôn ngữ 150/89738 mẫu (0.17%)
➡️ Kiểm tra ngôn ngữ 200/89738 mẫu (0.22%)
➡️ Kiểm tra ngôn ngữ 250/89738 mẫu (0.28%)
➡️ Kiểm tra ngôn ngữ 300/89738 mẫu (0.33%)
➡️ Kiểm tra ngôn ngữ 350/89738 mẫu (0.39%)
➡️ Kiểm tra ngôn ngữ 400/89738 mẫu (0.45%)
➡️ Kiểm tra ngôn ngữ 450/89738 mẫu (0.50%)
➡️ Kiểm tra ngôn ngữ 500/89738 mẫu (0.56%)
➡️ Kiểm tra ngôn ngữ 550/89738 mẫu (0.61%)
➡️ Kiểm tra ngôn ngữ 600/89738 mẫu (0.67%)
➡️ Kiểm tra ngôn ngữ 650/89738 mẫu (0.72%)
➡️ Kiểm tra ngôn ngữ 700/89738 mẫu (0.78%)
➡️ Kiểm tra ngôn ngữ 750/89738 mẫu (0.84%)
➡️ Kiểm tra ngôn ngữ 800/89738 mẫu (0.89%)
➡️ Kiểm tra ngôn ngữ 850/89738 mẫu (0.95%)
➡️ Kiểm tra ngôn ngữ 900/89738 mẫu (1.00%)
➡️ Kiểm tra ngôn ngữ 950/89738 mẫu (1.06%)
➡️ Kiểm tra ngôn ngữ 1000/89738 mẫu (1.11%)
➡️ Kiểm tra ngôn ngữ 1050/89738 mẫu (1.17%)
➡️ Kiểm tra ngôn ngữ 1100/89738 mẫu (1.23%)
➡️ Kiểm tra ngôn ngữ 1150/89738 mẫu (1.28%)
➡️ Kiểm 

🧽 Cleaning:   0%|          | 0/89712 [00:00<?, ?text/s]

In [13]:

# Lưu dữ liệu sau khi làm sạch
output_path = "cleaned_data_clean_only.csv"
df.to_csv(output_path, index=False)
print(f"✅ Đã lưu dữ liệu đã làm sạch vào {output_path}")

✅ Đã lưu dữ liệu đã làm sạch vào cleaned_data_clean_only.csv
