In [2]:
import pandas as pd
import numpy as np
import re
from textblob import TextBlob
from sklearn.preprocessing import MinMaxScaler
from tqdm.notebook import tqdm

In [3]:
# Load dữ liệu đã làm sạch
df = pd.read_csv("cleaned_data_clean_only.csv")

In [4]:
# --- Đặc trưng cảm xúc (sentiment polarity) ---
def get_sentiment(text):
    try:
        return TextBlob(text).sentiment.polarity  # -1 đến 1
    except:
        return 0

print("🧠 Đang tính sentiment polarity...")
sentiments = []
for i, text in enumerate(tqdm(df['clean_text'].tolist(), desc="🧠 Sentiment", unit="text")):
    sentiments.append(get_sentiment(text))
    if (i + 1) % 50 == 0 or (i + 1) == len(df):
        percent = (i + 1) * 100 / len(df)
        print(f"➡️ Đã tính {i + 1}/{len(df)} sentiment ({percent:.2f}%)")
df['sentiment'] = sentiments

🧠 Đang tính sentiment polarity...


🧠 Sentiment:   0%|          | 0/89712 [00:00<?, ?text/s]

➡️ Đã tính 50/89712 sentiment (0.06%)
➡️ Đã tính 100/89712 sentiment (0.11%)
➡️ Đã tính 150/89712 sentiment (0.17%)
➡️ Đã tính 200/89712 sentiment (0.22%)
➡️ Đã tính 250/89712 sentiment (0.28%)
➡️ Đã tính 300/89712 sentiment (0.33%)
➡️ Đã tính 350/89712 sentiment (0.39%)
➡️ Đã tính 400/89712 sentiment (0.45%)
➡️ Đã tính 450/89712 sentiment (0.50%)
➡️ Đã tính 500/89712 sentiment (0.56%)
➡️ Đã tính 550/89712 sentiment (0.61%)
➡️ Đã tính 600/89712 sentiment (0.67%)
➡️ Đã tính 650/89712 sentiment (0.72%)
➡️ Đã tính 700/89712 sentiment (0.78%)
➡️ Đã tính 750/89712 sentiment (0.84%)
➡️ Đã tính 800/89712 sentiment (0.89%)
➡️ Đã tính 850/89712 sentiment (0.95%)
➡️ Đã tính 900/89712 sentiment (1.00%)
➡️ Đã tính 950/89712 sentiment (1.06%)
➡️ Đã tính 1000/89712 sentiment (1.11%)
➡️ Đã tính 1050/89712 sentiment (1.17%)
➡️ Đã tính 1100/89712 sentiment (1.23%)
➡️ Đã tính 1150/89712 sentiment (1.28%)
➡️ Đã tính 1200/89712 sentiment (1.34%)
➡️ Đã tính 1250/89712 sentiment (1.39%)
➡️ Đã tính 1300/8971

In [5]:
# --- Các đặc trưng cấu trúc văn bản ---
print("🔢 Đang tạo các đặc trưng thống kê từ văn bản...")
char_count = []
word_count = []
capital_ratio = []
punctuation_ratio = []

for i, text in enumerate(tqdm(df['clean_text'].tolist(), desc="🔤 Stats", unit="text")):
    char_count.append(len(text))
    word_count.append(len(text.split()))
    capital_ratio.append(sum(1 for c in text if c.isupper()) / len(text) if len(text) > 0 else 0)
    punctuation_ratio.append(sum(1 for c in text if c in '!?') / len(text) if len(text) > 0 else 0)
    if (i + 1) % 50 == 0 or (i + 1) == len(df):
        percent = (i + 1) * 100 / len(df)
        print(f"➡️ Đã xử lý {i + 1}/{len(df)} dòng ({percent:.2f}%)")

df['char_count'] = char_count
df['word_count'] = word_count
df['capital_ratio'] = capital_ratio
df['punctuation_ratio'] = punctuation_ratio

🔢 Đang tạo các đặc trưng thống kê từ văn bản...


🔤 Stats:   0%|          | 0/89712 [00:00<?, ?text/s]

➡️ Đã xử lý 50/89712 dòng (0.06%)
➡️ Đã xử lý 100/89712 dòng (0.11%)
➡️ Đã xử lý 150/89712 dòng (0.17%)
➡️ Đã xử lý 200/89712 dòng (0.22%)
➡️ Đã xử lý 250/89712 dòng (0.28%)
➡️ Đã xử lý 300/89712 dòng (0.33%)
➡️ Đã xử lý 350/89712 dòng (0.39%)
➡️ Đã xử lý 400/89712 dòng (0.45%)
➡️ Đã xử lý 450/89712 dòng (0.50%)
➡️ Đã xử lý 500/89712 dòng (0.56%)
➡️ Đã xử lý 550/89712 dòng (0.61%)
➡️ Đã xử lý 600/89712 dòng (0.67%)
➡️ Đã xử lý 650/89712 dòng (0.72%)
➡️ Đã xử lý 700/89712 dòng (0.78%)
➡️ Đã xử lý 750/89712 dòng (0.84%)
➡️ Đã xử lý 800/89712 dòng (0.89%)
➡️ Đã xử lý 850/89712 dòng (0.95%)
➡️ Đã xử lý 900/89712 dòng (1.00%)
➡️ Đã xử lý 950/89712 dòng (1.06%)
➡️ Đã xử lý 1000/89712 dòng (1.11%)
➡️ Đã xử lý 1050/89712 dòng (1.17%)
➡️ Đã xử lý 1100/89712 dòng (1.23%)
➡️ Đã xử lý 1150/89712 dòng (1.28%)
➡️ Đã xử lý 1200/89712 dòng (1.34%)
➡️ Đã xử lý 1250/89712 dòng (1.39%)
➡️ Đã xử lý 1300/89712 dòng (1.45%)
➡️ Đã xử lý 1350/89712 dòng (1.50%)
➡️ Đã xử lý 1400/89712 dòng (1.56%)
➡️ Đã xử lý 

In [6]:
# --- Chuẩn hóa các đặc trưng phụ ---
print("📏 Đang chuẩn hóa các đặc trưng phụ...")
feature_cols = ['sentiment', 'char_count', 'word_count', 'capital_ratio', 'punctuation_ratio']
scaler = MinMaxScaler()
X_features = scaler.fit_transform(df[feature_cols])

📏 Đang chuẩn hóa các đặc trưng phụ...


In [7]:
# --- Lưu đặc trưng phụ để sử dụng cùng embedding sau ---
np.save("X_features_scaled.npy", X_features)
df.to_csv("cleaned_data_with_features.csv", index=False)
print("✅ Đã lưu đặc trưng nâng cao vào: X_features_scaled.npy và cleaned_data_with_features.csv")

✅ Đã lưu đặc trưng nâng cao vào: X_features_scaled.npy và cleaned_data_with_features.csv
