In [None]:

import pandas as pd
from nltk.sentiment.vader import SentimentIntensityAnalyzer
import nltk

# Tải dữ liệu VADER nếu sử dụng NLTK
nltk.download('vader_lexicon')

# Cài đặt tùy chọn hiển thị để không bị cắt câu
pd.set_option('display.max_colwidth', None)

# Đọc file CSV
file_path = "/content/drive/MyDrive/ForColab/dataenglish.csv"  # Đường dẫn đến file CSV của bạn
df = pd.read_csv(file_path)

# Hiển thị 5 dòng đầu tiên của dữ liệu để kiểm tra
print(df.head())


[nltk_data] Downloading package vader_lexicon to /root/nltk_data...


   ID  \
0   1   
1   1   
2   1   
3   1   
4   1   

                                                                                   COMMENT  
0      The camera takes very good photos, especially the night mode produces sharp images.  
1         The device has good compatibility with third-party applications and accessories.  
2  High quality glass and metal materials, very good, giving a solid feeling when holding.  
3  The sound quality is very good, stereo speakers for a great music listening experience.  
4                      Face ID feature is very good, faster and more accurate recognition.  


In [None]:
# Hàm phân tích cảm xúc sử dụng VADER
analyzer = SentimentIntensityAnalyzer()
def analyze_sentiment_vader(text):
    scores = analyzer.polarity_scores(text)
    if scores['compound'] >= 0.05:
        return 1 #POSITIVE
    elif scores['compound'] <= -0.05:
        return 3 #NEGATIVE
    else:
        return 2 #NEUTRAL
#Áp dụng hàm phân tích cảm xúc lên cột 'COMMENT'
df['Sentiment_Label'] = df['COMMENT'].apply(analyze_sentiment_vader)

In [None]:
# Hàm chuyển đổi nhãn số thành chuỗi (POSITIVE, NEUTRAL, NEGATIVE)
def convert_label_to_string(label):
    if label == 1:
        return "POSITIVE"
    elif label == 2:
        return "NEUTRAL"
    elif label == 3:
        return "NEGATIVE"

# Tạo một cột mới để hiển thị nhãn chuỗi
df['Sentiment_Display'] = df['Sentiment_Label'].apply(convert_label_to_string)



In [None]:
# Hiển thị kết quả cuối cùng

# Đảm bảo hiển thị toàn bộ nội dung của các ô
# pd.set_option('display.max_colwidth', None)

# Hiển thị kết quả cuối cùng
print(df[['Sentiment_Label', 'Sentiment_Display']])


     Sentiment_Label Sentiment_Display
0                  1          POSITIVE
1                  1          POSITIVE
2                  1          POSITIVE
3                  1          POSITIVE
4                  1          POSITIVE
..               ...               ...
96                 3          NEGATIVE
97                 3          NEGATIVE
98                 3          NEGATIVE
99                 3          NEGATIVE
100                3          NEGATIVE

[101 rows x 2 columns]


In [None]:

import pandas as pd

# Hàm kiểm tra và chỉnh sửa nhãn thủ công
def manual_check(COMMENT, Sentiment_Display):
    print("Đánh giá: ", COMMENT)
    print("Nhãn dự đoán: ", Sentiment_Display)
    correct_label = input("Nhập nhãn chính xác (POSITIVE/NEGATIVE/NEUTRAL) hoặc nhấn Enter để giữ nguyên: ")
    return correct_label if correct_label else Sentiment_Display


# Áp dụng hàm kiểm tra và chỉnh sửa
df['final_label'] = df.apply(lambda row: manual_check(row['COMMENT'], row['Sentiment_Display']), axis=1)

# Lưu dữ liệu đã chỉnh sửa vào tệp CSV mới
df.to_csv('/content/drive/MyDrive/ForColab/RIGHTLABEL.csv', index=False)

print("HOÀN TẤT KIỂM TRA VÀ CHỈNH SỬA NHÃN DỮ LIỆU!")

Đánh giá:  The camera takes very good photos, especially the night mode produces sharp images.
Nhãn dự đoán:  POSITIVE
Nhập nhãn chính xác (POSITIVE/NEGATIVE/NEUTRAL) hoặc nhấn Enter để giữ nguyên: 
Đánh giá:  The device has good compatibility with third-party applications and accessories.
Nhãn dự đoán:  POSITIVE
Nhập nhãn chính xác (POSITIVE/NEGATIVE/NEUTRAL) hoặc nhấn Enter để giữ nguyên: 
Đánh giá:  High quality glass and metal materials, very good, giving a solid feeling when holding.
Nhãn dự đoán:  POSITIVE
Nhập nhãn chính xác (POSITIVE/NEGATIVE/NEUTRAL) hoặc nhấn Enter để giữ nguyên: 
Đánh giá:  The sound quality is very good, stereo speakers for a great music listening experience.
Nhãn dự đoán:  POSITIVE
Nhập nhãn chính xác (POSITIVE/NEGATIVE/NEUTRAL) hoặc nhấn Enter để giữ nguyên: 
Đánh giá:  Face ID feature is very good, faster and more accurate recognition.
Nhãn dự đoán:  POSITIVE
Nhập nhãn chính xác (POSITIVE/NEGATIVE/NEUTRAL) hoặc nhấn Enter để giữ nguyên: 
Đánh giá:  Charg

In [None]:
# Tách từ
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt_tab')

# Kiểm tra xem cột 'COMMENT' có tồn tại không
if 'COMMENT' in df.columns:
    # Tách từ cho từng hàng trong cột 'COMMENT'
    df['tokenized'] = df['COMMENT'].apply(word_tokenize)

    # Hiển thị DataFrame với cột mới chứa từ đã tách
    print(df[['tokenized']].head(10))
else:
    print("Cột 'COMMENT' không tồn tại trong DataFrame.")


[nltk_data] Downloading package punkt_tab to /root/nltk_data...


                                                                                                                          tokenized
0                             [The, camera, takes, very, good, photos, ,, especially, the, night, mode, produces, sharp, images, .]
1                                     [The, device, has, good, compatibility, with, third-party, applications, and, accessories, .]
2                      [High, quality, glass, and, metal, materials, ,, very, good, ,, giving, a, solid, feeling, when, holding, .]
3                        [The, sound, quality, is, very, good, ,, stereo, speakers, for, a, great, music, listening, experience, .]
4                                               [Face, ID, feature, is, very, good, ,, faster, and, more, accurate, recognition, .]
5          [Charging, speed, is, fast, and, standard, ,, it, only, takes, less, than, an, hour, to, fully, charge, the, battery, .]
6         [Very, good, and, powerful, performance, with, the, A18, Bionic, c

[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


In [None]:
# Lọc từ dừng
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

# Tạo danh sách từ dừng tiếng Anh từ NLTK
english_stopwords = set(stopwords.words('english'))

# Lọc từ dừng cho tiếng Anh trong cột 'tokenized'
df['filtered'] = df['tokenized'].apply(lambda tokens: [w for w in tokens if w.lower() not in english_stopwords])

# Hiển thị DataFrame với các cột đã xử lý
print(df[['filtered']].head(10))


[nltk_data] Downloading package stopwords to /root/nltk_data...


                                                                                          filtered
0            [camera, takes, good, photos, ,, especially, night, mode, produces, sharp, images, .]
1                         [device, good, compatibility, third-party, applications, accessories, .]
2         [High, quality, glass, metal, materials, ,, good, ,, giving, solid, feeling, holding, .]
3              [sound, quality, good, ,, stereo, speakers, great, music, listening, experience, .]
4                                   [Face, ID, feature, good, ,, faster, accurate, recognition, .]
5               [Charging, speed, fast, standard, ,, takes, less, hour, fully, charge, battery, .]
6   [good, powerful, performance, A18, Bionic, chip, ,, quickly, handling, tasks, without, lag, .]
7  [design, iPhone, 16, truly, beautiful, ,, luxurious, sophisticated, ,, worthy, Apple, brand, .]
8                              [Call, quality, good, ,, sound, clear, ,, without, interruption, .]
9         

[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:

# Chuyển về dạng chữ thường
df['lowercase'] = df['filtered'].apply(lambda tokens: [word.lower() for word in tokens])
# Hiển thị DataFrame với cột mới chứa từ đã chuyển về chữ thường
print(df[['lowercase']].head(10))

                                                                                         lowercase
0            [camera, takes, good, photos, ,, especially, night, mode, produces, sharp, images, .]
1                         [device, good, compatibility, third-party, applications, accessories, .]
2         [high, quality, glass, metal, materials, ,, good, ,, giving, solid, feeling, holding, .]
3              [sound, quality, good, ,, stereo, speakers, great, music, listening, experience, .]
4                                   [face, id, feature, good, ,, faster, accurate, recognition, .]
5               [charging, speed, fast, standard, ,, takes, less, hour, fully, charge, battery, .]
6   [good, powerful, performance, a18, bionic, chip, ,, quickly, handling, tasks, without, lag, .]
7  [design, iphone, 16, truly, beautiful, ,, luxurious, sophisticated, ,, worthy, apple, brand, .]
8                              [call, quality, good, ,, sound, clear, ,, without, interruption, .]
9         

In [None]:
# Chuyển từ về gốc
import pandas as pd
import nltk
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import wordnet, stopwords
nltk.download('averaged_perceptron_tagger')
# Tải dữ liệu cần thiết từ NLTK nếu chưa có
nltk.download('wordnet')
nltk.download('omw-1.4')
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger_eng')

# Khởi tạo các công cụ cần thiết
stemmer_en = PorterStemmer()
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words('english'))

# Hàm hỗ trợ xác định loại từ cho lemmatizer
def get_wordnet_pos(word):
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ, "N": wordnet.NOUN, "V": wordnet.VERB, "R": wordnet.ADV}
    return tag_dict.get(tag, wordnet.NOUN)

# Hàm tách từ, chuyển về chữ thường và lọc từ dừng
def preprocess_text(text):
    tokens = nltk.word_tokenize(text.lower())  # Tách từ và chuyển về chữ thường
    filtered_tokens = [word for word in tokens if word not in stop_words]  # Lọc từ dừng
    return filtered_tokens

# Hàm chuyển từ về gốc cho tiếng Anh bằng Stemming
def stemming_words(tokens):
    return [stemmer_en.stem(word) for word in tokens]

# Hàm chuyển từ về gốc cho tiếng Anh bằng Lemmatization
def lemmatize_words(tokens):
    return [lemmatizer.lemmatize(word, pos=get_wordnet_pos(word)) for word in tokens]

# Đọc dữ liệu từ file CSV (đảm bảo đường dẫn chính xác)
file_path = '/content/drive/MyDrive/ForColab/dataenglish.csv'  # Thay thế đường dẫn file chính xác
try:
    df = pd.read_csv(file_path)
    print("Dữ liệu đã tải thành công.")
except FileNotFoundError:
    print("Không tìm thấy file. Vui lòng kiểm tra lại đường dẫn.")
except Exception as e:
    print("Lỗi khi tải dữ liệu:", e)

# Xác nhận rằng cột 'COMMENT' có tồn tại
if 'COMMENT' in df.columns:
    # Áp dụng quy trình xử lý văn bản
    df['filtered'] = df['COMMENT'].apply(preprocess_text)       # Tách từ, chuyển về chữ thường và lọc từ dừng
    df['stemmed'] = df['filtered'].apply(stemming_words)        # Chuyển về gốc từ bằng Stemming, cột 'stemmed' chứa từ gốc đơn giản hóa (stemming).
    df['lemmatized'] = df['filtered'].apply(lemmatize_words)    # Chuyển về gốc từ bằng Lemmatization, cột 'lemmatized' chứa từ về nguyên mẫu ngữ pháp (lemmatization).

    # Hiển thị 50 dòng đầu tiên của DataFrame với các cột đã xử lý
    print(df[['stemmed', 'lemmatized']].head(10))
else:
    print("Cột 'COMMENT' không tồn tại trong dữ liệu.")



[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


Dữ liệu đã tải thành công.
                                                                               stemmed  \
0          [camera, take, good, photo, ,, especi, night, mode, produc, sharp, imag, .]   
1                             [devic, good, compat, third-parti, applic, accessori, .]   
2        [high, qualiti, glass, metal, materi, ,, good, ,, give, solid, feel, hold, .]   
3          [sound, qualiti, good, ,, stereo, speaker, great, music, listen, experi, .]   
4                              [face, id, featur, good, ,, faster, accur, recognit, .]   
5        [charg, speed, fast, standard, ,, take, less, hour, fulli, charg, batteri, .]   
6  [good, power, perform, a18, bionic, chip, ,, quickli, handl, task, without, lag, .]   
7    [design, iphon, 16, truli, beauti, ,, luxuri, sophist, ,, worthi, appl, brand, .]   
8                     [call, qualiti, good, ,, sound, clear, ,, without, interrupt, .]   
9                                     [devic, light, thin, ,, conveni, ea

In [None]:
# So sánh kết quả trước và sau Stemming và Lemmatization
comparison = df[['COMMENT', 'filtered', 'stemmed', 'lemmatized']].head(5)
for index, row in comparison.iterrows():
    print(f"Original: {row['COMMENT']}")
    print(f"Filtered: {row['filtered']}")
    print(f"Stemmed: {row['stemmed']}")
    print(f"Lemmatized: {row['lemmatized']}")
    print("----")

Original: The camera takes very good photos, especially the night mode produces sharp images.
Filtered: ['camera', 'takes', 'good', 'photos', ',', 'especially', 'night', 'mode', 'produces', 'sharp', 'images', '.']
Stemmed: ['camera', 'take', 'good', 'photo', ',', 'especi', 'night', 'mode', 'produc', 'sharp', 'imag', '.']
Lemmatized: ['camera', 'take', 'good', 'photo', ',', 'especially', 'night', 'mode', 'produce', 'sharp', 'image', '.']
----
Original: The device has good compatibility with third-party applications and accessories.
Filtered: ['device', 'good', 'compatibility', 'third-party', 'applications', 'accessories', '.']
Stemmed: ['devic', 'good', 'compat', 'third-parti', 'applic', 'accessori', '.']
Lemmatized: ['device', 'good', 'compatibility', 'third-party', 'application', 'accessory', '.']
----
Original: High quality glass and metal materials, very good, giving a solid feeling when holding.
Filtered: ['high', 'quality', 'glass', 'metal', 'materials', ',', 'good', ',', 'giving'

In [None]:
# Vector hóa văn bản (Text Vectorization)
import pandas as pd
from gensim.models import Word2Vec
import numpy as np

# Chuẩn bị dữ liệu cho Word2Vec
sentences = df['lemmatized'].tolist()  # Danh sách các câu, mỗi câu là một danh sách từ

# Huấn luyện mô hình Word2Vec
# Tham số:
# - vector_size: Kích thước của vector biểu diễn từ
# - window: Kích thước của ngữ cảnh xung quanh từ đang xét
# - min_count: Bỏ qua các từ xuất hiện ít hơn số lần này
# - sg: 1 để sử dụng Skip-gram, 0 để dùng CBOW
w2v_model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=1)

# Hàm để chuyển câu thành vector với các giá trị khác 0
def sentence_to_vector_nonzero(sentence, model):
    vectors = [model.wv[word] for word in sentence if word in model.wv]
    if not vectors:
        return []  # Nếu không có từ nào trong mô hình, trả về danh sách rỗng
    mean_vector = np.mean(vectors, axis=0)
    return mean_vector[mean_vector != 0].tolist()  # Chỉ giữ các phần tử khác 0

# Vector hóa các câu trong cột 'lemmatized'
df['vectorized'] = df['lemmatized'].apply(lambda sentence: sentence_to_vector_nonzero(sentence, w2v_model))

# Hiển thị DataFrame với các cột đã xử lý
print(df[['lemmatized', 'vectorized']].head())


                                                                          lemmatized  \
0  [camera, take, good, photo, ,, especially, night, mode, produce, sharp, image, .]   
1              [device, good, compatibility, third-party, application, accessory, .]   
2    [high, quality, glass, metal, material, ,, good, ,, give, solid, feel, hold, .]   
3    [sound, quality, good, ,, stereo, speaker, great, music, listen, experience, .]   
4                     [face, id, feature, good, ,, faster, accurate, recognition, .]   

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       

In [None]:
import pandas as pd
from gensim.models import Word2Vec
import numpy as np

# Giả sử DataFrame `df` chứa các câu đã tiền xử lý trong cột 'lemmatized'
# và đã sẵn sàng để vector hóa
# Tạo mô hình Word2Vec trên dữ liệu đã lemmatized
sentences = df['lemmatized'].tolist()
w2v_model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=1, workers=4)

# Tạo hàm chuyển câu thành vector trung bình từ các vector từ
def sentence_vector(sentence, model):
    # Tạo vector trung bình của các từ trong câu nếu từ nằm trong vocabulary
    vectors = [model.wv[word] for word in sentence if word in model.wv]
    if len(vectors) > 0:
        mean_vector = np.mean(vectors, axis=0)
        # Chỉ giữ các giá trị khác 0
        return mean_vector[mean_vector != 0].tolist()
    else:
        # Trả về danh sách rỗng nếu câu không chứa từ nào trong từ điển
        return []

# Áp dụng hàm chuyển đổi cho từng câu trong DataFrame và lưu trực tiếp vào cột vector
df['vector'] = df['lemmatized'].apply(lambda x: sentence_vector(x, w2v_model))

# Kiểm tra dữ liệu trước khi lưu
print("Dữ liệu sau khi tiền xử lý:")
print(df[['lemmatized', 'vector']].head())

# Kiểm tra giá trị thiếu
print("\nKiểm tra giá trị thiếu:")
print(df.isnull().sum())

# Xóa các hàng có giá trị null trong cột 'lemmatized' (nếu có)
df = df.dropna(subset=['lemmatized'])

# Chuyển cột 'lemmatized' thành chuỗi (nếu cần)
# df['lemmatized_text'] = df['lemmatized'].apply(lambda x: ' '.join(x) if isinstance(x, list) else x)

# Lưu dữ liệu đã qua xử lý vào file CSV
# Nếu sử dụng Chuyển cột 'lemmatized' thành chuỗi thì giá trị ở dưới là lemmatized_text
df[['COMMENT', 'lemmatized', 'vector']].to_csv('/content/drive/MyDrive/ForColab/processed_data.csv', index=False, encoding='utf-8')
print("Dữ liệu đã được lưu vào file 'processed_data'")


Dữ liệu sau khi tiền xử lý:
                                                                          lemmatized  \
0  [camera, take, good, photo, ,, especially, night, mode, produce, sharp, image, .]   
1              [device, good, compatibility, third-party, application, accessory, .]   
2    [high, quality, glass, metal, material, ,, good, ,, give, solid, feel, hold, .]   
3    [sound, quality, good, ,, stereo, speaker, great, music, listen, experience, .]   
4                     [face, id, feature, good, ,, faster, accurate, recognition, .]   

                                                                                                                                                                                                                                                                                                                                                                                                                                                           

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from gensim.models import Word2Vec
import numpy as np

# Chuẩn bị dữ liệu cho Word2Vec
sentences = df['lemmatized'].tolist()  # Danh sách các câu, mỗi câu là một danh sách từ

# Huấn luyện mô hình Word2Vec
w2v_model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=1)

# Hàm để chuyển câu thành vector trung bình của các từ
def sentence_to_vector(sentence, model):
    vectors = [model.wv[word] for word in sentence if word in model.wv]
    return np.mean(vectors, axis=0) if vectors else np.zeros(model.vector_size)

# Vector hóa các câu trong cột 'lemmatized'
df['vectorized'] = df['lemmatized'].apply(lambda sentence: sentence_to_vector(sentence, w2v_model))

# Trích xuất đặc điểm theo mô hình Bag of Words (BoW)
lemmatized_texts = df['lemmatized'].apply(lambda x: ' '.join(x))  # Chuyển danh sách từ thành chuỗi văn bản
vectorizer = CountVectorizer()
X_bow = vectorizer.fit_transform(lemmatized_texts)

# Chuyển đổi kết quả thành DataFrame để dễ quan sát
bow_df = pd.DataFrame(X_bow.toarray(), columns=vectorizer.get_feature_names_out())

# Lọc và lưu chỉ các vị trí có giá trị khác 0
def filter_nonzero_features(row):
    nonzero_indices = row.nonzero()[0]  # Lấy các chỉ số cột có giá trị khác 0
    return {bow_df.columns[i]: row[i] for i in nonzero_indices}

# Áp dụng hàm để lọc chỉ số và giá trị khác 0 trên mỗi hàng
filtered_bow = X_bow.toarray()
df['bow_nonzero'] = [filter_nonzero_features(row) for row in filtered_bow]

# Hiển thị DataFrame kết quả
print("Dữ liệu BoW sau khi lọc các giá trị khác 0:")
print(df[['lemmatized', 'bow_nonzero']].head())

# Gộp lại với dữ liệu gốc nếu cần
df_bow = df

# Lưu kết quả vào file CSV
df_bow.to_csv('/content/drive/MyDrive/ForColab/bow_features.csv', index=False, encoding='utf-8')
print("Dữ liệu đặc điểm BoW đã được lưu vào file 'bow_features.csv'")


Dữ liệu BoW sau khi lọc các giá trị khác 0:
                                                                          lemmatized  \
0  [camera, take, good, photo, ,, especially, night, mode, produce, sharp, image, .]   
1              [device, good, compatibility, third-party, application, accessory, .]   
2    [high, quality, glass, metal, material, ,, good, ,, give, solid, feel, hold, .]   
3    [sound, quality, good, ,, stereo, speaker, great, music, listen, experience, .]   
4                     [face, id, feature, good, ,, faster, accurate, recognition, .]   

                                                                                                                     bow_nonzero  
0  {'camera': 1, 'especially': 1, 'good': 1, 'image': 1, 'mode': 1, 'night': 1, 'photo': 1, 'produce': 1, 'sharp': 1, 'take': 1}  
1                         {'accessory': 1, 'application': 1, 'compatibility': 1, 'device': 1, 'good': 1, 'party': 1, 'third': 1}  
2       {'feel': 1, 'give': 1, 'gl

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Chuyển cột 'lemmatized' thành chuỗi văn bản
lemmatized_texts = df['lemmatized'].apply(lambda x: ' '.join(x))

# Khởi tạo TfidfVectorizer với các tham số max_df và min_df
vectorizer = TfidfVectorizer(max_df=0.85, min_df=0.01)

# Biến đổi văn bản trong cột 'lemmatized' thành các đặc điểm TF-IDF
X = vectorizer.fit_transform(lemmatized_texts)

# Hàm để lọc chỉ các vị trí có giá trị khác 0
def filter_nonzero_features(row):
    nonzero_indices = row.nonzero()[1]  # Lấy các chỉ số cột có giá trị khác 0
    return {vectorizer.get_feature_names_out()[i]: row[0, i] for i in nonzero_indices}

# Áp dụng hàm để lọc các giá trị khác 0 cho từng hàng
df['tfidf_nonzero'] = [filter_nonzero_features(row) for row in X]

# Hiển thị dữ liệu TF-IDF sau khi lọc
print("Dữ liệu TF-IDF sau khi lọc các giá trị khác 0:")
print(df[['lemmatized', 'tfidf_nonzero']].head())

# Gộp lại với dữ liệu gốc nếu cần
df_tfidf = df

# Lưu kết quả vào file CSV
df_tfidf.to_csv('/content/drive/MyDrive/ForColab/tfidf_features.csv', index=False, encoding='utf-8')
print("Dữ liệu đặc điểm TF-IDF đã được lưu vào file 'tfidf_features.csv'")


Dữ liệu TF-IDF sau khi lọc các giá trị khác 0:
                                                                          lemmatized  \
0  [camera, take, good, photo, ,, especially, night, mode, produce, sharp, image, .]   
1              [device, good, compatibility, third-party, application, accessory, .]   
2    [high, quality, glass, metal, material, ,, good, ,, give, solid, feel, hold, .]   
3    [sound, quality, good, ,, stereo, speaker, great, music, listen, experience, .]   
4                     [face, id, feature, good, ,, faster, accurate, recognition, .]   

                                                                                                                                                                                                                                                                  tfidf_nonzero  
0  {'camera': 0.3147342628475536, 'take': 0.3147342628475536, 'good': 0.19123873879223882, 'photo': 0.3716466095753112, 'especially': 0.32970416815369

In [None]:
import pandas as pd
from gensim.models import Word2Vec
import numpy as np

# Tạo mô hình Word2Vec
# Giả sử `lemmatized` là danh sách các danh sách từ đã được tách
w2v_model = Word2Vec(sentences=df['lemmatized'], vector_size=100, window=5, min_count=1, sg=1, workers=4)

# Hàm để tạo vector trung bình cho mỗi câu
def get_sentence_vector(tokens, model):
    # Tạo vector trung bình của các từ trong câu
    vectors = [model.wv[word] for word in tokens if word in model.wv]
    if vectors:
        return np.mean(vectors, axis=0)
    else:
        return np.zeros(model.vector_size)

# Áp dụng hàm tạo vector cho từng câu trong DataFrame
df['vector'] = df['lemmatized'].apply(lambda x: get_sentence_vector(x, w2v_model))

# Hàm lọc chỉ các giá trị khác 0 trong vector
def filter_nonzero_vector(vector):
    nonzero_indices = np.where(vector != 0)[0]  # Lấy chỉ số của các phần tử khác 0
    return {f"dim_{i}": vector[i] for i in nonzero_indices}

# Áp dụng hàm để lọc các giá trị khác 0
df['vector_nonzero'] = df['vector'].apply(filter_nonzero_vector)

# Chuyển đổi cột vector_nonzero thành DataFrame nếu cần quan sát trực tiếp
print("Các vector Word Embeddings chỉ chứa giá trị khác 0:")
print(df[['lemmatized', 'vector_nonzero']].head())

# Gộp lại với dữ liệu gốc
df_word_embeddings = df

# Lưu kết quả vào file CSV
df_word_embeddings.to_csv('/content/drive/MyDrive/ForColab/word_embeddings_nonzero.csv', index=False, encoding='utf-8')
print("Dữ liệu đặc điểm Word Embeddings đã được lưu vào file 'word_embeddings_nonzero.csv'")


Các vector Word Embeddings chỉ chứa giá trị khác 0:
                                                                          lemmatized  \
0  [camera, take, good, photo, ,, especially, night, mode, produce, sharp, image, .]   
1              [device, good, compatibility, third-party, application, accessory, .]   
2    [high, quality, glass, metal, material, ,, good, ,, give, solid, feel, hold, .]   
3    [sound, quality, good, ,, stereo, speaker, great, music, listen, experience, .]   
4                     [face, id, feature, good, ,, faster, accurate, recognition, .]   

                                                                                                                                                                                                                                                                                                                                                                                                                                   

In [None]:
import pandas as pd
from gensim.models.doc2vec import Doc2Vec, TaggedDocument
import numpy as np

# Tạo các TaggedDocument từ cột 'lemmatized'
documents = [TaggedDocument(words=text, tags=[i]) for i, text in enumerate(df['lemmatized'])]

# Tạo mô hình Doc2Vec
doc2vec_model = Doc2Vec(documents, vector_size=100, window=5, min_count=1, workers=4, dm=1)

# Hàm để lọc các giá trị khác 0 trong vector
def filter_nonzero_vector(vector):
    nonzero_indices = np.where(vector != 0)[0]  # Lấy chỉ số của các phần tử khác 0
    return {f"dim_{i}": vector[i] for i in nonzero_indices}

# Hàm để tạo vector Doc2Vec cho mỗi document và lọc giá trị khác 0
def get_filtered_document_vector(model, doc_id):
    vector = model.dv[doc_id]
    return filter_nonzero_vector(vector)

# Áp dụng hàm để tạo vector cho từng document và chỉ giữ giá trị khác 0
df['doc_vector_nonzero'] = [get_filtered_document_vector(doc2vec_model, i) for i in range(len(df))]

# Hiển thị các vector Doc2Vec sau khi lọc
print("Các vector Doc2Vec chỉ chứa giá trị khác 0:")
print(df[['lemmatized', 'doc_vector_nonzero']].head())

# Lưu kết quả vào file CSV
df[['lemmatized', 'doc_vector_nonzero']].to_csv('/content/drive/MyDrive/ForColab/doc2vec_features_nonzero.csv', index=False, encoding='utf-8')
print("Dữ liệu đặc điểm Doc2Vec đã được lưu vào file 'doc2vec_features_nonzero.csv'")


Các vector Doc2Vec chỉ chứa giá trị khác 0:
                                                                          lemmatized  \
0  [camera, take, good, photo, ,, especially, night, mode, produce, sharp, image, .]   
1              [device, good, compatibility, third-party, application, accessory, .]   
2    [high, quality, glass, metal, material, ,, good, ,, give, solid, feel, hold, .]   
3    [sound, quality, good, ,, stereo, speaker, great, music, listen, experience, .]   
4                     [face, id, feature, good, ,, faster, accurate, recognition, .]   

                                                                                                                                                                                                                                                                                                                                                                                                                                           

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression

# Đọc file CSV chứa dữ liệu đã được xử lý từ cột vectorized đã được vector hóa
file_path = "/content/drive/MyDrive/ForColab/tfidf_features.csv"  # Đường dẫn đến file tfidf_features của bạn
df = pd.read_csv(file_path)

# Giả sử cột 'vectorized' chứa các vector đặc trưng và cột 'ID' chứa nhãn
# Tạo cột nhãn dựa trên nội dung trong cột 'ID'
df['label'] = df['ID'].apply(lambda x: 'POSITIVE' if x == 1 else ('NEGATIVE' if x == 3 else 'NEUTRAL'))

# Chuyển đổi cột 'vectorized' thành từ điển chỉ chứa giá trị khác 0
def filter_nonzero_vector(vector_str):
    vector = np.fromstring(vector_str.strip("[]"), sep=' ')  # Chuyển chuỗi thành numpy array
    nonzero_indices = np.where(vector != 0)[0]  # Chỉ số các giá trị khác 0
    return {f"dim_{i}": vector[i] for i in nonzero_indices}

df['vectorized_filtered'] = df['vectorized'].apply(filter_nonzero_vector)

# Chuyển cột 'vectorized_filtered' thành ma trận số cho mô hình
def reconstruct_vector(filtered_dict, vector_size):
    vector = np.zeros(vector_size)
    for key, value in filtered_dict.items():
        index = int(key.split('_')[1])  # Lấy chỉ số từ khóa
        vector[index] = value
    return vector

vector_size = len(np.fromstring(df['vectorized'].iloc[0].strip("[]"), sep=' '))  # Lấy kích thước vector
X = np.vstack(df['vectorized_filtered'].apply(lambda x: reconstruct_vector(x, vector_size)).values)
y = df['label']

# Kiểm tra dữ liệu
print("Shape of X:", X.shape)
print("First row of X:", X[0])

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.8, random_state=42)

# Khởi tạo và huấn luyện mô hình Logistic Regression
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Xác thực chéo với số lần chia phù hợp
scores = cross_val_score(model, X, y, cv=3)
print("Cross-validation scores:", scores)
print("Mean cross-validation score:", scores.mean())

# Hiển thị kết quả dự đoán
print("Dự đoán trên tập kiểm tra:", y_pred)

# Lưu kết quả vector hóa đã lọc vào file CSV (nếu cần)
df[['ID', 'vectorized_filtered', 'label']].to_csv(
    "/content/drive/MyDrive/ForColab/vectorized_filtered_results.csv", index=False, encoding="utf-8"
)
print("Dữ liệu đã được lưu vào file 'vectorized_filtered_results.csv'")


Shape of X: (101, 100)
First row of X: [-0.02010629  0.02348878 -0.00038812  0.00651284  0.00166328 -0.04839502
  0.01159696  0.05270894 -0.02983963 -0.02268718 -0.0155237  -0.01773936
 -0.0187519   0.00172919  0.01222895 -0.02003169 -0.00051554 -0.02667382
 -0.00462197 -0.0603927   0.0006693   0.01870022  0.01670206 -0.01003574
  0.00955602  0.00790161 -0.0216778  -0.02303618 -0.01310293 -0.0001206
  0.01821022  0.02116512  0.00335577 -0.02010361 -0.02317835  0.04339331
  0.00304623 -0.0172481  -0.0126994  -0.04794847 -0.0025981  -0.02818932
 -0.00198619 -0.00630379  0.01625665 -0.00398327 -0.00307808  0.00398421
  0.02438006  0.01520379  0.01226463 -0.02271207 -0.00920648  0.00659767
 -0.02134536  0.00597886  0.01816923 -0.00558391 -0.02578782  0.01183085
  0.0146837   0.01096918 -0.00266412 -0.02851541 -0.04176616  0.00439711
  0.03059651  0.02379718 -0.04508841  0.01796264 -0.0177644   0.02134733
  0.0390667  -0.00653769  0.01520795  0.0147835   0.00515752  0.00055628
 -0.0236648  

In [None]:
# kiểm tra kích thước và đánh giá mô hình từ cột vectorized chứa các vector đặc trưng theo mô hình (TF-IDF)
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Đọc file CSV chứa dữ liệu đã được vector hóa
file_path = "/content/drive/MyDrive/ForColab/tfidf_features.csv"  # Đường dẫn đến file tfidf_features.csv của bạn
df = pd.read_csv(file_path)

# Kiểm tra dữ liệu trong cột 'vectorized'
# print("First few rows of vectorized column:", df['vectorized'].head())

# Tạo cột nhãn dựa trên nội dung trong cột 'ID'
df['label'] = df['ID'].apply(lambda x: 'POSITIVE' if x == 1 else ('NEGATIVE' if x == 3 else 'NEUTRAL'))

# Chuyển đổi cột 'vectorized' thành một ma trận số
X = np.vstack(df['vectorized'].apply(lambda x: np.fromstring(x.strip("[]"), sep=' ')).values)
y = df['label']

# Kiểm tra xem dữ liệu có đúng định dạng không
# print("Shape of X:", X.shape)
# print("First row of X:", X[0])

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.8, random_state=42)

# Khởi tạo mô hình Logistic Regression
model = LogisticRegression(max_iter=1000)

# Huấn luyện mô hình
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Kiểm tra kích thước của y_pred và y_test
print("y_pred size:", len(y_pred))
print("y_test size:", len(y_test))

# Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1-score:", f1)

# Xác thực chéo với số lần chia phù hợp
scores = cross_val_score(model, X, y, cv=3)
print("Cross-validation scores:", scores)
print("Mean cross-validation score:", scores.mean())


y_pred size: 81
y_test size: 81
Accuracy: 0.7283950617283951
Precision: 0.5305593659503125
Recall: 0.7283950617283951
F1-score: 0.6139329805996473
Cross-validation scores: [0.70588235 0.70588235 0.6969697 ]
Mean cross-validation score: 0.70291146761735


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [None]:
# Dự đoán tập kiểm tra và đánh giá mô hình từ cột vectorized chứa các vector đặc trưng trên theo mô hình Word2Vec

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression

# Đọc file CSV chứa dữ liệu đã được xử lý từ cột vectorized đã được vector hóa
file_path = "/content/drive/MyDrive/ForColab/word_embeddings_nonzero.csv"  # Đường dẫn đến file word_embeddings.csv của bạn
df = pd.read_csv(file_path)

# Kiểm tra dữ liệu trong cột 'vectorized'
print("First few rows of vectorized column:", df['vectorized'].head())

# Tạo cột nhãn dựa trên nội dung trong cột 'ID'
df['label'] = df['ID'].apply(lambda x: 'POSITIVE' if x == 1 else ('NEGATIVE' if x == 3 else 'NEUTRAL'))

# Chuyển đổi cột 'vectorized' thành một ma trận số
X = np.vstack(df['vectorized'].apply(lambda x: np.fromstring(x.strip("[]"), sep=' ')).values)
y = df['label']

# Kiểm tra xem dữ liệu có đúng định dạng không
print("Shape of X:", X.shape)
print("First row of X:", X[0])

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.9, random_state=42)

# Khởi tạo và huấn luyện mô hình Logistic Regression
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Xác thực chéo với số lần chia phù hợp
scores = cross_val_score(model, X, y, cv=3)
print("Cross-validation scores:", scores)
print("Mean cross-validation score:", scores.mean())

# Hiển thị kết quả dự đoán
print("Dự đoán trên tập kiểm tra:", y_pred)


First few rows of vectorized column: 0                                                                                                                                                                                                                                                                                                                                                                                                                                     [-0.02010629  0.02348878 -0.00038812  0.00651284  0.00166328 -0.04839502\n  0.01159696  0.05270894 -0.02983963 -0.02268718 -0.0155237  -0.01773936\n -0.0187519   0.00172919  0.01222895 -0.02003169 -0.00051554 -0.02667382\n -0.00462197 -0.0603927   0.0006693   0.01870022  0.01670206 -0.01003574\n  0.00955602  0.00790161 -0.0216778  -0.02303618 -0.01310293 -0.0001206\n  0.01821022  0.02116512  0.00335577 -0.02010361 -0.02317835  0.04339331\n  0.00304623 -0.0172481  -0.0126994  -0.04794847 -0.0025981  -0.02818932\n -0.00198619 -0.00630379

In [None]:
# kiểm tra kích thước và đánh giá mô hình từ cột vectorized chứa các vector đặc trưng theo mô hình Word2Vec
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Đọc file CSV chứa dữ liệu đã được vector hóa
file_path = "/content/drive/MyDrive/ForColab/word_embeddings_nonzero.csv"  # Đường dẫn đến file word_embeddings.csv của bạn
df = pd.read_csv(file_path)

# Tạo cột nhãn dựa trên nội dung trong cột 'ID'
df['label'] = df['ID'].apply(lambda x: 'POSITIVE' if x == 1 else ('NEGATIVE' if x == 3 else 'NEUTRAL'))

# Chuyển đổi cột 'vectorized' thành một ma trận số
X = np.vstack(df['vectorized'].apply(lambda x: np.fromstring(x.strip("[]"), sep=' ')).values)
y = df['label']

# Kiểm tra kích thước của X
# print("Shape of X:", X.shape)  # Kích thước của ma trận đặc trưng
# print("First row of X:", X[0])  # Dòng đầu tiên của ma trận đặc trưng

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.9, random_state=42)

# Khởi tạo mô hình Logistic Regression
model = LogisticRegression(max_iter=1000)

# Huấn luyện mô hình
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Kiểm tra kích thước của y_pred và y_test
print("y_pred size:", len(y_pred))
print("y_test size:", len(y_test))

# Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted', zero_division=0)
recall = recall_score(y_test, y_pred, average='weighted', zero_division=0)
f1 = f1_score(y_test, y_pred, average='weighted', zero_division=0)

print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1-score:", f1)

# Xác thực chéo với số lần chia phù hợp
scores = cross_val_score(model, X, y, cv=3)
print("Cross-validation scores:", scores)
print("Mean cross-validation score:", scores.mean())


y_pred size: 91
y_test size: 91
Accuracy: 0.7362637362637363
Precision: 0.5420842893370367
Recall: 0.7362637362637363
F1-score: 0.6244262067046876
Cross-validation scores: [0.70588235 0.70588235 0.6969697 ]
Mean cross-validation score: 0.70291146761735


In [None]:
print(df['label'].value_counts())

label
POSITIVE    71
NEGATIVE    17
NEUTRAL     13
Name: count, dtype: int64


**TEST**

In [None]:
#Logistic Regression với GridSearchCV (GIỐNG CHỈ SỐ VỚI MÔ HÌNH Word2Vec)

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Đọc file CSV chứa dữ liệu đã được vector hóa
file_path = "/content/drive/MyDrive/ForColab/word_embeddings_nonzero.csv"  # Đường dẫn đến file word_embeddings.csv của bạn
df = pd.read_csv(file_path)

# Tạo cột nhãn dựa trên nội dung trong cột 'ID'
df['label'] = df['ID'].apply(lambda x: 'POSITIVE' if x == 1 else ('NEGATIVE' if x == 3 else 'NEUTRAL'))

# Chuyển đổi cột 'vectorized' thành một ma trận số
X = np.vstack(df['vectorized'].apply(lambda x: np.fromstring(x.strip("[]"), sep=' ')).values)
y = df['label']

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Chuyển đổi nhãn thành số nguyên
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo và huấn luyện mô hình Logistic Regression với GridSearchCV để tìm tham số tối ưu
param_grid = {'C': [0.1, 1, 10, 100], 'solver': ['lbfgs', 'liblinear']}
grid_search = GridSearchCV(LogisticRegression(max_iter=1000), param_grid, cv=3, scoring='f1_weighted')
grid_search.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred_lr = grid_search.predict(X_test)

# Kiểm tra kích thước của y_pred và y_test
print("y_pred size:", len(y_pred_lr))
print("y_test size:", len(y_test))

# Đánh giá mô hình
accuracy_lr = accuracy_score(y_test, y_pred_lr)
precision_lr = precision_score(y_test, y_pred_lr, average='weighted', zero_division=0)
recall_lr = recall_score(y_test, y_pred_lr, average='weighted', zero_division=0)
f1_lr = f1_score(y_test, y_pred_lr, average='weighted', zero_division=0)

print("Logistic Regression - Accuracy:", accuracy_lr)
print("Logistic Regression - Precision:", precision_lr)
print("Logistic Regression - Recall:", recall_lr)
print("Logistic Regression - F1-score:", f1_lr)

# Xác thực chéo với số lần chia phù hợp
scores_lr = cross_val_score(grid_search.best_estimator_, X, y, cv=5, scoring='accuracy')
print("Logistic Regression - Cross-validation scores:", scores_lr)
print("Logistic Regression - Mean cross-validation score:", scores_lr.mean())


y_pred size: 31
y_test size: 31
Logistic Regression - Accuracy: 0.7096774193548387
Logistic Regression - Precision: 0.6937821411874707
Logistic Regression - Recall: 0.7096774193548387
Logistic Regression - F1-score: 0.7006656426011265
Logistic Regression - Cross-validation scores: [0.28571429 0.6        0.75       0.85       0.75      ]
Logistic Regression - Mean cross-validation score: 0.6471428571428571


In [None]:
import joblib

# Lưu mô hình đã huấn luyện
joblib.dump(grid_search, '/content/drive/MyDrive/ForColab/logistic_regression_model.pkl')



['/content/drive/MyDrive/ForColab/logistic_regression_model.pkl']

**Logistic Regression** có độ chính xác và các chỉ số đánh giá thấp hơn so với Naive Bayes, đặc biệt là Precision và F1-score. Điểm kiểm tra chéo ***ổn định hơn một chút so với Naive Bayes***, nhưng **kết quả vẫn chưa cao.**

In [None]:
import pandas as pd
import numpy as np
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Đọc file CSV chứa dữ liệu đã được vector hóa
file_path = "/content/drive/MyDrive/ForColab/word_embeddings_nonzero.csv"  # Đường dẫn đến file word_embeddings.csv của bạn
df = pd.read_csv(file_path)

# Tạo cột nhãn dựa trên nội dung trong cột 'ID'
df['label'] = df['ID'].apply(lambda x: 'POSITIVE' if x == 1 else ('NEGATIVE' if x == 3 else 'NEUTRAL'))

# Chuyển đổi cột 'vectorized' thành một ma trận số
X = np.vstack(df['vectorized'].apply(lambda x: np.fromstring(x.strip("[]"), sep=' ')).values)
y = df['label']

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Chuyển đổi nhãn thành số nguyên
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo và huấn luyện mô hình SVM
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred_svm = svm_model.predict(X_test)

# Kiểm tra kích thước của y_pred và y_test
print("y_pred size:", len(y_pred_svm))
print("y_test size:", len(y_test))

# Đánh giá mô hình
accuracy_svm = accuracy_score(y_test, y_pred_svm)
precision_svm = precision_score(y_test, y_pred_svm, average='weighted', zero_division=0)
recall_svm = recall_score(y_test, y_pred_svm, average='weighted', zero_division=0)
f1_svm = f1_score(y_test, y_pred_svm, average='weighted', zero_division=0)

print("SVM - Accuracy:", accuracy_svm)
print("SVM - Precision:", precision_svm)
print("SVM - Recall:", recall_svm)
print("SVM - F1-score:", f1_svm)

# Xác thực chéo với số lần chia phù hợp
scores_svm = cross_val_score(svm_model, X, y, cv=5, scoring='accuracy')
print("SVM - Cross-validation scores:", scores_svm)
print("SVM - Mean cross-validation score:", scores_svm.mean())


y_pred size: 31
y_test size: 31
SVM - Accuracy: 0.6129032258064516
SVM - Precision: 0.6148233486943164
SVM - Recall: 0.6129032258064516
SVM - F1-score: 0.6107680766345432
SVM - Cross-validation scores: [0.33333333 0.45       0.7        0.8        0.8       ]
SVM - Mean cross-validation score: 0.6166666666666666


**SVM** có độ chính xác và các chỉ số đánh giá tốt hơn Logistic Regression và gần với Naive Bayes.

Precision và F1-score tương đối cao.

Điểm kiểm tra chéo trung bình là 0.6, cho thấy mô hình có **hiệu suất tốt**

In [None]:
import joblib

# Lưu trữ mô hình
joblib.dump(svm_model, '/content/drive/MyDrive/ForColab/svm_model.pkl')
print("Mô hình SVM đã được lưu trữ.")
# Tải lại mô hình
loaded_model = joblib.load('/content/drive/MyDrive/ForColab/svm_model.pkl')
print("Mô hình SVM đã được tải lại.")


Mô hình SVM đã được lưu trữ.
Mô hình SVM đã được tải lại.


In [None]:
# mô hình Naive Bayes

import pandas as pd
import numpy as np
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Đọc file CSV chứa dữ liệu đã được vector hóa
file_path = "/content/drive/MyDrive/ForColab/word_embeddings_nonzero.csv"
df = pd.read_csv(file_path)

# Tạo cột nhãn dựa trên nội dung trong cột 'ID'
df['label'] = df['ID'].apply(lambda x: 'POSITIVE' if x == 1 else ('NEGATIVE' if x == 3 else 'NEUTRAL'))

# Chuyển đổi cột 'vectorized' thành một ma trận số
X = np.vstack(df['vectorized'].apply(lambda x: np.fromstring(x.strip("[]"), sep=' ')).values)
y = df['label']

# Chuẩn hóa dữ liệu bằng MinMaxScaler
scaler = MinMaxScaler()
X = scaler.fit_transform(X)

# Chuyển đổi nhãn thành số nguyên
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo và huấn luyện mô hình Naive Bayes
nb_model = MultinomialNB()
nb_model.fit(X_train, y_train)

# Dự đoán và đánh giá mô hình
y_pred_nb = nb_model.predict(X_test)
accuracy_nb = accuracy_score(y_test, y_pred_nb)
precision_nb = precision_score(y_test, y_pred_nb, average='weighted')
recall_nb = recall_score(y_test, y_pred_nb, average='weighted')
f1_nb = f1_score(y_test, y_pred_nb, average='weighted')

print("Naive Bayes - Accuracy:", accuracy_nb)
print("Naive Bayes - Precision:", precision_nb)
print("Naive Bayes - Recall:", recall_nb)
print("Naive Bayes - F1-score:", f1_nb)

# Xác thực chéo với StratifiedKFold
skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
scores_nb = cross_val_score(nb_model, X, y, cv=skf, scoring='accuracy')

print("Naive Bayes - Cross-validation scores:", scores_nb)
print("Naive Bayes - Mean cross-validation score:", scores_nb.mean())


Naive Bayes - Accuracy: 0.6129032258064516
Naive Bayes - Precision: 0.4994026284348865
Naive Bayes - Recall: 0.6129032258064516
Naive Bayes - F1-score: 0.5503620803159974
Naive Bayes - Cross-validation scores: [0.63636364 0.8        0.5        0.8        0.7        0.6
 0.7        0.7        0.7        0.7       ]
Naive Bayes - Mean cross-validation score: 0.6836363636363636


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


**Accuracy: 0.6:**

Độ chính xác (Accuracy): Khoảng 60% dự đoán của mô hình là đúng. Điều này cho thấy mô hình hoạt động khá tốt trong việc phân loại, nhưng vẫn có room để cải thiện.

**Precision:**

Độ chính xác dự đoán (Precision): có khoảng 67.99% là đúng. Điều này chỉ ra rằng mô hình có tỷ lệ dự đoán dương tính giả khá thấp, cho thấy nó khá chính xác khi dự đoán dương tính.

**Recall: 0.6:**

Khả năng tìm kiếm (Recall): Trong số các mẫu thực tế là dương tính, mô hình tìm ra được khoảng 60%. Điều này cho thấy mô hình bỏ lỡ một số lượng dương tính nhất định.

**F1-score: 0.5694117647058824:**

F1-score: Chỉ số trung bình điều hòa giữa Precision và Recall là 56.94%. Chỉ số này cho thấy mô hình có sự cân bằng khá tốt giữa độ chính xác và khả năng tìm kiếm, nhưng vẫn có thể cải thiện thêm.

**Cross-validation scores:** [0.6, 0.6, 0.6, 0.6, 0.6, 0.4, 0.6, 0.8, 0.8, 0.4]:

Điểm kiểm tra chéo (Cross-validation scores): Điểm kiểm tra chéo dao động từ 40% đến 80%, với phần lớn các giá trị ở mức 60%. Điều này cho thấy mô hình có mức độ ổn định tương đối, mặc dù có một số sự dao động.

**Mean cross-validation score**: 0.6:

Điểm trung bình của kiểm tra chéo: Trung bình các điểm số kiểm tra chéo là 60%, tương tự với độ chính xác tổng thể. Điều này cho thấy mô hình có thể tổng quát hóa khá tốt trên các tập dữ liệu khác nhau.

In [None]:
import joblib

# Lưu trữ mô hình
joblib.dump(nb_model, '/content/drive/MyDrive/ForColab/nb_model.pkl')
print("Mô hình Naive Bayes đã được lưu trữ.")
# Tải lại mô hình
loaded_model = joblib.load('/content/drive/MyDrive/ForColab/nb_model.pkl')
print("Mô hình Naive Bayes đã được tải lại.")


Mô hình Naive Bayes đã được lưu trữ.
Mô hình Naive Bayes đã được tải lại.


In [None]:
# Tạo vector cho các câu mới
def get_sentence_vector(tokens, model):
    vectors = [model.wv[word] for word in tokens if word in model.wv]
    if vectors:
        return np.mean(vectors, axis=0)
    else:
        return np.zeros(model.vector_size)

# Xử lý và vector hóa các bình luận mới
new_comments = ["Sản phẩm này rất tuyệt vời!", "Dịch vụ tệ, rất thất vọng.", "Ổn, không quá tốt nhưng chấp nhận được."]
new_comments_processed = [comment.lower().split() for comment in new_comments]
new_vectors = np.array([get_sentence_vector(tokens, w2v_model) for tokens in new_comments_processed])

# Kiểm tra kích thước của new_vectors
print("Kích thước new_vectors:", new_vectors.shape)

# Dự đoán nhãn
new_predictions = model.predict(new_vectors)

# Xuất kết quả dự đoán
for comment, prediction in zip(new_comments, new_predictions):
    print(f"Bình luận: {comment} => Nhãn dự đoán: {prediction}")



Kích thước new_vectors: (3, 100)
Bình luận: Sản phẩm này rất tuyệt vời! => Nhãn dự đoán: POSITIVE
Bình luận: Dịch vụ tệ, rất thất vọng. => Nhãn dự đoán: POSITIVE
Bình luận: Ổn, không quá tốt nhưng chấp nhận được. => Nhãn dự đoán: POSITIVE


In [None]:
import numpy as np

# Hàm tạo vector cho câu mới
def get_sentence_vector(tokens, model):
    vectors = [model.wv[word] for word in tokens if word in model.wv]
    if vectors:
        return np.mean(vectors, axis=0)
    else:
        return np.zeros(model.vector_size)

# Hàm xử lý và dự đoán nhãn cho các bình luận mới
def predict_comment_labels(comments, w2v_model, classifier_model):
    # Xử lý bình luận
    comments_processed = [comment.lower().split() for comment in comments]

    # Vector hóa bình luận
    vectors = np.array([get_sentence_vector(tokens, w2v_model) for tokens in comments_processed])

    # Dự đoán nhãn
    predictions = classifier_model.predict(vectors)

    # Xuất kết quả dự đoán
    for comment, prediction in zip(comments, predictions):
        print(f"Bình luận: {comment} => Nhãn dự đoán: {prediction}")

# Nhập bình luận từ người dùng
print("Nhập các bình luận (gõ 'thoát' để kết thúc):")
user_comments = []
while True:
    comment = input("Bình luận: ")
    if comment.strip().lower() == "thoát":
        break
    user_comments.append(comment)

# Kiểm tra nếu có bình luận được nhập
if user_comments:
    predict_comment_labels(user_comments, w2v_model, model)
else:
    print("Không có bình luận nào được nhập.")



Nhập các bình luận (gõ 'thoát' để kết thúc):
Bình luận: The cake is very tasty
Bình luận: The milk tea is so bad
Bình luận: thoát


NameError: name 'w2v_model' is not defined