# **Giới thiệu về Thư viện Gensim**

Gensim là một thư viện mã nguồn mở trong Python, được thiết kế để xử lý ngôn ngữ tự nhiên và huấn luyện các mô hình học sâu, đặc biệt là các mô hình dựa trên vector như Word2Vec, Doc2Vec, và FastText. Gensim nổi bật với khả năng xử lý các tập dữ liệu lớn và hiệu quả trong việc huấn luyện các mô hình từ vựng.

**Các Điểm Đặc Trưng của Gensim**



1.   Huấn luyện mô hình từ vựng (Word2Vec, Doc2Vec, FastText): Gensim hỗ trợ nhiều mô hình học sâu dựa trên vector khác nhau, giúp biểu diễn các từ, câu và tài liệu dưới dạng vector.

2. Xử lý các tập dữ liệu lớn: Gensim được thiết kế để xử lý các tập dữ liệu lớn thông qua việc tải dữ liệu theo từng lô (batch) và sử dụng các phương pháp học không giám sát.

3. Tích hợp tốt với các thư viện khác: Gensim dễ dàng tích hợp với các thư viện khác như Numpy, Scipy, và Scikit-learn.







**Các Khía Cạnh Quan Trọng của Gensim**


1.   *Mô hình Word2Vec*: Là một trong những mô hình phổ biến nhất trong Gensim, Word2Vec sử dụng hai kiến trúc chính: Continuous Bag of Words (CBOW) và Skip-gram để học các biểu diễn vector của từ.

2. *Mô hình Doc2Vec*: Mở rộng từ Word2Vec, Doc2Vec học các biểu diễn vector của toàn bộ tài liệu, giúp xử lý các nhiệm vụ như phân loại văn bản và tìm kiếm thông tin.

3. *Mô hình FastText*: Một mở rộng của Word2Vec, FastText xử lý tốt hơn các từ hiếm và các ngôn ngữ có độ phức tạp cao nhờ vào việc xem xét các n-gram ký tự.

4. *Biến đổi TF-IDF và LDA (Latent Dirichlet Allocation)*: Gensim hỗ trợ các phương pháp phân tích chủ đề như TF-IDF và LDA, giúp xác định các chủ đề chính trong tập văn bản.





**Ưu Điểm của Gensim**

1. *Hiệu quả và tối ưu hóa*: Gensim được tối ưu hóa cho hiệu suất, có khả năng xử lý các tập dữ liệu lớn một cách hiệu quả.

2. *Dễ sử dụng*: API của Gensim đơn giản và dễ sử dụng, phù hợp cho cả người mới bắt đầu và người dùng có kinh nghiệm.

3. *Hỗ trợ mô hình phân phối*: Gensim có thể chạy trên nhiều lõi CPU và hỗ trợ các tính toán phân tán, giúp tăng tốc độ huấn luyện mô hình.

4. *Tích hợp với các công cụ khác*: Gensim dễ dàng tích hợp với các công cụ và thư viện khác, giúp mở rộng khả năng của nó trong các dự án lớn hơn.



**Nhược Điểm của Gensim**

*Giới hạn trong các mô hình ngôn ngữ*: Mặc dù mạnh mẽ, Gensim chủ yếu tập trung vào các mô hình ngôn ngữ truyền thống và có thể không phù hợp với các mô hình ngôn ngữ hiện đại hơn như Transformer.

*Cách Sử Dụng Gensim*

Dưới đây là một ví dụ chi tiết về cách sử dụng Gensim để huấn luyện mô hình Word2Vec:

**Bước 1: Cài đặt các thư viện cần thiết**

In [None]:
pip install gensim underthesea


Collecting gensim
  Downloading gensim-4.3.2.tar.gz (23.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.3/23.3 MB[0m [31m21.0 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting underthesea
  Downloading underthesea-6.8.0-py3-none-any.whl.metadata (14 kB)
Collecting numpy>=1.18.5 (from gensim)
  Using cached numpy-1.26.4-cp312-cp312-macosx_10_9_x86_64.whl.metadata (61 kB)
Collecting scipy>=1.7.0 (from gensim)
  Using cached scipy-1.13.1-cp312-cp312-macosx_10_9_x86_64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Downloading smart_open-7.0.4-py3-none-any.whl.metadata (23 kB)
Collecting Click>=6.0 (from underthesea)
  Using cached click-8.1.7-py3-none-any.whl.metadata (3.0 kB)
Collecting python-crfsuite>=0.9.6 (from underthesea)
  Downloading python_crfsuite-0.

In [None]:
import re
import os
import pandas as pd
from gensim.models import Word2Vec

**Bước 2: Chuẩn bị dữ liệu**

Ở đây sử dụng dữ liệu văn bản tiếng Việt chia theo chủ đề (Kinh tế, Giáo dục, Y tế, Trẻ em, Phụ nữ)

In [None]:
def preProcess(sentences):

    text = [re.sub(r'([^\s\w]|_)+', '', sentence) for sentence in sentences if sentence!='']
    text = [sentence.lower().strip() for sentence in text]
    return text

In [None]:
def loadData(csv_file):
    df = pd.read_csv(csv_file)
    texts = df['content'].tolist()
    labels = df['cat'].tolist()
    return texts, labels

In [None]:
csv_file = "/Users/yoohyra/Desktop/Gensim/news_categories.csv"
texts, labels = loadData(csv_file)

In [None]:
# Áp dụng tiền xử lý lên văn bản
processed_texts = preProcess(texts)

In [None]:
from nltk.tokenize import word_tokenize
import nltk

In [None]:
def tokenizer(sentences):
    tokenized_text = [word_tokenize(sentence) for sentence in sentences]
    return tokenized_text

In [None]:
# Áp dụng tokenizer lên văn bản đã được tiền xử lý
tokenized_texts = tokenizer(processed_texts)

In [None]:
df = pd.DataFrame({'text': tokenized_texts, 'label': labels})
print(df.head(5))

                                                text               label
0  [sanchez, không, dự, trận, khai, màn, nh, anh,...   __label__thể_thao
1  [những, sao, việt, hóathân, thành, phó, nháy, ...    __label__âm_nhạc
2  [vợ, phải, quỳ, gối, mới, được, nóichuyện, cườ...  __label__nhịp_sống
3  [lumia, 520, sẽ, có, giá, 3, 9, triệu, đồng, t...  __label__công_nghệ
4  [hànội, t, t, chốt, danhsách, dự, afc, cup, th...   __label__thể_thao


In [None]:
word_model = Word2Vec(tokenized_texts, vector_size=100, window=5, min_count=1, workers=4)

In [None]:
# Lưu mô hình
word_model.save("word2vec.model")



In [None]:
# Kiểm tra một vài từ
print(word_model.wv.most_similar('không', topn=5))

[('chẳng', 0.8213958144187927), ('khôngbaogiờ', 0.7245102524757385), ('chưa', 0.6564004421234131), ('đôikhi', 0.6496281027793884), ('khôngthể', 0.6247268915176392)]
