# Working With Text Data - Text Transformation ( AKA Vectorization)

## Text Data

Text Analysis is a major application field for machine learning algorithms. Some of the major application areas of NLP are:
1. Spell Checker, Keyword Search
2. Sentiment Analysis, Spam Classification
3. Machine Translation
4. Chatbots / Dialog Systems
5. Question Answering Systems

However the raw data, a sequence of symbols cannot be fed directly to the algorithms themselves as most of them expect numerical feature vectors with a fixed size rather than the raw text documents with variable length.
## Why NLP is hard ?
1. Complexity of representation
2. Ambiguity in Natural Language (sự mơ hồ trong NLP)

## Vectorization Techniques(AKA feature Engineering or Extraction - Convert text to Numerical Vectors)

1. Bag of words ( Phương pháp đơn giản nhất, chỉ đếm số lần mỗi từ xuất hiện trong một văn bản. Nó bỏ qua ngữ pháp và thứ tự từ. Vector kết quả sẽ có kích thước bằng từ điển và mỗi giá trị là tần số của một từ)
2. TF IDF( Term Frequency -Inverse Document Frequency  Một cải tiến của BoW. Nó không chỉ đếm tần suất từ mà còn đánh trọng số cho từ đó. Những từ xuất hiện nhiều trong một văn bản nhưng hiếm trong toàn bộ tập dữ liệu sẽ có trọng số cao hơn)
3. Word2Vec (by google  Được tạo ra để dự đoán ngữ cảnh xung quanh một từ (Skip-gram) hoặc dự đoán một từ dựa trên ngữ cảnh của nó (CBOW). Các từ có ngữ nghĩa tương tự sẽ có vector gần nhau trong không gian vecto)
4. Glove(Global Vectors by Standford Dựa trên ma trận đồng xuất hiện toàn cục của các từ. GloVe kết hợp cả ngữ cảnh cục bộ (như Word2Vec) và thống kê toàn cục của tập dữ liệu.)
5. Fast Text (Mở rộng Word2Vec bằng cách xem xét các ký tự con (subword). Điều này giúp FastText xử lý tốt các từ không có trong từ điển (out-of-vocabulary words) và các ngôn ngữ có cấu trúc phong phú.)
6. ELMo ( Embeddings from Language Models Sử dụng mạng nơ-ron hồi quy hai chiều (bi-directional LSTMs) để tạo ra các nhúng từ ngữ cảnh. Ví dụ, từ "bank" trong "river bank" sẽ có vector khác với "bank" trong "savings bank".)
7. GPT( Generative Pre_Trained Transformer by OpenAI)
8. BERT( Bidirectional Encoder representations From Transformer by Google  Một mô hình đột phá sử dụng kiến trúc Transformer. BERT được huấn luyện để hiểu ngữ cảnh hai chiều (cả trước và sau) của một từ. Đây là lý do nó hiệu quả hơn các mô hình chỉ nhìn ngữ cảnh một chiều.)
9. LLM ( Large Language Model  Các LLMs như BERT và GPT không chỉ là công cụ để vector hóa; chúng còn có khả năng thực hiện nhiều tác vụ NLP phức tạp khác (ví dụ: tóm tắt, dịch thuật, trả lời câu hỏi) nhờ vào khả năng nắm bắt ngữ nghĩa và ngữ cảnh sâu sắc của chúng. Khi chúng ta sử dụng LLM để vector hóa một đoạn văn bản, chúng ta đang lấy các "state" hoặc "embeddings" nội tại của mô hình, mà các vector này đã được mã hóa với ngữ cảnh phong phú của câu.)
10. 

## Only the Following Techniques are covered in this notebook

1. Bag of words
2. TF IDF(Term Frequency - Inverse Document Frequency)

### We use CountVectorizer to convert text into a matrix of token count
### We are going to perform below mentioned steps to understand the entire process:
1. Convertign text to numerical vectors with the help of CountVectorizer
2. Understand fit and transformer
3. looking at Vocabulary
4. Converting space matrix to dense matrix using toarray()
5. Understaning n_gram
## Advantage
1. It is simple to understand and implement like OneHotCoding
2. We have a fixe length encoding for any sequence of arbitrary length
3. Documents with same words /  vocabulary will have similar representation . So if two documents have a similars vocabular, they'll be closer to each other in this vector and vice versa#
## Disvantage
1. The size (big)
2. hiểu đơn giản walk, walked, walking là 3 từ nghĩa giống nhau nhưng nó sẽ hiểu là 3 từ khác nhau
3. từ ngoài từ điển (out of vocabulary)
4. overfitting



#  a. BoW Text Vectorization: Apply CountVectorizer

1. encoding : str, default  = 'utf-8' ( xác định bộ mã hóa kí tự)
2. decode_error:{'strict',, 'ignore', 'replace'}, default = 'strict'
- xử lý trường hợp không hợp lệ với encoding
- strict : báo lỗi
- ignore : bỏ qua kí tự đó
- replace là thanh thế bằng kí tự đặc biệt thường là ?

3. token_pattern: str or None, default=r"(?u)\b\w\w+\b"
- dùng để tách các từ ký tự
- default chọn các từ  >= 2 ký tự , tự bỏ dấu câu

4. tokenizer: callable , default = None
- Cho phép tùy chỉnh hàm token
- Nếu đặt None, dùng Regex mặc định hoặc token_pattern

5. ngram_range: tuple(min_n,max_n), default = (1, 1)
- xác định n - gram sẽ trich xuâts
- (1, 1) chỉ unigram 1 từ
- (1, 2) unigram + bigram ( 2 từ)

6. strip_accents: {'ascii', 'unicode'}, default = None
- loại bỏ dấu và chuararn hóa kí tự
- ví dụ é thành e
- unicode chuẩn hóa unicode
- thống nhất văn bản trước khi tách token

7. lowercase: bool, default = True
- Chuyển thành ký tự chữ thường trước khi token

8. preprocessor: callable, default = None
- Cho phép tùy chỉnh bước tiền xử lý (trức tokenization)

9. stop_words:{'english', alisst, default = None}
- loại bỏ các từ dừng : từ thong dụng, khong mang ý nghĩa đặc trưng



# Import the CountVectorizer i.e Bag of Words



In [4]:
from sklearn.feature_extraction.text import CountVectorizer

text = ["This is a test", "with numbers 123", "and symbols #!"]

# initialize the object

vectorizer = CountVectorizer()

# fit and transform

num_rep = vectorizer.fit_transform(text)

print("Shape:", num_rep.shape)
print("Type of Numerical Representation:", type(num_rep))
print("Vocabulary learned:", vectorizer.get_feature_names_out())


Shape: (3, 8)
Type of Numerical Representation: <class 'scipy.sparse._csr.csr_matrix'>
Vocabulary learned: ['123' 'and' 'is' 'numbers' 'symbols' 'test' 'this' 'with']


### Important Observation
1. By Default CountVectorizer took care of removing special characters
2. It only reads alphanumeric characters and tokenize only if the length is greater than or equal to 2 ( >= 2)

In [6]:
import pandas as pd

lst_text = ["We are Learning Machine Learning $", 
            "Processing natural - language data.", 
            "10 machine - learning algorithms.", 
            "we Are Mimicing natural intelligence"]

df = pd.DataFrame({'text': lst_text})

df.head()


Unnamed: 0,text
0,We are Learning Machine Learning $
1,Processing natural - language data.
2,10 machine - learning algorithms.
3,we Are Mimicing natural intelligence


In [7]:

# in the next Sectio : Custom Text Cleaning
# We will study a problem with this approach

def tokenizer(doc):
    return doc.split()



In [12]:
# Bag of Words
from sklearn.feature_extraction.text import CountVectorizer

# Inititalize the "CountVectorize" object,  Which is scikint learn"s
# bag of words tool
bow_vec = CountVectorizer(token_pattern = None,
                          tokenizer = tokenizer,
                          ngram_range = (1,1),
                          lowercase = False,
                          preprocessor = None,
                          stop_words = None)

# fit_transform() does two function:
# First, it fits and learns the vocabulary
# second, it transform our trainning data into feature vectors
# the input to fit_transform should be a list of strings

dtm = bow_vec.fit_transform(df['text'])

print(dtm.shape)
print(type(dtm))
print(dtm)
# sắp xếp theo thứ tự điển 
# hiểu đơn giản là 0 8 là hàng 0 có từ vị trí 8 xuất hiện 1 lần

(4, 18)
<class 'scipy.sparse._csr.csr_matrix'>
  (0, 8)	1
  (0, 10)	1
  (0, 4)	2
  (0, 5)	1
  (0, 0)	1
  (1, 7)	1
  (1, 16)	1
  (1, 1)	1
  (1, 13)	1
  (1, 11)	1
  (2, 1)	1
  (2, 2)	1
  (2, 15)	1
  (2, 14)	1
  (2, 9)	1
  (3, 16)	1
  (3, 17)	1
  (3, 3)	1
  (3, 6)	1
  (3, 12)	1


In [17]:
# we can look at unique words by using 'vocabulary_'

print(f"Vocabulary size: {len(bow_vec.vocabulary_)}")
print()
print(f"Let's look at the vocabulary stored in the object: \n{bow_vec.vocabulary_}")
print()
print("Output Feature Names:", bow_vec.get_feature_names_out())

Vocabulary size: 18

Let's look at the vocabulary stored in the object: 
{'We': 8, 'are': 10, 'Learning': 4, 'Machine': 5, '$': 0, 'Processing': 7, 'natural': 16, '-': 1, 'language': 13, 'data.': 11, '10': 2, 'machine': 15, 'learning': 14, 'algorithms.': 9, 'we': 17, 'Are': 3, 'Mimicing': 6, 'intelligence': 12}

Output Feature Names: ['$' '-' '10' 'Are' 'Learning' 'Machine' 'Mimicing' 'Processing' 'We'
 'algorithms.' 'are' 'data.' 'intelligence' 'language' 'learning'
 'machine' 'natural' 'we']


In [18]:
# sử dụng toarray để chuyển dữ liệu thành ma trận
# phù hợp mô hình học ámy
print(dtm.toarray())


[[1 0 0 0 2 1 0 0 1 0 1 0 0 0 0 0 0 0]
 [0 1 0 0 0 0 0 1 0 0 0 1 0 1 0 0 1 0]
 [0 1 1 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0]
 [0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 1 1]]


In [19]:
# Converting the sparse matrix to a dataFrame

pd.DataFrame(dtm.toarray(),
             columns = bow_vec.get_feature_names_out())

Unnamed: 0,$,-,10,Are,Learning,Machine,Mimicing,Processing,We,algorithms.,are,data.,intelligence,language,learning,machine,natural,we
0,1,0,0,0,2,1,0,0,1,0,1,0,0,0,0,0,0,0
1,0,1,0,0,0,0,0,1,0,0,0,1,0,1,0,0,1,0
2,0,1,1,0,0,0,0,0,0,1,0,0,0,0,1,1,0,0
3,0,0,0,1,0,0,1,0,0,0,0,0,1,0,0,0,1,1


# b. BoW Text Vectorization: Apply Countvectorizer with ngram_range = (1,2 ) and lowercase = False


In [25]:
from sklearn.feature_extraction.text import CountVectorizer

bow_vect = CountVectorizer(token_pattern=None,
                           tokenizer=tokenizer,
                           ngram_range=(1, 2), 
                           lowercase=False, 
                           preprocessor=None, 
                           stop_words=None)

dtm = bow_vect.fit_transform(df['text'])

print(dtm.shape)
print(type(dtm))

(4, 35)
<class 'scipy.sparse._csr.csr_matrix'>


In [27]:
print(dtm)


  (0, 17)	1
  (0, 20)	1
  (0, 8)	2
  (0, 11)	1
  (0, 0)	1
  (0, 18)	1
  (0, 21)	1
  (0, 10)	1
  (0, 12)	1
  (0, 9)	1
  (1, 15)	1
  (1, 30)	1
  (1, 1)	1
  (1, 24)	1
  (1, 22)	1
  (1, 16)	1
  (1, 31)	1
  (1, 2)	1
  (1, 25)	1
  (2, 1)	1
  (2, 4)	1
  (2, 28)	1
  (2, 26)	1
  (2, 19)	1
  (2, 5)	1
  (2, 29)	1
  (2, 3)	1
  (2, 27)	1
  (3, 30)	1
  (3, 33)	1
  (3, 6)	1
  (3, 13)	1
  (3, 23)	1
  (3, 34)	1
  (3, 7)	1
  (3, 14)	1
  (3, 32)	1


In [31]:
# We can loolk at unique words by using 'vocabulary_'
print(len(bow_vect.vocabulary_))

print(bow_vect.vocabulary_)

35
{'We': 17, 'are': 20, 'Learning': 8, 'Machine': 11, '$': 0, 'We are': 18, 'are Learning': 21, 'Learning Machine': 10, 'Machine Learning': 12, 'Learning $': 9, 'Processing': 15, 'natural': 30, '-': 1, 'language': 24, 'data.': 22, 'Processing natural': 16, 'natural -': 31, '- language': 2, 'language data.': 25, '10': 4, 'machine': 28, 'learning': 26, 'algorithms.': 19, '10 machine': 5, 'machine -': 29, '- learning': 3, 'learning algorithms.': 27, 'we': 33, 'Are': 6, 'Mimicing': 13, 'intelligence': 23, 'we Are': 34, 'Are Mimicing': 7, 'Mimicing natural': 14, 'natural intelligence': 32}


In [32]:
print("Output Feature Names:", bow_vect.get_feature_names_out())

Output Feature Names: ['$' '-' '- language' '- learning' '10' '10 machine' 'Are' 'Are Mimicing'
 'Learning' 'Learning $' 'Learning Machine' 'Machine' 'Machine Learning'
 'Mimicing' 'Mimicing natural' 'Processing' 'Processing natural' 'We'
 'We are' 'algorithms.' 'are' 'are Learning' 'data.' 'intelligence'
 'language' 'language data.' 'learning' 'learning algorithms.' 'machine'
 'machine -' 'natural' 'natural -' 'natural intelligence' 'we' 'we Are']


In [34]:
# convert sparse matrix to numpy array
print(dtm.toarray())

[[1 0 0 0 0 0 0 0 2 1 1 1 1 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 1 1 0 0 0 0 1 1 0 0 0]
 [0 1 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0]
 [0 0 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 1 1]]


In [35]:
# Converting the sparse matrix to a dataframe

pd.DataFrame(dtm.toarray(), 
             columns=bow_vect.get_feature_names_out())

Unnamed: 0,$,-,- language,- learning,10,10 machine,Are,Are Mimicing,Learning,Learning $,...,language data.,learning,learning algorithms.,machine,machine -,natural,natural -,natural intelligence,we,we Are
0,1,0,0,0,0,0,0,0,2,1,...,0,0,0,0,0,0,0,0,0,0
1,0,1,1,0,0,0,0,0,0,0,...,1,0,0,0,0,1,1,0,0,0
2,0,1,0,1,1,1,0,0,0,0,...,0,1,1,1,1,0,0,0,0,0
3,0,0,0,0,0,0,1,1,0,0,...,0,0,0,0,0,1,0,1,1,1


# Term Frequency - Inverse Document Frequency ( TF_IDF)
## khác biệt so với BoW
###TF-IDF giải quyết nhược điểm lớn nhất của BoW: BoW coi tất cả các từ đều có tầm quan trọng như nhau. TF-IDF thì không. Nó đánh giá tầm quan trọng của từ, giúp các thuật toán học máy tập trung vào các từ khóa có ý nghĩa hơn, từ đó cải thiện hiệu suất của mô hình.

1. Term Frequency
-  measures how Frequently a term (word) appears in a documents()

2. Inverse Document Frequency
- Measures how important a term is within the entire corpus
- It decreases the weight of terms that appear in many documents and increases the weight of terms that appear in fewer documents.

## Advantage
1. If the word is rare in the corpus, it will be given more importance
2. If the word is more frequent in a document, it will be giive more importtance
## disvantages
same as BoW

# TF IDF Text Vectorization: Apply TfidfVVectorizer


In [39]:
# TF_IDF
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vect = TfidfVectorizer(ngram_range = (1, 1), 
                             lowercase = False
                            , preprocessor=None,
                             stop_words=None, 
                            )
# không cần sử dụng token_pattern vì nó amwcj định là r"(?u)\b\w+\b"

out = tfidf_vect.fit_transform(df['text'])
print(f"Shape of output (# of docs, # of unique vocabulary): {out.shape}")

print(f"Type of output (i.e. Compressed Sparse Row (CSR) format): {type(out)}")

Shape of output (# of docs, # of unique vocabulary): (4, 16)
Type of output (i.e. Compressed Sparse Row (CSR) format): <class 'scipy.sparse._csr.csr_matrix'>


In [41]:
print(len(tfidf_vect.vocabulary_))
print(tfidf_vect.vocabulary_)

16
{'We': 6, 'are': 8, 'Learning': 2, 'Machine': 3, 'Processing': 5, 'natural': 14, 'language': 11, 'data': 9, '10': 0, 'machine': 13, 'learning': 12, 'algorithms': 7, 'we': 15, 'Are': 1, 'Mimicing': 4, 'intelligence': 10}


In [42]:
# nó sẽ khác nhau ở am trận, điểm của ma trận không chỉ dựa trên tần suất
# từ trong văn bản đó mà còn dựa trên mức độ hiếm của từ đó trong toàn bộ tập dữ liệu
print(tfidf_vect.get_feature_names_out())

['10' 'Are' 'Learning' 'Machine' 'Mimicing' 'Processing' 'We' 'algorithms'
 'are' 'data' 'intelligence' 'language' 'learning' 'machine' 'natural'
 'we']


In [43]:
# convert sparse matrix to nparray

print(out.toarray())

# ô nào càng lớn mức độ hiếm càng cao

[[0.         0.         0.75592895 0.37796447 0.         0.
  0.37796447 0.         0.37796447 0.         0.         0.
  0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.52547275
  0.         0.         0.         0.52547275 0.         0.52547275
  0.         0.         0.41428875 0.        ]
 [0.5        0.         0.         0.         0.         0.
  0.         0.5        0.         0.         0.         0.
  0.5        0.5        0.         0.        ]
 [0.         0.46516193 0.         0.         0.46516193 0.
  0.         0.         0.         0.         0.46516193 0.
  0.         0.         0.36673901 0.46516193]]


In [44]:

# Converting the sparse matrix to a dataframe

pd.DataFrame(out.toarray(), 
             columns=tfidf_vect.get_feature_names_out())

Unnamed: 0,10,Are,Learning,Machine,Mimicing,Processing,We,algorithms,are,data,intelligence,language,learning,machine,natural,we
0,0.0,0.0,0.755929,0.377964,0.0,0.0,0.377964,0.0,0.377964,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.525473,0.0,0.0,0.0,0.525473,0.0,0.525473,0.0,0.0,0.414289,0.0
2,0.5,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.5,0.5,0.0,0.0
3,0.0,0.465162,0.0,0.0,0.465162,0.0,0.0,0.0,0.0,0.0,0.465162,0.0,0.0,0.0,0.366739,0.465162
