# Аудиториска вежба 10: NLP


### Text Vectorization


Text Vectorization is the process of converting text into a numerical representation.

We can accomplish this using different methods.

Binary Term Frequency - captures presence (1) or absence (0) of a term in a documnent.

Bag of Words (BoW) Term Frequency - captures frequency of term in a document.

Normalized Term Frequency L1 - captures normalized BoW Term Frequency in a document.

Normalized TF-IDF (Term Frequency-Inverse Document Frequency) L2 - captures normalized 
TD-IDF in a document. The following image shows the formula to compute TF-IDF:


## Binary Term Frequency

In [10]:
import pandas as pd

In [12]:
corpus = ["This is a brown house. This house is big. The street number is 1.",
          "This is a small house. This house has 1 bedroom. The street number is 12.",
          "This dog is brown. This dog likes to play.",
          "The dog is in the bedroom."]

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer

tv = TfidfVectorizer(binary=True,
                     norm=None,
                     use_idf=False,
                     smooth_idf=False,
                     lowercase=True,
                     stop_words='english',
                     token_pattern=r'(?u)\b[A-Za-z]+\b',
                     min_df=1,
                     max_df=1.0,
                     max_features=None,
                     ngram_range=(1, 1))

#### binary=True:

Кога е True, вредностите на матрицата ќе бидат 0 или 1. Значи, ако зборот се појавува во документот, вредноста ќе биде 1, а ако не, вредноста ќе биде 0.
Кога е False, TfidfVectorizer ќе пресмета вистински TF-IDF вредности за секој збор во документот.

#### norm=None:

Овој параметар дефинира каков тип на нормализација да се применува на резултатите.
Ако е None, нема да има нормализација на резултатите.

#### use_idf=False:

Овој параметар е поставен на False, што значи дека IDF (Inverse Document Frequency) нема да се користи при пресметката на TF-IDF вредностите.
Ако беше True, ќе се користеше IDF за прилагодување на важноста на зборовите во однос на нивната појавност во целокупниот корпус.

#### smooth_idf=False:

Овој параметар дефинира дали да се применува смоотинг на IDF пресметката. Кога е True, ќе се додаде мала вредност за да се избегнат математички проблеми со нула во IDF.
Во овој случај е False, бидејќи се користи use_idf=False.

#### lowercase=True:

Овој параметар ги прави сите зборови малини букви пред да се анализираат, што помага да се избегне двојно броење на исти зборови во различни форми (на пример, "House" и "house").

#### stop_words='english':

Овој параметар ја елиминира употребата на чести стоп-зборови на англиски јазик (како "the", "is", "and"), бидејќи овие зборови не носат значајни информации за анализата.

#### token_pattern=r'(?u)\b[A-Za-z]+\b':

Овој параметар дефинира регуларен израз што го одредува моделот на зборови што треба да се вклучат.
Овој израз значи дека ќе се користат само букви (од А до Z или а до z), што значи дека бројките и симболите ќе се игнорираат.

#### min_df=1:

Овој параметар означува дека зборовите ќе се вклучуваат во моделот ако се појавуваат во најмалку 1 документ. Тоа значи дека нема да се игнорираат зборови кои се појавуваат само во еден документ.

#### max_df=1.0:

Овој параметар означува дека зборовите ќе се вклучуваат во моделот ако не се појавуваат во повеќе од 100% од документите. Вредноста 1.0 значи дека нема ограничување во броjот на документи во кои зборовите може да се појавуваат.

#### max_features=None:

Овој параметар дефинира максимален број на карактеристики (features) што треба да бидат вклучени во резултатот. None значи дека нема да има ограничување и сите зборови ќе бидат вклучени.

#### ngram_range=(1, 1):

Овој параметар дефинира дека ќе се користат само едноставни зборови (1-grams). Тоа значи дека се земаат само поединечни зборови, а не и комбинации на зборови (например, биграми или триграми).

In [19]:
data = pd.DataFrame(tv.fit_transform(corpus).toarray(), 
                    columns=tv.get_feature_names_out())

In [21]:
data

Unnamed: 0,bedroom,big,brown,dog,house,likes,number,play,small,street
0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0
1,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,1.0
2,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0
3,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0


## Bag of Words Term Frequency

In [26]:
tv = TfidfVectorizer(binary=False,
                     norm=None,
                     use_idf=False,
                     smooth_idf=False,
                     lowercase=True,
                     stop_words='english',
                     token_pattern=r'(?u)\b[A-Za-z]+\b',
                     min_df=1,
                     max_df=1.0,
                     max_features=None,
                     ngram_range=(1, 1))

binary=False (во овој пример) – користи TF-IDF вредности:

Ако имате збор што се појавува многу често во еден документ, и ако binary=False, тој збор ќе добие поголема TF-IDF вредност ако се појавува во документот, а истовремено ќе биде помалку важен ако се појавува во многу други документи.

In [28]:
data = pd.DataFrame(tv.fit_transform(corpus).toarray(), columns=tv.get_feature_names_out())

In [30]:
data

Unnamed: 0,bedroom,big,brown,dog,house,likes,number,play,small,street
0,0.0,1.0,1.0,0.0,2.0,0.0,1.0,0.0,0.0,1.0
1,1.0,0.0,0.0,0.0,2.0,0.0,1.0,0.0,1.0,1.0
2,0.0,0.0,1.0,2.0,0.0,1.0,0.0,1.0,0.0,0.0
3,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0


## Normalized Term Frequency

In [37]:
tv = TfidfVectorizer(binary=False,
                     norm='l1',
                     use_idf=False,
                     smooth_idf=False,
                     lowercase=True,
                     stop_words='english',
                     token_pattern=r'(?u)\b[A-Za-z]+\b',
                     min_df=1,
                     max_df=1.0,
                     max_features=None,
                     ngram_range=(1, 1))

l1 нормализација значи дека сумата на сите елементи во секој ред ќе биде 1, при што секој елемент ќе биде поделено со вкупната сума на елементите во тој ред.
Ова е корисно кога сакате да имате еднаква тежина за сите документи и не сакате да ги преоптоварувате со големи вредности на TF-ID

In [39]:
data = pd.DataFrame(tv.fit_transform(corpus).toarray(),
                    columns=tv.get_feature_names_out())


In [42]:
data


Unnamed: 0,bedroom,big,brown,dog,house,likes,number,play,small,street
0,0.0,0.166667,0.166667,0.0,0.333333,0.0,0.166667,0.0,0.0,0.166667
1,0.166667,0.0,0.0,0.0,0.333333,0.0,0.166667,0.0,0.166667,0.166667
2,0.0,0.0,0.2,0.4,0.0,0.2,0.0,0.2,0.0,0.0
3,0.5,0.0,0.0,0.5,0.0,0.0,0.0,0.0,0.0,0.0


## Normalized TF-IDF

In [49]:
tv = TfidfVectorizer(binary=False,
                     norm='l2',
                     use_idf=False,
                     smooth_idf=False,
                     lowercase=True,
                     stop_words='english',
                     token_pattern=r'(?u)\b[A-Za-z]+\b',
                     min_df=1,
                     max_df=1.0,
                     max_features=None,
                     ngram_range=(1, 1))

L2 нормализацијата (која е поставена во овој пример) ќе ги нормализира вредностите на секој документ така што сумата на квадратите на вредностите на зборовите во документот ќе биде еднаква на 1.

Ова е корисно ако сакате да се осигурите дека зборовите во документите ќе бидат пропорционално распоредени и дека сумата на нивните вредности нема да предизвика преоптоварување на било кој збор

In [51]:
data = pd.DataFrame(tv.fit_transform(corpus).toarray(),
                    columns=tv.get_feature_names_out())

In [53]:
data

Unnamed: 0,bedroom,big,brown,dog,house,likes,number,play,small,street
0,0.0,0.353553,0.353553,0.0,0.707107,0.0,0.353553,0.0,0.0,0.353553
1,0.353553,0.0,0.0,0.0,0.707107,0.0,0.353553,0.0,0.353553,0.353553
2,0.0,0.0,0.377964,0.755929,0.0,0.377964,0.0,0.377964,0.0,0.0
3,0.707107,0.0,0.0,0.707107,0.0,0.0,0.0,0.0,0.0,0.0


## Text Classification

In [61]:
data = pd.read_csv('SPAM text message 20170820 - Data.csv')

In [63]:
data

Unnamed: 0,Category,Message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
...,...,...
5567,spam,This is the 2nd time we have tried 2 contact u...
5568,ham,Will ü b going to esplanade fr home?
5569,ham,"Pity, * was in mood for that. So...any other s..."
5570,ham,The guy did some bitching but I acted like i'd...


In [65]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(data['Message'],
                                                    data['Category'],
                                                    test_size=0.2)

In [67]:
from collections import Counter

print(f"Training class distributions summary: {Counter(Y_train)}")
print(f"Test class distributions summary: {Counter(Y_test)}")

Training class distributions summary: Counter({'ham': 3869, 'spam': 588})
Test class distributions summary: Counter({'ham': 956, 'spam': 159})


In [69]:
#Note: The make_pipeline() method is used to create a pipeline using
#the provided estimators.
#Note: We can use it when we want to perform operations step by
#step on some dataset.
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

model = make_pipeline(TfidfVectorizer(), MultinomialNB())
model.fit(X_train, Y_train)

y_pred = model.predict(X_test)

MultinomialNB е специјално дизајниран за задачи каде што се работи со категоријални податоци или нумерички податоци кои следат мулти-номинален распределба. Во случај на текстуална класификација, ова значи дека го претставува бројот на појавувања на зборови (термини) како високи бројеви.

In [71]:
from imblearn.metrics import classification_report_imbalanced

print(classification_report_imbalanced(Y_test, y_pred))

                   pre       rec       spe        f1       geo       iba       sup

        ham       0.95      1.00      0.70      0.98      0.84      0.73       956
       spam       1.00      0.70      1.00      0.83      0.84      0.68       159

avg / total       0.96      0.96      0.75      0.95      0.84      0.72      1115



In [77]:
#Note: Undersampling is a technique used to balance uneven datasets
#by keeping all of the data from the minority class and decreasing the
#size of data of the majority class.
from imblearn.pipeline import make_pipeline as make_pipeline_imb
from imblearn.under_sampling import RandomUnderSampler

model = make_pipeline_imb(TfidfVectorizer(),
                          RandomUnderSampler(),
                          MultinomialNB())
model.fit(X_train, Y_train)

y_pred = model.predict(X_test)

RandomUnderSampler(): Ова е техниката за балансирање на класите во податоците. Таа случајно ги отстранува примероците од поголемата класа (класата со повеќе примери), така што ќе имате рамномерно распределени класи.

RandomUnderSampler е корисен кога имате нерамнотежени податоци (на пример, еден клас има значително повеќе примери од други класи).

In [75]:
print(classification_report_imbalanced(Y_test, y_pred))

                   pre       rec       spe        f1       geo       iba       sup

        ham       0.99      0.95      0.96      0.97      0.96      0.92       956
       spam       0.77      0.96      0.95      0.86      0.96      0.92       159

avg / total       0.96      0.95      0.96      0.96      0.96      0.92      1115

