# Вежба 3: Репрезентација на текстуални податоци во нумеричка форма

## CountVectorizer

Ја импортираме CountVectorizer класата со цел да работиме со frequencey-based репрезентација

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

Ова е корпусот кој ќе го користиме и содржи 4 документи

In [2]:
corpus = ['This is the first document.',
          'This is the second document.',
          'Third document. Document number three',
          'Number four. To repeat, number four']

Ја иницијализираме класата со CountVectorizer()
За да секој збор во корпусот добие уникатно ID се користи vectorizer.fit(<data>). Со ова се учи целиот речник. 
Методот vectorizer.transform(<data>) ги назначува генерираните уникатни ID-а на соодветните зборови.
Како и да е, најчесто се користат двата методи истовременo со користење на методот vectorizer.fit_transform(<data>) кој генерира торба од зборови
bag_of_words е sparse 4x12 матрица бидејќи во корпусот има 4 документи со вкупно 12 зборови.

In [3]:
vectorizer = CountVectorizer()
bag_or_words = vectorizer.fit_transform(corpus)
bag_or_words

<4x12 sparse matrix of type '<class 'numpy.int64'>'
	with 18 stored elements in Compressed Sparse Row format>

In [7]:
bag_or_words.shape

(4, 12)

Се печати bag_of_words во следниов формат:
(ID на документ, ID на збор)    фреквенција на појавување

In [4]:
print(bag_or_words)

  (0, 9)	1
  (0, 3)	1
  (0, 7)	1
  (0, 1)	1
  (0, 0)	1
  (1, 9)	1
  (1, 3)	1
  (1, 7)	1
  (1, 0)	1
  (1, 6)	1
  (2, 0)	2
  (2, 8)	1
  (2, 4)	1
  (2, 10)	1
  (3, 4)	2
  (3, 2)	2
  (3, 11)	1
  (3, 5)	1


За да го видиме ID-то на зборот second, го користиме следниов код

In [5]:
vectorizer.vocabulary_.get('second')

6

Еве ги сите 12 зборови во речникот

In [5]:
vectorizer.vocabulary_

{'this': 9,
 'is': 3,
 'the': 7,
 'first': 1,
 'document': 0,
 'second': 6,
 'third': 8,
 'number': 4,
 'three': 10,
 'four': 2,
 'to': 11,
 'repeat': 5}

In [6]:
import pandas as pd

print(pd.__version__)

1.4.2


За да го видиме во табеларен формат ни треба pandas библиотеката. Во табелата редовите ги претставуваат документите, а колоните се зборовите од речникот. Вредностите се фреквенциите на секој збор во даден документ.

In [7]:
pd.DataFrame(bag_or_words.toarray(), columns=vectorizer.get_feature_names_out())

Unnamed: 0,document,first,four,is,number,repeat,second,the,third,this,three,to
0,1,1,0,1,0,0,0,1,0,1,0,0
1,1,0,0,1,0,0,1,1,0,1,0,0
2,2,0,0,0,1,0,0,0,1,0,1,0
3,0,0,2,0,2,1,0,0,0,0,0,1


## TfidfVectorizer

Еве пример како се користи TF-IDF алгоритам за доделување на вредност на секој од зборовите

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
bag_of_words = vectorizer.fit_transform(corpus)

Еве ја bag_of_words репрезентацијата. Секој збор во секој документ има асоцирана TF-IDF вредност

In [9]:
print(bag_of_words)

  (0, 0)	0.3528554929793508
  (0, 1)	0.5528163151092931
  (0, 7)	0.43584673254990375
  (0, 3)	0.43584673254990375
  (0, 9)	0.43584673254990375
  (1, 6)	0.5528163151092931
  (1, 0)	0.3528554929793508
  (1, 7)	0.43584673254990375
  (1, 3)	0.43584673254990375
  (1, 9)	0.43584673254990375
  (2, 10)	0.4850008395708102
  (2, 4)	0.3823802326982809
  (2, 8)	0.4850008395708102
  (2, 0)	0.6191395067937654
  (3, 5)	0.3432724906138499
  (3, 11)	0.3432724906138499
  (3, 2)	0.6865449812276998
  (3, 4)	0.5412799489419371


In [10]:
vectorizer.vocabulary_.get('second')

6

Вредностите во табеларниот приказ сега се TF-IDF вредност, а не фреквенција на зборот

In [11]:
pd.DataFrame(bag_of_words.toarray(), columns=vectorizer.get_feature_names_out())

Unnamed: 0,document,first,four,is,number,repeat,second,the,third,this,three,to
0,0.352855,0.552816,0.0,0.435847,0.0,0.0,0.0,0.435847,0.0,0.435847,0.0,0.0
1,0.352855,0.0,0.0,0.435847,0.0,0.0,0.552816,0.435847,0.0,0.435847,0.0,0.0
2,0.61914,0.0,0.0,0.0,0.38238,0.0,0.0,0.0,0.485001,0.0,0.485001,0.0
3,0.0,0.0,0.686545,0.0,0.54128,0.343272,0.0,0.0,0.0,0.0,0.0,0.343272


In [12]:
vectorizer.vocabulary_

{'this': 9,
 'is': 3,
 'the': 7,
 'first': 1,
 'document': 0,
 'second': 6,
 'third': 8,
 'number': 4,
 'three': 10,
 'four': 2,
 'to': 11,
 'repeat': 5}

Во примеров наместо CountVectorizer користиме HashingVectorizer со кој вршиме хаширање на 12-те зборови во 8 корпи (n_features=8). Резултатот е НОРМАЛИЗИРАНА нумеричка репрезентација на сите зборови во 4-те документи. Забележете дека ID-то на зборовите сега е од 0 до 7, односно повеќе зборови се хеширале во иста корпа

In [13]:
from sklearn.feature_extraction.text import HashingVectorizer

vectorizer = HashingVectorizer(n_features=8)
feature_vector = vectorizer.fit_transform(corpus)
print(feature_vector)

  (0, 0)	-0.8944271909999159
  (0, 5)	0.4472135954999579
  (0, 6)	0.0
  (1, 0)	-0.5773502691896258
  (1, 3)	0.5773502691896258
  (1, 5)	0.5773502691896258
  (1, 6)	0.0
  (2, 0)	-0.7559289460184544
  (2, 3)	0.3779644730092272
  (2, 5)	0.3779644730092272
  (2, 7)	0.3779644730092272
  (3, 0)	0.31622776601683794
  (3, 3)	0.31622776601683794
  (3, 5)	0.6324555320336759
  (3, 7)	0.6324555320336759
