În partea precedentă am creat manula codul pentru Count Vectorization. Urmează să facem acest lucru acuma cu Scikit-Learn. O să ne uităm peste trei clase specifice și anume:

1. Count Vectorizer

2. TF-IDF Transformer

3. TF-IDF Vectorizer

Pentru acest exemplu o să lucrăm o listă care o să conțină trei string-uri diferite

In [4]:
text = ['This is a line',
        'This is another line',
        'Completley different line']

În continuare o să creem acel bag of words model, dar de data asta utilizând Scikit-Learn, mai specific o să ne folosim de clasa 'CountVectorizer' care se găsește în sklearn.feature_extraction.text. O să importăm această clasă

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

Trebuie să creem o instanță pentru această clasă, iar după o să apelăm metoda fit_transform() pentru acea listă de sring-uri. Ceea ce o să facă aceast cod, o să trateze fiecare element din listă (adică fiecare string) ca pe un document separat

In [2]:
cv = CountVectorizer()

In [5]:
cv.fit_transform(text)

<3x6 sparse matrix of type '<class 'numpy.int64'>'
	with 10 stored elements in Compressed Sparse Row format>

În cele ce urmează o să discutăm despre diferența dintre fit și fit_transform și cum să citim documente mai multe sau mai mari. Din rezultatul de mai sus observăm faptul că 'fit_transform' returnează un sparse matrix deoarece multe dintre datele din rezultat au valoarea 0, iar prin intermediul unui sparse matrix reușim să salvăm spațiu

In [6]:
sparse_matrix = cv.fit_transform(text)

In [7]:
sparse_matrix

<3x6 sparse matrix of type '<class 'numpy.int64'>'
	with 10 stored elements in Compressed Sparse Row format>

Dacă salvăm rezultatul într-o variabilă, atunci când o apelăm aceasta doar ne returnează informația cum că este o matrice de tip sparse matrix. În cazul în care dorim să vizualizăm datele din această matrice putem apela metoda .todense()

In [8]:
sparse_matrix.todense()

matrix([[0, 0, 0, 1, 1, 1],
        [1, 0, 0, 1, 1, 1],
        [0, 1, 1, 0, 1, 0]])

Cu ajutorul acestei metode reușim să vizualizăm rezultatul. De notat însă faptul că nu este recomandat să utilizăm această metodă atunci când lucrăm cu un număr extrem de mare de date. Datele din acea matrice reprezintă ceea ce am creat precedent manual și fac referire la acel vocabular cu care am lucrat. Putem să vizualizăm vocabularul utilizând atributul .vocabulary_

In [9]:
cv.vocabulary_

{'this': 5, 'is': 3, 'line': 4, 'another': 0, 'completley': 1, 'different': 2}

Identificatorii pentru cuvintele din dicționar fac referire la locația din acea matrice. De exemplu, putem vedea că în dicționar cuvântul 'another' are identificatorul 0, Dacă ne uităm în cadrul matricei, pentru index-ul 0, doar pentru rândul 2 avem o valoare diferită de zero (valoarea 1). Asta ne spune că acel cuvânt cu index-ul 0 din dicționar a apărul 1 dată în al doilea document și niciodată în celelalte două documente. Dacă ne uităm la conținutul variabilei text putem confirma acest lucru

In [10]:
text

['This is a line', 'This is another line', 'Completley different line']

Doar al doilea string din aceastp listă are prezent cuvântul 'another'. În cazul acestor documente există și anumite cuvinte care sunt destul de comune și e normal să apară în orice document (acele stop words de care am menționat ăn lecturile precedente). Pentru a elimina aceste cuvinte, clasa de CountVectorizer are impelementat parametrul de stop_words la care putem să îi oferim ca și valoare fie 'english' (care reprezintă un dicționar de cuvinte comune din limba Engleză), fie să îi oferim o listă de valori

In [12]:
cv = CountVectorizer(stop_words='english')
sparse_matrix = cv.fit_transform(text)
sparse_matrix.todense()

matrix([[0, 0, 1],
        [0, 0, 1],
        [1, 1, 1]])

Din moment ce acuma am folosit parametrul de 'stop_words="english"' se poate observa faptul că există doar trei valori în matrice, ceea ce înseamnă că există doar trei cuvinte în cadrul vocabularului

In [14]:
cv.vocabulary_

{'line': 2, 'completley': 0, 'different': 1}

Ceea ce dorim să facem în continuare cu acest bag of words care a rezultat este să facem acea comparație între documente, să vedem dacă există anumite cuvinte care sunt specifice pentru fiecare document sau anumite cuvinte care sunt specifice pentru toate documentele. Pentru asta o să utilizăm un TF-IDF Transformer. Pe acesta îl importăm tot din sklearn.feature_extraction.text și poartă denumirea de TfidfTransformer

In [15]:
from sklearn.feature_extraction.text import TfidfTransformer

In [16]:
tfidf = TfidfTransformer()

Metoda de fit_transform() de la această clasă ia ca și input un sparse matrix, adică rezultatul acelui CountVectorizer

In [17]:
result = tfidf.fit_transform(sparse_matrix)

In [18]:
result

<3x3 sparse matrix of type '<class 'numpy.float64'>'
	with 5 stored elements in Compressed Sparse Row format>

După cum putea vedea, se returnează din nou doar un sparse matrix. Dacă dorim (din moment ce are o memeorie mică) putem să afișăm acea matrice

In [19]:
result.todense()

matrix([[0.        , 0.        , 1.        ],
        [0.        , 0.        , 1.        ],
        [0.65249088, 0.65249088, 0.38537163]])

După ce am aplicat această transformare se poate observa că valorile au fost modificate. Pentru a ne ușura treaba, Scikit-Learn are și o clasă de TfidfVectorizer care face ambii pași deodată. Tot ce trebuie să facem este să importăm acea clasă, să creem o instanță și să utilizăm metoda fit_transform() pe datele respective (adică pe variabila text)

In [22]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [23]:
tfidf_v = TfidfVectorizer()

In [24]:
result = tfidf_v.fit_transform(text)
result.todense()

matrix([[0.        , 0.        , 0.        , 0.61980538, 0.48133417,
         0.61980538],
        [0.63174505, 0.        , 0.        , 0.4804584 , 0.37311881,
         0.4804584 ],
        [0.        , 0.65249088, 0.65249088, 0.        , 0.38537163,
         0.        ]])

## Recapitulare

În cadrul acestei lecții am învățat următoarele lucruri:

    1. De unde să importăm clasa de CountVectorizer

        from sklearn.feature_extractor.text import CountVectorizer

    2. Cum să folosim clasa de CountVectorizer

        cv = CountVectorizer()

        cv.fit_transform(text)

    3. Ce returnează metoda fit_transform

        Metoda returnează un sparse matrix pentru o econimisi spațiu

    4. Cum putem să transformă un spare matrix înapoi într-o matrice densă 

        results = cv.fit_transform(text)

        results.todense()

    5. Cum putem să utilizăm conceptul de stop_words pentru a elimina cuvintele comnue dintr-o anumită limbă

        cv = CountVectorizer(stop_words='english')

    6. De unde să importăm clasa de TfidfTransformer

        from sklearn.feature_extraction.text import TfidfTransformer

    7. De ce anume are nevoie această clasă și cum se utilizează

        Metoda de fit_transform() de la TfidfTransformer are nevoie de rezultatul de la CountVectorizer pentru a funcționa

        cv = CountVectorizer()

        tfidf = TfidfTransformer()

        cv_result = cv.fit_transformt(text)

        tfidf_result = tfidf.fit_transform(cv_results)

    8. Pașii de mai sus putem să îi realizăm cu o singură clasă, cea de TfidfVectorizer

        from sklearn.feature_extraction.text import TfidfVectorizer

        tfidf_v = TfidfVectorizer()

        tfidf_v_result = tfidf_v.fit_transform(text)