# Word2Vec: interpretação da linguagem humana com Word embedding

Material referente ao curso da Alura disponível [aqui](https://cursos.alura.com.br/course/introducao-word-embedding). O propósito final deste notebook é criar um detector de categoria de notícia.

## Preparando o ambiente

In [1]:
!pip install gensim



In [2]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.dummy import DummyClassifier
from gensim.models import KeyedVectors
import nltk
import string
import numpy as np

In [3]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\salat\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [4]:
SEED = 42

## Carregando os dados

In [5]:
treino = pd.read_csv('dados/treino.csv')
teste = pd.read_csv('dados/teste.csv')

In [6]:
treino.head()

Unnamed: 0,title,text,date,category,subcategory,link
0,"Após polêmica, Marine Le Pen diz que abomina n...",A candidata da direita nacionalista à Presidên...,2017-04-28,mundo,,http://www1.folha.uol.com.br/mundo/2017/04/187...
1,"Macron e Le Pen vão ao 2º turno na França, em ...",O centrista independente Emmanuel Macron e a d...,2017-04-23,mundo,,http://www1.folha.uol.com.br/mundo/2017/04/187...
2,"Apesar de larga vitória nas legislativas, Macr...",As eleições legislativas deste domingo (19) na...,2017-06-19,mundo,,http://www1.folha.uol.com.br/mundo/2017/06/189...
3,"Governo antecipa balanço, e Alckmin anuncia qu...",O número de ocorrências de homicídios dolosos ...,2015-07-24,cotidiano,,http://www1.folha.uol.com.br/cotidiano/2015/07...
4,"Após queda em maio, a atividade econômica sobe...","A economia cresceu 0,25% no segundo trimestre,...",2017-08-17,mercado,,http://www1.folha.uol.com.br/mercado/2017/08/1...


In [7]:
with open('dados/cbow_s300.txt') as f:
    for linha in range(10):
        print(next(f))

929606 300

</s> -0.001667 -0.000158 -0.000026 0.001300 -0.000796 0.001527 0.000046 0.000584 0.000449 -0.000100 0.000353 0.001251 0.001069 0.000506 0.000574 0.000838 -0.000930 -0.001220 0.000317 0.001315 -0.001120 0.001373 -0.000040 -0.001580 0.000421 -0.000667 -0.001556 -0.000746 0.001604 0.001157 -0.000027 0.000354 0.000358 -0.000527 -0.000573 -0.001512 -0.001557 -0.001637 0.001617 -0.001511 -0.001022 -0.001426 0.001086 -0.001033 0.000593 0.000724 0.000627 -0.000450 -0.001140 0.000333 0.000524 0.001541 0.000284 0.000617 -0.000807 -0.000088 -0.000364 0.001126 -0.001230 -0.001138 -0.001280 0.001330 0.001257 0.000576 0.000764 0.000684 0.001008 -0.000215 -0.000629 -0.001228 -0.001557 -0.000311 -0.000246 0.000045 0.001136 -0.000645 -0.000549 0.001099 0.000858 -0.000886 0.000553 0.000303 0.001433 0.000732 0.001321 -0.000894 -0.000700 -0.000661 -0.001484 -0.000950 -0.001556 -0.000809 0.000348 -0.000068 0.000724 -0.000569 -0.000161 -0.001628 -0.001437 -0.000259 -0.000296 -0.001571 0.000149 0

In [8]:
modelo = KeyedVectors.load_word2vec_format('dados/cbow_s300.txt')

In [9]:
modelo.get_vector('china')

array([-1.49033e-01,  1.26020e-01,  2.17628e-01,  1.82684e-01,
        1.65151e-01, -1.59660e-01, -2.34411e-01,  6.00570e-02,
        8.03680e-02,  2.87578e-01, -4.81100e-03, -5.68800e-02,
        2.15676e-01,  8.65540e-02,  1.25983e-01,  3.36157e-01,
       -1.83254e-01, -1.18499e-01,  1.13010e-02,  1.03814e-01,
        9.37640e-02,  2.90178e-01, -1.64395e-01, -1.13300e-02,
       -1.80676e-01, -1.15820e-02,  1.08728e-01,  1.65898e-01,
        9.37900e-02,  2.66767e-01, -1.29890e-02,  9.16030e-02,
        2.21292e-01, -1.36497e-01, -4.26350e-02, -1.30038e-01,
        2.17067e-01, -1.01963e-01, -3.70960e-02,  1.42155e-01,
        3.41109e-01,  2.46560e-01,  1.27458e-01,  5.72360e-02,
       -1.47962e-01, -1.60290e-02,  1.86533e-01,  7.71550e-02,
       -3.50024e-01, -4.06085e-01,  1.67131e-01, -4.75230e-02,
        5.13780e-02, -1.28224e-01,  1.06580e-02, -2.92652e-01,
        1.40540e-01, -4.57049e-01,  1.31094e-01,  2.03234e-01,
        2.94019e-01,  7.38370e-02,  1.11554e-01, -1.642

In [10]:
len(modelo.get_vector('china'))

300

## Testando a vetorização das palavras

In [11]:
texto = [
    "tenha um bom dia",
    "tenha um péssimo dia",
    "tenha um ótimo dia"
]

In [12]:
vetorizador = CountVectorizer()
vetorizador.fit(texto)
print(vetorizador.vocabulary_)

{'tenha': 3, 'um': 4, 'bom': 0, 'dia': 1, 'péssimo': 2, 'ótimo': 5}


In [13]:
vetor_bom = vetorizador.transform(["bom"])
print(vetor_bom.toarray())

[[1 0 0 0 0 0]]


Esse formato não permite aproximação de palavras por contextualização.

## Obtendo as palavras mais próximas de outra

No caso, utilizando a palavra _china_.

In [14]:
modelo.most_similar('china')

[('rússia', 0.7320705652236938),
 ('índia', 0.7241616249084473),
 ('tailândia', 0.701935887336731),
 ('indonésia', 0.6860769987106323),
 ('turquia', 0.6741336584091187),
 ('malásia', 0.6665689945220947),
 ('mongólia', 0.6593616008758545),
 ('manchúria', 0.6581848859786987),
 ('urss', 0.6581668853759766),
 ('grã-bretanha', 0.6568098068237305)]

## Explorando as relações entre as palavras

### Plural

_**Nuvens** está para **nuvem** assim como **estrelas** está para **estrela**_

$Ns => N : Es => E$

In [15]:
modelo.most_similar(positive=['nuvens', 'estrela'], negative=['nuvem'])

[('estrelas', 0.5497430562973022),
 ('plêiades', 0.3791979253292084),
 ('colinas', 0.3746805489063263),
 ('trovoadas', 0.37370333075523376),
 ('sombras', 0.37341946363449097),
 ('pombas', 0.3726757764816284),
 ('corredoras', 0.3640727698802948),
 ('cigarras', 0.36065396666526794),
 ('galáxias', 0.35754910111427307),
 ('luas', 0.3575344979763031)]

Note que a palavra mais similar é também o plural. Ou seja, operações matemáticas estão permitindo encontrar relações de contexto em um vocabulário. No entanto nem sempre isso funciona corretamente:

### Gênero

In [16]:
modelo.most_similar(positive=['médico', 'mulher'], negative=['homem'])

[('enfermeira', 0.6180862188339233),
 ('psicóloga', 0.47447532415390015),
 ('dama-de-companhia', 0.47382351756095886),
 ('esposa', 0.46559131145477295),
 ('parteira', 0.4636286795139313),
 ('mãe', 0.45817679166793823),
 ('governanta', 0.45722925662994385),
 ('madrasta', 0.4569782614707947),
 ('menina', 0.4443591237068176),
 ('filha', 0.4434111416339874)]

Isso é um exemplo de _bias_. As nossas bases de dados refletem os viéses existentes na sociedade. Normalmente _médico_ é associado ao homem e, para mesma região contextual, o mais próximo de mulher é _enfermeira_ e não _médica_.

In [17]:
modelo.most_similar(positive=['professor', 'mulher'], negative=['homem'])

[('professora', 0.6192208528518677),
 ('aluna', 0.5449554324150085),
 ('esposa', 0.4978230595588684),
 ('ex-aluna', 0.4884248375892639),
 ('namorada', 0.4737858474254608),
 ('enfermeira', 0.4728143811225891),
 ('filha', 0.4673738479614258),
 ('irmã', 0.45845916867256165),
 ('ex-namorada', 0.45824769139289856),
 ('ex-professora', 0.4510470926761627)]

Note como que para o caso de _professor/professora_ o resultado foi correto.

## Vetorização do texto: Alura News

In [18]:
treino.title.loc[12]

"Daniel Craig será stormtrooper em novo 'Star Wars', diz ator"

In [19]:
def tokenizador(texto):
    texto = texto.lower()
    lista_alfanumerico = []
    for token_valido in nltk.word_tokenize(texto):
        if(token_valido in string.punctuation): continue
        lista_alfanumerico.append(token_valido)
    return lista_alfanumerico

In [20]:
tokenizador("Text exemplo, 1234.")

['text', 'exemplo', '1234']

In [21]:
def combinacao_de_vetores_por_soma(palavras_numeros):
    vetor_resultante = np.zeros(300)
    for pn in palavras_numeros:
        try:
            vetor_resultante += modelo.get_vector(pn)
        except KeyError:
            if(pn.isnumeric()):
                pn = "0" * len(pn)
            else:
                pn = "unknown"
            vetor_resultante += modelo.get_vector(pn)
    return vetor_resultante

In [22]:
combinacao_de_vetores_por_soma(tokenizador("Texto exemplo blateste 123"))

array([ 2.82375004e-01,  5.34099996e-01, -9.02680010e-02,  7.14331999e-01,
       -3.14585987e-01, -2.63855997e-01,  9.72592972e-01,  2.44773991e-01,
       -4.04193003e-01, -2.54065996e-01,  7.71848995e-01,  2.93405998e-01,
       -3.74439992e-01,  6.02699012e-01, -8.82209949e-02,  1.79990008e-02,
       -1.40151996e+00, -6.86359927e-02, -3.07091993e-01, -5.15361995e-01,
       -6.40697980e-01, -7.17419907e-02,  4.17280020e-02,  7.58208998e-01,
       -3.10904011e-01,  2.48399377e-03, -6.77058031e-01, -2.58959904e-02,
       -2.53299996e-03, -1.92691989e-01,  9.42480136e-02, -3.40558998e-01,
        1.07177000e-01,  6.05130000e-02,  1.33777995e-01,  3.31810001e-01,
        2.55109005e-01,  7.39010982e-01,  9.77540053e-02,  1.62625000e-01,
       -1.29702008e-01,  2.73874013e-01,  2.90505003e-01,  2.74922011e-01,
        3.16785989e-01,  2.42439991e-01,  4.11559002e-01,  5.24873011e-01,
        1.74969999e-01,  4.76715006e-01,  7.85149941e-02,  6.02812994e-01,
        3.25109884e-02,  

### Aplicando o tokenizador para treino e teste

In [23]:
def matriz_vetores(textos):
    x = len(textos)
    matriz = np.zeros((x, 300))
    for i in range(x):
        tokens = tokenizador(textos.iloc[i])
        matriz[i] = combinacao_de_vetores_por_soma(tokens)
    return matriz

In [24]:
matriz_treino = matriz_vetores(treino.title)
matriz_teste = matriz_vetores(teste.title)

In [25]:
matriz_treino

array([[ 0.52357099,  1.00529201,  0.26381801, ...,  0.43726099,
         0.187696  ,  0.15216099],
       [ 0.34492697,  0.83511301, -0.88874401, ...,  0.19878698,
        -1.40402502,  1.49788603],
       [ 0.050757  ,  0.95369402,  0.63757797, ...,  0.252318  ,
         0.142377  , -1.36338596],
       ...,
       [-0.89244701,  0.71595099,  0.332483  , ...,  0.40761799,
         0.558855  , -0.04226601],
       [-0.03248802, -0.259999  , -0.925543  , ..., -0.34076802,
        -1.12714999,  0.55980401],
       [ 0.46499701,  1.07129601, -0.34205199, ..., -0.83202901,
        -0.27768998, -0.34096499]])

## Aplicando a regressão logística nos vetores encontrados

In [26]:
#LR = LogisticRegression(solver='saga', max_iter=100, multi_class='multinomial')
LR = LogisticRegression(max_iter=200, random_state=SEED)
LR.fit(matriz_treino, treino.category)

LogisticRegression(max_iter=200, random_state=42)

In [27]:
print(LR.n_iter_)

[129]


In [28]:
LR.score(matriz_teste, teste.category)

0.7957880368546775

Utilizando os parâmetros default (solver `lbfgs`) o algoritimo executou bem mais rápido e com o mesmo score de solvers mais complexos, como o `saga`.

In [29]:
teste.category.unique()

array(['colunas', 'esporte', 'mercado', 'cotidiano', 'mundo', 'ilustrada'],
      dtype=object)

Como ele está se saindo para cada categoria?
Verificar o relatório das métricas com `classification_report`

In [30]:
label_prevista = LR.predict(matriz_teste)

In [31]:
CR = classification_report(teste.category, label_prevista)
print(CR)

              precision    recall  f1-score   support

     colunas       0.86      0.71      0.78      6103
   cotidiano       0.61      0.79      0.69      1698
     esporte       0.92      0.88      0.90      4663
   ilustrada       0.13      0.88      0.23       131
     mercado       0.84      0.79      0.81      5867
       mundo       0.74      0.86      0.79      2051

    accuracy                           0.80     20513
   macro avg       0.68      0.82      0.70     20513
weighted avg       0.83      0.80      0.81     20513



É semelhante, em alguns aspectos, aos dados para a matriz de confusão.

* **Precision (Precisão)**: Do que foi classificado como A, apenas x% é a classificação predita.
* **Recall (Revocação)**: De todos os registros que eram da categoria A, x% foram preditos corretamente como A.
* **F1-Score**: Média harmônica das métricas anteriores.

É notável que a categoria com maior erro é a **ilustrada**. A maior parte do que se classifica como ela foi corretamente classificado, mas boa parte das classificações foi errada. No entanto ela é a cateogoria com menor `support`, ou seja, com menor quantidade de itens (apenas 131) e, portanto, seu impacto não é tão grande na base. Inclusive seu score ruim pode ser justamente pela baixa quantidade de dados.

Será que estamos tendo _overfitting_? Vamos comparar o score com os dados de treino:

In [32]:
label_prevista = LR.predict(matriz_treino)
CR = classification_report(treino.category, label_prevista)
print(f'Score: {LR.score(matriz_treino, treino.category)}\n\n')
print(CR)

Score: 0.8166555555555556


              precision    recall  f1-score   support

     colunas       0.76      0.72      0.74     15000
   cotidiano       0.80      0.81      0.81     15000
     esporte       0.90      0.89      0.89     15000
   ilustrada       0.83      0.84      0.84     15000
     mercado       0.78      0.80      0.79     15000
       mundo       0.83      0.85      0.84     15000

    accuracy                           0.82     90000
   macro avg       0.82      0.82      0.82     90000
weighted avg       0.82      0.82      0.82     90000



O Score para treino é maior, mas não tão maior. No entanto é perceptível o desbalanceamento das categorias entre treino e teste.

### Validando os resultados com o `DummyClassifier`

In [33]:
DC = DummyClassifier(random_state=SEED, strategy='prior')
DC.fit(matriz_treino, treino.category)

label_prevista_dc = DC.predict(matriz_teste)
CR = classification_report(teste.category, label_prevista_dc, zero_division=0)
print(f'Test Score: {DC.score(matriz_teste, teste.category)}')
print(f'Train Score: {DC.score(matriz_treino, treino.category)}\n\n')
print(CR)

Test Score: 0.29751864671184125
Train Score: 0.16666666666666666


              precision    recall  f1-score   support

     colunas       0.30      1.00      0.46      6103
   cotidiano       0.00      0.00      0.00      1698
     esporte       0.00      0.00      0.00      4663
   ilustrada       0.00      0.00      0.00       131
     mercado       0.00      0.00      0.00      5867
       mundo       0.00      0.00      0.00      2051

    accuracy                           0.30     20513
   macro avg       0.05      0.17      0.08     20513
weighted avg       0.09      0.30      0.14     20513



No melhor dos casos o `DummyClassifier` tem precisão de 30% ao chutar tudo como "colunas". Isso indica que o nosso classificador com acurácia de aproximadamente 80% é bom.

## Utilizando Skip-gram

In [34]:
modelo_sg = KeyedVectors.load_word2vec_format('dados/skip_s300.txt')

In [35]:
def combinacao_de_vetores_por_soma_sg(palavras_numeros):
    vetor_resultante = np.zeros(300)
    for pn in palavras_numeros:
        try:
            vetor_resultante += modelo_sg.get_vector(pn)
        except KeyError:
            if(pn.isnumeric()):
                pn = "0" * len(pn)
            else:
                pn = "unknown"
            vetor_resultante += modelo_sg.get_vector(pn)
    return vetor_resultante

In [36]:
def matriz_vetores_sg(textos):
    x = len(textos)
    matriz = np.zeros((x, 300))
    for i in range(x):
        tokens = tokenizador(textos.iloc[i])
        matriz[i] = combinacao_de_vetores_por_soma_sg(tokens)
    return matriz

In [37]:
matriz_treino_sg = matriz_vetores_sg(treino.title)
matriz_teste_sg = matriz_vetores_sg(teste.title)

In [40]:
LR = LogisticRegression(max_iter=300, random_state=SEED)
LR.fit(matriz_treino_sg, treino.category)

LogisticRegression(max_iter=300, random_state=42)

In [41]:
label_prevista = LR.predict(matriz_teste_sg)
CR = classification_report(teste.category, label_prevista, zero_division=0)
print(f'Test Score: {LR.score(matriz_teste_sg, teste.category)}')
print(f'Train Score: {LR.score(matriz_treino_sg, treino.category)}\n\n')
print(CR)

Test Score: 0.8068541900258372
Train Score: 0.8314333333333334


              precision    recall  f1-score   support

     colunas       0.86      0.72      0.78      6103
   cotidiano       0.63      0.81      0.70      1698
     esporte       0.93      0.89      0.91      4663
   ilustrada       0.15      0.91      0.26       131
     mercado       0.84      0.82      0.83      5867
       mundo       0.76      0.86      0.80      2051

    accuracy                           0.81     20513
   macro avg       0.69      0.83      0.71     20513
weighted avg       0.84      0.81      0.82     20513



Foi necessário aumentar o número de interações, mas foi obtido uma pequena melhora no score.