# Introdução

O estudo será uma reprodução da aula da plataforma Alura sobre Word2Vec.

Será utilizado o notebook do Kaggle, devido à alta demanda de memória necessária para o treinamento do modelo.

Sugestão de playlist: https://www.youtube.com/watch?v=T4_J6Q2E4k0&list=PLLrlHSmC0Mw73a1t73DEjgGMPyu8QssWT


## Importando os dados

In [1]:
import pandas as pd

In [2]:
artigo_treino=pd.read_csv("/kaggle/input/alura-word2vec/treino.csv")
artigo_teste=pd.read_csv("/kaggle/input/alura-word2vec/teste.csv")

## Vetorizando as palavras - One Hot Encode

A vetorização permite que criemos vetores únicos para cada palavra, tornando possível o entendimento delas perante o modelo.

In [3]:
from sklearn.feature_extraction.text import CountVectorizer



In [5]:
vetorizador=CountVectorizer()

# Exemplo de Vetorização

#texto =[
#    "tenha um bom dia ",
#    "tenha um péssimo dia",
#    "tenha um ótimo dia"
#]

#vetorizador.fit(texto)

In [6]:
#print(vetorizador.vocabulary_)

In [8]:
#vetor_bom= vetorizador.transform(['bom'])
# O retorno éuma matriz esparsa, então vamos transformar num array
#print(vetor_bom.toarray())

In [9]:
#vetor_otimo= vetorizador.transform(['otimo'])
# O retorno éuma matriz esparsa, então vamos transformar num array
#print(vetor_otimo.toarray())

# Vetorização de Palavras  - Word2vc

Agrupa as palavras por semelhanças entre elas em realação aos contexto que são usadas.

link: https://en.wikipedia.org/wiki/Word2vec

"O CBOW é treinado para realizar a previsão de uma determinada palavra tendo o contexto como informação de entrada, já o Skip-Gram precisa prever o contexto recebendo como input uma palavra. Ambos geram um vetor denso de tamanho predeterminado."

In [10]:
# Vamos visualizar o modelo pré-treinado

# with open("/kaggle/input/cbow-s300-nic-alura/cbow_s300.txt") as f:
#    for linha in range(10):
#        print(next(f))


In [11]:
# Devemos transformar esse arquivo texto em modelo

# Para isso utilizar a biblioteca Gensim
from gensim.models import KeyedVectors

modelo_cbow=KeyedVectors.load_word2vec_format("/kaggle/input/cbow-s300-nic-alura/cbow_s300.txt")

In [12]:
# O arquivo texto foi tansformado em um modelo e agora podemos usa-los para determnar o vetor de palavras

#modelo_cbow.get_vector("brasil")

#len(modelo_cbow.get_vector("brasil"))

In [13]:
# O vetor consegue encontrar plalavras com utilizações semelhantes a pesquisada

#modelo_cbow.most_similar("china")


In [14]:
#modelo.most_similar("biologia")


# Manipulação de vetores

O algoritmo Word2vec considera as palavras como vetores, que podem ser representados em planos cartesianos de "n" dimensões.

Isso permite a realização de equações matemáticas que geram como resultados novos vetores em novos espaços no plano cartesiano.

Dessa forma, ao combinar vetores diferentes, ou formando frases, é possível calcular outras palavras que possam estar relacionadas, graças a sua proximidade no plano.

In [15]:
# Retorna países, em sua maioria da america do sul ou latinos

#modelo_cbow.most_similar(positive=["brasil","argentina"])


In [16]:
# Pode ser usado para descobrir variações de palavras

# nuvens -> nuvem : estrelas -> estrela

#nuvens + estrela - nuvem = estrelas

#modelo_cbow.most_similar(positive=['nuvens','estrela'],negative=["nuvem"])

#Foi feita uma associação, similar a regra de três, para se encontrar a palavra desejada

In [17]:
# Não tive o resultado esperado

# modelo.most_similar(positive=['gato','cachorro'],negative=["gatos"])

#Tive um resultado melhor, mas acho que eles interpretou como adjetivos a seres humanos
#modelo.most_similar(positive=['gatos','cachorro'],negative=["gato"])

# Acho o modelo é mais correto interpretando cães :D
#modelo.most_similar(positive=['gatos','cachorros'],negative=["cachorro"])

# Agora sim!
#modelo.most_similar(positive=['gatos','cão'],negative=["gato"])


In [18]:
# O modelo funciona com a associação de palavras, carregando nossos vieses.
# Nesse caso, ao fazer a associação médico está para homem, e mulher esta.... Ele não retorna médica
# modelo.most_similar(positive=['médico','mulher'],negative=["homem"])


In [19]:
# No caso de professor, ele acha o gênero feminino
# modelo.most_similar(positive=['professor','mulher'],negative=["homem"])


## Vetorização do Conjunto de Palavras - Frases/Textos

In [20]:
import nltk #Blibliota mais utilizada em NLP, no Kaggle, não é necessário baixar os dados do nltk
import string #Tem informações sobre palavras

In [21]:
# Tokenização de titulos
def tokenizador(texto):
    
    # normalizar o texto
    texto = texto.lower()
    
    lista_alfanumerica = []
    
    # Separar as palavras da frase em tokens utilizando nltk
    for token_valido in nltk.word_tokenize(texto):
        # verificar se algum token é uma pontuação utilizando string
        # Só salvar tokens alfanumericos
        if token_valido in string.punctuation: continue #Vai para o proximo item
        lista_alfanumerica.append(token_valido)
    
    
    return lista_alfanumerica


In [22]:
# Teste da função
print("######################################################")
print("Utilizando o método split")
print("Texto Exemplo. 1234".split())
print("######################################################")
print("Utilizando a função tokenizer")
print(tokenizador("Texto Exemplo. 1234"))

######################################################
Utilizando o método split
['Texto', 'Exemplo.', '1234']
######################################################
Utilizando a função tokenizer
['texto', 'exemplo', '1234']


In [23]:
import numpy as np # Os saida do modelo é uma vetor/array, por isso usamos numpy

In [24]:
# Combinando os vetores
def combinacao_de_vetores_por_soma(palavras_numeros):
    vetor_resultante = np.zeros(300) # Criando um vetor vazios de 300 posições
    for pn in palavras_numeros:
        #Soma o vetor de cada um tokens
        vetor_resultante += modelo_cbow.get_vector(pn)
        
    return vetor_resultante

In [25]:
# Palavras conhecidas e/ou com números 0
palavras_numero = tokenizador('digimon 0 e pokemon')
vetor_texto=combinacao_de_vetores_por_soma(palavras_numero)
len(vetor_texto)

300

In [26]:
print(vetor_texto)

[ 0.285918   -0.11387199 -0.48892301  0.123146   -0.38754299 -0.40785199
  0.19146099 -0.133265   -0.077164   -0.61197601  0.12564301  0.004605
 -0.20134801 -0.19725001 -0.48640501  0.39312299 -0.03868601 -0.25428901
 -0.17696999  0.27701499 -0.23812399 -0.00551699 -0.52729701  0.027586
  0.084182   -0.259418   -0.51980001  0.059837    0.04444     0.12880002
  0.074589   -0.333257    0.45193801 -0.20713501  0.202395    0.14187399
 -0.310206    0.082522    0.152983    0.52376601  0.65377998 -0.03994201
  0.079828   -0.32057001 -0.25895498  0.186614   -0.034344    0.073885
  0.49536299  0.682874    0.164785   -0.071895   -0.030377   -0.29607801
  0.349918    0.26988101 -0.202199   -0.21724799  0.05223699 -0.47970501
 -0.00541     0.44020599  0.269687    0.157142   -0.032262   -0.293819
  0.64215001 -0.262736    0.223033   -0.06374    -0.35313199 -0.516263
  0.112416   -0.77321299  0.012455   -0.080567   -0.033      -0.582044
  0.008231    0.097733   -0.47512199  0.56514699  0.545942   -0

In [27]:
# Erro de digitação ou números diferentes de 0

#palavras_numero = tokenizador('caelum 100')
#vetor_erro=combinacao_de_vetores_por_soma(palavras_numero)
#len(vetor_erro)

KeyError: "Key '100' not present"

In [None]:
#print(vetor_erro)

## Motivo do Erro
A função funciona desde que as palavras estejam no vocabulário. Palavras desconhecidas geram um erro.

Essas explicações estão no artigo do modelo. Lá é possível verificar as palavras que ele desconhece.

[Link](https://arxiv.org/pdf/1708.06025.pdf)

## Refatorando a função para conseguir lidar com as exceções

Ao ler o artigo, entendendo que o grupo de pesquisa tomou algumas decisões para lidar com palavras de baixa frequência e com números.

As nossas funções devem ser capazes de lidar com elas.

In [28]:
def combinacao_de_vetores_por_soma(palavras_numeros):
    vetor_resultante = np.zeros(300) # Criando um vetor vazios de 300 posições
    for pn in palavras_numeros:
        #Soma o vetor de cada um tokens
        try:
            vetor_resultante += modelo_cbow.get_vector(pn)
        
        # Esses tratamentos são baseados no artigo.
        except KeyError:
            
            #Ocorrer quando número diferentes de zero
            if pn.isnumeric():
                pn = "0"*len(pn) #Troca tudo por zero
                
            # Palavras com baixa frequência/erros de digitação
            else:
                vetor_resultante += modelo.get_vector("unknown")
        
    return vetor_resultante

In [29]:
palavras_numero = tokenizador('caelumx 100')
vetor_erro=combinacao_de_vetores_por_soma(palavras_numero)
print(len(vetor_erro))
print('\n')
print(vetor_erro)

300


[ 3.54566008e-01 -5.48110008e-02 -3.84400003e-02  1.24058001e-01
 -8.06360021e-02  5.91959991e-02  2.04200000e-02 -1.78659007e-01
 -1.81335002e-01 -9.11180004e-02 -4.57599983e-02 -1.06127001e-01
 -4.01735991e-01  4.19984013e-01 -3.33250016e-02  1.77705005e-01
 -5.43386996e-01 -8.51909965e-02 -5.33234000e-01 -2.86098987e-01
  3.33629996e-02 -1.85810998e-01  6.87260032e-02  5.20179987e-01
 -2.98402011e-01 -3.23700011e-02 -2.72469014e-01 -9.92269963e-02
  1.96912006e-01 -1.82212994e-01 -3.08073997e-01 -3.69639993e-02
  9.03970003e-02  4.04880010e-02 -6.46750033e-02  4.37740013e-02
  8.93440023e-02 -4.98379990e-02  1.37664005e-01 -1.27748996e-01
 -1.14070000e-02 -1.04679003e-01 -1.39191002e-01 -5.21400012e-03
  2.90865988e-01 -9.60230008e-02  2.38736004e-01  3.26503009e-01
  3.30080003e-01  2.03619003e-01  9.67799965e-03  1.19000003e-01
 -1.79309994e-02  1.29585996e-01  3.19442004e-01 -1.05512001e-01
  9.31869969e-02  1.40411004e-01  5.84020019e-02  5.88410012e-02
  1.11956999e-01  4

## Dividindo entre treino e teste

In [30]:
# Criar uma matriz formata pelas palavras já vetorizadas
def matriz_vetores(textos):
    x=len(textos) # número de textos
    y= 300 # tamanho do vetor, fixo em 300
    matriz=np.zeros((x,y))
    
    # Percorre todos os textos
    for i in range(x):
        palavras_numeros= tokenizador(textos.iloc[i])
        matriz[i]=combinacao_de_vetores_por_soma(palavras_numeros)
    
    
    
    return matriz

In [31]:
matriz_vetores_treino = matriz_vetores(artigo_treino.title)

In [32]:
matriz_vetores_teste = matriz_vetores(artigo_teste.title)

In [33]:
print(matriz_vetores_treino.shape)
print(matriz_vetores_teste.shape)

(90000, 300)
(20513, 300)


## Treinando o modelo - Continous Bags Of Words (CBOW)
video: https://www.youtube.com/watch?v=AYU6wj-kKKk&list=PLLrlHSmC0Mw73a1t73DEjgGMPyu8QssWT&index=46

In [60]:
# Regressão Logistica
# https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
from sklearn.linear_model import LogisticRegression

LR_cbow = LogisticRegression(max_iter=500) #Devemos aumentar o número de interações

In [61]:
# Esta é uma classificação de mais de duas classes.
# A biblioteca é capaz de detectar e lidar para voce
LR_cbow.fit(matriz_vetores_treino, artigo_treino.category)

In [None]:
# Numeros de interações
#LR.n_iter_

In [62]:
# Verificando o desempenho do modelo
LR_cbow.score(matriz_vetores_teste,artigo_teste.category)

0.7960805342953249

In [38]:
# Número de categorias
artigo_teste.category.unique()

array(['colunas', 'esporte', 'mercado', 'cotidiano', 'mundo', 'ilustrada'],
      dtype=object)

## Verificar o desempenho para cada categoria

In [64]:
# Visualizar um relatorio
from sklearn.metrics import classification_report
label_prevista= LR_cbow.predict(matriz_vetores_teste)
CR_cbow= classification_report(artigo_teste.category, label_prevista)
print(CR_cbow)

In [64]:
# Para ler e entender melhor as métricas:

# link : https://pt.wikiversity.org/wiki/Observat%C3%B3rio_de_dados/Precis%C3%A3o_e_revoga%C3%A7%C3%A3o
# link: https://scikit-learn.org/stable/modules/model_evaluation.html#model-evaluation

#recall: De todos que tem a classificação x, quantos eu consigo classificar corretamento 
#f1-score: media entre precision e recall 
#support= é o n
# macrp avg = media normal
#weighted avg = media ponderada (assusta a importancia pelo n)

              precision    recall  f1-score   support

     colunas       0.86      0.72      0.78      6103
   cotidiano       0.61      0.79      0.68      1698
     esporte       0.92      0.88      0.90      4663
   ilustrada       0.13      0.89      0.23       131
     mercado       0.84      0.79      0.82      5867
       mundo       0.74      0.85      0.79      2051

    accuracy                           0.80     20513
   macro avg       0.68      0.82      0.70     20513
weighted avg       0.83      0.80      0.81     20513



## Comparado o modelo

Assim como qualquer coisa dessa vida, precisamos comparar o nosso modelo com outros modelos para saber se ele é bom ou não.

In [40]:
# mportar o modelo de comparação
from sklearn.dummy import DummyClassifier

In [41]:
DC = DummyClassifier() #Instanciando o modelo 
DC.fit(matriz_vetores_treino,artigo_treino.category) # treinando o modelo com meus dados
label_prevista_dc=DC.predict(matriz_vetores_teste) #Realizando a previsão

In [42]:
# Avaliando o desempenho do meu modelo aleatorio
CR_dummy=classification_report(artigo_teste.category,label_prevista_dc,zero_division=0)
print(CR_dummy)

              precision    recall  f1-score   support

     colunas       0.30      1.00      0.46      6103
   cotidiano       0.00      0.00      0.00      1698
     esporte       0.00      0.00      0.00      4663
   ilustrada       0.00      0.00      0.00       131
     mercado       0.00      0.00      0.00      5867
       mundo       0.00      0.00      0.00      2051

    accuracy                           0.30     20513
   macro avg       0.05      0.17      0.08     20513
weighted avg       0.09      0.30      0.14     20513



O nosso modelo é melhor que a aleatoriedade

## Treinando o modelo - Skip Gram

video: https://www.youtube.com/watch?v=8OatZmYGZ-k


In [46]:
#from gensim.models import KeyedVectors

modelo_skip_gram=KeyedVectors.load_word2vec_format("/kaggle/input/skip-gram-alura/skip_s300.txt")

In [47]:
# Funções já criadas
# tokenizador(texto)

In [48]:
def combinacao_de_vetores_por_soma_skip_gram(palavras_numeros):
    vetor_resultante = np.zeros(300) # Criando um vetor vazios de 300 posições
    for pn in palavras_numeros:
        #Soma o vetor de cada um tokens
        try:
            vetor_resultante += modelo_skip_gram.get_vector(pn)
        
        # Esses tratamentos são baseados no artigo.
        except KeyError:
            
            #Ocorrer quando número diferentes de zero
            if pn.isnumeric():
                pn = "0"*len(pn) #Troca tudo por zero
                
            # Palavras com baixa frequência/erros de digitação
            else:
                vetor_resultante +=modelo_skip_gram.get_vector("unknown")
        
    return vetor_resultante

In [49]:
def matriz_vetores_skip_gram(textos):
    x=len(textos) # número de textos
    y= 300 # tamanho do vetor, fixo em 300
    matriz=np.zeros((x,y))
    
    # Percorre todos os textos
    for i in range(x):
        palavras_numeros= tokenizador(textos.iloc[i])
        matriz[i]=combinacao_de_vetores_por_soma_skip_gram(palavras_numeros)
    
    
    
    return matriz

In [50]:
matriz_vetores_treino_skip_gram = matriz_vetores_skip_gram(artigo_treino.title)
matriz_vetores_teste_skip_gram = matriz_vetores_skip_gram(artigo_teste.title)

In [51]:
print(matriz_vetores_treino_skip_gram.shape)
print(matriz_vetores_teste_skip_gram.shape)

(90000, 300)
(20513, 300)


In [57]:
LR_skip_gram = LogisticRegression(max_iter=500) #Devemos aumentar o número de interações
LR_skip_gram.fit(matriz_vetores_treino_skip_gram, artigo_treino.category)

In [58]:
label_prevista_skip_gram= LR_skip_gram.predict(matriz_vetores_teste_skip_gram)
CR_skip_gram= classification_report(artigo_teste.category, label_prevista_skip_gram)
print(CR_skip_gram)

              precision    recall  f1-score   support

     colunas       0.86      0.72      0.78      6103
   cotidiano       0.62      0.80      0.70      1698
     esporte       0.93      0.89      0.91      4663
   ilustrada       0.15      0.92      0.26       131
     mercado       0.85      0.81      0.83      5867
       mundo       0.76      0.86      0.81      2051

    accuracy                           0.81     20513
   macro avg       0.69      0.83      0.71     20513
weighted avg       0.84      0.81      0.82     20513



# Conclusão

Algoritmos de NLP que vetorizam as palavras tem um alto poder de precisão, pois são capazes de realizar associações semânticas.

O principal algoritmo para vetorização é o Word2vec. O Word2vec é capaz de vetorizar as palavras em um número pré-determinado de dimensões.

Quanto maior o número dimensões, mais preciso a categorização do modelo de aprendizado. Os dos mais comuns são o CBOW e o SkipGram.

Ambos os modelos podem ser encontrados pré-treinados em algumas plataformas. Nesse curso foram utilizados os fornecidos pelo grupo de pesquisa [NILC da USP](http://nilc.icmc.usp.br/nilc/index.php/repositorio-de-word-embeddings-do-nilc)

Resumindo a diferença dos dois:


"O CBOW é treinado para realizar a previsão de uma determinada palavra tendo o contexto como informação de entrada, já o Skip-Gram precisa prever o contexto recebendo como input uma palavra. Ambos geram um vetor denso de tamanho predeterminado."

Nesse nosso estudo não houve muita diferença no desempenho entre os dois modelos. Entretanto, parte da literatura sugere um melhor poder preditivo do Skip Gram, enquanto o sugerem tentar ambos.

Ambos são poderosos para o estudo de linguagem computacional e podem ser utilizados em conjunto com outros modelos de aprendizado de máquina.

