# Usando Word2Vec para classificar textos
Usando dados já treinados de Word2Vec para classificar o título de artigos jornalísticos.
## Importando os artigos

In [15]:
import pandas as pd

In [16]:
artigo_treino = pd.read_csv("treino.csv")

In [17]:
artigo_teste = pd.read_csv("teste.csv")

In [18]:
artigo_treino.sample()

Unnamed: 0,title,text,date,category,subcategory,link
76547,China promoverá desenvolvimento com abertura '...,"O primeiro-ministro chinês, Li Keqiang, disse ...",2016-09-21,mercado,,http://www1.folha.uol.com.br/mercado/2016/09/1...


In [19]:
artigo_teste.iloc[643].title

'Somos todos imprevisíveis'

In [20]:
from sklearn.feature_extraction.text import CountVectorizer

texto = [
    'tenha um bom dia',
    'tenha um péssimo dia',
    'tenha um ótimo dia',
    'tenha um dia ruim',
    'python java alura papa'
]

vetorizador = CountVectorizer()
vetorizador.fit(texto)

In [21]:
print(vetorizador.vocabulary_)

{'tenha': 8, 'um': 9, 'bom': 1, 'dia': 2, 'péssimo': 6, 'ótimo': 10, 'ruim': 7, 'python': 5, 'java': 3, 'alura': 0, 'papa': 4}


In [22]:
vetor_bom = vetorizador.transform(['bom'])
print(vetor_bom.toarray())

[[0 1 0 0 0 0 0 0 0 0 0]]


In [23]:
vetor_bom = vetorizador.transform(['ótimo bom dia'])
print(vetor_bom.toarray())

[[0 1 1 0 0 0 0 0 0 0 1]]


## Usando vetores treinados com Continuous bag of words 

In [27]:
with open('cbow_s300.txt') as f:
  for linha in range(10):
    print(next(f))

929606 300

</s> -0.001667 -0.000158 -0.000026 0.001300 -0.000796 0.001527 0.000046 0.000584 0.000449 -0.000100 0.000353 0.001251 0.001069 0.000506 0.000574 0.000838 -0.000930 -0.001220 0.000317 0.001315 -0.001120 0.001373 -0.000040 -0.001580 0.000421 -0.000667 -0.001556 -0.000746 0.001604 0.001157 -0.000027 0.000354 0.000358 -0.000527 -0.000573 -0.001512 -0.001557 -0.001637 0.001617 -0.001511 -0.001022 -0.001426 0.001086 -0.001033 0.000593 0.000724 0.000627 -0.000450 -0.001140 0.000333 0.000524 0.001541 0.000284 0.000617 -0.000807 -0.000088 -0.000364 0.001126 -0.001230 -0.001138 -0.001280 0.001330 0.001257 0.000576 0.000764 0.000684 0.001008 -0.000215 -0.000629 -0.001228 -0.001557 -0.000311 -0.000246 0.000045 0.001136 -0.000645 -0.000549 0.001099 0.000858 -0.000886 0.000553 0.000303 0.001433 0.000732 0.001321 -0.000894 -0.000700 -0.000661 -0.001484 -0.000950 -0.001556 -0.000809 0.000348 -0.000068 0.000724 -0.000569 -0.000161 -0.001628 -0.001437 -0.000259 -0.000296 -0.001571 0.000149 0

## Modelo Word2Vec

In [28]:
from gensim.models import KeyedVectors

In [29]:
modelo = KeyedVectors.load_word2vec_format('cbow_s300.txt')

In [30]:
len(modelo.get_vector('china'))

300

In [31]:
modelo.most_similar('china')

[('rússia', 0.7320705056190491),
 ('índia', 0.7241616249084473),
 ('tailândia', 0.701935887336731),
 ('indonésia', 0.6860769987106323),
 ('turquia', 0.6741335988044739),
 ('malásia', 0.6665689945220947),
 ('mongólia', 0.6593616008758545),
 ('manchúria', 0.658184826374054),
 ('urss', 0.6581669449806213),
 ('grã-bretanha', 0.6568097472190857)]

In [32]:
modelo.most_similar('itália')

[('frança', 0.7983608841896057),
 ('grécia', 0.7547340989112854),
 ('espanha', 0.7417078018188477),
 ('holanda', 0.7343162298202515),
 ('grã-bretanha', 0.728174090385437),
 ('inglaterra', 0.7172061204910278),
 ('bélgica', 0.7155542373657227),
 ('alemanha', 0.7135661840438843),
 ('suécia', 0.6831520199775696),
 ('áustria', 0.6822685599327087)]

In [33]:
modelo.most_similar(positive=['brasil', 'argentina'])

[('chile', 0.6781662702560425),
 ('peru', 0.634803295135498),
 ('venezuela', 0.6273865699768066),
 ('equador', 0.6037014126777649),
 ('bolívia', 0.6017141342163086),
 ('haiti', 0.5993806719779968),
 ('méxico', 0.596230685710907),
 ('paraguai', 0.5957703590393066),
 ('uruguai', 0.590367317199707),
 ('japão', 0.5893509387969971)]

In [34]:
# nuvens -> nuvem : estrelas -> estrela
# nuvens + estrela - nuvem = estrelas

modelo.most_similar(positive=['nuvens', 'estrela'], negative=['nuvem'])

[('estrelas', 0.5497430562973022),
 ('plêiades', 0.3791979253292084),
 ('colinas', 0.3746805489063263),
 ('trovoadas', 0.373703271150589),
 ('sombras', 0.37341946363449097),
 ('pombas', 0.3726757764816284),
 ('corredoras', 0.3640727400779724),
 ('cigarras', 0.36065396666526794),
 ('galáxias', 0.35754913091659546),
 ('luas', 0.3575345277786255)]

In [35]:
modelo.most_similar(positive=['médico', 'mulher'], negative=['homem'])

[('enfermeira', 0.6180862784385681),
 ('psicóloga', 0.47447532415390015),
 ('dama-de-companhia', 0.47382354736328125),
 ('esposa', 0.46559134125709534),
 ('parteira', 0.46362870931625366),
 ('mãe', 0.45817679166793823),
 ('governanta', 0.45722925662994385),
 ('madrasta', 0.4569782614707947),
 ('menina', 0.44435903429985046),
 ('filha', 0.44341111183166504)]

In [36]:
modelo.most_similar(positive=['professor', 'mulher'], negative=['homem'])

[('professora', 0.6192208528518677),
 ('aluna', 0.5449554324150085),
 ('esposa', 0.4978230893611908),
 ('ex-aluna', 0.4884248673915863),
 ('namorada', 0.4737858772277832),
 ('enfermeira', 0.4728144407272339),
 ('filha', 0.467373788356781),
 ('irmã', 0.4584590792655945),
 ('ex-namorada', 0.45824769139289856),
 ('ex-professora', 0.45104706287384033)]

## Vetorização de texto

In [37]:
artigo_treino.title.iloc[12]

"Daniel Craig será stormtrooper em novo 'Star Wars', diz ator"

In [38]:
import nltk
nltk.download('punkt')
import string

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [39]:
def tokenizador(texto):
  texto = texto.lower()
  lista_alfanumerica = []

  for token_valido in nltk.word_tokenize(texto):
    if token_valido in string.punctuation: continue
    lista_alfanumerica.append(token_valido)

  return lista_alfanumerica

In [40]:
tokenizador("Texto Exemplo, 1234.")

['texto', 'exemplo', '1234']

In [41]:
import numpy as np

In [42]:
def combinacao_de_vetores_por_soma(palavras):
  vetor_resultante = np.zeros(300)
  for p in palavras:
    try:
      vetor_resultante += modelo.get_vector(p)
    except KeyError:
      if p.isnumeric():
        p = '0'*len(p)
      else:
        p = 'unknown'
    finally:
      vetor_resultante += modelo.get_vector(p)
  return vetor_resultante

In [43]:
palavras = tokenizador('texto exemplox')
vetor_texto = combinacao_de_vetores_por_soma(palavras)
print(len(vetor_texto))
print(vetor_texto)

300
[ 4.55238007e-01  3.76877010e-01 -2.18260001e-01  8.03857975e-01
  4.82200086e-03  1.36623997e-01  1.00823998e-01  2.28792980e-01
 -1.09295003e-01 -1.49256002e-01  1.67540014e-02  2.65629962e-02
 -7.05143988e-01  2.58998007e-01  1.28269002e-01  2.87515007e-01
 -1.03962898e+00  1.00433007e-01 -3.27592000e-01 -3.83229852e-02
 -3.06835011e-01 -3.99914995e-01 -2.24936008e-01  3.92033994e-01
  8.12079906e-02 -3.13436002e-01 -5.16109020e-01  8.33410025e-02
  1.12208009e-01  1.45847008e-01  1.84560120e-02 -3.47759992e-01
  1.50969997e-02  1.51040014e-02  7.21869916e-02  3.86550002e-01
  3.93680014e-01  4.65187974e-01  2.17234008e-01  5.29439002e-01
  3.30549991e-02 -1.02435003e-01  2.29685009e-01  7.61060026e-02
  2.58929987e-01 -5.82909994e-02  6.13609999e-01  5.89043021e-01
  2.67612003e-01  3.66713002e-01  3.41435992e-01  2.67744005e-01
 -5.10435000e-01  2.44989999e-01  8.18300098e-02 -1.90976001e-01
  1.39552996e-01  8.63342986e-01 -1.13051996e-01 -7.31005002e-01
 -3.24395016e-01  3.7

In [44]:
def matriz_vetores(textos):
  x = len(textos)
  y = 300
  matriz = np.zeros((x, y))

  for i in range(x):
    palavras = tokenizador(textos.iloc[i])
    matriz[i] = combinacao_de_vetores_por_soma(palavras)

  return matriz

In [45]:
matriz_vetores_treino = matriz_vetores(artigo_treino.title)
matriz_vetores_teste = matriz_vetores(artigo_teste.title)

In [46]:
matriz_vetores_treino.shape, matriz_vetores_teste.shape

((90000, 300), (20513, 300))

In [47]:
artigo_treino

Unnamed: 0,title,text,date,category,subcategory,link
0,"Após polêmica, Marine Le Pen diz que abomina n...",A candidata da direita nacionalista à Presidên...,2017-04-28,mundo,,http://www1.folha.uol.com.br/mundo/2017/04/187...
1,"Macron e Le Pen vão ao 2º turno na França, em ...",O centrista independente Emmanuel Macron e a d...,2017-04-23,mundo,,http://www1.folha.uol.com.br/mundo/2017/04/187...
2,"Apesar de larga vitória nas legislativas, Macr...",As eleições legislativas deste domingo (19) na...,2017-06-19,mundo,,http://www1.folha.uol.com.br/mundo/2017/06/189...
3,"Governo antecipa balanço, e Alckmin anuncia qu...",O número de ocorrências de homicídios dolosos ...,2015-07-24,cotidiano,,http://www1.folha.uol.com.br/cotidiano/2015/07...
4,"Após queda em maio, a atividade econômica sobe...","A economia cresceu 0,25% no segundo trimestre,...",2017-08-17,mercado,,http://www1.folha.uol.com.br/mercado/2017/08/1...
...,...,...,...,...,...,...
89995,"Mural: Há 30 anos, aeroporto não foi bem receb...",Década de 1970. Congonhas já estava superlotad...,2015-01-22,cotidiano,,http://www1.folha.uol.com.br/cotidiano/2015/01...
89996,"As notícias sobre Schumacher não são boas, diz...",O ex-presidente da Ferrari Luca di Montezemolo...,2016-04-02,esporte,,http://www1.folha.uol.com.br/esporte/2016/02/1...
89997,"De olho em R$ 50 bilhões, governo pode concede...","Para fazer caixa, o governo estuda conceder pa...",2017-08-29,mercado,,http://www1.folha.uol.com.br/mercado/2017/08/1...
89998,Moro deu a Lula o papel de coitadinho,Realizou-se parcialmente o primeiro objetivo d...,2016-06-03,colunas,eliogaspari,http://www1.folha.uol.com.br/colunas/eliogaspa...


## Fazendo previsões

In [48]:
from sklearn.linear_model import LogisticRegression

LR = LogisticRegression(max_iter=200)
LR.fit(matriz_vetores_treino, artigo_treino.category)

In [49]:
LR.score(matriz_vetores_teste, artigo_teste.category)

0.7964705308828548

In [50]:
artigo_teste.category.unique()

array(['colunas', 'esporte', 'mercado', 'cotidiano', 'mundo', 'ilustrada'],
      dtype=object)

In [51]:
from sklearn.metrics import classification_report

In [52]:
label_prevista = LR.predict(matriz_vetores_teste)
CR = classification_report(artigo_teste.category, label_prevista)

In [53]:
print(CR)

              precision    recall  f1-score   support

     colunas       0.86      0.72      0.78      6103
   cotidiano       0.61      0.79      0.69      1698
     esporte       0.92      0.88      0.90      4663
   ilustrada       0.13      0.89      0.23       131
     mercado       0.84      0.79      0.82      5867
       mundo       0.74      0.86      0.80      2051

    accuracy                           0.80     20513
   macro avg       0.68      0.82      0.70     20513
weighted avg       0.83      0.80      0.81     20513



In [54]:
from sklearn.dummy import DummyClassifier

DC = DummyClassifier()
DC.fit(matriz_vetores_treino, artigo_treino.category)
label_prevista_dc = DC.predict(matriz_vetores_teste)

CR_dummy = classification_report(artigo_teste.category, label_prevista_dc)
print(CR_dummy)

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

     colunas       0.30      1.00      0.46      6103
   cotidiano       0.00      0.00      0.00      1698
     esporte       0.00      0.00      0.00      4663
   ilustrada       0.00      0.00      0.00       131
     mercado       0.00      0.00      0.00      5867
       mundo       0.00      0.00      0.00      2051

    accuracy                           0.30     20513
   macro avg       0.05      0.17      0.08     20513
weighted avg       0.09      0.30      0.14     20513



  _warn_prf(average, modifier, msg_start, len(result))


## Usando agora vetores treinados com SkipGram

In [58]:
modelo_skipgram = KeyedVectors.load_word2vec_format('skip_s300.txt')

In [59]:
def combinacao_de_vetores_por_soma_skipgram(palavras):
  vetor_resultante = np.zeros(300)
  for p in palavras:
    try:
      vetor_resultante += modelo_skipgram.get_vector(p)
    except KeyError:
      if p.isnumeric():
        p = '0'*len(p)
      else:
        p = 'unknown'
    finally:
      vetor_resultante += modelo_skipgram.get_vector(p)
  return vetor_resultante

In [60]:
def matriz_vetores_skipgram(textos):
  x = len(textos)
  y = 300
  matriz = np.zeros((x, y))

  for i in range(x):
    palavras = tokenizador(textos.iloc[i])
    matriz[i] = combinacao_de_vetores_por_soma_skipgram(palavras)

  return matriz

In [61]:
matriz_vetores_treino_skipgram = matriz_vetores_skipgram(artigo_treino.title)
matriz_vetores_teste_skipgram = matriz_vetores_skipgram(artigo_teste.title)

In [62]:
LR_skipgram = LogisticRegression(max_iter=1000)
LR_skipgram.fit(matriz_vetores_treino_skipgram, artigo_treino.category)
label_previsao_skipgram = LR_skipgram.predict(matriz_vetores_teste_skipgram)
CR_skipgram = classification_report(artigo_teste.category, label_previsao_skipgram)
print(CR_skipgram)

              precision    recall  f1-score   support

     colunas       0.86      0.72      0.78      6103
   cotidiano       0.63      0.81      0.71      1698
     esporte       0.93      0.89      0.91      4663
   ilustrada       0.15      0.91      0.25       131
     mercado       0.85      0.82      0.83      5867
       mundo       0.76      0.86      0.81      2051

    accuracy                           0.81     20513
   macro avg       0.69      0.83      0.71     20513
weighted avg       0.84      0.81      0.82     20513

