<a href="https://colab.research.google.com/github/calliopz/MachineLearning/blob/master/MachineLearning_PNL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Processamento de Linguagem Natural

# Explorando e vetorizando dados textuais

In [0]:
import pandas as pd


In [0]:
uri = 'https://s3.amazonaws.com/sergio-prates-blog/imdb-reviews-pt-br.csv''

resenha = pd.read_csv('uri)

In [0]:
resenha.head()

In [0]:
print('Negativo'\n)
print(resenha["text_pt"][200])

In [0]:
print('Positivo'\n)
print(resenha["text_pt"][49002])

In [0]:
#Transformar os sentimentos que estão como Positivo e Negativo para 1 e 0, respectivamente

classificacao = resenha['sentiment'].replace(['neg', 'pos'], [0, 1])

In [0]:
#Transformar a variável criada em uma nova coluna do DataFrame

resenha['classificacao'] = classificacao
resenha.head()

In [0]:
resenha.tail()

##Quantidade de dados em cada categoria (positiva, negativa)

In [0]:
print(resenha['classificacao'].value_counts)

##Vetorizar o texto

In [0]:
from sklearn.feature_extraction.text import CountVectorizer

vetorizar = CountVectorizer(lowercase = False, max_features = 50)
bag_of_words = vetorizar.fit_transform(resenha['text_pt'])

##Extrair vocabulário

In [0]:
vetorizar.get_feature_names()

In [0]:
vetorizado = pd.SparseDataFrame(
    bag_of_words,
    columns = vetorizar.get_feature_names
)

vetorizado

In [0]:
print(bag_of_words.shape)

#Modelo - Treino, teste, predição, acurácia

## Divisão dos dados em treino e teste

In [0]:
from sklearn.model_selection import train_test_split

treino, teste, classe_treino, classe_teste = train_test_split(bag_of_words, resenha['classificacao'], random_state = 42)


## Treino do modelo e predição

In [0]:
from sklearn.linear_model import LogisticRegression

regressao_logistica = LogisticRegression(solver = "lbfgs")
regressao_logistica.fit(treino, classe_treino)
previsao_teste = regressao_logistica.predict_proba(teste)

## Vetor de True e False

In [0]:
previsao_teste_bol = previsao_teste[:, 1] >= 0.5

In [0]:
#Transformar o True e False que são operadores booleanos em números inteiros

import numpy as np

previsao_teste_int = previsao_teste_bol.astype(np.int)
print(previsao_teste_int)

## Acurácia do modelo

In [0]:
from sklearn.metrics import accuracy_score

acuracia_teste = accuracy_score(classe_teste, previsao_teste_int)

# Visualização dos dados - para ter novos insights


## Word Cloud

In [0]:
#Wordcloud de todas as palavras

%matplotlib inline

from wordcloud import WordCloud

todas_palavras = ' '.join([texto for texto in resenha['text_pt']])

nuvem_palavras = WordCloud(width = 800, height = 500, max_font_size = 110,
                           collocations = False).generate(todas_palavras)

In [0]:
import matplotlib.pyplot as plt

plt.figure(figsize = (10, 7))
plt.imshow(nuvem_palavras, interpolation = 'bilinear') #interpolation - deixa a imagem mais nítida
plt.axis('off') #sem eixo x e y
plt.show()

In [0]:
#Wordcloud somente dos sentimentos positivos

resenha_positiva = resenha.query["sentiment == 'pos'"]
resenha_positiva.head

In [0]:
palavras_pos = ' '.join(texto for texto in resenha_positiva['text-pt'])
nuvem_palavras_pos = WordCloud(width = 800, height = 500, max_font_size = 110,
                           collocations = False).generate(palavras_pos)

plt.figure(figsize=(10, 7))
plt.imshow(nuvem_palavras_pos, interpolation='bilinear')
plt.axis('off')
plt.show()

In [0]:
#Wordcloud somente dos sentimentos negativos

resenha_negativa = resenha.query["sentiment == 'neg'"]
resenha_negativa.head

In [0]:
palavras_neg = ' '.join(texto for texto in resenha_positiva['text-pt'])
nuvem_palavras_neg = WordCloud(width = 800, height = 500, max_font_size = 110,
                           collocations = False).generate(palavras_neg)

plt.figure(figsize=(10, 7))
plt.imshow(nuvem_palavras_neg, interpolation='bilinear')
plt.axis('off')
plt.show()

## NLTK

In [0]:
#Tokenizar - separar as palavras de uma frase
#WhitespaceTokenizer - separar por espaços em branco

import nltk
from nltk import tokenize

nltk.download()

todas_palavras = ' '.join([texto for texto in resenha['text-pt']])
token_espaco = tokenize.WhitespaceTokenizer()

frequencia = nltk.FreqDist(token_espaco.tokenize(todas_palavras))

df_frequencia = pd.DataFrame({'Palavra' : list(frequencia.keys()),
                             'Frequencia' : list(frequencia.value_counts)})

df_frequencia.head()

In [0]:
df_frequencia = df_frequencia.nlargest(columns = 'Frequencia', n = 10) #n = 10 - representam as 10 palavras q mais aparecem

In [0]:
import seaborn as sns

plt.figure(figsize=(12, 8))
ax = sns.barplot(data = df_frequencia, x = 'Palavra', y = 'Frequencia', color = 'gray')
ax.set(ylabel = "Contagem")
plt.show()

# Limpeza dos dados

## Tratamento 1 - Stopwords

In [0]:
palavras_irrelevantes = ntlkt.corpus.stopwords.words('portuguese')

frase_processada

for opiniao in resenha['text-pt']:
  nova_frase = list()
  palavras_texto = token_espaco.tokenize(opiniao)
  for palavra in palavras_texto:
    if palavra not in palavras_irrelevantes:
      nova_frase.append(palavra)
  frase_processada.append(' '. join(nova_frase))

resenha['tratamento_1'] = frase_processada
      

In [0]:
resenha.head

In [0]:
print("Frase text-pt\n")
print(resenha['text-pt'][0])
print("\n Frase tratamento_1\n")
print(resenha['tratamento_1'][0])

In [0]:
def nuvem_palavras_neg(texto, coluna_texto):
  texto_negativo = texto.query('sentiment' == 'neg')
  todas_palavras = ' '.join([texto for texto in texto_negativo[coluna_texto]])
  nuvem_palavras_negativas = WordCloud(width = 800, height = 500,
                                      max_font_size = 100, collocations=False).generate(todas_palavras)
  plt.figure(figsize=(10, 7))
  plt.imshow(nuvem_palavras_negativas, interpolation='bilinear')
  plt.axis('off')
  plt.show()
  
nuvem_palavras_neg(resenha, "tratamento_1")

In [0]:
def nuvem_palavras_pos(texto, coluna_texto):
  texto_positivo = texto.query('sentiment' == 'pos')
  todas_palavras = ' '.join([texto for texto in texto_positivo[coluna_texto]])
  nuvem_palavras_positivas = WordCloud(width = 800, height = 500,
                                      max_font_size = 100, collocations=False).generate(todas_palavras)
  plt.figure(figsize=(10, 7))
  plt.imshow(nuvem_palavras_positivas, interpolation='bilinear')
  plt.axis('off')
  plt.show()
  
nuvem_palavras_pos(resenha, "tratamento_1")

In [0]:
def pareto(texto, coluna_texto, quantidade):
  todas_palavras = ' '.join([texto for texto in texto [coluna_texto]])
  frequencia = nltkFreqDist(token_espaco.tokenize(todas_palavras))
  df_frequencia = pd.DataFrame({'Palavra': list(frequencia.keys()),
                               "Frequencia": list(frequencia.value_counts())})
  df_frequencia = df_frequencia.nlargest(columns = 'Frequencia', n = quantidade)
  
  plt.figure(figsize=(12, 8))
  ax = sns.barplot(data = df_frequencia, x = 'Palavra', y = 'Frequencia', color = 'gray')
  ax.set(ylabel = "Contagem")
  plt.show()

pareto(resenha, "tratamento_1", 10)

In [0]:
def classificar_texto(texto, coluna_texto, coluna_classificacao):
  vetorizar = CountVectorizer(lowercase=False, max_feature=50)
  bag_of_words = vetorizar.fit_transform(texto[coluna_texto])
  treino, teste, classe_treino, classe_teste = train_test_split(bag_of_words,
                                                               texto[coluna_classificacao],
                                                               random_state = 42)
  
  regressao_logistica = LogisticRegression(solver="lbfgs")
  regressao_logistica.fit(treino, classe_treino)
  
  return regressao_logistica.score(teste, classe_teste)

acuracia_teste = classificar_texto(resenha, "tratamento_1", 'classificacao')
print(acuracia_teste)

## Tratamento 2 - Retirar as pontuações

In [0]:
#Transformar cada pontuação em um elemento da lista
#Retirar a pontuação - juntar a lista de pontuação à lista de palavras irrelevantes

from string import punctuation

pontuacao = list()
for ponto in punctuation:
   pontuacao.append(ponto)
    
pontuacao_stopwords = pontuacao + palavras_irrelevantes

In [0]:
frase_processada = list()

for opiniao in resenha['tratamento_1']:
  nova_frase = list()
  palavras_texto = token_pontuacao.tokenize(opiniao)
  for palavra in palavras_texto:
    if palavra not in pontuacao_stopwords:
      nova_frase.append(palavra)
  frase_processada.append(' '.join(nova_frase))
  
resenha['tratamento_2'] = frase_processada

In [0]:
#comparar o algoritmo de tratamento 1 com o 2

In [0]:
resenha['tratamento_1'][0]

In [0]:
resenha['tratamento_2'][0]

In [0]:
pareto(resenha, 'tratamento_2', 10)

## Tratamento 3 - Retirar os acentos

In [0]:
import unidecode

stopwords_sem_acento = [unicode.unicode(texto) for texto in resenha['tratamento_2']] 

In [0]:
resenha['tratamento_3'] = sem_acentos

frase_processada = list()

for opiniao in resenha['tratamento_3']:
  nova_frase = list()
  palavras_texto = token_pontuacao.tokenize(opiniao)
  for palavra in palavras_texto:
    if palavra not in pontuacao_stopwords:
      nova_frase.append(palavra)
  frase_processada.append(' '.join(nova_frase))
  
resenha['tratamento_3'] = frase_processada

In [0]:
acuracia_tratamento3 = classificar_texto(resenha, 'tratamento_3', 'classificacao')
print(acuracia_tratamento)


## Tratamento 4 - Transformar todos os caracteres em minúsculas

In [0]:
frase_processada = list()

for opiniao in resenha['tratamento_3']:
  nova_frase = list()
  opiniao = opiniao.lower()
  palavras_texto = token_pontuacao.tokenize(opiniao)
  for palavra in palavras_texto:
    if palavra not in stopwords_sem_acento:
      nova_frase.append(palavra)
  frase_processada.append(' '.join(nova_frase))
  
resenha['tratamento_4'] = frase_processada

In [0]:
resenha['text_pt'[0]]

In [0]:
resenha['tratamento_4'][0]

In [0]:
acuracia_tratamento4 = classificar_texto(resenha, 'tratament_4', 'classificacao')
print(acuracia_tratamento3)
print(acuracia_tratamento4)

In [0]:
pareto(resenha, "tratamento_4", 10)

## Tratamento 5 - Stemmer.stem - pega a raiz da palavra e retira os sufixos

In [0]:


frase_processada = list()
for opiniao in resenha['tratamento_4']:
  nova_frase = list()
  palavras_texto = token_pontuacao.tokenize(opiniao)
  for palavra in palavras_texto:
    if palavra not in stopwords_sem_acento:
      nova_frase.append(stemmer.stem(palavra)
  frase_processada.append(' '.join(nova_frase))
  
resenha['tratamento_5'] = frase_processada

In [0]:
acuracia_tratamento5 = classificar_texto(resenha, 'tratamento_5', 'classificacao')
print(acuracia_tratamento5)
print(acuracia_tratamento4)

## TFIDF

In [0]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_bruto = tfidf.fit_transform(resenha['text-pt'])
treino, teste, classe_treino, classe_teste = train_test_split(tfidf_bruto, 
                                                              resenha['classificacao'],
                                                             random_state = 42)

regressao_logistica.fit(treino, classe_treino)

acuracia_tfidf_bruto = regressao_logistica.score(teste, classe_teste)
print(acuracia_tfidf_bruto)



In [0]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_tratados = tfidf.fit_transform(resenha['tratamento_5'])
treino, teste, classe_treino, classe_teste = train_test_split(tfidf_tratados, 
                                                              resenha['classificacao'],
                                                             random_state = 42)

regressao_logistica.fit(treino, classe_treino)

acuracia_tfidf_tratados = regressao_logistica.score(teste, classe_teste)
print(acuracia_tfidf_tratados)


## NGrams

Como a Regressão logística classifica em positivo e negativo

In [0]:
from nltk import ngrams

tfidf = TfidfVectorizer(lowercase=False, ngram_range = (1, 2))
vetor_tfidf = tfidf.fit_transform(resenha['tratamento_5'])

treino, teste, classe_treino, classe_teste = train_test_split(vetor_tfidf, 
                                                              resenha['classificacao'],
                                                             random_state = 42)

regressao_logistica.fit(treino, classe_treino)
acuracia_tfidf_ngrams = regressao_logistica.score(teste, classe_teste)
print(acuracia_tfidf_ngrams)

In [0]:
# Verificar quais palavras tem maior peso positivo para o modelo

pesos = pd.DataFrame(regressao_logistica.coef_[0].T,
                    index = tfidf.get_feature_names())

pesos.nlargest(10,0)

In [0]:
# Verificar quais palavras tem maior peso negativo para o modelo

pesos.nsmallest(10,0)