# Classificação de textos do Twitter com spaCy

# Etapa 1: Importação e instalação das bibliotecas

In [None]:
#!pip install spacy --upgrade
%pip install -q spacy==2.2.3

In [None]:
import spacy
spacy.__version__

In [None]:
!python3 -m spacy download pt

In [None]:
import pandas as pd
import string
import spacy
import random
import seaborn as sns
import numpy as np
import re

# Etapa 2: Carregamento das bases de dados

- Link Kaggle: https://www.kaggle.com/augustop/portuguese-tweets-for-sentiment-analysis#TweetsNeutralHash.csv

## Base de treinamento

- Negative label: 0 Emoticon Negativo
- Positive label: 1 Emoticon Positivo

In [None]:
base_treinamento = pd.read_csv('./Train50.csv', delimiter=';')

In [None]:
# from google.colab import drive
# drive.mount('/content/drive')

In [None]:
base_treinamento.shape

In [None]:
base_treinamento.head()

In [None]:
base_treinamento.tail()

In [None]:
sns.countplot(base_treinamento['sentiment'], label = 'Contagem');

In [None]:
base_treinamento.drop(['id', 'tweet_date', 'query_used'], axis = 1, inplace=True)

In [None]:
base_treinamento.head()

In [None]:
sns.heatmap(pd.isnull(base_treinamento));

## Base de teste

In [None]:
base_teste = pd.read_csv('./Test.csv', delimiter=';')

In [None]:
base_teste.head()

In [None]:
base_teste.shape

In [None]:
sns.countplot(base_teste['sentiment'], label='Contagem');

In [None]:
base_teste.drop(['id', 'tweet_date', 'query_used'], axis = 1, inplace=True)

In [None]:
base_teste.head()

In [None]:
sns.heatmap(pd.isnull(base_teste));

# Etapa 3: Função para pré-processamento dos textos

- Letras minúsculas
- Nome do usuário (@)
- URLs
- Espaços em branco
- Emoticons
- Stop words
- Lematização
- Pontuações

In [None]:
pln = spacy.load("pt_core_news_sm")
pln

In [None]:
base_treinamento['tweet_text'][1]

In [None]:
stop_words = spacy.lang.pt.stop_words.STOP_WORDS

In [None]:
print(stop_words)

In [None]:
string.punctuation

In [None]:
def preprocessamento(texto):
  # Letras minúsculas
  texto = texto.lower()

  # Nome do usuário
  texto = re.sub(r"@[A-Za-z0-9$-_@.&+]+", ' ', texto)

  # URLs
  texto = re.sub(r"https?://[A-Za-z0-9./]+", ' ', texto)

  # Espaços em branco
  texto = re.sub(r" +", ' ', texto)

  # Emoticons
  lista_emocoes = {':)': 'emocaopositiva',
                   ':d': 'emocaopositiva',
                   ':(': 'emocaonegativa'}
  for emocao in lista_emocoes:
    texto = texto.replace(emocao, lista_emocoes[emocao])

  # Lematização
  documento = pln(texto)

  lista = []
  for token in documento:
    lista.append(token.lemma_)

  # Stop words e pontuações
  lista = [palavra for palavra in lista if palavra not in stop_words and palavra not in string.punctuation]
  lista = ' '.join([str(elemento) for elemento in lista if not elemento.isdigit()])

  return lista

In [None]:
texto_teste = '@behin_d_curtain :D Para :( mim, http://www.iaexpert.com.br é precisamente o contrário :) Vem a chuva e vem a boa disposição :)'
resultado = preprocessamento(texto_teste)
resultado

# Etapa 4: Pré-processamento da base de dados

### Limpeza dos textos

In [None]:
base_treinamento.head(10)

In [None]:
base_treinamento['tweet_text'] = base_treinamento['tweet_text'].apply(preprocessamento)

In [None]:
base_treinamento.head(10)

In [None]:
base_teste['tweet_text'] = base_teste['tweet_text'].apply(preprocessamento)

In [None]:
base_teste.head(10)

### Tratamento da classe

In [None]:
exemplo_base_dados = [["este trabalho é agradável", {"POSITIVO": True, "NEGATIVO": False}],
                      ["este lugar continua assustador", {"POSITIVO": False, "NEGATIVO": True}]]

In [None]:
base_dados_treinamento_final = []
for texto, emocao in zip(base_treinamento['tweet_text'], base_treinamento['sentiment']):
  if emocao == 1:
    dic = ({'POSITIVO': True, 'NEGATIVO': False})
  elif emocao == 0:
    dic = ({'POSITIVO': False, 'NEGATIVO': True})

  base_dados_treinamento_final.append([texto, dic.copy()])

In [None]:
len(base_dados_treinamento_final)

In [None]:
base_dados_treinamento_final[10:15]

In [None]:
base_dados_treinamento_final[45000:45005]

# Etapa 5: Criação do classificador

In [None]:
!pip install -U spacy

modelo = spacy.blank('pt')
categorias = modelo.create_pipe("textcat")
categorias.add_label("POSITIVO")
categorias.add_label("NEGATIVO")
modelo.add_pipe(categorias)
historico = []

In [None]:
modelo.begin_training()
for epoca in range(20):
  random.shuffle(base_dados_treinamento_final)
  losses = {}
  for batch in spacy.util.minibatch(base_dados_treinamento_final, 512):
    textos = [modelo(texto) for texto, entities in batch]
    annotations = [{'cats': entities} for texto, entities in batch]
    modelo.update(textos, annotations, losses=losses)
    historico.append(losses)
  if epoca % 5 == 0:
    print(losses)

In [None]:
historico_loss = []
for i in historico:
  historico_loss.append(i.get('textcat'))

In [None]:
historico_loss = np.array(historico_loss)
historico_loss

In [None]:
import matplotlib.pyplot as plt
plt.plot(historico_loss)
plt.title('Progressão do erro')
plt.xlabel('Batches')
plt.ylabel('Erro')

In [None]:
modelo.to_disk("modelo")

# Etapa 6: Testes com uma frase

In [None]:
modelo_carregado = spacy.load('modelo')
modelo_carregado

## Texto positivo

In [None]:
texto_positivo = base_teste['tweet_text'][21]
texto_positivo

In [None]:
previsao = modelo_carregado(texto_positivo)
previsao

In [None]:
previsao.cats

In [None]:
texto_positivo = 'eu gosto muito de você'
texto_positivo = preprocessamento(texto_positivo)
texto_positivo

In [None]:
modelo_carregado(texto_positivo).cats

## Texto negativo

In [None]:
base_teste['tweet_text'][4000]

In [None]:
texto_negativo = base_teste['tweet_text'][4000]
previsao = modelo_carregado(texto_negativo)
previsao.cats

# Etapa 7: Avaliação do modelo

## Avaliação na base de treinamento


In [None]:
previsoes = []
for texto in base_treinamento['tweet_text']:
  previsao = modelo_carregado(texto)
  previsoes.append(previsao.cats)

In [None]:
previsoes

In [None]:
previsoes_final = []
for previsao in previsoes:
  if previsao['POSITIVO'] > previsao['NEGATIVO']:
    previsoes_final.append(1)
  else:
    previsoes_final.append(0)

previsoes_final = np.array(previsoes_final)

In [None]:
previsoes_final

In [None]:
respostas_reais = base_treinamento['sentiment'].values
respostas_reais

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
accuracy_score(respostas_reais, previsoes_final)

In [None]:
cm = confusion_matrix(respostas_reais, previsoes_final)
cm

In [None]:
sns.heatmap(cm, annot=True)

## Avaliação na base de teste

In [None]:
previsoes = []
for texto in base_teste['tweet_text']:
  previsao = modelo_carregado(texto)
  previsoes.append(previsao.cats)

In [None]:
previsoes_final = []
for previsao in previsoes:
  if previsao['POSITIVO'] > previsao['NEGATIVO']:
    previsoes_final.append(1)
  else:
    previsoes_final.append(0)

previsoes_final = np.array(previsoes_final)

In [None]:
respostas_reais = base_teste['sentiment'].values

In [None]:
accuracy_score(respostas_reais, previsoes_final)

In [None]:
cm = confusion_matrix(respostas_reais, previsoes_final)
cm

In [None]:
sns.heatmap(cm, annot=True)