# Classificação de textos com spaCy

# Etapa 1: Importação e instalação das bibliotecas

In [None]:
# Bases de dados
# https://drive.google.com/file/d/1PF9b3ADQn9EZg-FcWCJltdFI3IH5tsDM/view?usp=sharing
# https://drive.google.com/file/d/1j0KYD0eHSDRFOhiHsd0a2r5Go5B4rZDc/view?usp=sharing

# Base de dados do Twitter
# https://drive.google.com/file/d/1Ewlg82a6WYvs7dagD9JtvyFoByFcwI0O/view?usp=sharing
# https://drive.google.com/file/d/1292MtMRk8itMLxLLTNX5efxuFG4yURFa/view?usp=sharing

In [None]:
import spacy

In [None]:
!python3 -m spacy download pt

In [None]:
import pandas as pd
import string
import spacy
import random
import seaborn as sns
import numpy as np

# Etapa 2: Carregamento da base de dados

In [None]:
base_dados = pd.read_csv('/content/base_treinamento.txt', encoding = 'utf-8')

In [None]:
base_dados.shape

In [None]:
base_dados.head()

In [None]:
base_dados.tail()

In [None]:
sns.countplot(base_dados['emocao'], label = 'Contagem');

# Etapa 3: Função para pré-processamento dos textos

In [None]:
pontuacoes = string.punctuation
pontuacoes

In [None]:
from spacy.lang.pt.stop_words import STOP_WORDS
stop_words = STOP_WORDS

In [None]:
print(stop_words)

In [None]:
len(stop_words)

In [None]:
pln = spacy.load('pt')

In [None]:
pln

In [None]:
def preprocessamento(texto):
  texto = texto.lower()
  documento = pln(texto)
  
  lista = []
  for token in documento:
    #lista.append(token.text)
    lista.append(token.lemma_)

  lista = [palavra for palavra in lista if palavra not in stop_words and palavra not in pontuacoes]
  lista = ' '.join([str(elemento) for elemento in lista if not elemento.isdigit()])

  return lista

In [None]:
teste = preprocessamento('Estou aPrendendo 1 10 23 processamento de linguagem natural, Curso em Curitiba')
teste

# Etapa 4: Pré-processamento da base de dados

### Limpeza dos textos

In [None]:
base_dados.head(10)

In [None]:
base_dados['texto'] = base_dados['texto'].apply(preprocessamento)

In [None]:
base_dados.head(10)

## Atividade

- Gerar a nuvem de palavras: 1 com todos os textos, 1 somente para os positivos e 1 somente para os negativos

### Tratamento da classe

In [None]:
exemplo_base_dados = [["este trabalho é agradável", {"ALEGRIA": True, "MEDO": False}],
                      ["este lugar continua assustador", {"ALEGRIA": False, "MEDO": True}]]

In [None]:
type(exemplo_base_dados)

In [None]:
exemplo_base_dados[0]

In [None]:
exemplo_base_dados[0][0]

In [None]:
exemplo_base_dados[0][1]

In [None]:
type(exemplo_base_dados[0][1])

In [None]:
base_dados_final = []
for texto, emocao in zip(base_dados['texto'], base_dados['emocao']):
  #print(texto, emocao)
  if emocao == 'alegria':
    dic = ({'ALEGRIA': True, 'MEDO': False})
  elif emocao == 'medo':
    dic = ({'ALEGRIA': False, 'MEDO': True})

  base_dados_final.append([texto, dic.copy()])

In [None]:
len(base_dados_final)

In [None]:
base_dados_final[0]

In [None]:
base_dados_final[0][0]

In [None]:
base_dados_final[0][1]

In [None]:
type(base_dados_final[0][1])

In [None]:
base_dados_final

# Etapa 5: Criação do classificador

In [None]:
modelo = spacy.blank('pt')
categorias = modelo.create_pipe("textcat")
categorias.add_label("ALEGRIA")
categorias.add_label("MEDO")
modelo.add_pipe(categorias)
historico = []

In [None]:
modelo.begin_training()
for epoca in range(1000):
  random.shuffle(base_dados_final)
  losses = {}
  for batch in spacy.util.minibatch(base_dados_final, 30):
    textos = [modelo(texto) for texto, entities in batch]
    annotations = [{'cats': entities} for texto, entities in batch]
    modelo.update(textos, annotations, losses=losses)
  if epoca % 100 == 0:
    print(losses)
    historico.append(losses)

In [None]:
historico_loss = []
for i in historico:
  historico_loss.append(i.get('textcat'))

In [None]:
historico_loss = np.array(historico_loss)
historico_loss

In [None]:
import matplotlib.pyplot as plt
plt.plot(historico_loss)
plt.title('Progressão do erro')
plt.xlabel('Épocas')
plt.ylabel('Erro')

In [None]:
modelo.to_disk("modelo")

# Etapa 6: Testes com uma frase

In [None]:
modelo_carregado = spacy.load("modelo")
modelo_carregado

In [None]:
texto_positivo = 'eu adoro cor dos seus olhos'

In [None]:
texto_positivo = preprocessamento(texto_positivo)
texto_positivo

In [None]:
previsao = modelo_carregado(texto_positivo)
previsao

In [None]:
previsao.cats

In [None]:
texto_negativo = 'estou com medo dele'
previsao = modelo_carregado(preprocessamento(texto_negativo))
previsao.cats

# Etapa 7: Avaliação do modelo

## Avaliação na base de treinamento


In [None]:
previsoes = []
for texto in base_dados['texto']:
  #print(texto)
  previsao = modelo_carregado(texto)
  previsoes.append(previsao.cats)

In [None]:
previsoes

In [None]:
previsoes_final = []
for previsao in previsoes:
  if previsao['ALEGRIA'] > previsao['MEDO']:
    previsoes_final.append('alegria')
  else:
    previsoes_final.append('medo')

previsoes_final = np.array(previsoes_final)

In [None]:
previsoes_final

In [None]:
respostas_reais = base_dados['emocao'].values
respostas_reais

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
accuracy_score(respostas_reais, previsoes_final)

In [None]:
cm = confusion_matrix(respostas_reais, previsoes_final)
cm

## Avaliação na base de teste

In [None]:
base_dados_teste = pd.read_csv('/content/base_teste.txt', encoding = 'utf-8')

In [None]:
base_dados_teste.head()

In [None]:
base_dados_teste['texto'] = base_dados_teste['texto'].apply(preprocessamento)

In [None]:
base_dados_teste.head()

In [None]:
previsoes = []
for texto in base_dados_teste['texto']:
  #print(texto)
  previsao = modelo_carregado(texto)
  previsoes.append(previsao.cats)

In [None]:
previsoes_final = []
for previsao in previsoes:
  if previsao['ALEGRIA'] > previsao['MEDO']:
    previsoes_final.append('alegria')
  else:
    previsoes_final.append('medo')

previsoes_final = np.array(previsoes_final)

In [None]:
respostas_reais = base_dados_teste['emocao'].values

In [None]:
accuracy_score(respostas_reais, previsoes_final)

In [None]:
cm = confusion_matrix(respostas_reais, previsoes_final)
cm