# Aula 9 - Parte 2 - Analise de Sentimento

Esse notebook descreve o passo a passo para aplicar o classificador criado anteriormente para gerar a classificação dos comentários do Youtube em positivo, negativo ou neutro.

## 1. Carregar base do Youtube

In [None]:
import pandas as pd

In [None]:
dados_comentarios = pd.read_csv('todos_comentarios.csv', sep=';', encoding='utf-8')

In [None]:
def carregar_dados(arquivo):
    dados = pd.read_csv(arquivo, sep=';', encoding='utf-8')
    
    base = []
    for i in range(len(dados)):
        base.append((dados.textDisplay.loc[i], None))
    return base[1:]

In [None]:
dados_comentarios = carregar_dados('todos_comentarios.csv')

In [None]:
dados_comentarios

In [None]:
print(len(dados_comentarios))

## 2. Carregar classificador Naive Bayes

In [None]:
import pickle

In [None]:
def carregar_modelo(nome_arquivo):
    nome = str(nome_arquivo) + '.pickle'
    try:
        arquivo = open(nome, "rb")
        modelo = pickle.load(arquivo)
        arquivo.close()
        return modelo
    except Exception as e:
        return e

In [None]:
classificador = carregar_modelo('naivebayes')

In [None]:
classificador

## 3. Realizando a classificação para um comentário

Para que a nova frase seja classificada os seguintes passos devem ser realizados:
- Remover as stopwords
- Aplicar o Stemming
- Recuperar as características
- Realizar a classificação

Para facilitar o uso dessas funções, elas foram adicionadas em um arquivo chamda ```utils.py```. Para utiliza-las, basta importar o arquivo.

In [None]:
import nltk

In [None]:
from importlib import reload

In [None]:
import utils

In [None]:
reload(utils)

In [None]:
texto = 'eu sinto amor por voce'

In [None]:
dados_comentarios[0]

In [None]:
frase = utils.estruturar_dados([dados_comentarios[0]])

In [None]:
frase

In [None]:
frase[0][0]

In [None]:
resultado = utils.classificar_texto(classificador, frase[0][0])

In [None]:
resultado

## 4. Realizando a classificação para TODOS comentários

In [None]:
df_classificados = pd.DataFrame(columns=['texto', 'classe', 'prob_pos', 'prob_neg', 'prob_neu', 'emoticon'])
df_classificados

In [None]:
from time import time

In [None]:
print(len(dados_comentarios))

Para classificar mais de 167mil comentários irá demorar cerca de 2 horas e 30 minutos, dependendo da sua máquina.

In [None]:
ti = time()
for i in range(len(dados_comentarios)):
    if i % 5000 == 0:
        print(i, end=" ")
    
    frase = utils.estruturar_dados([dados_comentarios[i]])
    resultado = utils.classificar_texto(classificador, frase[0][0])
    
    if resultado['classe'] == 'positivo':
        emoticon = u"\U0001F642"
    elif resultado['classe'] == 'neutro':
        emoticon = u"\U0001F610"
    elif resultado['classe'] == 'negativo':
        emoticon = u"\U0001F641"
    
    df_classificados.loc[i] = [
        dados_comentarios[i][0], 
        resultado['classe'],
        resultado['positivo'],
        resultado['neutro'],
        resultado['negativo'],
        emoticon]
tf = time() - ti
print("\nTempo total {} em segundos".format(tf))

In [None]:
df_classificados

In [None]:
%%time
df_classificados.to_csv('todos_comentarios_classificados.csv', sep=';', header=True, index=False, encoding='utf-8')