# Aula 9 - Parte 1 - Processamento de Linguagem Natural

Esse notebook descreve o passo a passo a ser aplicado para o Processamento de Linguagem Natural para criar uma an√°lise de sentimento em coment√°rios sobre o Youtube.

In [None]:
from time import time

In [None]:
ti = time()

In [None]:
# Essa biblioteca realiza o tratamento da linguagem natural 
# com diversas ferramentas dispon√≠veis (NLTK - Natural Language Tookit)
import nltk

In [None]:
# Necess√°rio realizar o download das palavras StopWords
nltk.download('stopwords')

In [None]:
# Lematizador para palavras em Portugues
nltk.download('rslp')

## 1. Carregar bases de dados

A base de dados est√° salvo em formato de CSV. Onde o primeiro elemento √© o texto e o segundo elemento √© a classe.

 | texto | classe |
 | --- | --- |
 |0	|@pandlrcom Quem √© que liga pra copa gente? Pelo o amor de Deus	|negativo
|1	|Faz a sele√ß√£o a√≠ do teu time ‚Äî eu e a carol no ataque, Thaynara e veve na zaga, Luise no gol!!! √â esse? kkk	|neutro
|2|	Cristiano Ronaldo com grife, 78 milh√µes de euros üòé		|positivo


Iremos estruturar os dados para facilitar todo o processo de cria√ß√£o do algoritmo de an√°lise de sentimento.

In [None]:
import pandas as pd
pd.set_option('display.max_colwidth', -1)

In [None]:
def carregar_dados(arquivo):
    dados = pd.read_csv(arquivo, sep=';', encoding='utf-8')
    
    base = []
    for i in range(len(dados)):
        base.append((dados.texto.loc[i], dados.classe.loc[i]))
    return base

In [None]:
base_treino = carregar_dados('dados_treino.csv')

In [None]:
base_treino[0]

In [None]:
base_teste = carregar_dados('dados_teste.csv')

In [None]:
base_teste[0]

In [None]:
print("Tamanho base de treino: ", len(base_treino))
print("Tamanho base de teste: ", len(base_teste))

In [None]:
print(base_treino[0])

## 2. Pr√© Processamento

Esta primeira etapa tem o prop√≥sito de realizar o pr√©-processamento dos dados, necess√°rio para a prepara√ß√£o da base de dados para algoritmos de aprendizagem de m√°quina.

Essa etapa envolve os seguintes passos:

    2.1 - Remo√ß√£o de pontua√ß√£o, deixar tudo min√∫sculo e remo√ß√£o de URLs, RT e @user
    2.2 - Remo√ß√£o de Stopwords
    2.3 - Remo√ß√£o do radical das palavras (Stemming)
    2.4 - Listagem de todas as palavras da base
    2.5 - Extra√ß√£o de palavras √∫nicas
    2.6 - Jun√ß√£o de palavras √∫nicas
    2.7 - Extra√ß√£o de palavras de cada frase


### 2.1 - Remo√ß√£o de pontua√ß√£o, deixar tudo min√∫sculo e remo√ß√£o de URLs, RT e @user

O objetivo dessa etapa √© realizar um tratamento no texto removendo as pontua√ß√µes, urls, RTs, men√ß√£o a usu√°rios e tamb√©m padronizar toda a frase e min√∫scula.

In [None]:
import re

In [None]:
def tratar_texto(texto):
    string_sem_url = re.sub(r"http\S+", "", str(texto))
    string_sem_user = re.sub(r"@\S+", "", str(string_sem_url))
    string_sem_rt = re.sub(r"RT+", "", str(string_sem_user))
    return str(string_sem_rt).strip()

In [None]:
tratar_texto('Esse link √© √≥timo http://ashdfasdfa.com')

In [None]:
tratar_texto('RT @user a copa est√° demais')

In [None]:
tratar_texto('@user a copa est√° demais')

In [None]:
tratar_texto('RT a copa est√° demais')

In [None]:
import string


In [None]:
def remover_pontuacao(base):
    """Essa fun√ß√£o remove as pontua√ß√µes da base.
    Args:
        base: cont√©m todos tweets no formato (texto,classe).
    Returns:
        base_dados: √â uma lista de tuplas.
    """
    frases_final = []
    for (frase, classe) in base:
        sem_pontuacao = []
        # Para cada palavra na frase
        frase = tratar_texto(frase)
        for p in frase:
            # Verifica se n√£o √© uma pontua√ß√£o
            if p not in string.punctuation:
                sem_pontuacao.append(p)
        # Refaz a frase
        aux = ''.join(sem_pontuacao)
        # Salva na lista final no formato (texto,classe)
        frases_final.append((aux.lower(), classe))
    # Retorna todo o conjunto sem as pontua√ß√µes
    return (frases_final)


In [None]:
print(base_treino[0])

In [None]:
print(remover_pontuacao([base_treino[0]]))

In [None]:
print(string.punctuation)

In [None]:
frases_sem_pontuacao = remover_pontuacao(base_treino)

In [None]:
print(frases_sem_pontuacao[0])

### 2.2 - Remo√ß√£o de Stopwords

As stopwords s√£o palavras que n√£o possuem significado para o desempenho dos algoritmos de classifica√ß√£o de texto. Por exemplo: '√©', 'muito', 'o', 'por', entre outros.

A perman√™ncia delas na base de dados, pode provocar maior lentid√£o no processamento dos dados, sem utilidade para o contexto em que estamos trabalhando.

A fun√ß√£o ```remover_stopwords``` funciona da seguinte forma:

- O par√¢metro "frases_sem_pontuacao" representa toda a base de dados j√° tratada.
- Essa base de dados cont√©m um par de elementos sendo o primeiro a frase e o segundo a classe (positivo, negativo, neutro).
- A fun√ß√£o percorre toda a base de dados, linha a linha, verificando em quais frases possuem as stopwords definidas na biblioteca NLTK. Uma vez identificadas, elas s√£o removidas da frase. 
- O conjunto final √© uma estrutura contendo a frase (sem as stopwords) e a classe (positivo, negativo, neutro).

In [None]:
# Carrega as stopwords definidas na biblioteca para o idioma Portugu√™s
stopwordsnltk = nltk.corpus.stopwords.words('portuguese')

# Adiciona novas stopwords
stopwordsnltk.append('vou')
stopwordsnltk.append('t√£o')

# Visualiza algumas
print(stopwordsnltk[:10])

In [None]:
def remover_stopwords(frases_sem_pontuacao):
    """Essa fun√ß√£o remove as stopwords da base.
    Args:
        frases_sem_pontuacao: √â uma lista de tuplas.
    Returns:
        frases_final: √â uma lista de tuplas (texto, classe).
    """
    stopwordsnltk = nltk.corpus.stopwords.words('portuguese')
    frases_final = []
    for (frase, classe) in frases_sem_pontuacao:
        sem_stop = []
        for palavra in frase.split():
            if palavra not in stopwordsnltk:
                sem_stop.append(palavra)  
        frases_final.append((sem_stop, classe))
    return frases_final




In [None]:
# Vari√°vel que armazena o resultado da fun√ß√£o remover_stopwords
frases_sem_stopwords = remover_stopwords(frases_sem_pontuacao)



In [None]:
print(frases_sem_stopwords[0])

### 2.3 - Remo√ß√£o do radical das palavras (Stemming)

Stemming √© uma t√©cnica utilizada para reduzir a dimensionalidade dos dados na etapa de pr√©-processamento. √â baseada na redu√ß√£o de palavras em seu morfema, de acordo com as regras do idioma que o algoritmo ser√° executado. 

Por exemplo, em portugu√™s a palavra ‚Äúcasa‚Äù possui o morfema ‚Äúcas‚Äù e suas varia√ß√µes: casinhas, casebre, casona.

A fun√ß√£o ```aplicar_stemmer``` funciona da seguinte forma:

- Utiliza-se uma ferramenta da biblioteca NLTK para realizar essa t√©cnica. Para isso, acessamos o pacote ```stem``` para realizar essa tarefa.
- ```nltk.stem.RSLPStemmer()``` indica que ser√° utilizado a lingua portguesa.
- O par√¢metro ```frases_sem_stopwords``` da fun√ß√£o ```aplicar_stemmer``` representa a base de dados sem as stopwords que foram removidas anteriormente.

- A fun√ß√£o percorre toda a base de dados aplicando o m√©todo ```stemmer.stem(palavra)``` em cada palavra de cada frase, cuja finalidade √© deixar apenas o radical de cada palavra.

- Exemplo: A frase ```('eu sou admirada por muitos','positivo')```, ap√≥s a fun√ß√£o ```aplicar_stemmer``` ficar√° ```(['admir', 'muit'], 'positivo')```

Uma desvantagem da aplica√ß√£o do algoritmo stemmer √© quando duas palavras com sentidos diferentes possuem o mesmo radical, como por exemplo as palavras ```novamente``` e ```novo``` que possuem o radical ```nov``` dessa forma, na etapa de aprendizado de m√°quina o algoritmo pode perder algumas informa√ß√µes.

In [None]:
def aplicar_stemmer(frases_sem_stopwords):
    """Fun√ß√£o que reduz a palavra ao seu radical
    Args:
        frases_sem_stopwords: lista de tuplas.
    Returns:
        frases_stemming: lista de tuplas.
    """
    stemmer = nltk.stem.RSLPStemmer()
    frases_stemming =[]
    for (frase, classe) in frases_sem_stopwords:
        com_stemming = []
        # Para cada palavra na frase, aplicar o stemmer e salvar
        for palavra in frase:
            com_stemming.append(str(stemmer.stem(palavra)))
        frases_stemming.append((com_stemming, classe))    
    # Retornar todo o conjunto com o stemming aplicado
    return frases_stemming


In [None]:
frases_com_stemmer = aplicar_stemmer(frases_sem_stopwords)

In [None]:
print(frases_com_stemmer[0])

### 2.4 - Listagem de todas as palavras da base

A fun√ß√£o ```extrair_palavras``` ir√° gerar uma nova lista com todas as palavras que j√° foram pr√©-processadas anteriormente por√©m sem a sua classifica√ß√£o (positivo, negativo e neutro) associada.

Funciona da seguinte forma:
- O par√¢metro da fun√ß√£o representa a lista gerada pela fun√ß√£o aplicar_stemmer, que √© a ```frases_com_stemmer```.
- Ela percorre toda a base e insere em uma lista com todas as palavras da base de dados, mas sem sua classifica√ß√£o associada.

In [None]:
def extrair_palavras(frases_com_stemmer):
    """Fun√ß√£o que unifica todas as palavras do conjunto de dados em uma √∫nica lista.
    Args:
        frases_com_stemmer: Frases com o Stemmer j√° aplicados.
    Returns:
        todas_palavras: lista com todas as palavras.
    """
    todas_palavras = []
    for (palavras, classe) in frases_com_stemmer:
        todas_palavras.extend(palavras)
    return todas_palavras



In [None]:
palavras_sem_classe = extrair_palavras(frases_com_stemmer)

In [None]:
palavras_sem_classe[:10]

### 2.5 - Extra√ß√£o de palavras √∫nicas

Na fun√ß√£o ```aplicar_frequencia``` iremos remover os radicais repitidos da base para otimizar o processamento dos dados utilizando o recurso do nltk ```FreqDist```.

A classe ```FreqDist``` unifica todas as palavras repetidas gerando um dicion√°rio do tipo ```chave,valor``` dentro de uma lista, sendo a chave o radical e o valor a frequencia com que ele se repete. Ex: ```('am', 4)```. Nesse exemplo o radical ```am``` apareceu na base de dados 4 vezes.

In [None]:
def aplicar_frequencia(palavras_sem_classe):
    """Fun√ß√£o que aplica a frequencia das palavras
    Args:
        palavras_sem_classe: palvras sem a classifica√ß√£o.
    Returns:
        palavras: FreqDist
    """
    palavras = nltk.FreqDist(palavras_sem_classe)
    return palavras


In [None]:
frequencia_palavras = aplicar_frequencia(palavras_sem_classe)

In [None]:
frequencia_palavras

In [None]:
# Visualizar as 50 frases mais completas
print(frequencia_palavras.most_common(50))



### 2.6 - Jun√ß√£o de palavras √∫nicas

Al√©m disso, temos que criar uma estrutura apenas com as palavras √∫nicas da frequ√™ncia gerada anteriormente.

In [None]:
def extrair_palavras_unicas(frequencia_palavras):
    """Fun√ß√£o que retorna as palavras √∫nicas
    Args:
        frequencia_palavras: dicion√°rio com a frequencia das palavras.
    Returns:
        freq: palavras unicas.
    """
    freq = frequencia_palavras.keys()
    return freq


In [None]:
palavras_sem_repeticao = extrair_palavras_unicas(frequencia_palavras)

In [None]:
# Para visualizar as 5 primeiras palavras √© necess√°rio realizar uma convers√£o direta para o tipo lista
print(list(palavras_sem_repeticao)[:5])


In [None]:
# A estrutura criada √© do tipo dict_keys, que representam as chaves de um dicion√°rio
print(type(palavras_sem_repeticao))


### 2.7 - Extra√ß√£o de palavras de cada frase

O objetivo da fun√ß√£o ```criar_caracteristicas``` √© auxiliar a caracteriza√ß√£o das frases a serem utilizadas no algoritmo Naive Bayes.

O m√©todo ```nltk.classify.apply_features``` realiza essa caracteriza√ß√£o atrav√©s do mapeamento de cada frase na fun√ß√£o ```criar_caracteristicas```. O resultado desse mapeamento √© um dicion√°rio para cada frase onde as palavras que pertencem a respectiva frase sejam ```True```. Todas as outras palavras da base que n√£o pertencem a frase ser√£o definidas como ```False```.

O m√©todo ```nltk.classify.apply_features``` exige dois par√¢metros, sendo o primeiro uma fun√ß√£o que ir√° extrair as caracteristicas e o segundo √© o conjunto de dados onde ser√° aplicado essa caracteriza√ß√£o.

Essa etapa √© necess√°ria para a prepara√ß√£o da base de dados para o algoritmo de aprendizagem de m√°quina Naive Bayes. √â o resultado dessa fun√ß√£o que ir√° ser passada como par√¢metro para criar o classificador.

A fun√ß√£o ```criar_caracteristicas``` recebe a lista com as palavras com o stemming e cria uma estrutura onde apenas as palavras que est√£o nessa lista ser√° marcada como ```True```, todas as outras ser√£o marcadas como ```False```.

In [None]:
def criar_caracteristicas(documento):
    """Fun√ß√£o que cria as caracter√≠sticas do documento, verificando se a palavra existe ou n√£o no documento.
    Args:
        documento: lista com todas as palavras
    Returns:
        caracteristicas: dicion√°rio com as caracter√≠sticas.
    """
    global palavras_sem_repeticao
    doc = set(documento)
    caracteristicas = {}
    # Para cada palavra
    for palavra in palavras_sem_repeticao:
        # Se a palavra existir no documento √© atribuido True, caso contr√°rio False.
        caracteristicas[palavra] = (palavra in doc)    
    # Listar com as caracteristicas da palavra
    return caracteristicas



O c√≥digo abaixo √© apenas para testar e validar a fun√ß√£o ```criar_caracteristicas```.

In [None]:
# Para testar a fun√ß√£o acima, ser√° utilizado duas frases que j√° foi aplicado o stemmer.
teste_caracteristica = frases_com_stemmer[0:2]


In [None]:
print(teste_caracteristica)

In [None]:
print(extrair_palavras(teste_caracteristica))

A execu√ß√£o ```nltk.classify.apply_features``` ir√° gerar uma lista, onde cada elemento dessa lista √© uma tupla com dois elementos, sendo o primeiro o dicion√°rio gerado pela fun√ß√£o ```criar_caracteristicas``` e o segundo elemento com a classifica√ß√£o (positivo, negativo, neutro).

In [None]:
frases_teste_final = nltk.classify.apply_features(criar_caracteristicas, teste_caracteristica)

In [None]:
# Visualizar 1 elemento classificado
print(frases_teste_final[0])

Para facilitar a reutiliza√ß√£o de todo o c√≥digo criado anteriormente, iremos criar uma fun√ß√£o para estruturar qualquer texto que desejamos classificar.

In [None]:
def estruturar_dados(base):
    """Dada uma base de dados, √© realizada toda a estrutura√ß√£o das bases.
    Args:
        base: cont√©m todos tweets no formato (texto,classe).
    Returns:
        base_final: conjunto de dados estruturados.
    """
    global palavras_sem_repeticao
    # Aplicar as fun√ß√µes previamente definidas
    frases_sem_pontuacao = remover_pontuacao(base)
    frases_sem_stopwords = remover_stopwords(frases_sem_pontuacao)
    frases_com_stemmer = aplicar_stemmer(frases_sem_stopwords)
    palavras_sem_classe = extrair_palavras(frases_com_stemmer)
    frequencia_palavras = aplicar_frequencia(palavras_sem_classe)
    palavras_sem_repeticao = extrair_palavras_unicas(frequencia_palavras)
    base_final = nltk.classify.apply_features(criar_caracteristicas, frases_com_stemmer)
    # Retornar os dados estruturados para serem utilizados pela fun√ß√£o NLTK.
    return (base_final)

## 3. Fase de treino do algoritmo Naive Bayes

Nesta etapa ser√° realizado o treino do algoritmo Naive Bayes, que ir√° gerar um modelo a ser utilizado na classifica√ß√£o de novas frases em positivo, negativo ou neutro.

## 3.1 Classifica√ß√£o do texto

O algoritmo de Naive Bayes realiza a an√°lise estat√≠stica e monta uma tabela de probabilidade. Ap√≥s isso, √© criada a classifica√ß√£o dos registros.

O m√©todo ```train``` da classe ```NaiveBayesClassifier``` recebe como par√¢metro a ```base_treino``` j√° estruturada (```base_final```) e realiza a etapa de constru√ß√£o da tabela de probabilidades. O m√©todo ```show_most_informative_features``` retorna os atributos (palavras) mais significativos.

Por exemplo: 

- ```dia = True positi : negati = 2.3:1.0``` - Neste exemplo de sa√≠da a probabilidade de a frase ser classificada como ```positivo``` quando a palavra "dia" estiver presente na frase (```True```) √© 2.3 vezes maior do que negativo.

- ```am = False negati : positi = 1.6:1.0``` - J√° neste exemplo, a probabilidade de a frase ser classificada como ```negativo``` quando a palavra ```am``` **n√£o** estiver presente na frase (```False```) √© 1.6 vezes maior do que positivo.

In [None]:
base_final = estruturar_dados(base_treino)

In [None]:
%%time
# Cria o classificador (tabela de probabilidade) com base no conjunto de treinamento
classificador = nltk.NaiveBayesClassifier.train(base_final)

In [None]:
# Retorna as classes da base de dados (positivo, negativo, neutro)
print(classificador.labels())

In [None]:
# Retorna os 10 atributos mais significativos
print(classificador.show_most_informative_features(10))

### 3.2 Testando o classificador

Para testar o classificador, iremos utilizar uma frase para verificar a classifica√ß√£o realizada, uma vez que a base de dados j√° foi pr√©-processada e treinada com a base de dados para treino.

Para que a nova frase seja classificada temos que realizar toda a fase de pr√©-processamento. Como criamos a fun√ß√£o ```estruturar_dados``` podemos simplesmente utiliz√°-la :)

In [None]:
base_teste[0]

In [None]:
frase_teste = estruturar_dados([base_teste[0]])
print(frase_teste)


In [None]:
print(frase_teste[0][0])
caracteristica_teste = frase_teste[0][0]



Quando chamamos o m√©todo ```classificador.classify``` com o par√¢metro ```frase_teste```, o algoritmo classifica a frase como r√≥tulo ```negativo```.

In [None]:
# Realizar a classifica√ß√£o
print(classificador.classify(caracteristica_teste))


Para visualizar a distribui√ß√£o de probabilidade utiliza-se o m√©todo ```prob_classify``` que mostra a porcentagem para cada uma das classes.

In [None]:
# Retorna a classe e o valor da distribui√ß√£o de probabilidade
distribuicao = classificador.prob_classify(caracteristica_teste)

# Para cada classe, verifica-se a probabilidade
for classe in distribuicao.samples():
    print('%s: %f' % (classe, distribuicao.prob(classe)))

## 4. Fase de teste do algoritmo Naive Bayes

Na etapa de teste, utiliza-se outro conjunto de dados, com o objetivo de testar o algoritmo de aprendizado de m√°quina com novas frases. Para tal, a base de dados deve conter frases diferentes da base de treinamento e sem a informa√ß√£o de sua classifica√ß√£o (positivo, negativo e neutro).

O algoritmo √© executado novamente e o m√©todo ```classify.accuracy```  mostra a proximidade entre o percentual obtido experimentalmente e o valor verdadeiro da classifica√ß√£o das frases.

Passamos como par√¢metro o classificador, que nada mais √© do que uma tabela de probabilidade que o Naive Bayes gera, e a base de dados para teste.

In [None]:
frases_teste = estruturar_dados(base_teste)

In [None]:
print(frases_teste[:3])

O m√©todo ```classify.accuracy``` funciona da seguinte forma: ele submete todos os registros da base de teste ao classificador e o classificador gera uma classifica√ß√£o para cada um dos registros. Ap√≥s isso, realiza uma compara√ß√£o entre a classifica√ß√£o gerada e a classifca√ß√£o que j√° tinha sido realizada na base de dados, e devolve a taxa de acerto.

In [None]:
print(nltk.classify.accuracy(classificador, frases_teste))

Esse resultado, possibilita realizar algumas an√°lises, tais como:

1. **An√°lise de cen√°ro**: O percentual de acerto do algoritmo √© bom ou ruim? 
2. **An√°lise do numero de classes**: A probabilidade m√≠nima aceitavel para o algoritmo ser melhor do que usar a aleatoriedade √© que a acur√°cia seja no m√≠nimo maior que 33.33%, ou seja, dividir 100% pela quantidade de classes.
3. **ZeroRules**: Nessa an√°lise, estamos comparando o resultado obtido pelo sistema, com o m√©todo de classificar uma frase de acordo com a classe que possui maior quantidade de frases na base de dados de treino e teste. Por exemplo, dividimos a classe com maior n√∫mero de registros pelo total de registros na base de dados (```459/1374 = 33,40%```). Desta forma, conclui-se que o sistema apresenta mais acertos do que classificar todas as novas frases nessa classe.

In [None]:
res = {'positivo' : 0, 'negativo' : 0, 'neutro' : 0}
total = 0
for (texto, classe) in base_teste:
    if classe == 'positivo':
        res[classe] += 1
    elif classe == 'negativo':
        res[classe] += 1
    elif classe == 'neutro':
        res[classe] += 1
    total += 1
print(res)

In [None]:
print(res['negativo']/total)

## 5. Extra - Visualiza√ß√£o de erros do algoritmo

√â poss√≠vel visualizar a classe j√° pr√©-classificada, a classe que o algoritmo classificou e a frase vinculada ao erro gerado.

Por exemplo: ```positivo negativo {'trabalh': False, ... , 'precis': True,'ingress': True, 'estrag': False,...}```. Essa sa√≠da nos diz qual a classe correta, ou seja, aquela que est√° na base de dados para teste √© ```positivo```. O algoritmo classificou como ```negativo``` e a frase vinculada a classifica√ß√£o possui os radicais ```precis``` e ```ingress```.

Para identificar corretamente os acertos e erros podemos:

In [None]:
erros =[]
for (frase, classe) in frases_teste:
    resultado = classificador.classify(frase)
    
    if resultado != classe:
        erros.append((classe, resultado, frase))
        
        

Desta forma, √© poss√≠vel verificar a porcentagem de erro e acerto realizado no conjunto de dados de teste.

In [None]:
tamanho_base_teste = len(frases_teste)
quantida_erros = len(erros)

porcentagem_erros = (quantida_erros * 100) / tamanho_base_teste
porcentagem_acertos = 100 - porcentagem_erros

print("O algoritmo classificou {:.4}% das frases corretamente".format(porcentagem_erros))
print("O algoritmo classificou {:.4}% das frases incorretamente".format(porcentagem_acertos))



### 5.1 Matriz de confus√£o

Outra forma de visualiza√ß√£o de erros e acertos, √© a constru√ß√£o da matriz de confus√£o:

- Primeiramente importamos o pacote do ```nltk``` com a fun√ß√£o da matriz de confus√£o.
- Criamos duas listas, uma com o resultado ```esperado``` e outra com o resultado ```previsto```, sendo que o esperado √© o resultado desejado como resposta, e o previsto √© de fato a classifica√ß√£o realizada.
- A sa√≠da do algoritmo mostra uma matriz com linhas que represantam o esperado e colunas que representam o previsto.
- A diagonal principal indica a quantidade de acertos de cada classe.

Esses resultados apresentam as classes que o algoritmo est√° mais errando e/ou acertando, sendo assim, √© poss√≠vel tomar decis√µes para melhorar a implementa√ß√£o da base de dados, bem como alguns par√¢metros de otimiza√ß√£o do algoritmo.

In [None]:
from nltk.metrics import ConfusionMatrix

In [None]:
esperado = []
previsto = []
for (frase, classe) in frases_teste:
    resultado = classificador.classify(frase)
    previsto.append(resultado)
    esperado.append(classe)

matriz = ConfusionMatrix(esperado, previsto)
print(matriz)




### 6. Utilizaremos ambos os conjuntos de dados para criar o modelo final

Uma vez verificado a acuracia e as m√©tricas em nosso conjunto de dados de treino e teste, podemos unificar esses dois conjuntos de dados para utilizar todas as palavras com o objetivo de maximar a curva de aprendizado do algoritmo.


In [None]:
print(type(base_teste), type(base_treino))

In [None]:
conj_final = estruturar_dados(base_teste+base_treino)

In [None]:
%%time
# Cria o classificador (tabela de probabilidade) com base no conjunto de treinamento
classificador_final = nltk.NaiveBayesClassifier.train(conj_final)

In [None]:
# Retorna as classes da base de dados (positivo, negativo, neutro)
print(classificador_final.labels())

In [None]:
# Retorna os 10 atributos mais significativos
print(classificador_final.show_most_informative_features(10))

### 7. Salvar o modelo criado para realizar a an√°lise de sentimento nos videos do Youtube

In [None]:
import pickle

In [None]:
def salvar_modelo(modelo, nome_arquivo):
    nome = str(nome_arquivo) + ".pickle"
    try:
        salvar_modelo = open(nome,"wb")
        pickle.dump(modelo, salvar_modelo)
        salvar_modelo.close()
        return True
    except Exception as e:
        return e

In [None]:
if salvar_modelo(classificador,'naivebayes'):
    print("Modelo salvo para ser utilizado no futuro :)")
    

In [None]:
print("Tempo total para executar esse notebook foi de {} segundos".format(time() - ti))