In [2]:
%matplotlib inline

import pandas            as pd
import seaborn           as sns
import matplotlib.pyplot as plt
import nltk
import unidecode

from sklearn.model_selection         import train_test_split
from sklearn.linear_model            import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk                            import tokenize
from string                          import punctuation

# Criando variável com os dados de teste.
data = pd.read_csv("C:/Users/lucas/Documents/GitHub/NLTK_IA/imdb-reviews-pt-br.csv")

# Criando as variáveis com as informações segregadas.
treino, teste, class_treino, class_teste = train_test_split(data.text_pt, data.sentiment, random_state = 42)

# Trocando as informações da coluna, para os valores legiveis pela IA.
classificacao = data["sentiment"].replace(["neg", "pos"], [0, 1])
data["classificacao"] = classificacao

# Retirada dos acentos das palavras.
data["text_pt"] = [unidecode.unidecode(texto) for texto in data["text_pt"]]

# Define que a variável palavras receba toda a base de dados a serem usados.
palavras = ''.join([texto for texto in data.text_pt])

# Configura a vetorização do Tfidf
tfidf = TfidfVectorizer(lowercase=False, max_features=50)

# Possibilita seprar as palavras, a partir de espaçoes em branco.
token_espaco    = tokenize.WhitespaceTokenizer()
token_pontuacao = tokenize.WordPunctTokenizer()

# Cria uma lista de pontuações.
pontuacao = list()
for ponto in punctuation:
    pontuacao.append(ponto)
# Atribui a variável a biblioteca RSLPStemmer da nltk.
stemmer = nltk.RSLPStemmer()
    
# Cria uma lista de palavras indesejadas
palavras_irrelevantes = nltk.corpus.stopwords.words("portuguese")
# Cria uma lista de palavras indesejadas sem acentos
palavras_irrelevantes_sem_acentos = [unidecode.unidecode(texto) for texto in palavras_irrelevantes]
# Cria uma variável com tudo de irrelevante para a IA
stopWords_pontuacao_acentos = pontuacao + palavras_irrelevantes + [unidecode.unidecode(texto) for texto in palavras_irrelevantes];

# Classificação das palavras, primeira apuração de precisão da IA.
# Compara os textos e retorna uma acurácia
def class_texto(texto, coluna_texto, coluna_classificacao):
    vetorizar = CountVectorizer(lowercase=False, max_features=50)
    bag_of_words = vetorizar.fit_transform(texto[coluna_texto])
    treino, teste, class_treino, class_teste = train_test_split(bag_of_words,
                                                                texto[coluna_classificacao],
                                                                random_state = 42)

    # Absorção de toda a base de dados use: LogisticRegression(max_iter=1000)
    reg_log = LogisticRegression()
    reg_log.fit(treino, class_treino)
    return reg_log.score(teste, class_teste)

# Produz um gráfico que indica a quantidaede de vezes que uma palavra foi repetida.
def pareto (texto, coluna_texto, quantidade):
    palavras = ' '.join([texto for texto in texto[coluna_texto]])
    # Aplica o token criando anteriormente para todas as palavras
    token_frase = token_espaco.tokenize(palavras)
    # Cria uma frequencia para todas as lapavras, individualemnte
    frequencia = nltk.FreqDist(token_frase)
    # Inicia uma visualização para cada uma dessas palavras, de acordo com sua uantidade de aparições
    df_frequencia = pd.DataFrame({"Palavra": list(frequencia.keys()),"Frequencia": list(frequencia.values())})
    # Limita para quantidade X de linhas
    maisVistas = df_frequencia.nlargest(columns = "Frequencia", n = quantidade)
    # Configuração da umagem a ser exibida
    plt.figure(figsize=(15,10))

    ax = sns.barplot(data = maisVistas, x = "Palavra", y = "Frequencia", color = 'gray')
    ax.set(ylabel = 'Contagem')
    plt.show()

def tratarMaiusculas(palavras, palavras_indesejadas, nova_coluna):
    frase_processada = list()
    for opiniao in palavras:
        nova_frase = list()
        opiniao = opiniao.lower()
        palavras_opiniao = token_pontuacao.tokenize(opiniao)
        for palavra in palavras_opiniao:
            if palavra not in palavras_indesejadas:
                nova_frase.append(palavra)
        frase_processada.append(' '.join(nova_frase))
    data[nova_coluna] = frase_processada
    
# Trata as palavras, de acordo com aquilo que deve se removido e adiciona uma nova coluna com as informações tratadas.
def tratarEspacos(palavras, palavras_indesejadas, nova_coluna):
    frase_processada = list()
    for opiniao in palavras:
        nova_frase = list()
        palavras_opiniao = token_espaco.tokenize(opiniao)
        for palavra in palavras_opiniao:
            if palavra not in palavras_indesejadas:
                nova_frase.append(palavra)
        frase_processada.append(' '.join(nova_frase))
    data[nova_coluna] = frase_processada
    
# Trata as palavras, de acordo com aquilo que deve se removido e adiciona uma nova coluna com as informações tratadas.
def tratarPontuacao(palavras, palavras_indesejadas, nova_coluna):
    frase_processada = list()
    for opiniao in palavras:
        nova_frase = list()
        palavras_opiniao = token_pontuacao.tokenize(opiniao)
        for palavra in palavras_opiniao:
            if palavra not in palavras_indesejadas:
                nova_frase.append(palavra)
        frase_processada.append(' '.join(nova_frase))
    data[nova_coluna] = frase_processada
    
def tratarsufixo(palavras, palavras_indesejadas, nova_coluna):
    frase_processada = list()
    for opiniao in palavras:
        nova_frase = list()
        palavras_opiniao = token_pontuacao.tokenize(opiniao)
        for palavra in palavras_opiniao:
            nova_frase.append(stemmer.stem(palavra))
        frase_processada.append(' '.join(nova_frase))
    data[nova_coluna] = frase_processada

In [3]:
#palavras_neg(data, "text_pt")

In [4]:
#palavras_pos(data, "text_pt")

In [5]:
#palavras(data, "text_pt")

In [6]:
# Chamada do método que transforma todas as letras em minusculas.
tratarMaiusculas(data.text_pt, pontuacao, "tratamento_1")

In [7]:
# Chamada do método que retira palavras indesejadas.
tratarEspacos(data.tratamento_1, palavras_irrelevantes, "tratamento_2")

In [8]:
# Chamada do método que retira pontuação desnecessária.
tratarPontuacao(data.tratamento_2, stopWords_pontuacao_acentos, "tratamento_3")

In [9]:
# Chamada do método que retira sufixos.
tratarsufixo(data.tratamento_3, stopWords_pontuacao_acentos, "tratamento_4")

In [10]:
vetorizar = CountVectorizer(lowercase=False, max_features=50)
bag_of_words = tfidf.fit_transform(data["tratamento_4"])
treino, teste, class_treino, class_teste = train_test_split(bag_of_words,
                                                            data["classificacao"],
                                                            random_state = 42)

# Absorção de toda a base de dados use: LogisticRegression(max_iter=1000)
reg_log = LogisticRegression()
reg_log.fit(treino, class_treino)
acuracia_tfidf = reg_log.score(teste, class_teste)
print(acuracia_tfidf)

0.6988273352203801


In [15]:
vetorizar = CountVectorizer(lowercase=False, ngram_range = (1,2))
bag_of_words = vetorizar.fit_transform(data["tratamento_4"])
treino, teste, class_treino, class_teste = train_test_split(bag_of_words,
                                                            data["classificacao"],
                                                            random_state = 42)
reg_log = LogisticRegression(max_iter=1000)
reg_log.fit(treino, class_treino)
acuracia_tfidf = reg_log.score(teste, class_teste)
print(acuracia_tfidf)

#frase = ["Esse filme não é bom"]
#previsao = reg_log.predict([frase])
#print(previsao)

0.8926000808734331
