In [6]:
%matplotlib inline

import pandas            as pd
import seaborn           as sns
import matplotlib.pyplot as plt
import nltk
import unidecode

from sklearn.model_selection         import train_test_split
from sklearn.linear_model            import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk                            import tokenize
from string                          import punctuation

# Criando variável com os dados de teste.
data = pd.read_csv("C:/Users/lucas/Documents/GitHub/NLTK_IA/imdb-reviews-pt-br.csv")

# Criando as variáveis com as informações segregadas.
treino, teste, class_treino, class_teste = train_test_split(data.text_pt, data.sentiment, random_state = 42)

# Trocando as informações da coluna, para os valores legiveis pela IA.
classificacao = data["sentiment"].replace(["neg", "pos"], [0, 1])
data["classificacao"] = classificacao

# Retirada dos acentos das palavras.
data["text_pt"] = [unidecode.unidecode(texto) for texto in data["text_pt"]]

# Define que a variável palavras receba toda a base de dados a serem usados.
palavras = ''.join([texto for texto in data.text_pt])

# Configura a vetorização do Tfidf
tfidf = TfidfVectorizer(lowercase=False, max_features=50)

# Possibilita seprar as palavras, a partir de espaçoes em branco.
token_espaco    = tokenize.WhitespaceTokenizer()
token_pontuacao = tokenize.WordPunctTokenizer()

# Cria uma lista de pontuações.
pontuacao = list()
for ponto in punctuation:
    pontuacao.append(ponto)
# Atribui a variável a biblioteca RSLPStemmer da nltk.
stemmer = nltk.RSLPStemmer()
    
# Cria uma lista de palavras indesejadas
palavras_irrelevantes = nltk.corpus.stopwords.words("portuguese")
# Cria uma lista de palavras indesejadas sem acentos
palavras_irrelevantes_sem_acentos = [unidecode.unidecode(texto) for texto in palavras_irrelevantes]
# Cria uma variável com tudo de irrelevante para a IA
stopWords_pontuacao_acentos = pontuacao + palavras_irrelevantes + [unidecode.unidecode(texto) for texto in palavras_irrelevantes];

# Classificação das palavras, primeira apuração de precisão da IA.
# Compara os textos e retorna uma acurácia
def class_texto(texto, coluna_texto, coluna_classificacao):
    vetorizar = CountVectorizer(lowercase=False, max_features=50)
    bag_of_words = vetorizar.fit_transform(texto[coluna_texto])
    treino, teste, class_treino, class_teste = train_test_split(bag_of_words,
                                                                texto[coluna_classificacao],
                                                                random_state = 42)

    # Absorção de toda a base de dados use: LogisticRegression(max_iter=1000)
    reg_log = LogisticRegression()
    reg_log.fit(treino, class_treino)
    return reg_log.score(teste, class_teste)

# Produz um gráfico que indica a quantidaede de vezes que uma palavra foi repetida.
def pareto (texto, coluna_texto, quantidade):
    palavras = ' '.join([texto for texto in texto[coluna_texto]])
    # Aplica o token criando anteriormente para todas as palavras
    token_frase = token_espaco.tokenize(palavras)
    # Cria uma frequencia para todas as lapavras, individualemnte
    frequencia = nltk.FreqDist(token_frase)
    # Inicia uma visualização para cada uma dessas palavras, de acordo com sua uantidade de aparições
    df_frequencia = pd.DataFrame({"Palavra": list(frequencia.keys()),"Frequencia": list(frequencia.values())})
    # Limita para quantidade X de linhas
    maisVistas = df_frequencia.nlargest(columns = "Frequencia", n = quantidade)
    # Configuração da umagem a ser exibida
    plt.figure(figsize=(15,10))

    ax = sns.barplot(data = maisVistas, x = "Palavra", y = "Frequencia", color = 'gray')
    ax.set(ylabel = 'Contagem')
    plt.show()

def tratarMaiusculas(palavras, palavras_indesejadas, nova_coluna):
    frase_processada = list()
    for opiniao in palavras:
        nova_frase = list()
        opiniao = opiniao.lower()
        palavras_opiniao = token_pontuacao.tokenize(opiniao)
        for palavra in palavras_opiniao:
            if palavra not in palavras_indesejadas:
                nova_frase.append(palavra)
        frase_processada.append(' '.join(nova_frase))
    data[nova_coluna] = frase_processada
    
# Trata as palavras, de acordo com aquilo que deve se removido e adiciona uma nova coluna com as informações tratadas.
def tratarEspacos(palavras, palavras_indesejadas, nova_coluna):
    frase_processada = list()
    for opiniao in palavras:
        nova_frase = list()
        palavras_opiniao = token_espaco.tokenize(opiniao)
        for palavra in palavras_opiniao:
            if palavra not in palavras_indesejadas:
                nova_frase.append(palavra)
        frase_processada.append(' '.join(nova_frase))
    data[nova_coluna] = frase_processada
    
# Trata as palavras, de acordo com aquilo que deve se removido e adiciona uma nova coluna com as informações tratadas.
def tratarPontuacao(palavras, palavras_indesejadas, nova_coluna):
    frase_processada = list()
    for opiniao in palavras:
        nova_frase = list()
        palavras_opiniao = token_pontuacao.tokenize(opiniao)
        for palavra in palavras_opiniao:
            if palavra not in palavras_indesejadas:
                nova_frase.append(palavra)
        frase_processada.append(' '.join(nova_frase))
    data[nova_coluna] = frase_processada
    
def tratarsufixo(palavras, palavras_indesejadas, nova_coluna):
    frase_processada = list()
    for opiniao in palavras:
        nova_frase = list()
        palavras_opiniao = token_pontuacao.tokenize(opiniao)
        for palavra in palavras_opiniao:
            nova_frase.append(stemmer.stem(palavra))
        frase_processada.append(' '.join(nova_frase))
    data[nova_coluna] = frase_processada

In [7]:
#palavras_neg(data, "text_pt")

In [8]:
#palavras_pos(data, "text_pt")

In [9]:
#palavras(data, "text_pt")

In [10]:
# Chamada do método que transforma todas as letras em minusculas.
tratarMaiusculas(data.text_pt, pontuacao, "tratamento_1")

In [11]:
# Chamada do método que retira palavras indesejadas.
tratarEspacos(data.tratamento_1, palavras_irrelevantes, "tratamento_2")

In [12]:
# Chamada do método que retira pontuação desnecessária.
tratarPontuacao(data.tratamento_2, stopWords_pontuacao_acentos, "tratamento_3")

In [13]:
# Chamada do método que retira sufixos.
tratarsufixo(data.tratamento_3, stopWords_pontuacao_acentos, "tratamento_4")

In [14]:
vetorizar = CountVectorizer(lowercase=False, max_features=50)
bag_of_words = tfidf.fit_transform(data["tratamento_4"])
treino, teste, class_treino, class_teste = train_test_split(bag_of_words,
                                                            data["classificacao"],
                                                            random_state = 42)

# Absorção de toda a base de dados use: LogisticRegression(max_iter=1000)
reg_log = LogisticRegression()
reg_log.fit(treino, class_treino)
acuracia_tfidf = reg_log.score(teste, class_teste)
print(acuracia_tfidf)

0.6988273352203801


In [15]:
vetorizar = CountVectorizer(lowercase=False, ngram_range = (1,2))
bag_of_words = vetorizar.fit_transform(data["tratamento_4"])
treino, teste, class_treino, class_teste = train_test_split(bag_of_words,
                                                            data["classificacao"],
                                                            random_state = 42)
reg_log = LogisticRegression(max_iter=1000)
reg_log.fit(treino, class_treino)
# acuracia_tfidf = reg_log.score(teste, class_teste)
# print(acuracia_tfidf)

previsao = reg_log.predict(treino)
print(previsao)

[0 0 0 ... 1 0 1]


In [99]:
data['text_pt'][40499] # Negativa

'Este filme foi bastante horrivel Vipul Shahs ultimo filme foi bom este foi apenas ruim, embora seja uma boa historia e e tratado de uma forma otima Aatish Kapadia que adaptou este filme de outra peca gujarati "Avjo Wahala Fari Malishu" fez um bom, mas lento pianful 2 horas e meia para assistir ha um monte de falhas neste filme, mas ainda e um artista musicas sao um pouco desanimado e nao funcionam bem, mas eles ainda sao bons em geral, nao um filme que voce entusiasticamente assistir a sua ainda uma historia para levar para conta e e bom se voce e o tipo de relacionamento filme muito bom com um monte de falhas e humor isso realmente nao e necessario nem um pouco'

In [98]:
data['text_pt'][0] # Positva

'Mais uma vez, o Sr. Costner arrumou um filme por muito mais tempo do que o necessario. Alem das terriveis sequencias de resgate no mar, das quais ha muito poucas, eu simplesmente nao me importei com nenhum dos personagens. A maioria de nos tem fantasmas no armario, e o personagem Costers e realizado logo no inicio, e depois esquecido ate muito mais tarde, quando eu nao me importava. O personagem com o qual deveriamos nos importar e muito arrogante e superconfiante, Ashton Kutcher. O problema e que ele sai como um garoto que pensa que e melhor do que qualquer outra pessoa ao seu redor e nao mostra sinais de um armario desordenado. Seu unico obstaculo parece estar vencendo Costner. Finalmente, quando estamos bem alem do meio do caminho, Costner nos conta sobre os fantasmas dos Kutchers. Somos informados de por que Kutcher e levado a ser o melhor sem pressentimentos ou pressagios anteriores. Nenhuma magica aqui, era tudo que eu podia fazer para nao desligar uma hora.'

In [92]:
dicionario = {
    'frases': ['Mais uma vez, o Sr. Costner arrumou um filme por muito mais tempo do que o necessario. Alem das terriveis sequencias de resgate no mar, das quais ha muito poucas, eu simplesmente nao me importei com nenhum dos personagens. A maioria de nos tem fantasmas no armario, e o personagem Costers e realizado logo no inicio, e depois esquecido ate muito mais tarde, quando eu nao me importava. O personagem com o qual deveriamos nos importar e muito arrogante e superconfiante, Ashton Kutcher. O problema e que ele sai como um garoto que pensa que e melhor do que qualquer outra pessoa ao seu redor e nao mostra sinais de um armario desordenado. Seu unico obstaculo parece estar vencendo Costner. Finalmente, quando estamos bem alem do meio do caminho, Costner nos conta sobre os fantasmas dos Kutchers. Somos informados de por que Kutcher e levado a ser o melhor sem pressentimentos ou pressagios anteriores. Nenhuma magica aqui, era tudo que eu podia fazer para nao desligar uma hora.', 'Este filme foi bastante horrivel Vipul Shahs ultimo filme foi bom este foi apenas ruim, embora seja uma boa historia e e tratado de uma forma otima Aatish Kapadia que adaptou este filme de outra peca gujarati "Avjo Wahala Fari Malishu" fez um bom, mas lento pianful 2 horas e meia para assistir ha um monte de falhas neste filme, mas ainda e um artista musicas sao um pouco desanimado e nao funcionam bem, mas eles ainda sao bons em geral, nao um filme que voce entusiasticamente assistir a sua ainda uma historia para levar para conta e e bom se voce e o tipo de relacionamento filme muito bom com um monte de falhas e humor isso realmente nao e necessario nem um pouco'],}

In [93]:
df = pd.DataFrame(dicionario, columns=['frases'])

In [101]:
vetorizar = CountVectorizer(lowercase=False, ngram_range = (1,2))
bag_of_words = vetorizar.fit_transform(data["tratamento_4"])
treino, teste, class_treino, class_teste = train_test_split(bag_of_words,
                                                            data["classificacao"],
                                                            random_state = 42)

bag_of_words = vetorizar.transform(df["frases"])

reg_log = LogisticRegression(max_iter=1000)
reg_log.fit(treino, class_treino)
previsao = reg_log.predict(bag_of_words)
print(previsao)

[0 1]
