In [3]:
from preprocessing.preprocessor import Preprocessor
from representation.representation import Representation
from machine_learning.classification import Classification
from evaluation.classifier_evaluation import Evaluation
from sklearn.utils import shuffle
import pandas as pd

import seaborn as sns

%matplotlib agg

#### Lendo conjunto de dados

In [4]:
dataset = pd.read_csv('data/imdb-reviews-pt-br.csv')

#### Pegando 1500 amostras do conjunto de dados original de forma balanceada

In [5]:
# pegando apenas os textos que possuem sentimento negativo
df_negative_sentiment = dataset.loc[dataset['sentiment'] == 'neg']
# pegando apenas os textos que possuem sentimento positivo
df_positive_sentiment = dataset.loc[dataset['sentiment'] == 'pos']

# # criando um conjunto de dados novo com apenas 1500 amostras, tendo um balanceamento de 750 amostras positivas e 750 amostras negativas
df = pd.concat([df_negative_sentiment[0:1500], df_positive_sentiment[0:1500]])
# embaralha o novo conjunto de dados
df = shuffle(df)

In [6]:
df.drop(['id', 'text_en'], axis=1, inplace=True)

In [7]:
df.reset_index(inplace=True)
df.drop('index', axis=1, inplace=True)
df.head()

Unnamed: 0,text_pt,sentiment
0,"A princípio, parece que o romance temático ond...",pos
1,É sempre difícil trazer um livro de 450 página...,pos
2,Algum estranho esquisito que tinha três famíli...,neg
3,"Em sua superfície, este é um dos filmes de açã...",pos
4,Às vezes você consegue exatamente o que espera...,neg


In [8]:
df.shape

(3000, 2)

### Aplicando One-Hot-Enconding
- Vai transforma variaveis categoricas em variaveis discretas.

In [9]:
sentiment = pd.get_dummies(df['sentiment'], prefix='sentiment', drop_first=True)
df['sentiment'] = sentiment
df.head()

Unnamed: 0,text_pt,sentiment
0,"A princípio, parece que o romance temático ond...",1
1,É sempre difícil trazer um livro de 450 página...,1
2,Algum estranho esquisito que tinha três famíli...,0
3,"Em sua superfície, este é um dos filmes de açã...",1
4,Às vezes você consegue exatamente o que espera...,0


In [109]:
df["text_pt"].iloc[2]

'Algum estranho esquisito que tinha três famílias, traiu e negligenciou todos eles, construiu edifícios inúteis feios por toda parte que agora são desvalorizados e desmoronando. Seu filho bastardo, meio judeu, anda por aí entrevistando aleatoriamente pessoas senis que não nos interessam e mostra suas terríveis habilidades de narrar e escrever enquanto trágicas músicas de piano tocam. Isso se prolonga por quase duas horas chatas e não dá em nada. Todas as pessoas hippies superficiais que assistem a esses documentários estúpidos, comendo saladas e iogurtes, acham que toda essa porcaria é tão importante. Não é. Salve as baleias. Ninguém se importa.'

In [10]:
### Aplicando preprocessamento no texto para remover sujeiras de dentro do conjunto de dados

In [11]:
# Importando bibliotecas de pre processamento
from nltk.corpus import stopwords
import unicodedata
import re

from typing import List

In [12]:
def clean_words(words):
    word = re.sub('([\.\, \\/ \\" \\^\\\'\_\´\`\’\@\#\$\%\?\!\:\;\*-\=\+\{\}]+)', '', words)
    word = re.sub('/\.', '', word)
    word = re.sub('(etc|[0-9]{1,4}|decada|seculo|a{2,200}|a{2,200}h{2,200}|a{2,200}rgh|-{1,200})+', '', word)
    return word

def clean_sentences(text: List[str]) -> List[str]:
    alpha = [' ','a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
    remove_stopwords = stopwords.words('portuguese')

    text = re.sub('[!"#$%&()*\+,-./:;<=>?@[\\]^_`{|}~\t\n]', '', text)
    text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore').decode('utf-8')
    text = text.lower()  # change to lower case
    text = ''.join([char for char in text if char in alpha])
    text = ' '.join([clean_words(word) for word in text.split(' ') if
                     ((word not in remove_stopwords) & (len(word) > 1))])

    return text

In [14]:
df["clean_text_pt"] = df["text_pt"].apply(clean_sentences)

In [15]:
### Texto original vs Texto Pre-processado

In [16]:
print("Texto original\n\n", df['text_pt'].iloc[0], "\n\nQtd de palavras = ", len(df['text_pt'].iloc[0]))

Texto original

 A princípio, parece que o romance temático onde uma garota conhece um garoto e se apaixona, mas o ponto é que esse filme tem um sentimento que outros não têm. Na primeira vez que o vi, não consegui concluir, porque tinha que sair. Mas enquanto eu estava andando eu pensei que eu deveria ver isso de novo, mas eu não tive qualquer oportunidade até então. Um ano se passou até que eu vi este filme em um canal não-livre e eu vi e eu gravei também. uma vez, duas vezes ... até 200 vezes e não está brincando.Eu sabia todos os diálogos por hart e eu não sei por que, mas eu vi todos os dias e nunca se cansar.E eu tenho que dizer que eu não estou acostumado a ver um filme mais do que duas vezes. O ato é muito bom. Gerard Depardieu é um ator talentoso e katherine heigl também. Eu gostaria que ela estivesse em um bom filme, porque eu acho que ela pode fazê-lo.Em equilíbrio, é um filme que eu não posso tirar da minha mente. 

Qtd de palavras =  922


In [17]:
print("Texto pre-processado\n\n", df['clean_text_pt'].iloc[0], "\n\nQtd de palavras = ", len(df['clean_text_pt'].iloc[0]))

Texto pre-processado

 principio parece romance tematico onde garota conhece garoto apaixona ponto filme sentimento outros nao primeira vez vi nao consegui concluir porque sair enquanto andando pensei deveria ver novo nao qualquer oportunidade ate entao ano passou ate vi filme canal naolivre vi gravei tambem vez duas vezes ate vezes nao brincandoeu sabia todos dialogos hart nao sei vi todos dias nunca cansare dizer nao acostumado ver filme duas vezes ato bom gerard depardieu ator talentoso katherine heigl tambem gostaria bom filme porque acho pode fazeloem equilibrio filme nao posso tirar mente 

Qtd de palavras =  578


In [18]:
### Criando uma analise pelo tamanho do texto original vs o tamanho do texto pre-processado

In [19]:
df['length'] = df.text_pt.str.len()
df['clean_length'] = df.clean_text_pt.str.len()
df.head()

Unnamed: 0,text_pt,sentiment,clean_text_pt,length,clean_length
0,"A princípio, parece que o romance temático ond...",1,principio parece romance tematico onde garota ...,922,578
1,É sempre difícil trazer um livro de 450 página...,1,sempre dificil trazer livro paginas filme tres...,1760,1298
2,Algum estranho esquisito que tinha três famíli...,0,algum estranho esquisito tres familias traiu n...,652,525
3,"Em sua superfície, este é um dos filmes de açã...",1,superficie filmes acao comedia romance classic...,782,543
4,Às vezes você consegue exatamente o que espera...,0,vezes voce consegue exatamente espera filme pr...,763,551


In [22]:
# Remoção de comprimento total
print ("Comprimento original:", df.length.sum ())
print ("Comprimento limpo:", df.clean_length.sum ())
print ("Total de palavras removidas:", (df.length.sum ()) - (df.clean_length.sum ()))

Comprimento original: 3772674
Comprimento limpo: 2720330
Total de palavras removidas: 1052344


In [29]:
# Porcentagem da quantidade de dados indesejados limpo ou processado após a remoção do comprimento.
print("Porcentagem de dados removidos = ", (1052344 / 3772674) * 100 )

Porcentagem de dados removidos =  27.89384929628163


In [16]:
#### Aplicando EDA para entender o comportamento dos dados

In [None]:
# sns.countplot(x=df.sentiment)

<AxesSubplot:xlabel='sentiment', ylabel='count'>

### Divisão do conjunto de dados em 70/30 Test-Train
- train = 70% dos dados
- test = 30% dos dados

In [31]:
from sklearn.model_selection import train_test_split
X = df["clean_text_pt"]
Y = df['sentiment']

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size = 0.3, random_state=100)

### Aplicando a representacao TF-IDF
- Representando as palavras dentro do espaco vetorial

In [60]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer

In [61]:
tfidf_vectorizer = TfidfVectorizer(use_idf=True)
X_train_vectors_tfidf = tfidf_vectorizer.fit_transform(X_train).toarray()

In [62]:
print("n_samples: %d, n_features: %d" % X_train_vectors_tfidf.shape)

n_samples: 2100, n_features: 30169


In [63]:
X_test_vectors_tfidf = tfidf_vectorizer.transform(X_test).toarray()

In [64]:
print("n_samples: %d, n_features: %d" % X_test_vectors_tfidf.shape)

n_samples: 900, n_features: 30169


In [65]:
print(X_train_vectors_tfidf.shape)

(2100, 30169)


In [66]:
print(y_train.shape)

(2100,)


### Contruindo o modelo de Naive Bayes
- Utilizando os dados de traino e teste representados na forma de vetores

In [67]:
from sklearn.naive_bayes import GaussianNB

In [69]:
naive_bayes_classifier = GaussianNB()
naive_bayes_classifier.fit(X_train_vectors_tfidf, y_train)

GaussianNB()

In [70]:
y_pred = naive_bayes_classifier.predict(X_test_vectors_tfidf)

### Avaliação dos modelos

Um resumo sobre as métricas avaliativas

- accuracy ou acuracia esta função calcula a precisão do subconjunto: o conjunto de rótulos previsto para uma amostra deve corresponder exatamente ao conjunto correspondente de rótulos em y_true.

- A precision ou precisão é a proporção em que está o número de verdadeiros positivos e o número de falsos positivos. A precisão é intuitivamente a capacidade do classificador de não rotular como positiva uma amostra negativa. O melhor valor é 1 e o pior valor é 0.

- O recall ou cobertura é a proporção em que está o número de verdadeiros positivos e o número de falsos negativos. O recall é intuitivamente a capacidade do classificador de encontrar todas as amostras positivas. O melhor valor é 1 e o pior valor é 0.

- A pontuação F1 pode ser interpretada como uma média ponderada da precisão e recuperação, onde uma pontuação F1 atinge seu melhor valor em 1 e a pior pontuação em 0.

In [71]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

In [74]:
print(classification_report(y_test, y_pred, target_names=['Positive', 'Negative']))

              precision    recall  f1-score   support

    Positive       0.83      0.82      0.83       437
    Negative       0.83      0.84      0.84       463

    accuracy                           0.83       900
   macro avg       0.83      0.83      0.83       900
weighted avg       0.83      0.83      0.83       900



In [75]:
print("Confusion matrix:")
print(confusion_matrix(y_test, y_pred))

Confusion matrix:
[[360  77]
 [ 74 389]]


In [76]:
"""
Fazendo analise de um comentario do filme Harry Potter, dessa forma iremos ver o que o algoritmo treinado ira nos retorna
"""

'\nFazendo analise de um comentario do filme Harry Potter, dessa forma iremos ver o que o algoritmo treinado ira nos retorna\n'

In [110]:
text = """
Algum estranho esquisito que tinha três famílias, traiu e negligenciou todos eles, construiu edifícios inúteis feios por toda parte que agora são desvalorizados e desmoronando. Seu filho bastardo, meio judeu, anda por aí entrevistando aleatoriamente pessoas senis que não nos interessam e mostra suas terríveis habilidades de narrar e escrever enquanto trágicas músicas de piano tocam. Isso se prolonga por quase duas horas chatas e não dá em nada. Todas as pessoas hippies superficiais que assistem a esses documentários estúpidos, comendo saladas e iogurtes, acham que toda essa porcaria é tão importante. Não é. Salve as baleias. Ninguém se importa.
"""
text

'\nAlgum estranho esquisito que tinha três famílias, traiu e negligenciou todos eles, construiu edifícios inúteis feios por toda parte que agora são desvalorizados e desmoronando. Seu filho bastardo, meio judeu, anda por aí entrevistando aleatoriamente pessoas senis que não nos interessam e mostra suas terríveis habilidades de narrar e escrever enquanto trágicas músicas de piano tocam. Isso se prolonga por quase duas horas chatas e não dá em nada. Todas as pessoas hippies superficiais que assistem a esses documentários estúpidos, comendo saladas e iogurtes, acham que toda essa porcaria é tão importante. Não é. Salve as baleias. Ninguém se importa.\n'

- Observacao, para cada entrada de dados nova a ser analisada pelo algoritmo ela deve passar pelos seguintes passos
    - Pre-processamento
    - Representacao vetorial do texto

In [111]:
text_processed = clean_sentences(text)
text_processed

'algum estranho esquisito tres familias traiu negligenciou todos construiu edificios inuteis feios toda parte agora sao desvalorizados desmoronando filho bastardo meio judeu anda ai entrevistando aleatoriamente pessoas senis nao interessam mostra terriveis habilidades narrar escrever enquanto tragicas musicas piano tocam prolonga quase duas horas chatas nao nada todas pessoas hippies superficiais assistem documentarios estupidos comendo saladas iogurtes acham toda porcaria tao importante nao salve baleias ninguem importa'

In [112]:
test_input = tf_idf.transform([text_processed]).toarray()
test_input.shape

(1, 30169)

In [113]:
#0= avaliacao negativa
#1= avaliacao positiva
result = naive_bayes_classifier.predict(test_input)[0]
if result==1:
    print("Avaliacao Positiva")
elif result==0:
    print("Avaliacao Negativa")

Avaliacao Negativa
