In [2]:
from preprocessing.preprocessor import Preprocessor
from representation.representation import Representation
from machine_learning.classification import Classification
from evaluation.classifier_evaluation import Evaluation
from sklearn.utils import shuffle
import pandas as pd

import seaborn as sns

%matplotlib inline

#### Lendo conjunto de dados

In [3]:
dataset = pd.read_csv('data/imdb-reviews-pt-br.csv')

#### Pegando 1500 amostras do conjunto de dados original de forma balanceada

In [4]:
# pegando apenas os textos que possuem sentimento negativo
df_negative_sentiment = dataset.loc[dataset['sentiment'] == 'neg']
# pegando apenas os textos que possuem sentimento positivo
df_positive_sentiment = dataset.loc[dataset['sentiment'] == 'pos']

# # criando um conjunto de dados novo com apenas 1500 amostras, tendo um balanceamento de 750 amostras positivas e 750 amostras negativas
df = pd.concat([df_negative_sentiment[0:10], df_positive_sentiment[0:10]])
# embaralha o novo conjunto de dados
df = shuffle(df)

In [5]:
df.drop(['id', 'text_en'], axis=1, inplace=True)

In [6]:
df.reset_index(inplace=True)
df.drop('index', axis=1, inplace=True)
df.head()

Unnamed: 0,text_pt,sentiment
0,"Mais uma vez, o Sr. Costner arrumou um filme p...",neg
1,Eu fui e vi este filme ontem à noite depois de...,pos
2,"Eu vi esse filme em uma prévia, e é delicioso....",pos
3,"Primeiro de tudo eu odeio esses raps imbecis, ...",neg
4,Nem mesmo os Beatles puderam escrever músicas ...,neg


In [7]:
df.shape

(20, 2)

### Aplicando One-Hot-Enconding
- Vai transforma variaveis categoricas em variaveis discretas.

In [8]:
sentiment = pd.get_dummies(df['sentiment'], prefix='sentiment', drop_first=True)
df['sentiment'] = sentiment
df.head()

Unnamed: 0,text_pt,sentiment
0,"Mais uma vez, o Sr. Costner arrumou um filme p...",0
1,Eu fui e vi este filme ontem à noite depois de...,1
2,"Eu vi esse filme em uma prévia, e é delicioso....",1
3,"Primeiro de tudo eu odeio esses raps imbecis, ...",0
4,Nem mesmo os Beatles puderam escrever músicas ...,0


In [10]:
### Aplicando preprocessamento no texto para remover sujeiras de dentro do conjunto de dados

In [11]:
from nltk.corpus import stopwords
import unicodedata
import re

from typing import List


class Preprocessor:

    def clean_words(words):
        word = re.sub('([\.\, \\/ \\" \\^\\\'\_\´\`\’\@\#\$\%\?\!\:\;\*-\=\+\{\}]+)', '', words)
        word = re.sub('/\.', '', word)
        word = re.sub('(etc|[0-9]{1,4}|decada|seculo|a{2,200}|a{2,200}h{2,200}|a{2,200}rgh|-{1,200})+', '', word)
        return word

    def clean_sentences(text: List[str]) -> List[str]:
        alpha = [' ','a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
        remove_stopwords = stopwords.words('portuguese')

        text = re.sub('[!"#$%&()*\+,-./:;<=>?@[\\]^_`{|}~\t\n]', '', text)
        text = unicodedata.normalize('NFD', text).encode('ascii', 'ignore').decode('utf-8')
        text = text.lower()  # change to lower case
        text = ''.join([char for char in text if char in alpha])
        text = ' '.join([Preprocessor.clean_words(word) for word in text.split(' ') if
                         ((word not in remove_stopwords) & (len(word) > 1))])

        return text

In [12]:
df["clean_text_pt"] = df["text_pt"].apply(Preprocessor.clean_sentences)

In [15]:
### Texto original vs Texto Pre-processado

In [25]:
print("Texto original\n\n", df['text_pt'].iloc[0], "\n\nQtd de palavras = ", len(df['text_pt'].iloc[0]))

Texto original

 Mais uma vez, o Sr. Costner arrumou um filme por muito mais tempo do que o necessário. Além das terríveis seqüências de resgate no mar, das quais há muito poucas, eu simplesmente não me importei com nenhum dos personagens. A maioria de nós tem fantasmas no armário, e o personagem Costers é realizado logo no início, e depois esquecido até muito mais tarde, quando eu não me importava. O personagem com o qual deveríamos nos importar é muito arrogante e superconfiante, Ashton Kutcher. O problema é que ele sai como um garoto que pensa que é melhor do que qualquer outra pessoa ao seu redor e não mostra sinais de um armário desordenado. Seu único obstáculo parece estar vencendo Costner. Finalmente, quando estamos bem além do meio do caminho, Costner nos conta sobre os fantasmas dos Kutchers. Somos informados de por que Kutcher é levado a ser o melhor sem pressentimentos ou presságios anteriores. Nenhuma mágica aqui, era tudo que eu podia fazer para não desligar uma hora. 

Qt

In [26]:
print("Texto pre-processado\n\n", df['clean_text_pt'].iloc[0], "\n\nQtd de palavras = ", len(df['clean_text_pt'].iloc[0]))

Texto pre-processado

 vez sr costner arrumou filme tempo necessario alem terriveis sequencias resgate mar quais ha poucas simplesmente nao importei nenhum personagens maioria fantasmas armario personagem costers realizado logo inicio esquecido ate tarde nao importava personagem deveriamos importar arrogante superconfiante ashton kutcher problema sai garoto pensa melhor qualquer outra pessoa redor nao mostra sinais armario desordenado unico obstaculo parece estar vencendo costner finalmente bem alem meio caminho costner conta sobre fantasmas kutchers informados kutcher levado ser melhor pressentimentos pressagios anteriores nenhuma magica aqui tudo podia fazer nao desligar hora 

Qtd de palavras =  663


In [27]:
### Criando uma analise pelo tamanho do texto original vs o tamanho do texto pre-processado

In [29]:
df['length'] = df.text_pt.str.len()
df['clean_length'] = df.clean_text_pt.str.len()
df.head()

Unnamed: 0,text_pt,sentiment,clean_text_pt,length,clean_length
0,"Mais uma vez, o Sr. Costner arrumou um filme p...",0,vez sr costner arrumou filme tempo necessario ...,978,663
1,Eu fui e vi este filme ontem à noite depois de...,1,vi filme ontem noite ser persuadido alguns ami...,810,581
2,"Eu vi esse filme em uma prévia, e é delicioso....",1,vi filme previa delicioso cinematografia extra...,655,488
3,"Primeiro de tudo eu odeio esses raps imbecis, ...",0,primeiro tudo odeio raps imbecis nao poderiam ...,1185,874
4,Nem mesmo os Beatles puderam escrever músicas ...,0,beatles puderam escrever musicas todos gostass...,1848,1295


In [30]:
#### Aplicando EDA para entender o comportamento dos dados

In [None]:
sns.countplot(df.sentiment)



<AxesSubplot:xlabel='sentiment', ylabel='count'>