# Parte 1

Projeto Final do Turing de NLP para os Trainees - Parte 1

Essa parte do projeto se trata de fazermos um pré-processamento de uma base de dados do IMDB que contêm reviews de filmes e o sentimento desse review (sendo positivo ou negativo) e depois aplicarmos um modelo de predição baseado no BoW ("bag of words").

In [1]:
#Imports para o nosso código
import pandas as pd
import nltk
import re
from bs4 import BeautifulSoup
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 
from nltk.stem import PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer
stop_words = set(stopwords.words('english')) 

In [2]:
#Ler o dataset 
df = pd.read_csv("IMDB Dataset.csv")

In [3]:
df.head()

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive


## 1-) Pré-processamentos
* Criar uma função que realiza todos os pré-processamentos
    * Remover tags html com BeautifulSoup
    * Selecionar apenas letras com regex
    * Transformar o texto para letras minúsculas
    * Remover stopwords
    * Stemização/Lematização

In [4]:
def strip_html_tags(texto):
    soup = BeautifulSoup(texto, "html.parser")
    texto_tratado = soup.get_text(separator=" ")
    return texto_tratado

In [5]:
def trata_review(review):
    
    review_2 = []
    for word in review:
        word_ = str(word)
        word_ = word_.lower() 
        review_2.append(word_)

    return review_2

In [6]:
def tira_stopwords(review):
    
    filtered_sentence = [] 
    for word in review:
        if word not in stop_words: 
            filtered_sentence.append(word) 
            
    return filtered_sentence

In [7]:
#instanciando o stemmizador
porter = PorterStemmer()

In [8]:
def pre_processamentos(review):
    #primeiro vamos retirar as tags de html
    review = strip_html_tags(review)
    
    #selecionamos as palavras sem os números
    review = re.findall(r'[a-z,A-Z]\w+',review)
    
    #transformar as palavras em lower case
    review = trata_review(review)
    
    #agora vamos tirar os stopwords
    review = tira_stopwords(review)
    
    #Stemização das palavras   
    for i in range(len(review)):
        review[i] = porter.stem(review[i])
                                          
    
    return review

In [9]:
#aplicar para todo o dataframe os pré-processamentos
df["review_tratado"] = df["review"].apply(lambda x: pre_processamentos(x))

# 2 -) Feature Extraction
* A ideia é fazer um "bag of words" para podermos utilizar como feature para um modelo de predição de sentimento a partir dos reviews
    * A partir disso monto um dataframe com essas features e coloco a coluna com o nosso "target"(sentimento) sendo 1 para positivo e 0 para negativo

In [10]:
#transformar para texto já que o modelo CountVEctorizer recebe texto
df["review_tratado"] = df["review_tratado"].apply(lambda x: " ".join(x))

In [11]:
#instanciando o modelo e ajustando com os dados (coluna de "review_tratado")
vec = CountVectorizer(max_features = 200)
X = vec.fit_transform(df["review_tratado"])

In [12]:
#features extraídas
vec.get_feature_names()

['act',
 'action',
 'actor',
 'actual',
 'almost',
 'also',
 'although',
 'alway',
 'american',
 'anoth',
 'anyon',
 'anyth',
 'appear',
 'around',
 'audienc',
 'away',
 'back',
 'bad',
 'beauti',
 'becom',
 'begin',
 'believ',
 'best',
 'better',
 'big',
 'bit',
 'book',
 'bore',
 'call',
 'cast',
 'charact',
 'come',
 'comedi',
 'complet',
 'could',
 'cours',
 'day',
 'differ',
 'direct',
 'director',
 'done',
 'dvd',
 'effect',
 'end',
 'enjoy',
 'enough',
 'entertain',
 'episod',
 'especi',
 'even',
 'ever',
 'everi',
 'everyth',
 'expect',
 'fact',
 'famili',
 'fan',
 'far',
 'feel',
 'film',
 'final',
 'find',
 'first',
 'found',
 'friend',
 'fun',
 'funni',
 'get',
 'girl',
 'give',
 'go',
 'goe',
 'good',
 'got',
 'great',
 'guy',
 'happen',
 'hard',
 'help',
 'hope',
 'horror',
 'howev',
 'idea',
 'interest',
 'job',
 'keep',
 'kid',
 'kill',
 'kind',
 'know',
 'last',
 'laugh',
 'lead',
 'least',
 'let',
 'life',
 'like',
 'line',
 'littl',
 'live',
 'long',
 'look',
 'lot',


In [13]:
#criando um dataframe com as features extraídas 
df_modelo = pd.DataFrame(X.toarray(),
                    columns = vec.get_feature_names())

In [14]:
df["sentiment"].value_counts()

negative    25000
positive    25000
Name: sentiment, dtype: int64

In [15]:
#alterei os valores de "sentiment" para inteiros para aplicar o modelo
df_Y = df["sentiment"]
df_Y = df_Y.str.replace("positive","1")
df_Y = df_Y.str.replace("negative","0")
df_Y = df_Y.apply(lambda x: int(x))

# 3 -) Aplicando um modelo
Para aplicar um modelo, vamos dividir o dataset em treino e teste e depois aplicarmos alguns classificadores

In [16]:
#imports para aplicação do nosso modelo
from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

In [17]:
#imports para avaliar o modelo
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report

In [18]:
#separar o nosso dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(df_modelo, df_Y, test_size=0.3, random_state=42)

## 1 - Árvore de Decisão

In [19]:
#instanciando o modelo
clf = tree.DecisionTreeClassifier()

In [20]:
X_train.head()

Unnamed: 0,act,action,actor,actual,almost,also,although,alway,american,anoth,...,woman,wonder,work,world,worst,worth,would,year,yet,young
38094,0,0,0,0,0,0,0,0,0,2,...,0,0,0,0,0,0,0,0,0,0
40624,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,1,0,0
49425,1,0,0,1,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
35734,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
41708,0,2,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0


In [21]:
#fitando o modelo com os dados de treino
clf.fit(X_train,y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [22]:
y_pred = clf.predict(X_test)

In [23]:
#calculando a acurácia do modelo de árvore de decisão
ACC = accuracy_score(y_test, y_pred)
ACC

0.668

In [35]:
#matriz de confusão
print(confusion_matrix(y_test, y_pred))

[[4965 2446]
 [2534 5055]]


In [25]:
#outras métricas incluindo o f1
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.66      0.67      0.67      7411
           1       0.67      0.67      0.67      7589

    accuracy                           0.67     15000
   macro avg       0.67      0.67      0.67     15000
weighted avg       0.67      0.67      0.67     15000



## 2 - Regressão Logística

In [26]:
#intsanciando e fitando o modelo com a base de treino
logreg = LogisticRegression().fit(X_train,y_train)

In [27]:
y_pred2 = logreg.predict(X_test)

In [28]:
#calculando a acurácia do modelo de regressão logística
ACC2 = accuracy_score(y_test, y_pred2)
ACC2

0.789

In [36]:
#matriz de confusão
print(confusion_matrix(y_test, y_pred2))

[[5730 1681]
 [1484 6105]]


In [29]:
#outras métricas incluindo o f1
print(classification_report(y_test, y_pred2))

              precision    recall  f1-score   support

           0       0.79      0.77      0.78      7411
           1       0.78      0.80      0.79      7589

    accuracy                           0.79     15000
   macro avg       0.79      0.79      0.79     15000
weighted avg       0.79      0.79      0.79     15000



## 3 - Florestas Aleatórias

In [30]:
#instanciando o modelo
rfc = RandomForestClassifier(random_state = 42)

In [31]:
#fitando o modelo com a base de treino
rfc.fit(X_train,y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=42, verbose=0,
                       warm_start=False)

In [32]:
y_pred3 = rfc.predict(X_test)

In [33]:
#calculando a acurácia do modelo
ACC3 = accuracy_score(y_test, y_pred3)
ACC3

0.7750666666666667

In [37]:
#matriz de confusão
print(confusion_matrix(y_test, y_pred3))

[[5629 1782]
 [1592 5997]]


In [34]:
#outras métricas incluindo o f1
print(classification_report(y_test, y_pred3))

              precision    recall  f1-score   support

           0       0.78      0.76      0.77      7411
           1       0.77      0.79      0.78      7589

    accuracy                           0.78     15000
   macro avg       0.78      0.77      0.77     15000
weighted avg       0.78      0.78      0.77     15000



# Conclusão 
Para o nosso modelo, vimos que dentre os 3, o com a melhor performance foi o modelo de Regressão Logística. Vale ressaltar que foi a aplicação de um modelo bem simples, sem uma otimização de hiperparâmetros e de outros parâmetros como a quantidade máxima de features do CountVectorizer por exemplo. Sobre as performances no geral, podemos ver que o modelo de Regressão Logística ficou bem próximo do de Florestas Aleatórias enquanto que houve um resultado já bem abaixo por parte do modelo de Árvore de Decisão. Sobre as métricas individuais, obtivemos uma matriz de confusão boa nos 2 últimos modelos com pouca variação de resultado tanto na f1 score (Média harmônica do recall) quanto na precisão do modelo. 



Foi uma boa inicialização na área, onde pude me desafiar e aprender bastante com essa aplicação. Continuarei evlouindo para melhores projetos mais para frente. XD