# Classificação de sentimentos com ML
---

In [1]:
# Importando o módulo para análise de dados
import pandas as pd

# Definindo o dataset principal do projeto
df = pd.read_csv('imdb-reviews-pt-br.csv')

# Visualizando as 5 primeiras observações do dataset
df.tail()

Unnamed: 0,id,text_en,text_pt,sentiment
49454,49456,"Seeing as the vote average was pretty low, and...","Como a média de votos era muito baixa, e o fat...",pos
49455,49457,"The plot had some wretched, unbelievable twist...",O enredo teve algumas reviravoltas infelizes e...,pos
49456,49458,I am amazed at how this movieand most others h...,Estou espantado com a forma como este filme e ...,pos
49457,49459,A Christmas Together actually came before my t...,A Christmas Together realmente veio antes do m...,pos
49458,49460,Working-class romantic drama from director Mar...,O drama romântico da classe trabalhadora do di...,pos


In [2]:
# Importando função para separação de dados entre treino e teste
from sklearn.model_selection import train_test_split

# Importando modelo de machine learning
from sklearn.linear_model import LogisticRegression

# Guardando função para executar posteriormente
def run_model(df):
    # Separando dados entre input e output
    x = df['text_pt']
    y = df['sentiment']

    # Separando dados entre test e train
    x_train, x_test, y_train, y_test = train_test_split(x, y, random_state = 101, test_size = 0.25)
    
    # Instânciando um objeto LogisticRegression
    logistic_regression = LogisticRegression()

    # Treinando o modelo
    logistic_regression.fit(x_train, y_train)

    # Calculando a acurácia
    return logistic_regression.score(x_test, y_test)

# run_model(df = df)

In [3]:
# Exemplo de texto negativo
print('Exemplo negativo')
df['text_pt'][0]

Exemplo negativo


'Mais uma vez, o Sr. Costner arrumou um filme por muito mais tempo do que o necessário. Além das terríveis seqüências de resgate no mar, das quais há muito poucas, eu simplesmente não me importei com nenhum dos personagens. A maioria de nós tem fantasmas no armário, e o personagem Costers é realizado logo no início, e depois esquecido até muito mais tarde, quando eu não me importava. O personagem com o qual deveríamos nos importar é muito arrogante e superconfiante, Ashton Kutcher. O problema é que ele sai como um garoto que pensa que é melhor do que qualquer outra pessoa ao seu redor e não mostra sinais de um armário desordenado. Seu único obstáculo parece estar vencendo Costner. Finalmente, quando estamos bem além do meio do caminho, Costner nos conta sobre os fantasmas dos Kutchers. Somos informados de por que Kutcher é levado a ser o melhor sem pressentimentos ou presságios anteriores. Nenhuma mágica aqui, era tudo que eu podia fazer para não desligar uma hora.'

In [4]:
# Exemplo de texto positivo
print('Exemplo positivo')
df['text_pt'][49458]

Exemplo positivo


'O drama romântico da classe trabalhadora do diretor Martin Ritt é tão inacreditável quanto eles são, mas há momentos de prazer devido principalmente ao carisma das estrelas Jane Fonda e Robert De Niro, ambos ótimos. Ela é uma viúva que não pode seguir em frente, é analfabeta e é uma inventora de armários - provavelmente você pode adivinhar o resto. Adaptação do romance de Pat Barkers "Union Street" um título melhor! é tão descontraído que beirar sem graça, e a edição de filmes é uma bagunça, mas ainda é agradável; uma fantasia de colarinho azul em tons rosados. Não há aberturas para questões sérias, mesmo o ângulo do analfabetismo é apenas uma ferramenta de enredo para a história de amor que se segue e não há fogos de artifício reais, embora os personagens sejam intencionalmente um pouco incolores e as derivações reduzidas a um nível interessante. O final é puro fluff - e os cínicos acharão difícil de engolir - embora esses dois personagens mereçam um final feliz e a foto não seria re

In [5]:
# Avaliando se os dados são balanceados
pd.value_counts(df['sentiment'])

neg    24765
pos    24694
Name: sentiment, dtype: int64

In [6]:
# Padronizando os dados de sentimentos
df['classification'] = df['sentiment'].replace({'neg' : 0, 'pos' : 1})
df.head()

Unnamed: 0,id,text_en,text_pt,sentiment,classification
0,1,Once again Mr. Costner has dragged out a movie...,"Mais uma vez, o Sr. Costner arrumou um filme p...",neg,0
1,2,This is an example of why the majority of acti...,Este é um exemplo do motivo pelo qual a maiori...,neg,0
2,3,"First of all I hate those moronic rappers, who...","Primeiro de tudo eu odeio esses raps imbecis, ...",neg,0
3,4,Not even the Beatles could write songs everyon...,Nem mesmo os Beatles puderam escrever músicas ...,neg,0
4,5,Brass pictures movies is not a fitting word fo...,Filmes de fotos de latão não é uma palavra apr...,neg,0


In [7]:
from sklearn.feature_extraction.text import CountVectorizer

text = ['Assisti um filme bom', 'Assisti um filme ruim']

count_vectorizer = CountVectorizer(lowercase=False)

bag_of_words = count_vectorizer.fit_transform(text)

count_vectorizer.get_feature_names_out()

array(['Assisti', 'bom', 'filme', 'ruim', 'um'], dtype=object)