# Classificação de Sentimentos

O projeto de classificação de sentimentos em Jupyter Notebook é uma aplicação prática da área de análise de sentimentos, que tem como objetivo identificar e classificar opiniões, emoções e sentimentos expressos em textos. Com o crescente volume de informações disponíveis em redes sociais, blogs e outras plataformas, a análise de sentimentos tornou-se uma ferramenta valiosa para empresas e indivíduos entenderem a opinião pública sobre produtos, serviços e eventos.

O projeto utiliza técnicas de processamento de linguagem natural e aprendizado de máquina para classificar textos em positivos, negativos ou neutros. Para isso, são utilizados conjuntos de dados de treinamento que são alimentados ao modelo de aprendizado de máquina para que ele possa aprender a identificar os padrões e características de cada tipo de sentimento.

O Jupyter Notebook é uma plataforma popular para desenvolvimento de projetos em ciência de dados e análise de dados. Com a sua interface amigável e interativa, o usuário pode criar e executar código em diferentes linguagens, como Python, R e Julia, além de visualizar e compartilhar os resultados em formato de relatório.

Este projeto de classificação de sentimentos em Jupyter Notebook é uma excelente oportunidade para praticar habilidades em ciência de dados e processamento de linguagem natural, além de ser uma aplicação prática e relevante para o mercado atual.

# 1 - Introdução

## 1.1 - Separando entre treino e teste

In [20]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
dataset = pd.read_csv('/home/jdspy/Documentos/datasets/imdb-reviews-pt-br.csv')

In [3]:
dataset.head()

Unnamed: 0,id,text_en,text_pt,sentiment
0,1,Once again Mr. Costner has dragged out a movie...,"Mais uma vez, o Sr. Costner arrumou um filme p...",neg
1,2,This is an example of why the majority of acti...,Este é um exemplo do motivo pelo qual a maiori...,neg
2,3,"First of all I hate those moronic rappers, who...","Primeiro de tudo eu odeio esses raps imbecis, ...",neg
3,4,Not even the Beatles could write songs everyon...,Nem mesmo os Beatles puderam escrever músicas ...,neg
4,5,Brass pictures movies is not a fitting word fo...,Filmes de fotos de latão não é uma palavra apr...,neg


In [14]:
dataset.shape

(49459, 4)

In [6]:
x = dataset['text_pt']
y = dataset['sentiment']

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=256)

## 1.2 - Conhecendo a base de dados

In [16]:
print('Resenha negativa :( \n')

print(dataset['text_pt'][0])

print('\n')

print('Resenha positiva :) \n')

print(dataset['text_pt'][49458])

Resenha negativa :( 

Mais uma vez, o Sr. Costner arrumou um filme por muito mais tempo do que o necessário. Além das terríveis seqüências de resgate no mar, das quais há muito poucas, eu simplesmente não me importei com nenhum dos personagens. A maioria de nós tem fantasmas no armário, e o personagem Costers é realizado logo no início, e depois esquecido até muito mais tarde, quando eu não me importava. O personagem com o qual deveríamos nos importar é muito arrogante e superconfiante, Ashton Kutcher. O problema é que ele sai como um garoto que pensa que é melhor do que qualquer outra pessoa ao seu redor e não mostra sinais de um armário desordenado. Seu único obstáculo parece estar vencendo Costner. Finalmente, quando estamos bem além do meio do caminho, Costner nos conta sobre os fantasmas dos Kutchers. Somos informados de por que Kutcher é levado a ser o melhor sem pressentimentos ou presságios anteriores. Nenhuma mágica aqui, era tudo que eu podia fazer para não desligar uma hora.

## 1.3 - Padronizando a classificação 

In [18]:
dataset['sentiment'].replace({'neg' : 0, 'pos' : 1}, inplace=True)

In [19]:
dataset

Unnamed: 0,id,text_en,text_pt,sentiment
0,1,Once again Mr. Costner has dragged out a movie...,"Mais uma vez, o Sr. Costner arrumou um filme p...",0
1,2,This is an example of why the majority of acti...,Este é um exemplo do motivo pelo qual a maiori...,0
2,3,"First of all I hate those moronic rappers, who...","Primeiro de tudo eu odeio esses raps imbecis, ...",0
3,4,Not even the Beatles could write songs everyon...,Nem mesmo os Beatles puderam escrever músicas ...,0
4,5,Brass pictures movies is not a fitting word fo...,Filmes de fotos de latão não é uma palavra apr...,0
...,...,...,...,...
49454,49456,"Seeing as the vote average was pretty low, and...","Como a média de votos era muito baixa, e o fat...",1
49455,49457,"The plot had some wretched, unbelievable twist...",O enredo teve algumas reviravoltas infelizes e...,1
49456,49458,I am amazed at how this movieand most others h...,Estou espantado com a forma como este filme e ...,1
49457,49459,A Christmas Together actually came before my t...,A Christmas Together realmente veio antes do m...,1


# 2 - Bag of Words

In [22]:
text = ['Assisti um filme ótimo', 'Assisti um filme ruim']

count_vectorizer = CountVectorizer()

bag_of_words = count_vectorizer.fit_transform(text)

In [24]:
count_vectorizer.get_feature_names_out()

array(['assisti', 'filme', 'ruim', 'um', 'ótimo'], dtype=object)

In [25]:
bag_of_words

<2x5 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [28]:
pd.SparseDataFrame(bag_of_words, columns=count_vectorizer.get_feature_names_out())

  pd.SparseDataFrame(bag_of_words, columns=count_vectorizer.get_feature_names_out())


TypeError: SparseDataFrame() takes no arguments