# Sentiment Analysis

Análise de sentimentos é uma tarefa aprendizado de máquina de classificação de texto. Ela pode categorizar textos como "positivos", "negativos" ou "neutros".

As técnicas de análise de sentimento podem variar entre tecnicas de aprendizado de máquina, lexicon-based e métodos híbridos.

Para medir os modelos, geralmente sao utilizados datasets como SST, GLUE e IMDB movie reviews.

# Motivação e Importância

Em tempos de redes sociais, medir o que os clientes acham de seus produtos é de suma importancia. Ler milhares de comentarios e tentar sumarizar isso é uma tarefa ardua e cansativa para um ser humano.

Nesse contexto temos tecnicas onde textos são processados e rapidamente temos uma resposta do seu produto. Esses textos podem vir de redes sociais, como Twitter ou de caixa de comentarios de um marketplace como a Amazon.

Com isso, stackholders podem rapidamente tomar decisoes e mudar o curso de um produto que nao está indo tao bem.

# Objetivos

Esse trabalho tem como objetivo testar alguns modelos e ver o quão bem eles se saem em tarefas simples de analise de sentimento.

Além disso, será um trabalho para familiarizar com as ferramentas mais utilizadas de Ciências de Dados, já que o background do autor é em desenvolvimento de software.

# Revisao Bibliografica

# Links úteis

## Datasets
- https://paperswithcode.com/task/sentiment-analysis

## Tutorias
- https://www.analyticsvidhya.com/blog/2022/02/sentiment-analysis-using-transformers/

## Artigos
- https://www.sciencedirect.com/science/article/pii/S2590005622000224 (Transformer-based deep learning model)
- https://arxiv.org/pdf/1910.10683v3.pdf (Explorando os limites de transfer learning)
- https://arxiv.org/pdf/1810.04805v2.pdf (BERT)

# Base de Dados

O IMDB Movie reviews é uma base de dados para analise de sentimentos. Contem cerca de 50.000 registros de filmes no site IMDB.com rotuladas como positivas ou negativas.

Sera feito uma analise exploratoria dos dados e descobriremos como esses dados estao estruturados


In [25]:
import pandas as pd
import numpy as np

## Importacao dos dados de treinamento


In [26]:
import glob

data = []
files = glob.glob('aclimdb/train/pos/*.txt')

for file in files:
    with open(file, 'r') as f:
        text = f.read()
        data.append(text)

train_df = pd.DataFrame({"text": data, "label": 'pos'})

data = []
files = glob.glob('aclimdb/train/neg/*.txt')

for file in files:
    with open(file, 'r') as f:
        text = f.read()
        data.append(text)

train_df2 = pd.DataFrame({"text": data, "label": 'neg'})

train_df = pd.concat([train_df, train_df2], axis=0)
train_df.head()

Unnamed: 0,text,label
0,For a movie that gets no respect there sure ar...,pos
1,Bizarre horror movie filled with famous faces ...,pos
2,"A solid, if unremarkable film. Matthau, as Ein...",pos
3,It's a strange feeling to sit alone in a theat...,pos
4,"You probably all already know this by now, but...",pos


In [27]:
train_df.describe()

Unnamed: 0,text,label
count,25000,25000
unique,24904,2
top,How has this piece of crap stayed on TV this l...,pos
freq,3,12500


In [28]:
train_df.groupby('label').count()

Unnamed: 0_level_0,text
label,Unnamed: 1_level_1
neg,12500
pos,12500


## Importacao dos dados de teste

In [29]:
import glob

data = []
files = glob.glob('aclimdb/test/pos/*.txt')

for file in files:
    with open(file, 'r') as f:
        text = f.read()
        data.append(text)

test_df = pd.DataFrame({"text": data, "label": 'pos'})

data = []
files = glob.glob('aclimdb/test/neg/*.txt')

for file in files:
    with open(file, 'r') as f:
        text = f.read()
        data.append(text)

test_df2 = pd.DataFrame({"text": data, "label": 'neg'})

test_df = pd.concat([test_df, test_df2], axis=0)
test_df.head()

Unnamed: 0,text,label
0,"Based on an actual story, John Boorman shows t...",pos
1,This is a gem. As a Film Four production - the...,pos
2,"I really like this show. It has drama, romance...",pos
3,This is the best 3-D experience Disney has at ...,pos
4,"Of the Korean movies I've seen, only three had...",pos


In [30]:
test_df.describe()

Unnamed: 0,text,label
count,25000,25000
unique,24801,2
top,Loved today's show!!! It was a variety and not...,pos
freq,5,12500


In [31]:
test_df.groupby('label').count()

Unnamed: 0_level_0,text
label,Unnamed: 1_level_1
neg,12500
pos,12500


# Sobre a base de dados

Essa base de dados foi dividida em 25000 dados de treinamento e 25000 dados de teste.

Ela é uma base adequada para estudo pois esta bem equilibrada e ja foi utilizada em outros estudos.