<a href="https://colab.research.google.com/github/simonefmr/mvp_pucrio/blob/main/Sprint2_MVP_B_DL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Pós Graduação Ciência de Dados - PUC Rio**
## **MVP Sprint II B - Deep Learning**

##Aluna *Simone de Fátima Marques Ramos*

## ***AAA***

Você deverá treinar um modelo baseado em Deep Learning para resolver um problema de
visão computacional ou processamento de linguagem natural, iniciando na carga e
preparação dos dados, incluindo a separação entre treino e teste, modelagem, otimização
de hiperparâmetros, até a avaliação e comparação de resultados dos modelos treinados.
b.

## **1. Definição do problema**

**O Dataset**
O dataset Review IMBD é um dos mais famosos para modelos de classificação de textos que existe. Dificilmente não será citado em papers que proponham trabalhos envolvendo este tipo de tarefa.

As avaliações originalmente são feitas em conceitos de notas de 0 a 10. Foi convertido neste dataset da seguinte forma:

**"Negative"**: avaliações menores que 5 (Nota<5)

**"Positive"**: avaliações maiores ou iguais a 7 (Nota>=7)

Neste projeto, utilizaremos a versão em inglês, obtida através do site Kaggle (https://www.kaggle.com/datasets/krystalliu152/imbd-movie-reviewnpl).


**Objetivo**
Nesta análise não nos ateremos à classificação individual dos filmes, tampouco identificaremos à qual filme se refere cada classificação. O dataset possui apenas **dois atributos**: o primeiro se refere à análise de sentimento(positivo ou negativo), o outro é a review do usuário, que caracteriza a nota dada. Nosso objetivo será compreender quais termos e palavras são utilizados em cada tipo de sentimento para tentar prever a resposta das próximas avaliações.


**Uso prático**
No ambiente de negócios, quando tratamos centenas ou milhares de reviews, utilizando um modelo de NLP (processamento de linguagem natural), podemos, por exemplo, identificar quais avaliações no SAC ou comentários em redes sociais apresentam sentimento negativo, relatando uma experiência ruim com produto, atendimento, marca etc. A agilidade no tratamento de uma experiência ruim pode ser decisiva na reversão do sentimento e possibilita encantamento do cliente.




## **2. Preparação de Dados**

Objetivo: realizar operações de preparação dos dados.

• Separe o dataset entre treino e teste (e validação, se aplicável).
• Faz sentido utilizar um método de validação cruzada? Justifique se não utilizar.
Verifique quais operações de transformação de dados (como normalização e padronização,
transformação de imagens em tensores) são mais apropriadas para o seu problema e salve
visões diferentes do seu dataset para posterior avaliação dos modelos.
•
Refine a quantidade de atributos disponíveis, realizando o processo de feature selection de forma adequada.


In [105]:
# Importando bibliotecas

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression


In [106]:
# Importando Dataset

url = ('https://raw.githubusercontent.com/simonefmr/mvp_pucrio/main/review_treino_teste.csv')
data = pd.read_csv(url, sep=';', error_bad_lines=False, header=0)

# Opcionalmente, redefina o índice do DataFrame (se for necessário)
data = data.reset_index(drop=True)

data.rename(columns={' review': 'review'}, inplace=True)

data.head(5)



  data = pd.read_csv(url, sep=';', error_bad_lines=False, header=0)


Unnamed: 0,sentiment,review
0,Negative,I had no background knowledge of this movie be...
1,Negative,I am a huge Jane Austen fan and I ordered the ...
2,Negative,Nothing to say but Wow! Has anyone actually ha...
3,Negative,i like Jane Austin novels. I love Pride and Pr...
4,Negative,In this day and age of incredible special movi...


In [107]:
# Avaliando as informações do dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9800 entries, 0 to 9799
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   sentiment  9800 non-null   object
 1   review     9455 non-null   object
dtypes: object(2)
memory usage: 153.2+ KB


In [108]:
# Descartando os dados nulos, que não vão contribuir para construção do modelo
data.dropna(inplace=True)


In [109]:
# Sem as informações

unique_values = data['sentiment'].unique()
print(unique_values)

['Negative' 'Positive']


In [110]:
# Modificando a coluna sentimento para dados numéricos
data['sentiment'] = data['sentiment'].replace(['Negative', 'Positive'], ['0', '1'])

data.head(5)

Unnamed: 0,sentiment,review
0,0,I had no background knowledge of this movie be...
1,0,I am a huge Jane Austen fan and I ordered the ...
2,0,Nothing to say but Wow! Has anyone actually ha...
3,0,i like Jane Austin novels. I love Pride and Pr...
4,0,In this day and age of incredible special movi...


In [111]:
# Divisão do conjunto em treino e teste

X = data['review']  # Base a ser analisada
y = data['sentiment']  # Definição de Target

SEED = 42
size = 0.3
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=size, shuffle=y, random_state=SEED)



## **3. Modelagem e treinamento**

Objetivo: construir modelos para resolver o problema em questão.

Selecione os algoritmos mais indicados para o problema e dataset escolhidos, justificando as
suas escolhas.

• Há algum ajuste inicial para os hiperparâmetros?
• O modelo foi devidamente treinado? Foi observado problema de underfitting?
É possível otimizar os hiperparâmetros de algum dos modelos? Se sim, faça-o, justificando
todas as escolhas.
• Há algum método avançado ou mais complexo que possa ser avaliado?
• Posso criar um comitê de modelos diferentes para o problema (ensembles)?



## **4. Avaliação de Resultados**

Objetivo: analisar o desempenho dos modelos gerados em dados não vistos (com a base de teste)

• Selecione as métricas de avaliação condizentes com o problema, justificando.
• Treine o modelo escolhido com toda a base de treino, e teste-o com a base de teste.
• Os resultados fazem sentido?
• Foi observado algum problema de overfitting?
• Compare os resultados de diferentes modelos.
• Descreva a melhor solução encontrada, justificando.