# üí¨ TMCD ‚Äì Trabalho Final
## An√°lise de Sentimentos em Reviews de Filmes

### üë• Grupo Trab-grupo-30
- **Rafael Alexandre Dias Andorinha**, n¬∫ 131000  
- **Pedro Fonte Santa**, n¬∫ 105306  

---

üìÖ **Data de entrega:** 26 de abril  

üìä **Objetivo deste script:**
Este Notebook corresponde √† Tarefa 2.4 do trabalho.

O objetivo desta fase √© treinar um modelo de aprendizagem autom√°tica supervisionada para o problema de an√°lise de sentimentos no dataset IMDB. A ideia principal consiste em utilizar modelos cl√°ssicos de classifica√ß√£o como baseline para comparar com abordagens mais avan√ßadas nas etapas seguintes.

O modelo escolhido foi a Regress√£o Log√≠stica, utilizando uma representa√ß√£o dos textos atrav√©s do vetor TF-IDF. Foram realizadas tr√™s experi√™ncias distintas, variando o n√≠vel de pr√©-processamento do texto:

- **Experi√™ncia 1**: Apenas lowercase
- **Experi√™ncia 2**: Adicion√°mos remo√ß√£o de pontua√ß√£o e stopwords
- **Experi√™ncia 3**: Adicion√°mos stemming

As m√©tricas utilizadas para avalia√ß√£o foram a `accuracy`, `precision`, `recall` e `F1-score`. Os resultados foram comparados visualmente, permitindo avaliar o impacto das diferentes t√©cnicas de pr√©-processamento na performance do modelo.

---

# üóÇÔ∏è Dataset: IMDB Reviews

In [4]:
import pandas as pd
import numpy as np
import string
import nltk
import matplotlib.pyplot as plt

from nltk.corpus import stopwords
from nltk.tokenize import wordpunct_tokenize
from nltk.stem import PorterStemmer

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Downloads necess√°rios
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/pedrofs/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

### üîπ 1. Carregar os dados

In [5]:
# Caminhos para os ficheiros
train_path = '../dataset/imdb_reviews_train.csv'
test_path = '../dataset/imdb_reviews_test.csv'

# Carregar os datasets
df_train = pd.read_csv(train_path)
df_test = pd.read_csv(test_path)

# Visualizar estrutura
df_train.head()

Unnamed: 0,text,label
0,This is your typical cheerful and colorful MGM...,pos
1,As a another reviewer states Hanna's War is an...,pos
2,"One of the best ""Amitabh comeback"" movies I li...",pos
3,Peter Sollett has created an endearing portrai...,pos
4,The film is not visually stunning in the conve...,pos


### üîπ 2. Fun√ß√£o auxiliar para avaliar os resultados

In [6]:
# Avalia√ß√£o
def avaliar_resultados(y_true, y_pred):
    acc = accuracy_score(y_true, y_pred)
    prec = precision_score(y_true, y_pred, pos_label='pos')
    rec = recall_score(y_true, y_pred, pos_label='pos')
    f1 = f1_score(y_true, y_pred, pos_label='pos')
    
    print(f"Accuracy: {acc:.3f}")
    print(f"Precis√£o: {prec:.3f}")
    print(f"Recall: {rec:.3f}")
    print(f"F1 Score: {f1:.3f}")

    return {'Accuracy': acc, 'Precision': prec, 'Recall': rec, 'F1': f1}

### ‚öôÔ∏è Experi√™ncia 1 ‚Äî Baseline (apenas lowercase)

In [7]:
# Pr√©-processamento simples
df_train['text_exp1'] = df_train['text'].str.lower()
df_test['text_exp1'] = df_test['text'].str.lower()

# TF-IDF
vectorizer1 = TfidfVectorizer()
X_train1 = vectorizer1.fit_transform(df_train['text_exp1'])
X_test1 = vectorizer1.transform(df_test['text_exp1'])

# Modelo
modelo1 = LogisticRegression(max_iter=1000)
modelo1.fit(X_train1, df_train['label'])
y_pred1 = modelo1.predict(X_test1)

# Avalia√ß√£o
print("üìä Resultados ‚Äî Experi√™ncia 1 (baseline, apenas lowercase)")
resultados_exp1 = avaliar_resultados(df_test['label'], y_pred1)

üìä Resultados ‚Äî Experi√™ncia 1 (baseline, apenas lowercase)
Accuracy: 0.882
Precis√£o: 0.884
Recall: 0.879
F1 Score: 0.882


### ‚öôÔ∏è Experi√™ncia 2 ‚Äî Com stopwords e pontua√ß√£o removida

In [8]:
# Pr√©-processamento com stopwords e pontua√ß√£o removida
stop_words = set(stopwords.words('english'))
pontuacao = set(string.punctuation)

def preprocessar_texto_limpo(texto):
    texto = texto.lower()
    tokens = wordpunct_tokenize(texto)
    tokens_filtrados = [t for t in tokens if t not in pontuacao and t not in stop_words]
    return ' '.join(tokens_filtrados)


In [9]:
# Pr√©-processar texto
df_train['text_exp2'] = df_train['text'].apply(preprocessar_texto_limpo)
df_test['text_exp2'] = df_test['text'].apply(preprocessar_texto_limpo)

# TF-IDF
vectorizer2 = TfidfVectorizer()
X_train2 = vectorizer2.fit_transform(df_train['text_exp2'])
X_test2 = vectorizer2.transform(df_test['text_exp2'])

# Modelo
modelo2 = LogisticRegression(max_iter=1000)
modelo2.fit(X_train2, df_train['label'])
y_pred2 = modelo2.predict(X_test2)

# Avalia√ß√£o
print("üìä Resultados ‚Äî Experi√™ncia 2 (com stopwords e pontua√ß√£o removida)")
resultados_exp2 = avaliar_resultados(df_test['label'], y_pred2)

üìä Resultados ‚Äî Experi√™ncia 2 (com stopwords e pontua√ß√£o removida)
Accuracy: 0.882
Precis√£o: 0.882
Recall: 0.881
F1 Score: 0.882


### ‚öôÔ∏è Experi√™ncia 3 ‚Äî Com stemming

In [10]:
# Pr√©-processamento com stemming
stemmer = PorterStemmer()

def preprocessar_texto_stemming(texto):
    texto = texto.lower()
    tokens = wordpunct_tokenize(texto)
    tokens = [t for t in tokens if t not in pontuacao and t not in stop_words]
    stems = [stemmer.stem(t) for t in tokens]
    return ' '.join(stems)


In [11]:
# Pr√©-processar texto com stemming
df_train['text_exp3'] = df_train['text'].apply(preprocessar_texto_stemming)
df_test['text_exp3'] = df_test['text'].apply(preprocessar_texto_stemming)

# TF-IDF
vectorizer3 = TfidfVectorizer()
X_train3 = vectorizer3.fit_transform(df_train['text_exp3'])
X_test3 = vectorizer3.transform(df_test['text_exp3'])

# Modelo
modelo3 = LogisticRegression(max_iter=1000)
modelo3.fit(X_train3, df_train['label'])
y_pred3 = modelo3.predict(X_test3)

# Avalia√ß√£o
print("üìä Resultados ‚Äî Experi√™ncia 3 (com stemming)")
resultados_exp3 = avaliar_resultados(df_test['label'], y_pred3)


üìä Resultados ‚Äî Experi√™ncia 3 (com stemming)
Accuracy: 0.880
Precis√£o: 0.880
Recall: 0.879
F1 Score: 0.879


### üìà Compara√ß√£o final das experi√™ncias

In [None]:
# Preparar DataFrame com resultados
valores = [
    list(resultados_exp1.values()),
    list(resultados_exp2.values()),
    list(resultados_exp3.values())
]

experiencias = ['Exp. 1\nBaseline', 'Exp. 2\n+ Stopwords', 'Exp. 3\n+ Stemming']
metricas = ['Accuracy', 'Precis√£o', 'Recall', 'F1 Score']

df_resultados = pd.DataFrame(valores, index=experiencias, columns=metricas)

# Gr√°fico
plt.figure(figsize=(10, 6))
df_resultados.plot(kind='bar', figsize=(10, 6))
plt.title('Compara√ß√£o de desempenho entre experi√™ncias de ML')
plt.ylabel('Valor da M√©trica')
plt.ylim(0.5, 0.9)
plt.xticks(rotation=0)
plt.legend(loc='lower right')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

### üìä Resultados das Experi√™ncias com Modelos de Aprendizagem Autom√°tica

| Experi√™ncia            | Accuracy | Precision | Recall | F1 Score | Observa√ß√µes                                 |
|------------------------|----------|----------|--------|----------|---------------------------------------------|
| Exp. 1 - Baseline      | 0.882    | 0.884    | 0.879  | 0.882    | Apenas lowercase                            |
| Exp. 2 - + Stopwords   | 0.882    | 0.882    | 0.881  | 0.882    | Remo√ß√£o de stopwords e pontua√ß√£o            |
| Exp. 3 - + Stemming    | 0.880    | 0.880    | 0.879  | 0.879    | Pr√©-processamento com stemming              |
