# Exercício 04 — Curvas ROC e AUC
**Disciplina:** Machine Learning - Técnicas e Cases
**Professor:** Raphael Cobé
**Aluno:** Rafael Mendes de Oliveira Cobe
**Dataset:** MovieLens 100k


## Objetivo
Avaliar o desempenho de um modelo de classificação binária na base MovieLens, utilizando a curva ROC e a métrica AUC.

In [None]:
# Importação de pacotes
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

# Carregando dados
ratings = pd.read_csv('./ml-100k/u.data', sep='\t', names=['user_id', 'movie_id', 'rating', 'timestamp'])
movies = pd.read_csv('./ml-100k/u.item', sep='|', encoding='latin-1', header=None,
    names=[
        'movie_id', 'title', 'release_date', 'video_release_date', 'imdb_url',
        'unknown', 'Action', 'Comedy', 'Drama', 'Romance', 'Thriller',
        'Adventure', 'Animation', "Children's", 'Crime', 'Documentary',
        'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Sci-Fi',
        'War', 'Western']
)

In [None]:
# Preparação do dataset binário
data = pd.merge(ratings, movies, on='movie_id', how='inner')
data['release_year'] = data['release_date'].str[-4:].replace('', np.nan).astype(float)
data['liked'] = (data['rating'] >= 4).astype(int)
main_genres = ['Action', 'Comedy', 'Drama', 'Romance', 'Thriller']
features = ['release_year'] + main_genres
data = data.dropna(subset=['release_year'])
X = data[features].values
y = data['liked'].values

In [None]:
# Separação em treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Treinamento do modelo
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)
y_proba = clf.predict_proba(X_test)[:,1]

In [None]:
# Curva ROC e cálculo da AUC
from sklearn.metrics import roc_curve, auc
fpr, tpr, thresholds = roc_curve(y_test, y_proba)
roc_auc = auc(fpr, tpr)
print(f'AUC: {roc_auc:.2f}')

In [None]:
# Gráfico da curva ROC
plt.figure(figsize=(7,5))
plt.plot(fpr, tpr, color='blue', label=f'ROC curve (área = {roc_auc:.2f})')
plt.plot([0,1], [0,1], color='red', linestyle='--', label='Aleatório')
plt.xlabel('Taxa de Falsos Positivos (FPR)')
plt.ylabel('Taxa de Verdadeiros Positivos (TPR)')
plt.title('Curva ROC - Classificação Binária de Filmes')
plt.legend(loc='lower right')
plt.tight_layout()
plt.show()

## Conclusão
- O modelo apresentou uma AUC de aproximadamente 0.42, indicando baixa capacidade de distinguir entre os filmes que os usuários gostaram e não gostaram apenas pelas variáveis consideradas (ano e gêneros principais).
- Isso sugere que outros fatores, como perfil do usuário ou contexto, devem ser levados em conta para melhorar a performance preditiva.
- Mesmo assim, o exercício ilustra como usar ROC/AUC para avaliar classificadores binários e interpretar sua eficácia.