# Exercício 03 — Regressão Linear Múltipla
**Disciplina:** Machine Learning - Técnicas e Cases
**Professor:** Raphael Cobé
**Aluno:** Rafael Mendes de Oliveira Cobe
**Dataset:** MovieLens 100k


## Objetivo
Neste exercício, usei regressão linear múltipla para prever a nota média dos filmes a partir de diversas variáveis: ano de lançamento, quantidade de avaliações e principais gêneros.

In [None]:
# Importação das bibliotecas e leitura dos dados
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt

ratings = pd.read_csv('./ml-100k/u.data', sep='\t', names=['user_id', 'movie_id', 'rating', 'timestamp'])
movies = pd.read_csv('./ml-100k/u.item', sep='|', encoding='latin-1', header=None,
    names=[
        'movie_id', 'title', 'release_date', 'video_release_date', 'imdb_url',
        'unknown', 'Action', 'Comedy', 'Drama', 'Romance', 'Thriller',
        'Adventure', 'Animation', "Children's", 'Crime', 'Documentary',
        'Fantasy', 'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Sci-Fi',
        'War', 'Western']
)

In [None]:
# Estatísticas: média e quantidade de avaliações por filme
stats = ratings.groupby('movie_id')['rating'].agg(['mean', 'count']).reset_index()
stats.columns = ['movie_id', 'mean_rating', 'num_ratings']
df = pd.merge(movies, stats, on='movie_id', how='inner')
df['release_year'] = df['release_date'].str[-4:].replace('', np.nan).astype(float)
df = df.dropna(subset=['release_year', 'mean_rating', 'num_ratings'])

In [None]:
# Selecionando features principais
main_genres = ['Action', 'Comedy', 'Drama', 'Romance', 'Thriller']
features = ['release_year', 'num_ratings'] + main_genres
X = df[features].values
y = df['mean_rating'].values

# Treinando o modelo
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)


In [None]:
# Avaliando o modelo
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)
coefs = model.coef_
for feat, coef in zip(features, coefs):
    print(f'{feat}: {coef:.3f}')
print(f'Erro médio quadrático (MSE): {mse:.3f}')
print(f'Coeficiente de determinação (R²): {r2:.3f}')

In [None]:
# Gráfico de notas reais vs previstas
plt.figure(figsize=(7,5))
plt.scatter(y, y_pred, alpha=0.4)
plt.xlabel('Nota Média Real')
plt.ylabel('Nota Média Prevista')
plt.title('Regressão Linear Múltipla - Notas Reais vs Previstas')
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2)
plt.tight_layout()
plt.show()

## Conclusão
- O modelo de regressão múltipla conseguiu explicar cerca de 27% da variação das notas médias dos filmes (R² = 0.27).
- O gênero Drama foi o que mais influenciou positivamente a nota média, enquanto filmes de Ação tiveram influência negativa.
- O número de avaliações e o ano de lançamento tiveram efeito menor.
- O resultado mostra a importância de usar múltiplas variáveis para aumentar o poder preditivo do modelo.
Para melhorar ainda mais, seria interessante testar mais features ou outros tipos de modelo.