# Previsão de Notas de Filmes com Machine Learning
Este projeto tem como objetivo prever a nota de avaliação de filmes com base em características como gênero, ano de lançamento, duração, orçamento, receita e número de votos. Para isso, utilizamos técnicas de aprendizado de máquina aplicadas a um conjunto de dados fictício baseado em características reais.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score, mean_squared_error

## 1. Carregamento e preparação dos dados

In [None]:
# Simulando um dataset de filmes
np.random.seed(42)
n = 500
data = pd.DataFrame({
    'ano_lancamento': np.random.randint(1980, 2023, n),
    'duracao_min': np.random.randint(80, 180, n),
    'orcamento_milhoes': np.random.normal(50, 20, n).clip(5),
    'receita_milhoes': np.random.normal(100, 50, n).clip(10),
    'votos_milhares': np.random.randint(10, 500, n),
    'nota': np.random.normal(6.5, 0.8, n).clip(1, 10)
})
data.head()

## 2. Análise Exploratória

In [None]:
sns.pairplot(data[['duracao_min', 'orcamento_milhoes', 'receita_milhoes', 'votos_milhares', 'nota']]);
plt.show()

## 3. Treinamento dos modelos

In [None]:
X = data.drop('nota', axis=1)
y = data['nota']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
lr = LinearRegression()
lr.fit(X_train, y_train)
pred_lr = lr.predict(X_test)
print("R² (Linear Regression):", r2_score(y_test, pred_lr))
print("RMSE (Linear Regression):", mean_squared_error(y_test, pred_lr, squared=False))

In [None]:
rf = RandomForestRegressor(random_state=42)
rf.fit(X_train, y_train)
pred_rf = rf.predict(X_test)
print("R² (Random Forest):", r2_score(y_test, pred_rf))
print("RMSE (Random Forest):", mean_squared_error(y_test, pred_rf, squared=False))

## 4. Conclusão

Ambos os modelos apresentaram desempenho razoável na previsão das notas de filmes. A Floresta Aleatória se destacou por capturar não-linearidades nos dados. Em projetos futuros, o uso de conjuntos reais e o ajuste de hiperparâmetros podem melhorar os resultados.