In [3]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

In [None]:
# 1. Carregar os dados a partir do arquivo CSV
df = pd.read_csv('filmes_filtrados_sem_nulos.csv')

# 2. Definir a variável independente (X) e a dependente (y)
# Estamos tentando prever 'vote_average' com base na 'popularity'
X = df[['popularity']]
y = df['vote_average']

# 3. Dividir os dados em conjuntos de treino e teste
# 80% dos dados para treinar o modelo, 20% para testar sua eficácia
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. Criar e treinar o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
# 5. Fazer previsões com o conjunto de teste
y_pred = model.predict(X_test)

# 6. Avaliar o modelo
intercept = model.intercept_
coefficient = model.coef_[0]
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)

print(f'Intercepto (b0): {intercept}')
print(f'Coeficiente (b1) para Popularidade: {coefficient}')
print(f'R² (R-quadrado): {r2}')
print(f'Erro Quadrático Médio (MSE): {mse}')


# 7. Plotar os resultados
plt.figure(figsize=(10, 6))
plt.scatter(X_test, y_test, color='blue', alpha=0.5, label='Dados Reais')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='Linha de Regressão')
plt.title('Regressão Linear: Popularidade vs. Média de Votos')
plt.xlabel('Popularidade')
plt.ylabel('Média de Votos')
plt.legend()
plt.grid(True)
# Salva o gráfico como um arquivo de imagem
plt.savefig('regressao_linear_popularidade_votos.png')
plt.show()