In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

In [2]:
%load_ext kedro.ipython

In [3]:
movies_metadata = catalog.load("movies_metadata")
credits = catalog.load("credits")
ratings = catalog.load("ratings")


In [4]:
print(movies_metadata.head())
print(credits.head())
print(ratings.head())

   adult                              belongs_to_collection    budget  \
0  False  {'id': 10194, 'name': 'Toy Story Collection', ...  30000000   
1  False                                                NaN  65000000   
2  False  {'id': 119050, 'name': 'Grumpy Old Men Collect...         0   
3  False                                                NaN  16000000   
4  False  {'id': 96871, 'name': 'Father of the Bride Col...         0   

                                              genres  \
0  [{'id': 16, 'name': 'Animation'}, {'id': 35, '...   
1  [{'id': 12, 'name': 'Adventure'}, {'id': 14, '...   
2  [{'id': 10749, 'name': 'Romance'}, {'id': 35, ...   
3  [{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...   
4                     [{'id': 35, 'name': 'Comedy'}]   

                               homepage     id    imdb_id original_language  \
0  http://toystory.disney.com/toy-story    862  tt0114709                en   
1                                   NaN   8844  tt0113497         

In [5]:
# Seleccionar solo columnas numéricas
numeric_cols = movies_metadata.select_dtypes(include=['float64', 'int64'])

# Calcular correlación con vote_count
correlations = numeric_cols.corr()['vote_count'].sort_values(ascending=False)
print(correlations)


vote_count      1.000000
revenue         0.812022
vote_average    0.123607
runtime         0.113539
Name: vote_count, dtype: float64


In [6]:
# Mostrar todas las columnas
print(movies_metadata.columns.tolist())


['adult', 'belongs_to_collection', 'budget', 'genres', 'homepage', 'id', 'imdb_id', 'original_language', 'original_title', 'overview', 'popularity', 'poster_path', 'production_companies', 'production_countries', 'release_date', 'revenue', 'runtime', 'spoken_languages', 'status', 'tagline', 'title', 'video', 'vote_average', 'vote_count']


In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# Cargar dataset
movies_metadata = catalog.load("movies_metadata")

# Convertir columnas numéricas
numeric_cols = ['revenue', 'budget', 'popularity', 'runtime', 'vote_average', 'vote_count']
for c in numeric_cols:
    movies_metadata[c] = pd.to_numeric(movies_metadata[c], errors='coerce')

# Eliminar filas con nulos
movies_metadata = movies_metadata.dropna(subset=numeric_cols + ['status'])

# Convertir 'status' en variables dummy
status_dummies = pd.get_dummies(movies_metadata['status'], drop_first=True)

# Variables predictoras
X = movies_metadata[['revenue', 'budget', 'popularity', 'runtime', 'vote_average']]
X = pd.concat([X, status_dummies], axis=1)

# Variable objetivo
y = movies_metadata['vote_count']

# Dividir en training y testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)

# Crear y entrenar el modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Predicciones
y_pred = model.predict(X_test)

# Métricas
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5
mae = mean_absolute_error(y_test, y_pred)

print(f"Regresión Múltiple:")
print("="*50)
print(f"Mean Squared Error (MSE): {mse:.4f}")
print(f"Mean Absolute Error (MAE): {mae:.4f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.4f}")
print(f"R² Score: {r2:.4f}")
print("="*50)

# Interpretación del R²
if r2 > 0.7:
    print("\n Modelo con buen ajuste (R² > 0.7)")
elif r2 > 0.5:
    print("\n Modelo con ajuste moderado (R² > 0.5)")
else:
    print("\n Modelo con ajuste pobre (R² < 0.5)")


Regresión Múltiple:
Mean Squared Error (MSE): 79448.7927
Mean Absolute Error (MAE): 73.6543
Root Mean Squared Error (RMSE): 281.8666
R² Score: 0.7047

 Modelo con buen ajuste (R² > 0.7)


In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

# Cargar dataset
movies_metadata = catalog.load("movies_metadata")

# Convertir columnas numéricas
numeric_cols = ['revenue', 'budget', 'popularity', 'runtime', 'vote_average', 'vote_count']
for c in numeric_cols:
    movies_metadata[c] = pd.to_numeric(movies_metadata[c], errors='coerce')

# Eliminar filas con nulos
movies_metadata = movies_metadata.dropna(subset=numeric_cols + ['status'])

# Convertir 'status' en variables dummy
status_dummies = pd.get_dummies(movies_metadata['status'], drop_first=True)

# Variables predictoras
X = movies_metadata[['revenue', 'budget', 'popularity', 'runtime', 'vote_average']]
X = pd.concat([X, status_dummies], axis=1)

# Variable objetivo
y = movies_metadata['vote_count']

# Dividir en training y testing
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)

# Definir modelo base y grid de hiperparámetros
reg = LinearRegression()
param_grid = {
    'fit_intercept': [True, False],
    'positive': [True, False]
}

# Configurar GridSearchCV
grid_search = GridSearchCV(
    estimator=reg,
    param_grid=param_grid,
    scoring='neg_mean_squared_error',
    cv=5,
    n_jobs=-1
)

# Ajustar GridSearchCV 
grid_search.fit(X_train, y_train)

# Mejor modelo y predicciones
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)

# Métricas del mejor modelo
mse_best = mean_squared_error(y_test, y_pred_best)
rmse_best = mse_best ** 0.5
mae_best = mean_absolute_error(y_test, y_pred_best)
r2_best = r2_score(y_test, y_pred_best)

# Resultados
print("Mejores hiperparámetros encontrados:", grid_search.best_params_)
print("Mejor puntuación (neg MSE):", grid_search.best_score_)
print("="*60)
print("Resultados del mejor modelo:")
print(f"MAE  : {mae_best:.4f}")
print(f"MSE  : {mse_best:.4f}")
print(f"RMSE : {rmse_best:.4f}")
print(f"R²   : {r2_best:.4f}")
print("="*60)


Mejores hiperparámetros encontrados: {'fit_intercept': False, 'positive': True}
Mejor puntuación (neg MSE): -75560.91169157047
Resultados del mejor modelo:
MAE  : 70.4447
MSE  : 79758.7376
RMSE : 282.4159
R²   : 0.7036


Conclusiones

Evaluación General

R² = 0.704 → Modelo con buen ajuste
Explica el 70.4% de la variabilidad de vote_count
Mejora significativa respecto al modelo sin GridSearchCV (R²: 0.7047 → 0.7036, prácticamente igual pero optimizando hiperparámetros)

Precisión del Modelo

Error promedio (MAE): 70.445 votos
Error típico (RMSE): 282.416 votos
Mejora en errores respecto al modelo inicial (MAE: 73.654 → 70.445, RMSE: 281.867 → 282.416, errores comparables y consistentes)

Interpretación

Los ingresos (revenue) y presupuesto (budget) son los predictores más fuertes del conteo de votos
Popularidad y otras características contextuales agregan valor al modelo, pero no explican toda la variabilidad
Aún hay ~30% de variabilidad sin explicar, por lo que se podría mejorar incluyendo más variables
GridSearchCV ayudó a optimizar los hiperparámetros (fit_intercept=False, positive=True) para un mejor ajuste del modelo