In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm

# 1. Cargar los datos
ventas_df = pd.read_csv('/workspace/ventas_peliculas.csv')
promocion_df = pd.read_csv('/workspace/promocion_peliculas.csv')

# Verificar las primeras filas de ambos DataFrames
print(ventas_df.head())
print(promocion_df.head())

# 2. Combinar los DataFrames usando un left join
df_combined = pd.merge(ventas_df, promocion_df, how='left', on=['fecha', 'titulo'], validate="1:m")

# Verificar la estructura del DataFrame combinado
print(df_combined.head())

# Rellenar valores nulos utilizando forward fill y backward fill
df_combined.fillna(method='ffill', inplace=True)
df_combined.fillna(method='bfill', inplace=True)

# Verificar si hay valores nulos restantes
print(df_combined.isna().sum())

# 3. Exploración de datos y visualización

# Convertir 'fecha' a datetime si no está en este formato
df_combined['fecha'] = pd.to_datetime(df_combined['fecha'])

# Graficar las ventas semanales de boletos
plt.figure(figsize=(10, 6))
plt.plot(df_combined['fecha'], df_combined['ventas_boletos'], marker='o', color='blue')
plt.title('Ventas Semanales de Boletos')
plt.xlabel('Fecha')
plt.ylabel('Ventas de Boletos')
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

# Crear una nueva columna que indique si hubo evento promocional
df_combined['evento_promocional'] = df_combined['eventos_promocionales'].apply(lambda x: 1 if x > 0 else 0)

# Calcular ventas promedio con y sin promoción
ventas_promocionales = df_combined.groupby('evento_promocional')['ventas_boletos'].mean()

# Graficar las ventas promedio
ventas_promocionales.plot(kind='bar', color=['green', 'red'], figsize=(8, 6))
plt.title('Ventas Promedio de Boletos con y sin Evento Promocional')
plt.xlabel('Evento Promocional (0 = No, 1 = Sí)')
plt.ylabel('Ventas Promedio de Boletos')
plt.xticks(rotation=0)
plt.show()

# Boxplot para identificar outliers en las ventas de boletos
plt.figure(figsize=(8, 6))
sns.boxplot(x=df_combined['ventas_boletos'])
plt.title('Detección de Outliers en Ventas de Boletos')
plt.show()

# Calcular la correlación de Pearson
correlation = df_combined[['ventas_boletos', 'calificacion', 'eventos_promocionales', 'participacion_promocion']].corr()
print(correlation)

# Graficar la matriz de correlación
plt.figure(figsize=(8, 6))
sns.heatmap(correlation, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Matriz de Correlación')
plt.show()

# 4. Modelo de Regresión Lineal

# Variables dependientes e independientes
X = df_combined[['calificacion', 'eventos_promocionales', 'participacion_promocion']]
y = df_combined['ventas_boletos']

# Agregar una constante para el intercepto
X = sm.add_constant(X)

# Entrenar el modelo de regresión lineal
model = sm.OLS(y, X).fit()

# Resumen del modelo
print(model.summary())

# 5. Evaluación del modelo

# Predicciones del modelo
df_combined['predicciones'] = model.predict(X)

# Graficar los valores reales vs los predichos
plt.figure(figsize=(10, 6))
plt.plot(df_combined['fecha'], df_combined['ventas_boletos'], label='Ventas Reales', color='blue')
plt.plot(df_combined['fecha'], df_combined['predicciones'], label='Predicciones', color='red', linestyle='--')
plt.title('Comparación entre Ventas Reales y Predicciones')
plt.xlabel('Fecha')
plt.ylabel('Ventas de Boletos')
plt.legend()
plt.xticks(rotation=45)
plt.grid(True)
plt.show()


FileNotFoundError: [Errno 2] No such file or directory: '/workspace/ventas_peliculas.csv'