# Examen del Tercer Parcial 
## Regresión lineal
Dado el archivo **movie_genre_classification_final.csv** se encuentra un base de datos con información de **50000 películas** que incluyen variables como: <br>
 * Título,
 * Año de estreno,
 * Duración,
 * Puntuación promedio,
 * Número de votos,
 * Presupuesto,
 * Ingresos en taquilla,
 * Número de premios obtenidos,
 * Entre otras caracterisiticas.
Como parate del análisis de predicción, se desea estudiar la relación entre el:<br>
* Presupuesto de una película
y sus caracteristicas cuantitativas, para estimar la **recaudación en taquilla (BoxOffice_USD)**. Para ello, se plantea entrenar un modelo de regresión lineal.<br>

# Objetivo 
Predecir el valor de la variable **BoxOffice_USD** a partir de variables numéricas independientes disponibles en el dataset, tales como:<br>
* Budget_USD (Presupuesto en dólares)
* Duration (Duración en minutos)
* Ratting (Calificiación Promedio"
* Votes (Número de votos)
* Num_Awards (Número de premios obtenidos)
* Critic_reviews (Números de reseñas de criticos)

El dataset fue extraido desder <a href="https://www.kaggle.com/datasets/therohithanand/movie-genre-classification">DataSet<a> <br>

## Entrega esperada
* Código bien estructurado y comentado
* Gráficos claros en los pasos 2, 4 y 5.
* Breve análisis escrito de lso los resultados obtenidos.



# EXAMEN FINAL TERCER PARCIAL VIDA O MUERTE TODO SI NO NADA MUERTE AL PUNK

# Análisis de Regresión Lineal para Predecir Recaudación en Taquilla


In [9]:
# Importación de librerías necesarias (CORREGIDO)
import pandas as pd  # Para manipulación y análisis de datos
import numpy as np   # Para operaciones numéricas
import matplotlib.pyplot as plt  # Para visualización de datos
import seaborn as sns  # Para gráficos estadísticos más avanzados
from sklearn.model_selection import train_test_split  # Para dividir datos en entrenamiento y prueba
from sklearn.linear_model import LinearRegression  # Modelo de regresión lineal
from sklearn.metrics import mean_squared_error, r2_score  # Métricas de evaluación
from sklearn.preprocessing import StandardScaler  # Para escalar variables

# Configuración de estilo para los gráficos (CORREGIDO)
sns.set(style="whitegrid")  # Usamos el estilo whitegrid de seaborn
plt.style.use('ggplot')  # Cambiamos 'seaborn' por 'ggplot' que es un estilo disponible

# Carga y Exploración Inicial de Datos

In [2]:
# Cargar el dataset desde el archivo CSV
# Asumimos que el archivo está en el mismo directorio que el script
try:
    df = pd.read_csv('movie_genre_classification_final.csv')
    print("Dataset cargado exitosamente!")
    
    # Mostrar las primeras filas para inspección visual
    print("\nPrimeras 5 filas del dataset:")
    print(df.head())
    
    # Información general del dataset
    print("\nInformación del dataset:")
    print(df.info())
    
    # Estadísticas descriptivas de las variables numéricas
    print("\nEstadísticas descriptivas:")
    print(df.describe())
    
except FileNotFoundError:
    print("Error: El archivo no se encontró. Verifique la ruta.")
except Exception as e:
    print(f"Error inesperado al cargar el dataset: {e}")

Dataset cargado exitosamente!

Primeras 5 filas del dataset:
             Title  Year  Director  Duration  Rating   Votes  \
0  Winds of Fate 4  1980    R. Lee       167     4.1  182425   
1     Firestorm 11  2014   S. Chen       166     4.1  449351   
2    Silent Echo 2  2016   A. Khan       170     4.1  363328   
3    City Lights 4  1982  L. Zhang       170     9.9   62371   
4   Broken Truth 1  1990  L. Zhang        91     5.3    4600   

                                         Description  Language Country  \
0   A touching love story with heartwarming moments.   Spanish   China   
1  A fast-paced thriller with intense action scenes.    Korean   China   
2  A fast-paced thriller with intense action scenes.    Korean   Japan   
3  An emotional journey exploring complex charact...  Japanese   Japan   
4  An imaginative world filled with magic and won...    Korean     USA   

   Budget_USD  BoxOffice_USD    Genre Production_Company Content_Rating  \
0    39979615      179936008  Roma

# Carga y Exploración Inicial de Datos

In [10]:
# Seleccionar solo las columnas numéricas relevantes para el análisis
variables = ['BoxOffice_USD', 'Budget_USD', 'Duration', 'Ratting', 'Votes', 'Num_Awards', 'Critic_reviews']
df = df[variables]

# Eliminar filas con valores faltantes en alguna de las variables de interés
df = df.dropna()

# Verificar la distribución de BoxOffice_USD (nuestra variable objetivo)
plt.figure(figsize=(10, 6))
sns.histplot(df['BoxOffice_USD'], bins=50, kde=True)
plt.title('Distribución de Recaudación en Taquilla (BoxOffice_USD)')
plt.xlabel('Recaudación (USD)')
plt.ylabel('Frecuencia')
plt.show()

# Aplicar transformación logarítmica para manejar la asimetría en BoxOffice_USD
df['log_BoxOffice'] = np.log1p(df['BoxOffice_USD'])

# Graficar la distribución transformada
plt.figure(figsize=(10, 6))
sns.histplot(df['log_BoxOffice'], bins=50, kde=True)
plt.title('Distribución Logarítmica de Recaudación en Taquilla')
plt.xlabel('log(Recaudación)')
plt.ylabel('Frecuencia')
plt.show()

KeyError: "['Ratting', 'Critic_reviews'] not in index"

# Análisis de Correlación

In [4]:
# Matriz de correlación entre variables
corr_matrix = df.corr()

# Visualización de la matriz de correlación
plt.figure(figsize=(12, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Matriz de Correlación entre Variables')
plt.show()

# Gráficos de dispersión para relaciones individuales
sns.pairplot(df, vars=['log_BoxOffice', 'Budget_USD', 'Duration', 'Ratting', 'Votes'], 
             diag_kind='kde')
plt.suptitle('Relaciones entre Variables', y=1.02)
plt.show()

ValueError: could not convert string to float: 'Winds of Fate 4'

# Preparación de Datos para el Modelo

In [5]:
# Definir variables independientes (X) y dependiente (y)
X = df[['Budget_USD', 'Duration', 'Ratting', 'Votes', 'Num_Awards', 'Critic_reviews']]
y = df['log_BoxOffice']

# Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar las variables para que tengan media 0 y desviación estándar 1
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Verificar las dimensiones de los conjuntos
print(f"\nDimensiones de los conjuntos:")
print(f"Entrenamiento: {X_train.shape}")
print(f"Prueba: {X_test.shape}")

KeyError: "['Ratting', 'Critic_reviews'] not in index"

# Entrenamiento del Modelo de Regresión Lineal

In [6]:
# Crear e entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# Coeficientes del modelo
print("\nCoeficientes del modelo:")
for feature, coef in zip(X.columns, model.coef_):
    print(f"{feature}: {coef:.4f}")
    
print(f"\nIntercepto: {model.intercept_:.4f}")

# Predecir en el conjunto de prueba
y_pred = model.predict(X_test_scaled)

# Calcular métricas de evaluación
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print(f"\nMétricas de evaluación:")
print(f"MSE: {mse:.4f}")
print(f"RMSE: {rmse:.4f}")
print(f"R²: {r2:.4f}")

NameError: name 'X_train_scaled' is not defined

# Visualización de Resultados

In [7]:
# Gráfico de valores reales vs. predichos
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2)
plt.xlabel('Valor Real (log scale)')
plt.ylabel('Valor Predicho (log scale)')
plt.title('Valores Reales vs. Predichos')
plt.show()

# Gráfico de residuos
residuals = y_test - y_pred
plt.figure(figsize=(10, 6))
plt.scatter(y_pred, residuals, alpha=0.5)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('Valores Predichos')
plt.ylabel('Residuos')
plt.title('Análisis de Residuos')
plt.show()

# Importancia de características (coeficientes estandarizados)
feature_importance = pd.DataFrame({
    'Feature': X.columns,
    'Importance': np.abs(model.coef_)
}).sort_values('Importance', ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(x='Importance', y='Feature', data=feature_importance)
plt.title('Importancia de Características en el Modelo')
plt.show()

NameError: name 'y_test' is not defined

<Figure size 1000x600 with 0 Axes>

 # Interpretación y Análisis de Resultados

In [8]:
# Convertir coeficientes a su impacto real en USD (aproximado)
# Para una interpretación más intuitiva
average_boxoffice = np.expm1(df['log_BoxOffice'].mean())
coef_interpretation = []

for feature, coef in zip(X.columns, model.coef_):
    # Para un aumento de 1 desviación estándar en la variable predictora
    # el cambio porcentual en BoxOffice sería:
    pct_change = (np.exp(coef) - 1
    usd_change = average_boxoffice * pct_change
    coef_interpretation.append({
        'Variable': feature,
        'Cambio_porcentual': f"{pct_change*100:.2f}%",
        'Cambio_USD_aproximado': f"${usd_change:,.2f}"
    })

interpretation_df = pd.DataFrame(coef_interpretation)
print("\nInterpretación de coeficientes (aproximada):")
print(interpretation_df)

SyntaxError: '(' was never closed (3798950634.py, line 9)