<a href="https://colab.research.google.com/github/71556420/pad_final_Luis_de_la_ossa/blob/main/src/pad20251/proyecto_integrador.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Proyecto Integrador - Análisis del MCU Box Office Dataset

## 1. Configuración del entorno y carga de datos desde Kaggle
from google.colab import files
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os

# Instalar paquetes necesarios
!pip install --quiet kaggle matplotlib seaborn

# Configurar credenciales de Kaggle manualmente
!mkdir -p ~/.kaggle
files.upload()  # Subir kaggle.json manualmente
!mv kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json

# Descargar dataset desde Kaggle
!kaggle datasets download -d davidgdong/marvel-cinematic-universe-box-office-dataset --unzip

# Verificar archivos en el directorio
!ls -l

# Intentar cargar el dataset asegurándose del nombre correcto
dataset_path = "marvel_cinematic_universe_box_office.csv"

if os.path.exists(dataset_path):
    df = pd.read_csv(dataset_path)
    print("Dataset cargado con éxito.")
else:
    raise FileNotFoundError("ERROR: No se encontró el archivo CSV. Revisa la descarga y descompresión.")

## 2. Exploración de datos
print("Vista previa del dataset:")
display(df.head(10))
print(f"\nEl dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
print("\nInformación general:")
df.info()
print("\nEstadísticas descriptivas:")
display(df.describe())

## 3. Limpieza de datos
# Verificar valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Eliminar filas con valores nulos
df.dropna(inplace=True)

## 4. Visualización de datos
# Distribución de ingresos en taquilla
plt.figure(figsize=(10, 6))
sns.histplot(df['Worldwide Box Office (in dollars)'], bins=20, kde=True)
plt.title("Distribución de ingresos en taquilla del MCU")
plt.xlabel("Ingresos en dólares")
plt.ylabel("Frecuencia")
plt.show()

# Tendencia de ingresos a lo largo del tiempo
plt.figure(figsize=(12, 6))
sns.lineplot(x='Release Date', y='Worldwide Box Office (in dollars)', data=df, marker='o')
plt.xticks(rotation=45)
plt.title("Tendencia de ingresos en taquilla por fecha de estreno")
plt.xlabel("Fecha de estreno")
plt.ylabel("Ingresos en dólares")
plt.show()

## 5. Análisis adicional
# Correlaciones entre variables
plt.figure(figsize=(10, 6))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Matriz de correlación entre variables")
plt.show()

# Top 10 películas con mayores ingresos
top_10 = df.nlargest(10, 'Worldwide Box Office (in dollars)')
plt.figure(figsize=(12, 6))
sns.barplot(x='Worldwide Box Office (in dollars)', y='Film', data=top_10, palette='viridis')
plt.title("Top 10 películas con mayores ingresos en taquilla")
plt.xlabel("Ingresos en dólares")
plt.ylabel("Película")
plt.show()

## 6. Exportación del dataset limpio
df.to_csv("MCU_Box_Office_Clean.csv", index=False)
print("Proceso completado. Dataset limpio exportado como 'MCU_Box_Office_Clean.csv'")


