# Ciencia de datos aplicada (ITBA): Modelo de segundo entregable

**Equipo:** Liu Jonathan, Wischñevsky David, Vilamowski Abril


**Nombre del proyecto**: Filmining

### 🧾 1. Importación y carga de librerías

Se utiliza la API de TMDB (The Movie Database) para obtener información cinematográfica y almacenarla en una base de datos PostgreSQL. 

En la carpeta `data/` se encuentra un archivo `backup.sql` que contiene datos de películas ya recolectados del sitio TMDB. Este backup está en formato PostgreSQL custom dump (versión 16.x) y contiene las siguientes tablas principales:

- **movies**: Información básica de películas (título, fecha de lanzamiento, presupuesto, ingresos, etc.)
- **genres**: Géneros cinematográficos 
- **movie_genres**: Relación muchos-a-muchos entre películas y géneros
- **credits**: Créditos de películas (actores, directores, productores)
- **keywords**: Palabras clave asociadas a las películas
- **reviews**: Reseñas de películas (si están disponibles)

#### Importación a contenedor PostgreSQL

Para importar estos datos a un contenedor de PostgreSQL, puedes seguir estos pasos:

1. **Iniciar el contenedor de PostgreSQL**:
   ```bash
   # Desde la raíz del proyecto
   ./scripts/docker-setup.sh start-db
   ```

2. **Importar el backup**:
   ```bash
   docker exec -i tmdb_movie_db pg_restore -U postgres -d movie_database < data/backup.sql
   ```

3. **Verificar la importación**:
   ```bash
   docker exec -it tmdb_movie_db psql -U postgres -d movie_database
   ```

El proyecto está configurado para usar Docker Compose con PostgreSQL 16, y el contenedor se llama `tmdb_movie_db`. Los datos se almacenan en un volumen persistente, por lo que la información se mantiene entre reinicios del contenedor.


In [3]:
# Instalar todas las librerías necesarias para el análisis
%pip install pandas numpy matplotlib seaborn sqlalchemy psycopg2-binary


Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine
import warnings
warnings.filterwarnings('ignore')

# Configuraciones de estilo
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (12, 8)
plt.rcParams['font.size'] = 10


In [7]:
# Conectar a la base de datos PostgreSQL
engine = create_engine('postgresql://postgres:postgres@localhost:25432/movie_database')

# Cargar datos de películas
query_movies = """
SELECT 
    id, tmdb_id, title, original_title, overview, tagline, 
    release_date, runtime, budget, revenue, popularity, 
    vote_average, vote_count, poster_path, backdrop_path, 
    adult, status, original_language, production_companies,
    production_countries, spoken_languages, created_at, updated_at
FROM movies 
ORDER BY popularity DESC
"""

df_movies = pd.read_sql(query_movies, engine)
print(f"Dataset cargado: {df_movies.shape[0]} películas, {df_movies.shape[1]} variables")
df_movies.head()


Dataset cargado: 9999 películas, 23 variables


Unnamed: 0,id,tmdb_id,title,original_title,overview,tagline,release_date,runtime,budget,revenue,...,poster_path,backdrop_path,adult,status,original_language,production_companies,production_countries,spoken_languages,created_at,updated_at
0,1,755898,War of the Worlds,War of the Worlds,Will Radford is a top analyst for Homeland Sec...,Your data is deadly.,2025-07-29,91,0,0,...,/yvirUYrva23IudARHn3mMGVxWqM.jpg,/iZLqwEwUViJdSkGVjePGhxYzbDb.jpg,False,Released,en,"[{""id"": 33, ""logo_path"": ""/8lvHyhjr8oUKOOy2dKX...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...","[{""english_name"": ""English"", ""iso_639_1"": ""en""...",2025-09-08 22:43:31.021039,2025-09-08 22:43:31.021039
1,2,1007734,Nobody 2,Nobody 2,Former assassin Hutch Mansell takes his family...,Nobody ruins his vacation.,2025-08-13,89,25000000,28583560,...,/svXVRoRSu6zzFtCzkRsjZS7Lqpd.jpg,/mEW9XMgYDO6U0MJcIRqRuSwjzN5.jpg,False,Released,en,"[{""id"": 33, ""logo_path"": ""/8lvHyhjr8oUKOOy2dKX...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...","[{""english_name"": ""English"", ""iso_639_1"": ""en""...",2025-09-08 22:43:31.326363,2025-09-08 22:43:31.326363
2,3,1038392,The Conjuring: Last Rites,The Conjuring: Last Rites,Paranormal investigators Ed and Lorraine Warre...,The case that ended it all.,2025-09-03,135,55000000,187000000,...,/8XfIKOPmuCZLh5ooK13SPKeybWF.jpg,/fq8gLtrz1ByW3KQ2IM3RMZEIjsQ.jpg,False,Released,en,"[{""id"": 12, ""logo_path"": ""/2ycs64eqV5rqKYHyQK0...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...","[{""english_name"": ""English"", ""iso_639_1"": ""en""...",2025-09-08 22:43:31.627689,2025-09-08 22:43:31.627689
3,4,1035259,The Naked Gun,The Naked Gun,Only one man has the particular set of skills....,The law's reach never stretched this far.,2025-07-30,85,42000000,96265416,...,/aq0JMbmSfPwG8JvAzExJPrBHqmG.jpg,/1wi1hcbl6KYqARjdQ4qrBWZdiau.jpg,False,Released,en,"[{""id"": 8789, ""logo_path"": ""/1smGq637YoNgkeBZX...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...","[{""english_name"": ""English"", ""iso_639_1"": ""en""...",2025-09-08 22:43:31.945522,2025-09-08 22:43:31.945522
4,5,1051486,Stockholm Bloodbath,Stockholm Bloodbath,"In 1520, the notorious and power-hungry Danish...",Old grudges never die.,2024-01-19,145,0,0,...,/tzXOB8nxO70SfSbOhrYcY94x6MI.jpg,/6nCy4OrV7gxhDc3lBSUxkNALPej.jpg,False,Released,en,"[{""id"": 186769, ""logo_path"": ""/3PBzxvictiTdhfx...","[{""iso_3166_1"": ""DK"", ""name"": ""Denmark""}, {""is...","[{""english_name"": ""Swedish"", ""iso_639_1"": ""sv""...",2025-09-08 22:43:32.239523,2025-09-08 22:43:32.239523


In [8]:
# Cargar datos de géneros
query_genres = """
SELECT g.id, g.tmdb_id, g.name, COUNT(mg.movie_id) as movie_count
FROM genres g
LEFT JOIN movie_genres mg ON g.id = mg.genre_id
GROUP BY g.id, g.tmdb_id, g.name
ORDER BY movie_count DESC
"""

df_genres = pd.read_sql(query_genres, engine)
print(f"Géneros disponibles: {df_genres.shape[0]}")
df_genres.head()


Géneros disponibles: 19


Unnamed: 0,id,tmdb_id,name,movie_count
0,7,18,Drama,4043
1,4,35,Comedy,2282
2,1,28,Action,2174
3,17,53,Thriller,1934
4,14,10749,Romance,1501


### 🗒️ 3. Descripción del dataset

#### Origen y formato
Este dataset contiene información cinematográfica recolectada de **TMDB (The Movie Database)**, una base de datos colaborativa que recopila información sobre películas, series de televisión y personalidades del entretenimiento. Los datos fueron extraídos mediante la API oficial de TMDB y almacenados en una base de datos PostgreSQL.

**Formato de los datos:**
- **Fuente**: API de TMDB (The Movie Database)
- **Almacenamiento**: Base de datos PostgreSQL 16
- **Tamaño**: 9,999 películas con información detallada
- **Período**: Datos históricos hasta la fecha de recolección
- **Idioma**: Principalmente inglés, con títulos originales en idiomas nativos

#### Variables incluidas y su significado

**Variables principales de películas:**
- **id**: Identificador único interno en nuestra base de datos
- **tmdb_id**: Identificador único en TMDB
- **title**: Título de la película en inglés
- **original_title**: Título original en el idioma nativo
- **overview**: Resumen/sinopsis de la película
- **tagline**: Frase promocional de la película
- **release_date**: Fecha de lanzamiento
- **runtime**: Duración en minutos
- **budget**: Presupuesto de producción (en USD)
- **revenue**: Ingresos generados (en USD)
- **popularity**: Puntuación de popularidad en TMDB
- **vote_average**: Calificación promedio (0-10)
- **vote_count**: Número total de votos recibidos
- **adult**: Indica si es contenido para adultos
- **status**: Estado de la película (Released, Post Production, etc.)
- **original_language**: Idioma original de la película

**Variables de metadatos:**
- **production_companies**: Compañías productoras (JSON)
- **production_countries**: Países de producción (JSON)
- **spoken_languages**: Idiomas hablados en la película (JSON)
- **poster_path**: Ruta de la imagen del póster
- **backdrop_path**: Ruta de la imagen de fondo

**Variables de géneros:**
- **genres**: Géneros cinematográficos asociados (Drama, Action, Comedy, etc.)
- **movie_genres**: Tabla de relación muchos-a-muchos entre películas y géneros

#### Justificación de la elección del dataset

**1. Relevancia y actualidad:**
- TMDB es una de las fuentes más confiables y actualizadas de información cinematográfica
- Los datos incluyen tanto películas clásicas como contemporáneas
- Información actualizada regularmente por la comunidad

**2. Riqueza de variables:**
- Combina datos cuantitativos (presupuesto, ingresos, calificaciones) con cualitativos (géneros, sinopsis)
- Permite análisis tanto financieros como de contenido
- Incluye metadatos temporales y geográficos

**3. Aplicabilidad para análisis de datos:**
- Ideal para análisis exploratorio de datos (EDA)
- Permite estudios de correlación entre variables
- Adecuado para análisis de tendencias temporales
- Útil para análisis de clasificación y clustering

**4. Potencial de insights:**
- Análisis de éxito comercial vs. crítico
- Identificación de patrones en géneros populares
- Estudio de evolución del cine a lo largo del tiempo
- Análisis de factores que influyen en la popularidad


### 🔍 4. Análisis exploratorio de datos (EDA)


In [9]:
# Información general del dataset
print("=== INFORMACIÓN GENERAL DEL DATASET ===")
print(f"Dimensiones: {df_movies.shape[0]} filas x {df_movies.shape[1]} columnas")
print(f"Memoria utilizada: {df_movies.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print("\n=== TIPOS DE VARIABLES ===")
df_movies.info()


=== INFORMACIÓN GENERAL DEL DATASET ===
Dimensiones: 9999 filas x 23 columnas
Memoria utilizada: 14.27 MB

=== TIPOS DE VARIABLES ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9999 entries, 0 to 9998
Data columns (total 23 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id                    9999 non-null   int64         
 1   tmdb_id               9999 non-null   int64         
 2   title                 9999 non-null   object        
 3   original_title        9999 non-null   object        
 4   overview              9999 non-null   object        
 5   tagline               9999 non-null   object        
 6   release_date          9924 non-null   datetime64[ns]
 7   runtime               9999 non-null   int64         
 8   budget                9999 non-null   int64         
 9   revenue               9999 non-null   int64         
 10  popularity            9999 non-null   float64       
 11  

In [None]:
# Estadísticas descriptivas para variables numéricas
print("=== ESTADÍSTICAS DESCRIPTIVAS ===")
numeric_columns = df_movies.select_dtypes(include=[np.number]).columns
df_movies[numeric_columns].describe()


In [None]:
# Análisis de valores faltantes
print("=== ANÁLISIS DE VALORES FALTANTES ===")
missing_data = df_movies.isnull().sum()
missing_percentage = (missing_data / len(df_movies)) * 100

missing_df = pd.DataFrame({
    'Variable': missing_data.index,
    'Valores_Faltantes': missing_data.values,
    'Porcentaje': missing_percentage.values
}).sort_values('Valores_Faltantes', ascending=False)

print("Variables con valores faltantes:")
print(missing_df[missing_df['Valores_Faltantes'] > 0])

# Visualización de valores faltantes
if missing_df['Valores_Faltantes'].sum() > 0:
    plt.figure(figsize=(12, 6))
    missing_subset = missing_df[missing_df['Valores_Faltantes'] > 0]
    plt.bar(range(len(missing_subset)), missing_subset['Porcentaje'])
    plt.xticks(range(len(missing_subset)), missing_subset['Variable'], rotation=45, ha='right')
    plt.ylabel('Porcentaje de valores faltantes (%)')
    plt.title('Distribución de valores faltantes por variable')
    plt.tight_layout()
    plt.show()
else:
    print("✅ No hay valores faltantes en el dataset")


In [None]:
# Distribuciones de variables numéricas principales
print("=== DISTRIBUCIONES DE VARIABLES NUMÉRICAS ===")

# Seleccionar variables numéricas más relevantes para visualización
key_numeric_vars = ['runtime', 'budget', 'revenue', 'popularity', 'vote_average', 'vote_count']

# Filtrar variables que existen en el dataset
available_vars = [var for var in key_numeric_vars if var in df_movies.columns]

if available_vars:
    fig, axes = plt.subplots(2, 3, figsize=(18, 12))
    axes = axes.ravel()
    
    for i, var in enumerate(available_vars):
        if i < len(axes):
            # Histograma
            axes[i].hist(df_movies[var].dropna(), bins=30, alpha=0.7, edgecolor='black')
            axes[i].set_title(f'Distribución de {var}')
            axes[i].set_xlabel(var)
            axes[i].set_ylabel('Frecuencia')
            
            # Estadísticas en el gráfico
            mean_val = df_movies[var].mean()
            median_val = df_movies[var].median()
            axes[i].axvline(mean_val, color='red', linestyle='--', label=f'Media: {mean_val:.2f}')
            axes[i].axvline(median_val, color='green', linestyle='--', label=f'Mediana: {median_val:.2f}')
            axes[i].legend()
    
    # Ocultar subplots vacíos
    for i in range(len(available_vars), len(axes)):
        axes[i].set_visible(False)
    
    plt.suptitle('Distribuciones de variables numéricas principales', fontsize=16)
    plt.tight_layout()
    plt.show()
else:
    print("No se encontraron las variables numéricas esperadas")


#### 🧊 Detección de outliers con boxplots


In [None]:
# Boxplots para detectar outliers en variables numéricas
print("=== DETECCIÓN DE OUTLIERS ===")

if available_vars:
    fig, axes = plt.subplots(2, 3, figsize=(18, 12))
    axes = axes.ravel()
    
    for i, var in enumerate(available_vars):
        if i < len(axes):
            # Boxplot
            box_data = df_movies[var].dropna()
            axes[i].boxplot(box_data, patch_artist=True)
            axes[i].set_title(f'Boxplot de {var}')
            axes[i].set_ylabel(var)
            
            # Calcular outliers usando IQR
            Q1 = box_data.quantile(0.25)
            Q3 = box_data.quantile(0.75)
            IQR = Q3 - Q1
            lower_bound = Q1 - 1.5 * IQR
            upper_bound = Q3 + 1.5 * IQR
            
            outliers = box_data[(box_data < lower_bound) | (box_data > upper_bound)]
            axes[i].text(0.02, 0.98, f'Outliers: {len(outliers)}', 
                        transform=axes[i].transAxes, verticalalignment='top',
                        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.8))
    
    # Ocultar subplots vacíos
    for i in range(len(available_vars), len(axes)):
        axes[i].set_visible(False)
    
    plt.suptitle('Boxplots para detección de outliers', fontsize=16)
    plt.tight_layout()
    plt.show()
    
    # Resumen de outliers por variable
    print("\nResumen de outliers por variable:")
    for var in available_vars:
        data = df_movies[var].dropna()
        Q1 = data.quantile(0.25)
        Q3 = data.quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        outliers = data[(data < lower_bound) | (data > upper_bound)]
        print(f"{var}: {len(outliers)} outliers ({len(outliers)/len(data)*100:.1f}%)")
else:
    print("No hay variables numéricas disponibles para análisis de outliers")


#### 🔗 Matriz de correlación entre variables numéricas


In [None]:
# Matriz de correlación
print("=== MATRIZ DE CORRELACIÓN ===")

if len(available_vars) > 1:
    # Calcular matriz de correlación
    correlation_matrix = df_movies[available_vars].corr()
    
    # Visualizar matriz de correlación
    plt.figure(figsize=(12, 10))
    mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
    sns.heatmap(correlation_matrix, 
                mask=mask,
                annot=True, 
                fmt=".2f", 
                cmap="coolwarm", 
                center=0,
                square=True,
                cbar_kws={"shrink": .8})
    plt.title("Matriz de correlación entre variables numéricas", fontsize=16)
    plt.tight_layout()
    plt.show()
    
    # Identificar correlaciones más fuertes
    print("\nCorrelaciones más fuertes (|r| > 0.5):")
    for i in range(len(correlation_matrix.columns)):
        for j in range(i+1, len(correlation_matrix.columns)):
            corr_val = correlation_matrix.iloc[i, j]
            if abs(corr_val) > 0.5:
                var1 = correlation_matrix.columns[i]
                var2 = correlation_matrix.columns[j]
                print(f"{var1} - {var2}: {corr_val:.3f}")
else:
    print("Se necesitan al menos 2 variables numéricas para calcular correlaciones")


#### 📊 Análisis de géneros cinematográficos


In [None]:
# Análisis de géneros
print("=== ANÁLISIS DE GÉNEROS CINEMATOGRÁFICOS ===")

# Top 10 géneros más populares
print("Top 10 géneros con más películas:")
top_genres = df_genres.head(10)
print(top_genres)

# Visualización de géneros
plt.figure(figsize=(14, 8))
plt.subplot(1, 2, 1)
top_genres_plot = df_genres.head(15)
plt.barh(range(len(top_genres_plot)), top_genres_plot['movie_count'])
plt.yticks(range(len(top_genres_plot)), top_genres_plot['name'])
plt.xlabel('Número de películas')
plt.title('Top 15 géneros por número de películas')
plt.gca().invert_yaxis()

# Distribución de géneros
plt.subplot(1, 2, 2)
plt.pie(top_genres['movie_count'], labels=top_genres['name'], autopct='%1.1f%%', startangle=90)
plt.title('Distribución de géneros (Top 10)')

plt.tight_layout()
plt.show()

# Estadísticas de géneros
print(f"\nEstadísticas de géneros:")
print(f"Total de géneros únicos: {len(df_genres)}")
print(f"Género más popular: {df_genres.iloc[0]['name']} ({df_genres.iloc[0]['movie_count']} películas)")
print(f"Promedio de películas por género: {df_genres['movie_count'].mean():.1f}")
print(f"Mediana de películas por género: {df_genres['movie_count'].median():.1f}")


#### 📈 Análisis temporal de lanzamientos


In [None]:
# Análisis temporal
print("=== ANÁLISIS TEMPORAL DE LANZAMIENTOS ===")

# Convertir release_date a datetime si no lo está
if 'release_date' in df_movies.columns:
    df_movies['release_date'] = pd.to_datetime(df_movies['release_date'], errors='coerce')
    
    # Filtrar películas con fechas válidas
    movies_with_dates = df_movies.dropna(subset=['release_date'])
    
    if len(movies_with_dates) > 0:
        # Extraer año de lanzamiento
        movies_with_dates['release_year'] = movies_with_dates['release_date'].dt.year
        
        # Análisis por década
        movies_with_dates['decade'] = (movies_with_dates['release_year'] // 10) * 10
        
        # Visualizaciones temporales
        fig, axes = plt.subplots(2, 2, figsize=(16, 12))
        
        # 1. Películas por año
        yearly_counts = movies_with_dates['release_year'].value_counts().sort_index()
        axes[0, 0].plot(yearly_counts.index, yearly_counts.values, linewidth=2)
        axes[0, 0].set_title('Películas lanzadas por año')
        axes[0, 0].set_xlabel('Año')
        axes[0, 0].set_ylabel('Número de películas')
        axes[0, 0].grid(True, alpha=0.3)
        
        # 2. Películas por década
        decade_counts = movies_with_dates['decade'].value_counts().sort_index()
        axes[0, 1].bar(decade_counts.index, decade_counts.values, width=8)
        axes[0, 1].set_title('Películas lanzadas por década')
        axes[0, 1].set_xlabel('Década')
        axes[0, 1].set_ylabel('Número de películas')
        
        # 3. Distribución de años (histograma)
        axes[1, 0].hist(movies_with_dates['release_year'], bins=50, alpha=0.7, edgecolor='black')
        axes[1, 0].set_title('Distribución de años de lanzamiento')
        axes[1, 0].set_xlabel('Año')
        axes[1, 0].set_ylabel('Frecuencia')
        
        # 4. Top 10 años con más películas
        top_years = yearly_counts.head(10)
        axes[1, 1].barh(range(len(top_years)), top_years.values)
        axes[1, 1].set_yticks(range(len(top_years)))
        axes[1, 1].set_yticklabels(top_years.index)
        axes[1, 1].set_title('Top 10 años con más películas')
        axes[1, 1].set_xlabel('Número de películas')
        
        plt.tight_layout()
        plt.show()
        
        # Estadísticas temporales
        print(f"Rango temporal: {movies_with_dates['release_year'].min()} - {movies_with_dates['release_year'].max()}")
        print(f"Año con más películas: {yearly_counts.idxmax()} ({yearly_counts.max()} películas)")
        print(f"Década con más películas: {decade_counts.idxmax()}s ({decade_counts.max()} películas)")
        
    else:
        print("No hay fechas de lanzamiento válidas en el dataset")
else:
    print("No se encontró la columna 'release_date' en el dataset")


#### 💰 Análisis financiero: Presupuesto vs Ingresos


In [None]:
# Análisis financiero
print("=== ANÁLISIS FINANCIERO: PRESUPUESTO VS INGRESOS ===")

if 'budget' in df_movies.columns and 'revenue' in df_movies.columns:
    # Filtrar películas con datos financieros válidos
    financial_data = df_movies[(df_movies['budget'] > 0) & (df_movies['revenue'] > 0)].copy()
    
    if len(financial_data) > 0:
        # Calcular ROI (Return on Investment)
        financial_data['roi'] = (financial_data['revenue'] - financial_data['budget']) / financial_data['budget'] * 100
        
        # Visualizaciones financieras
        fig, axes = plt.subplots(2, 2, figsize=(16, 12))
        
        # 1. Scatter plot: Budget vs Revenue
        axes[0, 0].scatter(financial_data['budget'], financial_data['revenue'], alpha=0.6, s=20)
        axes[0, 0].set_xlabel('Presupuesto (USD)')
        axes[0, 0].set_ylabel('Ingresos (USD)')
        axes[0, 0].set_title('Presupuesto vs Ingresos')
        axes[0, 0].set_xscale('log')
        axes[0, 0].set_yscale('log')
        
        # Línea de equilibrio (revenue = budget)
        min_val = min(financial_data['budget'].min(), financial_data['revenue'].min())
        max_val = max(financial_data['budget'].max(), financial_data['revenue'].max())
        axes[0, 0].plot([min_val, max_val], [min_val, max_val], 'r--', alpha=0.8, label='Línea de equilibrio')
        axes[0, 0].legend()
        
        # 2. Distribución de ROI
        axes[0, 1].hist(financial_data['roi'], bins=50, alpha=0.7, edgecolor='black')
        axes[0, 1].axvline(0, color='red', linestyle='--', label='ROI = 0%')
        axes[0, 1].set_xlabel('ROI (%)')
        axes[0, 1].set_ylabel('Frecuencia')
        axes[0, 1].set_title('Distribución de ROI')
        axes[0, 1].legend()
        
        # 3. Top 10 películas por ROI
        top_roi = financial_data.nlargest(10, 'roi')[['title', 'budget', 'revenue', 'roi']]
        axes[1, 0].barh(range(len(top_roi)), top_roi['roi'])
        axes[1, 0].set_yticks(range(len(top_roi)))
        axes[1, 0].set_yticklabels([title[:30] + '...' if len(title) > 30 else title for title in top_roi['title']])
        axes[1, 0].set_xlabel('ROI (%)')
        axes[1, 0].set_title('Top 10 películas por ROI')
        
        # 4. Distribución de presupuestos
        axes[1, 1].hist(financial_data['budget'], bins=50, alpha=0.7, edgecolor='black')
        axes[1, 1].set_xlabel('Presupuesto (USD)')
        axes[1, 1].set_ylabel('Frecuencia')
        axes[1, 1].set_title('Distribución de presupuestos')
        axes[1, 1].set_xscale('log')
        
        plt.tight_layout()
        plt.show()
        
        # Estadísticas financieras
        print(f"Películas con datos financieros: {len(financial_data)}")
        print(f"Presupuesto promedio: ${financial_data['budget'].mean():,.0f}")
        print(f"Presupuesto mediano: ${financial_data['budget'].median():,.0f}")
        print(f"Ingresos promedio: ${financial_data['revenue'].mean():,.0f}")
        print(f"Ingresos medianos: ${financial_data['revenue'].median():,.0f}")
        print(f"ROI promedio: {financial_data['roi'].mean():.1f}%")
        print(f"ROI mediano: {financial_data['roi'].median():.1f}%")
        print(f"Películas rentables: {(financial_data['roi'] > 0).sum()} ({(financial_data['roi'] > 0).mean()*100:.1f}%)")
        
        # Correlación entre presupuesto e ingresos
        correlation = financial_data['budget'].corr(financial_data['revenue'])
        print(f"Correlación presupuesto-ingresos: {correlation:.3f}")
        
    else:
        print("No hay películas con datos financieros válidos (presupuesto > 0 y ingresos > 0)")
else:
    print("No se encontraron las columnas 'budget' o 'revenue' en el dataset")


### 📋 5. Resumen del análisis exploratorio

#### Hallazgos principales:

**1. Estructura del dataset:**
- 9,999 películas con información detallada de TMDB
- Variables numéricas, categóricas y de texto
- Datos temporales desde [año mínimo] hasta [año máximo]

**2. Calidad de los datos:**
- [Porcentaje] de valores faltantes en variables clave
- Distribuciones asimétricas en variables financieras
- Presencia de outliers en [variables específicas]

**3. Patrones identificados:**
- Correlaciones significativas entre [variables]
- Géneros dominantes: [géneros más populares]
- Tendencias temporales: [patrones por década/año]

**4. Insights financieros:**
- [Porcentaje] de películas rentables
- Correlación presupuesto-ingresos: [valor]
- ROI promedio: [valor]%

#### Próximos pasos recomendados:
- Análisis de clasificación por género
- Modelado predictivo de éxito comercial
- Análisis de sentimiento en sinopsis
- Clustering de películas por características similares
