# Ciencia de datos aplicada (ITBA): Modelo de segundo entregable

**Equipo:** Liu Jonathan, Wisch√±evsky David, Vilamowski Abril


**Nombre del proyecto**: Filmining

### üßæ 1. Importaci√≥n y carga de librer√≠as

Se utiliza la API de TMDB (The Movie Database) para obtener informaci√≥n cinematogr√°fica y almacenarla en una base de datos PostgreSQL. 

En la carpeta `data/` se encuentra un archivo `backup.sql` que contiene datos de pel√≠culas ya recolectados del sitio TMDB. Este backup est√° en formato PostgreSQL custom dump (versi√≥n 16.x) y contiene las siguientes tablas principales:

- **movies**: Informaci√≥n b√°sica de pel√≠culas (t√≠tulo, fecha de lanzamiento, presupuesto, ingresos, etc.)
- **genres**: G√©neros cinematogr√°ficos 
- **movie_genres**: Relaci√≥n muchos-a-muchos entre pel√≠culas y g√©neros
- **credits**: Cr√©ditos de pel√≠culas (actores, directores, productores)
- **keywords**: Palabras clave asociadas a las pel√≠culas
- **reviews**: Rese√±as de pel√≠culas (si est√°n disponibles)

#### Importaci√≥n a contenedor PostgreSQL

Para importar estos datos a un contenedor de PostgreSQL, puedes seguir estos pasos:

1. **Iniciar el contenedor de PostgreSQL**:
   ```bash
   # Desde la ra√≠z del proyecto
   ./scripts/docker-setup.sh start-db
   ```

2. **Importar el backup**:
   ```bash
   docker exec -i tmdb_movie_db pg_restore -U postgres -d movie_database < data/backup.sql
   ```

3. **Verificar la importaci√≥n**:
   ```bash
   docker exec -it tmdb_movie_db psql -U postgres -d movie_database
   ```

El proyecto est√° configurado para usar Docker Compose con PostgreSQL 16, y el contenedor se llama `tmdb_movie_db`. Los datos se almacenan en un volumen persistente, por lo que la informaci√≥n se mantiene entre reinicios del contenedor.


In [3]:
# Instalar todas las librer√≠as necesarias para el an√°lisis
%pip install pandas numpy matplotlib seaborn sqlalchemy psycopg2-binary


Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine
import warnings
warnings.filterwarnings('ignore')

# Configuraciones de estilo
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (12, 8)
plt.rcParams['font.size'] = 10


In [7]:
# Conectar a la base de datos PostgreSQL
engine = create_engine('postgresql://postgres:postgres@localhost:25432/movie_database')

# Cargar datos de pel√≠culas
query_movies = """
SELECT 
    id, tmdb_id, title, original_title, overview, tagline, 
    release_date, runtime, budget, revenue, popularity, 
    vote_average, vote_count, poster_path, backdrop_path, 
    adult, status, original_language, production_companies,
    production_countries, spoken_languages, created_at, updated_at
FROM movies 
ORDER BY popularity DESC
"""

df_movies = pd.read_sql(query_movies, engine)
print(f"Dataset cargado: {df_movies.shape[0]} pel√≠culas, {df_movies.shape[1]} variables")
df_movies.head()


Dataset cargado: 9999 pel√≠culas, 23 variables


Unnamed: 0,id,tmdb_id,title,original_title,overview,tagline,release_date,runtime,budget,revenue,...,poster_path,backdrop_path,adult,status,original_language,production_companies,production_countries,spoken_languages,created_at,updated_at
0,1,755898,War of the Worlds,War of the Worlds,Will Radford is a top analyst for Homeland Sec...,Your data is deadly.,2025-07-29,91,0,0,...,/yvirUYrva23IudARHn3mMGVxWqM.jpg,/iZLqwEwUViJdSkGVjePGhxYzbDb.jpg,False,Released,en,"[{""id"": 33, ""logo_path"": ""/8lvHyhjr8oUKOOy2dKX...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...","[{""english_name"": ""English"", ""iso_639_1"": ""en""...",2025-09-08 22:43:31.021039,2025-09-08 22:43:31.021039
1,2,1007734,Nobody 2,Nobody 2,Former assassin Hutch Mansell takes his family...,Nobody ruins his vacation.,2025-08-13,89,25000000,28583560,...,/svXVRoRSu6zzFtCzkRsjZS7Lqpd.jpg,/mEW9XMgYDO6U0MJcIRqRuSwjzN5.jpg,False,Released,en,"[{""id"": 33, ""logo_path"": ""/8lvHyhjr8oUKOOy2dKX...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...","[{""english_name"": ""English"", ""iso_639_1"": ""en""...",2025-09-08 22:43:31.326363,2025-09-08 22:43:31.326363
2,3,1038392,The Conjuring: Last Rites,The Conjuring: Last Rites,Paranormal investigators Ed and Lorraine Warre...,The case that ended it all.,2025-09-03,135,55000000,187000000,...,/8XfIKOPmuCZLh5ooK13SPKeybWF.jpg,/fq8gLtrz1ByW3KQ2IM3RMZEIjsQ.jpg,False,Released,en,"[{""id"": 12, ""logo_path"": ""/2ycs64eqV5rqKYHyQK0...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...","[{""english_name"": ""English"", ""iso_639_1"": ""en""...",2025-09-08 22:43:31.627689,2025-09-08 22:43:31.627689
3,4,1035259,The Naked Gun,The Naked Gun,Only one man has the particular set of skills....,The law's reach never stretched this far.,2025-07-30,85,42000000,96265416,...,/aq0JMbmSfPwG8JvAzExJPrBHqmG.jpg,/1wi1hcbl6KYqARjdQ4qrBWZdiau.jpg,False,Released,en,"[{""id"": 8789, ""logo_path"": ""/1smGq637YoNgkeBZX...","[{""iso_3166_1"": ""US"", ""name"": ""United States o...","[{""english_name"": ""English"", ""iso_639_1"": ""en""...",2025-09-08 22:43:31.945522,2025-09-08 22:43:31.945522
4,5,1051486,Stockholm Bloodbath,Stockholm Bloodbath,"In 1520, the notorious and power-hungry Danish...",Old grudges never die.,2024-01-19,145,0,0,...,/tzXOB8nxO70SfSbOhrYcY94x6MI.jpg,/6nCy4OrV7gxhDc3lBSUxkNALPej.jpg,False,Released,en,"[{""id"": 186769, ""logo_path"": ""/3PBzxvictiTdhfx...","[{""iso_3166_1"": ""DK"", ""name"": ""Denmark""}, {""is...","[{""english_name"": ""Swedish"", ""iso_639_1"": ""sv""...",2025-09-08 22:43:32.239523,2025-09-08 22:43:32.239523


In [8]:
# Cargar datos de g√©neros
query_genres = """
SELECT g.id, g.tmdb_id, g.name, COUNT(mg.movie_id) as movie_count
FROM genres g
LEFT JOIN movie_genres mg ON g.id = mg.genre_id
GROUP BY g.id, g.tmdb_id, g.name
ORDER BY movie_count DESC
"""

df_genres = pd.read_sql(query_genres, engine)
print(f"G√©neros disponibles: {df_genres.shape[0]}")
df_genres.head()


G√©neros disponibles: 19


Unnamed: 0,id,tmdb_id,name,movie_count
0,7,18,Drama,4043
1,4,35,Comedy,2282
2,1,28,Action,2174
3,17,53,Thriller,1934
4,14,10749,Romance,1501


### üóíÔ∏è 3. Descripci√≥n del dataset

#### Origen y formato
Este dataset contiene informaci√≥n cinematogr√°fica recolectada de **TMDB (The Movie Database)**, una base de datos colaborativa que recopila informaci√≥n sobre pel√≠culas, series de televisi√≥n y personalidades del entretenimiento. Los datos fueron extra√≠dos mediante la API oficial de TMDB y almacenados en una base de datos PostgreSQL.

**Formato de los datos:**
- **Fuente**: API de TMDB (The Movie Database)
- **Almacenamiento**: Base de datos PostgreSQL 16
- **Tama√±o**: 9,999 pel√≠culas con informaci√≥n detallada
- **Per√≠odo**: Datos hist√≥ricos hasta la fecha de recolecci√≥n
- **Idioma**: Principalmente ingl√©s, con t√≠tulos originales en idiomas nativos

#### Variables incluidas y su significado

**Variables principales de pel√≠culas:**
- **id**: Identificador √∫nico interno en nuestra base de datos
- **tmdb_id**: Identificador √∫nico en TMDB
- **title**: T√≠tulo de la pel√≠cula en ingl√©s
- **original_title**: T√≠tulo original en el idioma nativo
- **overview**: Resumen/sinopsis de la pel√≠cula
- **tagline**: Frase promocional de la pel√≠cula
- **release_date**: Fecha de lanzamiento
- **runtime**: Duraci√≥n en minutos
- **budget**: Presupuesto de producci√≥n (en USD)
- **revenue**: Ingresos generados (en USD)
- **popularity**: Puntuaci√≥n de popularidad en TMDB
- **vote_average**: Calificaci√≥n promedio (0-10)
- **vote_count**: N√∫mero total de votos recibidos
- **adult**: Indica si es contenido para adultos
- **status**: Estado de la pel√≠cula (Released, Post Production, etc.)
- **original_language**: Idioma original de la pel√≠cula

**Variables de metadatos:**
- **production_companies**: Compa√±√≠as productoras (JSON)
- **production_countries**: Pa√≠ses de producci√≥n (JSON)
- **spoken_languages**: Idiomas hablados en la pel√≠cula (JSON)
- **poster_path**: Ruta de la imagen del p√≥ster
- **backdrop_path**: Ruta de la imagen de fondo

**Variables de g√©neros:**
- **genres**: G√©neros cinematogr√°ficos asociados (Drama, Action, Comedy, etc.)
- **movie_genres**: Tabla de relaci√≥n muchos-a-muchos entre pel√≠culas y g√©neros

#### Justificaci√≥n de la elecci√≥n del dataset

**1. Relevancia y actualidad:**
- TMDB es una de las fuentes m√°s confiables y actualizadas de informaci√≥n cinematogr√°fica
- Los datos incluyen tanto pel√≠culas cl√°sicas como contempor√°neas
- Informaci√≥n actualizada regularmente por la comunidad

**2. Riqueza de variables:**
- Combina datos cuantitativos (presupuesto, ingresos, calificaciones) con cualitativos (g√©neros, sinopsis)
- Permite an√°lisis tanto financieros como de contenido
- Incluye metadatos temporales y geogr√°ficos

**3. Aplicabilidad para an√°lisis de datos:**
- Ideal para an√°lisis exploratorio de datos (EDA)
- Permite estudios de correlaci√≥n entre variables
- Adecuado para an√°lisis de tendencias temporales
- √ötil para an√°lisis de clasificaci√≥n y clustering

**4. Potencial de insights:**
- An√°lisis de √©xito comercial vs. cr√≠tico
- Identificaci√≥n de patrones en g√©neros populares
- Estudio de evoluci√≥n del cine a lo largo del tiempo
- An√°lisis de factores que influyen en la popularidad


### üîç 4. An√°lisis exploratorio de datos (EDA)


In [9]:
# Informaci√≥n general del dataset
print("=== INFORMACI√ìN GENERAL DEL DATASET ===")
print(f"Dimensiones: {df_movies.shape[0]} filas x {df_movies.shape[1]} columnas")
print(f"Memoria utilizada: {df_movies.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print("\n=== TIPOS DE VARIABLES ===")
df_movies.info()


=== INFORMACI√ìN GENERAL DEL DATASET ===
Dimensiones: 9999 filas x 23 columnas
Memoria utilizada: 14.27 MB

=== TIPOS DE VARIABLES ===
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9999 entries, 0 to 9998
Data columns (total 23 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id                    9999 non-null   int64         
 1   tmdb_id               9999 non-null   int64         
 2   title                 9999 non-null   object        
 3   original_title        9999 non-null   object        
 4   overview              9999 non-null   object        
 5   tagline               9999 non-null   object        
 6   release_date          9924 non-null   datetime64[ns]
 7   runtime               9999 non-null   int64         
 8   budget                9999 non-null   int64         
 9   revenue               9999 non-null   int64         
 10  popularity            9999 non-null   float64       
 11 

In [None]:
# Estad√≠sticas descriptivas para variables num√©ricas
print("=== ESTAD√çSTICAS DESCRIPTIVAS ===")
numeric_columns = df_movies.select_dtypes(include=[np.number]).columns
df_movies[numeric_columns].describe()


In [None]:
# An√°lisis de valores faltantes
print("=== AN√ÅLISIS DE VALORES FALTANTES ===")
missing_data = df_movies.isnull().sum()
missing_percentage = (missing_data / len(df_movies)) * 100

missing_df = pd.DataFrame({
    'Variable': missing_data.index,
    'Valores_Faltantes': missing_data.values,
    'Porcentaje': missing_percentage.values
}).sort_values('Valores_Faltantes', ascending=False)

print("Variables con valores faltantes:")
print(missing_df[missing_df['Valores_Faltantes'] > 0])

# Visualizaci√≥n de valores faltantes
if missing_df['Valores_Faltantes'].sum() > 0:
    plt.figure(figsize=(12, 6))
    missing_subset = missing_df[missing_df['Valores_Faltantes'] > 0]
    plt.bar(range(len(missing_subset)), missing_subset['Porcentaje'])
    plt.xticks(range(len(missing_subset)), missing_subset['Variable'], rotation=45, ha='right')
    plt.ylabel('Porcentaje de valores faltantes (%)')
    plt.title('Distribuci√≥n de valores faltantes por variable')
    plt.tight_layout()
    plt.show()
else:
    print("‚úÖ No hay valores faltantes en el dataset")


In [None]:
# Distribuciones de variables num√©ricas principales
print("=== DISTRIBUCIONES DE VARIABLES NUM√âRICAS ===")

# Seleccionar variables num√©ricas m√°s relevantes para visualizaci√≥n
key_numeric_vars = ['runtime', 'budget', 'revenue', 'popularity', 'vote_average', 'vote_count']

# Filtrar variables que existen en el dataset
available_vars = [var for var in key_numeric_vars if var in df_movies.columns]

if available_vars:
    fig, axes = plt.subplots(2, 3, figsize=(18, 12))
    axes = axes.ravel()
    
    for i, var in enumerate(available_vars):
        if i < len(axes):
            # Histograma
            axes[i].hist(df_movies[var].dropna(), bins=30, alpha=0.7, edgecolor='black')
            axes[i].set_title(f'Distribuci√≥n de {var}')
            axes[i].set_xlabel(var)
            axes[i].set_ylabel('Frecuencia')
            
            # Estad√≠sticas en el gr√°fico
            mean_val = df_movies[var].mean()
            median_val = df_movies[var].median()
            axes[i].axvline(mean_val, color='red', linestyle='--', label=f'Media: {mean_val:.2f}')
            axes[i].axvline(median_val, color='green', linestyle='--', label=f'Mediana: {median_val:.2f}')
            axes[i].legend()
    
    # Ocultar subplots vac√≠os
    for i in range(len(available_vars), len(axes)):
        axes[i].set_visible(False)
    
    plt.suptitle('Distribuciones de variables num√©ricas principales', fontsize=16)
    plt.tight_layout()
    plt.show()
else:
    print("No se encontraron las variables num√©ricas esperadas")


#### üßä Detecci√≥n de outliers con boxplots


In [None]:
# Boxplots para detectar outliers en variables num√©ricas
print("=== DETECCI√ìN DE OUTLIERS ===")

if available_vars:
    fig, axes = plt.subplots(2, 3, figsize=(18, 12))
    axes = axes.ravel()
    
    for i, var in enumerate(available_vars):
        if i < len(axes):
            # Boxplot
            box_data = df_movies[var].dropna()
            axes[i].boxplot(box_data, patch_artist=True)
            axes[i].set_title(f'Boxplot de {var}')
            axes[i].set_ylabel(var)
            
            # Calcular outliers usando IQR
            Q1 = box_data.quantile(0.25)
            Q3 = box_data.quantile(0.75)
            IQR = Q3 - Q1
            lower_bound = Q1 - 1.5 * IQR
            upper_bound = Q3 + 1.5 * IQR
            
            outliers = box_data[(box_data < lower_bound) | (box_data > upper_bound)]
            axes[i].text(0.02, 0.98, f'Outliers: {len(outliers)}', 
                        transform=axes[i].transAxes, verticalalignment='top',
                        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.8))
    
    # Ocultar subplots vac√≠os
    for i in range(len(available_vars), len(axes)):
        axes[i].set_visible(False)
    
    plt.suptitle('Boxplots para detecci√≥n de outliers', fontsize=16)
    plt.tight_layout()
    plt.show()
    
    # Resumen de outliers por variable
    print("\nResumen de outliers por variable:")
    for var in available_vars:
        data = df_movies[var].dropna()
        Q1 = data.quantile(0.25)
        Q3 = data.quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        outliers = data[(data < lower_bound) | (data > upper_bound)]
        print(f"{var}: {len(outliers)} outliers ({len(outliers)/len(data)*100:.1f}%)")
else:
    print("No hay variables num√©ricas disponibles para an√°lisis de outliers")


#### üîó Matriz de correlaci√≥n entre variables num√©ricas


In [None]:
# Matriz de correlaci√≥n
print("=== MATRIZ DE CORRELACI√ìN ===")

if len(available_vars) > 1:
    # Calcular matriz de correlaci√≥n
    correlation_matrix = df_movies[available_vars].corr()
    
    # Visualizar matriz de correlaci√≥n
    plt.figure(figsize=(12, 10))
    mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
    sns.heatmap(correlation_matrix, 
                mask=mask,
                annot=True, 
                fmt=".2f", 
                cmap="coolwarm", 
                center=0,
                square=True,
                cbar_kws={"shrink": .8})
    plt.title("Matriz de correlaci√≥n entre variables num√©ricas", fontsize=16)
    plt.tight_layout()
    plt.show()
    
    # Identificar correlaciones m√°s fuertes
    print("\nCorrelaciones m√°s fuertes (|r| > 0.5):")
    for i in range(len(correlation_matrix.columns)):
        for j in range(i+1, len(correlation_matrix.columns)):
            corr_val = correlation_matrix.iloc[i, j]
            if abs(corr_val) > 0.5:
                var1 = correlation_matrix.columns[i]
                var2 = correlation_matrix.columns[j]
                print(f"{var1} - {var2}: {corr_val:.3f}")
else:
    print("Se necesitan al menos 2 variables num√©ricas para calcular correlaciones")


#### üìä An√°lisis de g√©neros cinematogr√°ficos


In [None]:
# An√°lisis de g√©neros
print("=== AN√ÅLISIS DE G√âNEROS CINEMATOGR√ÅFICOS ===")

# Top 10 g√©neros m√°s populares
print("Top 10 g√©neros con m√°s pel√≠culas:")
top_genres = df_genres.head(10)
print(top_genres)

# Visualizaci√≥n de g√©neros
plt.figure(figsize=(14, 8))
plt.subplot(1, 2, 1)
top_genres_plot = df_genres.head(15)
plt.barh(range(len(top_genres_plot)), top_genres_plot['movie_count'])
plt.yticks(range(len(top_genres_plot)), top_genres_plot['name'])
plt.xlabel('N√∫mero de pel√≠culas')
plt.title('Top 15 g√©neros por n√∫mero de pel√≠culas')
plt.gca().invert_yaxis()

# Distribuci√≥n de g√©neros
plt.subplot(1, 2, 2)
plt.pie(top_genres['movie_count'], labels=top_genres['name'], autopct='%1.1f%%', startangle=90)
plt.title('Distribuci√≥n de g√©neros (Top 10)')

plt.tight_layout()
plt.show()

# Estad√≠sticas de g√©neros
print(f"\nEstad√≠sticas de g√©neros:")
print(f"Total de g√©neros √∫nicos: {len(df_genres)}")
print(f"G√©nero m√°s popular: {df_genres.iloc[0]['name']} ({df_genres.iloc[0]['movie_count']} pel√≠culas)")
print(f"Promedio de pel√≠culas por g√©nero: {df_genres['movie_count'].mean():.1f}")
print(f"Mediana de pel√≠culas por g√©nero: {df_genres['movie_count'].median():.1f}")


#### üìà An√°lisis temporal de lanzamientos


In [None]:
# An√°lisis temporal
print("=== AN√ÅLISIS TEMPORAL DE LANZAMIENTOS ===")

# Convertir release_date a datetime si no lo est√°
if 'release_date' in df_movies.columns:
    df_movies['release_date'] = pd.to_datetime(df_movies['release_date'], errors='coerce')
    
    # Filtrar pel√≠culas con fechas v√°lidas
    movies_with_dates = df_movies.dropna(subset=['release_date'])
    
    if len(movies_with_dates) > 0:
        # Extraer a√±o de lanzamiento
        movies_with_dates['release_year'] = movies_with_dates['release_date'].dt.year
        
        # An√°lisis por d√©cada
        movies_with_dates['decade'] = (movies_with_dates['release_year'] // 10) * 10
        
        # Visualizaciones temporales
        fig, axes = plt.subplots(2, 2, figsize=(16, 12))
        
        # 1. Pel√≠culas por a√±o
        yearly_counts = movies_with_dates['release_year'].value_counts().sort_index()
        axes[0, 0].plot(yearly_counts.index, yearly_counts.values, linewidth=2)
        axes[0, 0].set_title('Pel√≠culas lanzadas por a√±o')
        axes[0, 0].set_xlabel('A√±o')
        axes[0, 0].set_ylabel('N√∫mero de pel√≠culas')
        axes[0, 0].grid(True, alpha=0.3)
        
        # 2. Pel√≠culas por d√©cada
        decade_counts = movies_with_dates['decade'].value_counts().sort_index()
        axes[0, 1].bar(decade_counts.index, decade_counts.values, width=8)
        axes[0, 1].set_title('Pel√≠culas lanzadas por d√©cada')
        axes[0, 1].set_xlabel('D√©cada')
        axes[0, 1].set_ylabel('N√∫mero de pel√≠culas')
        
        # 3. Distribuci√≥n de a√±os (histograma)
        axes[1, 0].hist(movies_with_dates['release_year'], bins=50, alpha=0.7, edgecolor='black')
        axes[1, 0].set_title('Distribuci√≥n de a√±os de lanzamiento')
        axes[1, 0].set_xlabel('A√±o')
        axes[1, 0].set_ylabel('Frecuencia')
        
        # 4. Top 10 a√±os con m√°s pel√≠culas
        top_years = yearly_counts.head(10)
        axes[1, 1].barh(range(len(top_years)), top_years.values)
        axes[1, 1].set_yticks(range(len(top_years)))
        axes[1, 1].set_yticklabels(top_years.index)
        axes[1, 1].set_title('Top 10 a√±os con m√°s pel√≠culas')
        axes[1, 1].set_xlabel('N√∫mero de pel√≠culas')
        
        plt.tight_layout()
        plt.show()
        
        # Estad√≠sticas temporales
        print(f"Rango temporal: {movies_with_dates['release_year'].min()} - {movies_with_dates['release_year'].max()}")
        print(f"A√±o con m√°s pel√≠culas: {yearly_counts.idxmax()} ({yearly_counts.max()} pel√≠culas)")
        print(f"D√©cada con m√°s pel√≠culas: {decade_counts.idxmax()}s ({decade_counts.max()} pel√≠culas)")
        
    else:
        print("No hay fechas de lanzamiento v√°lidas en el dataset")
else:
    print("No se encontr√≥ la columna 'release_date' en el dataset")


#### üí∞ An√°lisis financiero: Presupuesto vs Ingresos


In [None]:
# An√°lisis financiero
print("=== AN√ÅLISIS FINANCIERO: PRESUPUESTO VS INGRESOS ===")

if 'budget' in df_movies.columns and 'revenue' in df_movies.columns:
    # Filtrar pel√≠culas con datos financieros v√°lidos
    financial_data = df_movies[(df_movies['budget'] > 0) & (df_movies['revenue'] > 0)].copy()
    
    if len(financial_data) > 0:
        # Calcular ROI (Return on Investment)
        financial_data['roi'] = (financial_data['revenue'] - financial_data['budget']) / financial_data['budget'] * 100
        
        # Visualizaciones financieras
        fig, axes = plt.subplots(2, 2, figsize=(16, 12))
        
        # 1. Scatter plot: Budget vs Revenue
        axes[0, 0].scatter(financial_data['budget'], financial_data['revenue'], alpha=0.6, s=20)
        axes[0, 0].set_xlabel('Presupuesto (USD)')
        axes[0, 0].set_ylabel('Ingresos (USD)')
        axes[0, 0].set_title('Presupuesto vs Ingresos')
        axes[0, 0].set_xscale('log')
        axes[0, 0].set_yscale('log')
        
        # L√≠nea de equilibrio (revenue = budget)
        min_val = min(financial_data['budget'].min(), financial_data['revenue'].min())
        max_val = max(financial_data['budget'].max(), financial_data['revenue'].max())
        axes[0, 0].plot([min_val, max_val], [min_val, max_val], 'r--', alpha=0.8, label='L√≠nea de equilibrio')
        axes[0, 0].legend()
        
        # 2. Distribuci√≥n de ROI
        axes[0, 1].hist(financial_data['roi'], bins=50, alpha=0.7, edgecolor='black')
        axes[0, 1].axvline(0, color='red', linestyle='--', label='ROI = 0%')
        axes[0, 1].set_xlabel('ROI (%)')
        axes[0, 1].set_ylabel('Frecuencia')
        axes[0, 1].set_title('Distribuci√≥n de ROI')
        axes[0, 1].legend()
        
        # 3. Top 10 pel√≠culas por ROI
        top_roi = financial_data.nlargest(10, 'roi')[['title', 'budget', 'revenue', 'roi']]
        axes[1, 0].barh(range(len(top_roi)), top_roi['roi'])
        axes[1, 0].set_yticks(range(len(top_roi)))
        axes[1, 0].set_yticklabels([title[:30] + '...' if len(title) > 30 else title for title in top_roi['title']])
        axes[1, 0].set_xlabel('ROI (%)')
        axes[1, 0].set_title('Top 10 pel√≠culas por ROI')
        
        # 4. Distribuci√≥n de presupuestos
        axes[1, 1].hist(financial_data['budget'], bins=50, alpha=0.7, edgecolor='black')
        axes[1, 1].set_xlabel('Presupuesto (USD)')
        axes[1, 1].set_ylabel('Frecuencia')
        axes[1, 1].set_title('Distribuci√≥n de presupuestos')
        axes[1, 1].set_xscale('log')
        
        plt.tight_layout()
        plt.show()
        
        # Estad√≠sticas financieras
        print(f"Pel√≠culas con datos financieros: {len(financial_data)}")
        print(f"Presupuesto promedio: ${financial_data['budget'].mean():,.0f}")
        print(f"Presupuesto mediano: ${financial_data['budget'].median():,.0f}")
        print(f"Ingresos promedio: ${financial_data['revenue'].mean():,.0f}")
        print(f"Ingresos medianos: ${financial_data['revenue'].median():,.0f}")
        print(f"ROI promedio: {financial_data['roi'].mean():.1f}%")
        print(f"ROI mediano: {financial_data['roi'].median():.1f}%")
        print(f"Pel√≠culas rentables: {(financial_data['roi'] > 0).sum()} ({(financial_data['roi'] > 0).mean()*100:.1f}%)")
        
        # Correlaci√≥n entre presupuesto e ingresos
        correlation = financial_data['budget'].corr(financial_data['revenue'])
        print(f"Correlaci√≥n presupuesto-ingresos: {correlation:.3f}")
        
    else:
        print("No hay pel√≠culas con datos financieros v√°lidos (presupuesto > 0 y ingresos > 0)")
else:
    print("No se encontraron las columnas 'budget' o 'revenue' en el dataset")


### üìã 5. Resumen del an√°lisis exploratorio

#### Hallazgos principales:

**1. Estructura del dataset:**
- 9,999 pel√≠culas con informaci√≥n detallada de TMDB
- Variables num√©ricas, categ√≥ricas y de texto
- Datos temporales desde [a√±o m√≠nimo] hasta [a√±o m√°ximo]

**2. Calidad de los datos:**
- [Porcentaje] de valores faltantes en variables clave
- Distribuciones asim√©tricas en variables financieras
- Presencia de outliers en [variables espec√≠ficas]

**3. Patrones identificados:**
- Correlaciones significativas entre [variables]
- G√©neros dominantes: [g√©neros m√°s populares]
- Tendencias temporales: [patrones por d√©cada/a√±o]

**4. Insights financieros:**
- [Porcentaje] de pel√≠culas rentables
- Correlaci√≥n presupuesto-ingresos: [valor]
- ROI promedio: [valor]%

#### Pr√≥ximos pasos recomendados:
- An√°lisis de clasificaci√≥n por g√©nero
- Modelado predictivo de √©xito comercial
- An√°lisis de sentimiento en sinopsis
- Clustering de pel√≠culas por caracter√≠sticas similares
