# Análisis Estadístico de Películas Blockbuster (1977-2019)

**Proyecto de Estadística Aplicada**

**Objetivo:** Analizar los factores que influyen en el éxito comercial de las películas blockbuster, respondiendo preguntas clave sobre presupuesto, recaudación, calificación, géneros y tendencias temporales.

**Preguntas de investigación:**
- ¿Existe una relación significativa entre el presupuesto de una película y su recaudación mundial?
- ¿La calificación de IMDb está asociada con la recaudación mundial?
- ¿Existen diferencias significativas en recaudación promedio entre géneros?
- ¿Ha cambiado la recaudación promedio de los top-10 blockbusters a lo largo del tiempo?

**Fuente de datos:** Dataset propio de las 10 películas más taquilleras de cada año (1977-2019).

## 1. Importación de librerías

Importamos las librerías necesarias para análisis de datos, visualización y estadística.

In [1]:
# Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from scipy import stats
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

## 2. Carga y exploración inicial de datos

Cargamos el archivo CSV, mostramos información general, primeras filas y estadísticos descriptivos básicos.

In [2]:
# Carga de datos y exploración inicial
df = pd.read_csv('Blockbusters_2019-1977.csv', encoding='latin1')
display(df.head())
display(df.info())
display(df.describe(include='all'))

Unnamed: 0,release_year,rank_in_year,imdb_rating,mpaa_rating,film_title,film_budget,length_in_min,domestic_distributor,worldwide_gross,domestic_gross,genre_1,genre_2,genre_3
0,2019,1,8.5,PG-13,Avengers: Endgame,356000000,181,Walt Disney,2797800564,858373000,Action,Adventure,Drama
1,2019,2,7.0,PG,The Lion King,260000000,118,Walt Disney,1656943394,543638043,Animation,Adventure,Drama
2,2019,3,7.2,PG,Frozen II,150000000,103,Walt Disney,1420560456,470089732,Animation,Adventure,Comedy
3,2019,4,7.6,PG-13,Spider-Man: Far from Home,160000000,129,Sony Pictures,1131927996,390532085,Action,Adventure,Sci-Fi
4,2019,5,6.9,PG-13,Captain Marvel,175000000,123,Walt Disney,1128274794,426829839,Action,Adventure,Sci-Fi


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 430 entries, 0 to 429
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   release_year          430 non-null    int64  
 1   rank_in_year          430 non-null    int64  
 2   imdb_rating           430 non-null    float64
 3   mpaa_rating           429 non-null    object 
 4   film_title            430 non-null    object 
 5   film_budget           430 non-null    object 
 6   length_in_min         430 non-null    int64  
 7   domestic_distributor  430 non-null    object 
 8   worldwide_gross       430 non-null    object 
 9   domestic_gross        430 non-null    object 
 10  genre_1               430 non-null    object 
 11  genre_2               409 non-null    object 
 12  genre_3               324 non-null    object 
dtypes: float64(1), int64(3), object(9)
memory usage: 43.8+ KB


None

Unnamed: 0,release_year,rank_in_year,imdb_rating,mpaa_rating,film_title,film_budget,length_in_min,domestic_distributor,worldwide_gross,domestic_gross,genre_1,genre_2,genre_3
count,430.0,430.0,430.0,429,430,430.0,430.0,430,430.0,430.0,430,409,324
unique,,,,4,427,142.0,,25,430.0,430.0,12,19,17
top,,,,PG-13,The Lion King,200000000.0,,Walt Disney,2797800564.0,858373000.0,Action,Adventure,Sci-Fi
freq,,,,178,2,24.0,,76,1.0,1.0,194,181,58
mean,1998.0,5.5,7.076744,,,,120.602326,,,,,,
std,12.424129,2.875627,0.801815,,,,22.615721,,,,,,
min,1977.0,1.0,3.7,,,,60.0,,,,,,
25%,1987.0,3.0,6.6,,,,104.0,,,,,,
50%,1998.0,5.5,7.0,,,,119.0,,,,,,
75%,2009.0,8.0,7.675,,,,134.0,,,,,,
