# Analisis de presupuesto y popularidad

En este notebook, nos enfocaremos en explorar y analizar las relaciones existentes entre dos variables específicas: **'budget'** y **'popularity'**. Nuestro objetivo principal es investigar cómo el presupuesto asignado a una película o proyecto (indicado por la variable 'budget') se correlaciona o afecta su popularidad (representada por alguna medida de 'popularity', como votos en IMDb, puntuaciones en TMDB).

Para llevar a cabo este análisis, seguiremos varios pasos clave:

1.  **Limpieza y Preparación de Datos:** Primero, aseguraremos que el conjunto de datos esté limpio y listo para el análisis. Esto incluye la eliminación de filas con valores nulos o cero en las variables 'budget' y 'popularity', ya que estos datos incompletos podrían distorsionar nuestros resultados.
    
2.  **Exploración de Datos:** Realizaremos una exploración inicial de los datos para entender la distribución de ambas variables, incluyendo estadísticas descriptivas como la media, mediana, desviación estándar, y la visualización a través de histogramas, diagramas de caja, o gráficos de densidad. Esto nos permitirá identificar tendencias generales, así como cualquier anomalía o dato atípico.
    
3.  **Análisis de Correlación:** Utilizaremos métodos estadísticos para evaluar la correlación entre 'budget' y 'popularity'. La correlación nos indica si existe una relación entre estas dos variables y, de ser así, qué tan fuerte es esa relación. Esto puede incluir el cálculo del coeficiente de correlación de Pearson o Spearman, dependiendo de la naturaleza y distribución de los datos.
    
4.  **Visualización de Relaciones:** Para complementar nuestro análisis cuantitativo, crearemos visualizaciones como gráficos de dispersión que nos permitan observar la relación entre el presupuesto y la popularidad de una forma más intuitiva. Estas visualizaciones pueden ayudarnos a identificar patrones, tendencias o agrupaciones específicas dentro de los datos.
    
5.  **Interpretación y Conclusiones:** Finalmente, interpretaremos los resultados de nuestro análisis, tratando de extraer conclusiones sobre la relación entre el presupuesto de una película y su popularidad. Consideraremos si un mayor presupuesto se traduce consistentemente en mayor popularidad, o si la relación es más compleja y está influenciada por otros factores. También discutiremos las limitaciones de nuestro análisis y posibles pasos futuros para una investigación más profunda.

In [5]:
import pandas as pd

df = pd.read_csv('df_stream_kaggle.csv')

In [4]:
# Filtrar para mantener solo las filas donde 'budget' no es nulo y diferente de 0
df_filtered = df.dropna(subset=['budget'])
df_filtered = df_filtered[df_filtered['budget'] != 0]

# Eliminar las columnas especificadas
df_final = df_filtered.drop(columns=['id', 'description', 'seasons'])

# Mostrar las primeras filas del dataframe final
df_final.head()

Unnamed: 0.1,Unnamed: 0,title,type,release_year,runtime,genres,production_countries,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score,streaming_service,main_genre,name,budget,nconst,primaryName,subscription_cost
8,8,Blind Husbands,MOVIE,1919,89,"['drama', 'romance']",US,tt0009937,6.9,1538.0,1.585,6.3,amazon,drama,"['Erich von Stroheim', 'Gibson Gowland', 'Sam ...",42.0,nm0002233,Erich von Stroheim,14.99 CAD / month
36,36,Badmaash Company,MOVIE,2010,144,"['crime', 'drama', 'comedy']",IN,tt1602476,6.1,6961.0,3.27,5.8,amazon,crime,"['Shahid Kapoor', 'Anushka Sharma', 'Meiyang C...",6250000.0,nm0786033,Parmeet Sethi,14.99 CAD / month
61,61,Tooth Fairy,MOVIE,2010,101,"['fantasy', 'sport', 'comedy', 'family']","CA,US",tt0808510,5.0,46010.0,56.947,5.5,amazon,fantasy,"['Dwayne Johnson', 'Stephen Merchant', 'Ashley...",48000000.0,nm0501185,Michael Lembeck,14.99 CAD / month
109,109,Sound of Noise,MOVIE,2010,102,"['comedy', 'european', 'music', 'romance', 'th...","FR,SE",tt1278449,7.2,9465.0,7.019,7.3,amazon,comedy,"['Bengt Nilsson', 'Sanna Persson', 'Magnus Bör...",4466000.0,nm0800800,Ola Simonsson,14.99 CAD / month
167,167,Raging Bull,MOVIE,1980,129,"['drama', 'sport']",US,tt0081398,8.2,345658.0,18.124,8.0,amazon,drama,"['Robert De Niro', 'Joe Pesci', 'Cathy Moriart...",18000000.0,nm0000217,Martin Scorsese,14.99 CAD / month
