In [1]:
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


## INFORMACION DATASET (FILM BETCHDEL TEST)

El Test de Bechdel evalúa si una obra de ficción incluye a al menos dos mujeres que hablen entre ellas de algo que no sea un hombre, como una forma de medir la representación femenina en los medios.

Resultados TEST: 

- ok: Películas o episodios que han pasado el Test de Bechdel, es decir, incluyen a dos mujeres que hablan entre ellas de algo que no es un   hombre.

- notalk: Películas o episodios que no pasan el test porque no hay ninguna conversación entre mujeres, o simplemente no hay personajes femeninos hablando en absoluto.

- men: Películas o episodios pueden haber tenido conversaciones entre mujeres, pero dichas conversaciones están centradas únicamente en hombres, por lo tanto, no pasan el Test de Bechdel.

- dubious: presentan situaciones ambiguas o difíciles de clasificar, como diálogos mínimos entre mujeres que no dejan claro si cumplen con los criterios del test o que podrían no ajustarse claramente a los parámetros establecidos.

- nowomen: 141 películas o episodios que no tienen personajes femeninos, lo que automáticamente las descalifica del Test de Bechdel.



En el contexto de análisis de películas, las columnas domgross y intgross se refieren a los ingresos de taquilla en diferentes mercados:

- domgross: Hace referencia a los ingresos brutos en el mercado doméstico, es decir, los ingresos generados por la película en su país de origen, que normalmente sería Estados Unidos si estás analizando películas de Hollywood. "Dom" proviene de "domestic" (doméstico), y "gross" indica ingresos brutos, que es el total de dinero recaudado antes de descontar gastos como la distribución y la publicidad.

- intgross: Se refiere a los ingresos brutos internacionales, es decir, la cantidad de dinero que la película ha generado en mercados fuera de su país de origen. "Int" proviene de "international" (internacional). Este valor refleja los ingresos de taquilla obtenidos en otros países.

La razón por la cual tienes columnas como domgross e intgross por un lado, y domgross_2013$ e intgross_2013$ por otro, es que las segundas están ajustadas por inflación para hacer las cifras comparables en términos reales.

El problema con estas cifras es que no toman en cuenta la inflación. Una película que ganó $100 millones en 1990 no puede ser directamente comparada con una que ganó $100 millones en 2020, ya que el valor del dinero cambia con el tiempo.

- domgross_2013$ e intgross_2013$:

Estas columnas muestran los ingresos ajustados por inflación hasta el año 2013, lo que significa que los valores de las películas más antiguas han sido ajustados para reflejar lo que ese dinero valdría en 2013.
Por ejemplo, si una película de 1990 ganó $100 millones, esa cifra puede haber sido ajustada a $180 millones en dólares de 2013, porque la inflación hizo que el valor del dinero disminuyera con el tiempo.
El ajuste por inflación es útil para comparar el éxito financiero de películas de diferentes años de manera más justa.



In [2]:
# Abrimos csv con la información relativa al test de betchdel

df1 = pd.read_csv('files/movies_betchdel.csv', index_col=0)

df1.info()

# con el método info vemos que no hay muchos nulos en ninguna de las columnas.
# el tipo de dato parece correcto, datos numericos con int o float, y datos categoricos con de tipo object.

<class 'pandas.core.frame.DataFrame'>
Index: 1794 entries, 2013 to 1970
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   imdb            1794 non-null   object 
 1   title           1794 non-null   object 
 2   test            1794 non-null   object 
 3   clean_test      1794 non-null   object 
 4   binary          1794 non-null   object 
 5   budget          1794 non-null   int64  
 6   domgross        1777 non-null   float64
 7   intgross        1783 non-null   float64
 8   code            1794 non-null   object 
 9   budget_2013$    1794 non-null   int64  
 10  domgross_2013$  1776 non-null   float64
 11  intgross_2013$  1783 non-null   float64
 12  period code     1615 non-null   float64
 13  decade code     1615 non-null   float64
dtypes: float64(6), int64(2), object(6)
memory usage: 210.2+ KB


In [4]:
df1.describe(include=object)
# vemos que los identificadores imdb con identificadores unicos, el recuento de unique

Unnamed: 0,imdb,title,test,clean_test,binary,code
count,1794,1794,1794,1794,1794,1794
unique,1794,1768,10,5,2,85
top,tt1711425,Pride and Prejudice,ok,ok,FAIL,2009FAIL
freq,1,3,696,803,991,82


In [5]:
# Abrimos el csv que contiene información de las películas, pero no tiene información del test de Betchdel

df2 = pd.read_csv('files/clean_completo.csv')

df2.columns

Index(['adult', 'budget', 'id', 'imdb_id', 'original_language',
       'original_title', 'overview', 'popularity', 'release_date', 'revenue',
       'runtime', 'status', 'title', 'vote_average', 'vote_count',
       'belongs_to_collection_id', 'belongs_to_collection_name', 'genre_id',
       'genre_name', 'production_companies_id', 'production_companies_name',
       'country_code', 'country_name'],
      dtype='object')

In [13]:
df2[df2['title'] == 'Jumanji']

Unnamed: 0,adult,budget,id,imdb_id,original_language,original_title,overview,popularity,release_date,revenue,runtime,status,title,vote_average,vote_count,belongs_to_collection_id,belongs_to_collection_name,genre_id,genre_name,production_companies_id,production_companies_name,country_code,country_name
3,False,65000000,8844,tt0113497,English,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Released,Jumanji,6.9,2413.0,,,12,Adventure,559,TriStar Pictures,US,United States of America
4,False,65000000,8844,tt0113497,English,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Released,Jumanji,6.9,2413.0,,,12,Adventure,559,TriStar Pictures,CA,Canada
5,False,65000000,8844,tt0113497,English,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Released,Jumanji,6.9,2413.0,,,12,Adventure,559,TriStar Pictures,GB,United Kingdom
6,False,65000000,8844,tt0113497,English,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Released,Jumanji,6.9,2413.0,,,12,Adventure,559,TriStar Pictures,JP,Japan
7,False,65000000,8844,tt0113497,English,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Released,Jumanji,6.9,2413.0,,,12,Adventure,559,TriStar Pictures,FR,France
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67,False,65000000,8844,tt0113497,English,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Released,Jumanji,6.9,2413.0,,,10751,Family,10201,Interscope Communications,ES,Spain
68,False,65000000,8844,tt0113497,English,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Released,Jumanji,6.9,2413.0,,,10751,Family,10201,Interscope Communications,FR,France
69,False,65000000,8844,tt0113497,English,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Released,Jumanji,6.9,2413.0,,,10751,Family,10201,Interscope Communications,DE,Germany
70,False,65000000,8844,tt0113497,English,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,262797249.0,104.0,Released,Jumanji,6.9,2413.0,,,10751,Family,10201,Interscope Communications,PL,Poland


In [16]:
# unificamos los dos dataframes usando el elemento común que es imdb/imdb_id, para tener un csv con información más detallada
# de las películas que tienen índice de betchdel. 

df_merge = pd.merge(df1, df2, left_on='imdb', right_on='imdb_id')

In [17]:
df_merge.isnull().sum()

imdb                              0
title_x                           0
test                              0
clean_test                        0
binary                            0
budget_x                          0
domgross                        962
intgross                        422
code                              0
budget_2013$                      0
domgross_2013$                  962
intgross_2013$                  422
period code                   11488
decade code                   11488
adult                             0
budget_y                          0
id                                0
imdb_id                           0
original_language                 0
original_title                    0
overview                          0
popularity                        0
release_date                      0
revenue                           0
runtime                           0
status                            0
title_y                           0
vote_average                

In [18]:
# Eliminamos las columnas que tienen información redundante. 

df_merge.drop(columns=['title_y', 'imdb_id', 'budget_y'], inplace=True)

In [19]:
# modificamos el nombre de algunas columnas para que sea más claro. 
diccionario = {'title_x' : 'title', 'budget_x': 'budget'}

df_merge.rename(columns= diccionario, inplace=True)

In [20]:
df_merge.to_csv('files/film_betchdel_test.csv', index=False)