# Extraccion y transformacion de los datasets

### 1. Extraccion de los datos en dataframes

In [7]:
# Importo las librerias correspondientes
import pandas as pd
import ast
import json
import numpy as np

# Extraigo los datos del dataset
movies_df = pd.read_csv('../Datasets/movies_dataset.csv', low_memory=False)
credits_df = pd.read_csv('../Datasets/credits.csv', low_memory=False)

# Realizo el cambio de csv a parquet
movies_df.to_parquet('../Datasets/movies_dataset_parquet') 
credits_df.to_parquet('../Datasets/credits_dataset_parquet')

# Extraigo los datos del dataset en parquet
movies_df_parquet = pd.read_parquet('../Datasets/movies_dataset_parquet')
credits_df_parquet = pd.read_parquet('../Datasets/credits_dataset_parquet')


In [8]:
# Observo las columnas del dataframe movies_df_parquet
print(movies_df_parquet.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45466 non-null  object 
 1   belongs_to_collection  4494 non-null   object 
 2   budget                 45466 non-null  object 
 3   genres                 45466 non-null  object 
 4   homepage               7782 non-null   object 
 5   id                     45466 non-null  object 
 6   imdb_id                45449 non-null  object 
 7   original_language      45455 non-null  object 
 8   original_title         45466 non-null  object 
 9   overview               44512 non-null  object 
 10  popularity             45461 non-null  object 
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date           45379 non-null  object 
 15  re

In [9]:
# Observo los datos del dataframe movies_df_parquet
print(movies_df_parquet.head(1))

   adult                              belongs_to_collection    budget  \
0  False  {'id': 10194, 'name': 'Toy Story Collection', ...  30000000   

                                              genres  \
0  [{'id': 16, 'name': 'Animation'}, {'id': 35, '...   

                               homepage   id    imdb_id original_language  \
0  http://toystory.disney.com/toy-story  862  tt0114709                en   

  original_title                                           overview  ...  \
0      Toy Story  Led by Woody, Andy's toys live happily in his ...  ...   

  release_date      revenue runtime                          spoken_languages  \
0   1995-10-30  373554033.0    81.0  [{'iso_639_1': 'en', 'name': 'English'}]   

     status  tagline      title  video vote_average vote_count  
0  Released     None  Toy Story  False          7.7     5415.0  

[1 rows x 24 columns]


In [10]:
# observo los datos del dataframe credits_df_parquet
print(credits_df_parquet.head(1))        


                                                cast  \
0  [{'cast_id': 14, 'character': 'Woody (voice)',...   

                                                crew   id  
0  [{'credit_id': '52fe4284c3a36847f8024f49', 'de...  862  


In [11]:
# observo las columnas del dataframe credits_df_parquet
print(credits_df_parquet.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   cast    45476 non-null  object
 1   crew    45476 non-null  object
 2   id      45476 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 1.0+ MB
None


### 2. Eliminacion de columnas no utiles

In [12]:
# Elimino las columnas que no son utiles
movies_df_parquet = movies_df_parquet.drop(columns=['adult','homepage','imdb_id','poster_path','original_title','video'])

# Compruebo que se hayan eliminado de manera correcta las columnas
movies_df_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 18 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   belongs_to_collection  4494 non-null   object 
 1   budget                 45466 non-null  object 
 2   genres                 45466 non-null  object 
 3   id                     45466 non-null  object 
 4   original_language      45455 non-null  object 
 5   overview               44512 non-null  object 
 6   popularity             45461 non-null  object 
 7   production_companies   45463 non-null  object 
 8   production_countries   45463 non-null  object 
 9   release_date           45379 non-null  object 
 10  revenue                45460 non-null  float64
 11  runtime                45203 non-null  float64
 12  spoken_languages       45460 non-null  object 
 13  status                 45379 non-null  object 
 14  tagline                20412 non-null  object 
 15  ti

### 3. Limpieza de columnas con valores tipo Fecha

In [13]:
# Ordeno las fechas de la columna release_date en un formato AAAA-mm-dd
movies_df_parquet['release_date'] = pd.to_datetime(movies_df_parquet['release_date'], format ='%Y-%m-%d', errors= 'coerce')

# Creo una columna llamada release_year tomando el año de la fecha de estreno 

movies_df_parquet['release_year'] = movies_df_parquet['release_date'].dt.year

#compruebo los cambios y las agregaciones correspondientes

print(movies_df_parquet[['release_date', 'release_year']].head())
print(movies_df_parquet.info())

  release_date  release_year
0   1995-10-30        1995.0
1   1995-12-15        1995.0
2   1995-12-22        1995.0
3   1995-12-22        1995.0
4   1995-02-10        1995.0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 19 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   belongs_to_collection  4494 non-null   object        
 1   budget                 45466 non-null  object        
 2   genres                 45466 non-null  object        
 3   id                     45466 non-null  object        
 4   original_language      45455 non-null  object        
 5   overview               44512 non-null  object        
 6   popularity             45461 non-null  object        
 7   production_companies   45463 non-null  object        
 8   production_countries   45463 non-null  object        
 9   release_date           45376 non-null  datetime64[ns]
 10  reve

### 4. Eliminacion o modificacion de datos nulos

In [14]:
# Modifico los valores nulos del dataframe movies_df_parquet

movies_df_parquet['revenue'] = movies_df_parquet['revenue'].fillna(0)
movies_df_parquet['budget'] = movies_df_parquet['budget'].fillna(0)


# Elimino las filas con valores nulos de la columna release_date
movies_df_parquet = movies_df_parquet.dropna(subset=['release_date'])


In [15]:
# compruebo la limpieza de datos nulos

movies_df_parquet.isnull().sum()

belongs_to_collection    40888
budget                       0
genres                       0
id                           0
original_language           11
overview                   941
popularity                   0
production_companies         0
production_countries         0
release_date                 0
revenue                      0
runtime                    246
spoken_languages             0
status                      80
tagline                  24978
title                        0
vote_average                 0
vote_count                   0
release_year                 0
dtype: int64

### 5. Creacion de columnas calculadas

In [16]:
# Me aseguro que los datos de las columnas revenue y budget sean numericos

movies_df_parquet['revenue'] = pd.to_numeric(movies_df_parquet['revenue'], errors='coerce')
movies_df_parquet['budget'] = pd.to_numeric(movies_df_parquet['budget'], errors='coerce')

# Creo la columna 'return' la cual va a calcular el retorno de la inversion entre las columnas 'revenue' y 'budget' usando numpy

movies_df_parquet['return'] = np.where(
    # creo la condicion
    movies_df_parquet['budget'] > 0,
    # valor si la condicion es True
    movies_df_parquet['revenue']/movies_df_parquet['budget'],
    # valor si la condicion es False
    0
)

# guardo los datos en el dataset y compruebo los cambios y agregaciones correspondientes
print(movies_df_parquet [['revenue', 'budget', 'return']].head())
print(movies_df_parquet .info())

       revenue    budget     return
0  373554033.0  30000000  12.451801
1  262797249.0  65000000   4.043035
2          0.0         0   0.000000
3   81452156.0  16000000   5.090760
4   76578911.0         0   0.000000
<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 20 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   belongs_to_collection  4488 non-null   object        
 1   budget                 45376 non-null  int64         
 2   genres                 45376 non-null  object        
 3   id                     45376 non-null  object        
 4   original_language      45365 non-null  object        
 5   overview               44435 non-null  object        
 6   popularity             45376 non-null  object        
 7   production_companies   45376 non-null  object        
 8   production_countries   45376 non-null  object        
 9   release_date           453

### 6. Desanidado de Columnas del dataset movies

In [17]:
# Confirmo los tipos de datos que puedo encontrar dentro de la columna belongs_to_collection
movies_df_parquet ['belongs_to_collection'].head(1)

0    {'id': 10194, 'name': 'Toy Story Collection', ...
Name: belongs_to_collection, dtype: object

In [18]:
# Realizo una función para desanidar los diccionarios de la columna belongs_to_collection

def desanidar_belongs_to_collection(columna):
    """
    Desanida la columna 'belongs_to_collection' del DataFrame movies_df_parquet_modificado, extrayendo los valores
    de 'id' y 'name' de la columna 'belongs_to_collection' y creando nuevas columnas 'id_belongs_to_collection' y 
    'name_belongs_to_collection'.

    Parametros:
        columna: la columna 'belongs_to_collection' del DataFrame que contiene datos en formato diccionario.

    Retorna:
        Un DataFrame modificado con dos nuevas columnas:
            * 'id_belongs_to_collection': El id de la colección a la que pertenece la película.
            * 'name_belongs_to_collection': El nombre de la colección a la que pertenece la película.
    """

    if pd.isna(columna) or not isinstance(columna, str): 
        return None, None
    try:
        # Intento convertir el string en un diccionario

        columna_dict = ast.literal_eval(columna)

        # Me aseguro de que sea un diccionario antes de extraer los valores

        if isinstance(columna_dict, dict):
            return columna_dict.get('id', None), columna_dict.get('name', None)
        else:
            return None, None
        
    # tengo en cuenta los errores que pueden ocurrir 

    except (ValueError, SyntaxError):
        return None, None

# Aplico la función para extraer 'id' y 'name'
movies_df_parquet ['id_belongs_to_collection'], movies_df_parquet ['name_belongs_to_collection'] = zip(*movies_df_parquet ['belongs_to_collection'].apply(desanidar_belongs_to_collection))


In [19]:
# Verifico la existencia y el correcto guardado de las nuevas columnas

print(movies_df_parquet [['id_belongs_to_collection', 'name_belongs_to_collection']].head())
print(movies_df_parquet .info())

   id_belongs_to_collection      name_belongs_to_collection
0                   10194.0            Toy Story Collection
1                       NaN                            None
2                  119050.0       Grumpy Old Men Collection
3                       NaN                            None
4                   96871.0  Father of the Bride Collection
<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 22 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   belongs_to_collection       4488 non-null   object        
 1   budget                      45376 non-null  int64         
 2   genres                      45376 non-null  object        
 3   id                          45376 non-null  object        
 4   original_language           45365 non-null  object        
 5   overview                    44435 non-null  object        
 6   popularity         

In [20]:
# Confirmo los tipos de datos que puedo encontrar dentro de la columna production_companies
print(movies_df_parquet ['production_companies'].head(1))

0    [{'name': 'Pixar Animation Studios', 'id': 3}]
Name: production_companies, dtype: object


In [21]:
# Realizo una función para desanidar los diccionarios de la columna production_companies

def desanidar_production_companies(columna):
    """
    Desanida la columna 'production_companies', extrayendo los valores de 'id' y 'name' y creando
    nuevas columnas 'id_production_companies' y 'name_production_companies'.

    Parametros:
        columna: La columna 'production_companies' del DataFrame que contiene datos en formato lista de diccionarios.

    Retorna:
        Tuplas con 'id_production_companies' y 'name_production_companies'.
    """
    if pd.isna(columna) or not isinstance(columna, str):
        return None, None
    
    try:
        columna_list = ast.literal_eval(columna)
        if isinstance(columna_list, list) and len(columna_list) > 0:
            return columna_list[0].get('id', None), columna_list[0].get('name', None)
        else:
            return None, None
    except (ValueError, SyntaxError):
        return None, None

# Aplico la función para extraer las tuplas
movies_df_parquet ['id_production_companies'], movies_df_parquet ['name_production_companies'] = zip(*movies_df_parquet ['production_companies'].apply(desanidar_production_companies))


In [22]:
# Verifico la existencia y el correcto guardado de las nuevas columnas

print(movies_df_parquet [['id_production_companies', 'name_production_companies']].head())
print(movies_df_parquet .info())

   id_production_companies               name_production_companies
0                      3.0                 Pixar Animation Studios
1                    559.0                        TriStar Pictures
2                   6194.0                            Warner Bros.
3                    306.0  Twentieth Century Fox Film Corporation
4                   5842.0                   Sandollar Productions
<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   belongs_to_collection       4488 non-null   object        
 1   budget                      45376 non-null  int64         
 2   genres                      45376 non-null  object        
 3   id                          45376 non-null  object        
 4   original_language           45365 non-null  object        
 5   overview                    44435 non-nul

In [23]:
# Confirmo los tipos de datos que puedo encontrar dentro de la columna spoken_languages
print(movies_df_parquet ['spoken_languages'].head(1))

0    [{'iso_639_1': 'en', 'name': 'English'}]
Name: spoken_languages, dtype: object


In [24]:
# Realizo una función para desanidar los diccionarios de la columna spoken_languages

def desanidar_spoken_languages(columna):
    """
    Desanida la columna 'spoken_languages', extrayendo los valores de 'iso_639_1' y 'name' y creando
    nuevas columnas 'iso_spoken_language' y 'name_spoken_language'.

    Parametros:
        columna (pd.Series): Columna del DataFrame que contiene datos en formato lista de diccionarios.

    Retorna:
        Tuplas con 'iso_spoken_language' y 'name_spoken_language'.
    """
    if pd.isna(columna) or not isinstance(columna, str):
        return None, None
    
    try:
        columna_list = ast.literal_eval(columna)
        if isinstance(columna_list, list) and len(columna_list) > 0:
            return columna_list[0].get('iso_639_1', None), columna_list[0].get('name', None)
        else:
            return None, None
    except (ValueError, SyntaxError):
        return None, None

# Aplico la función
movies_df_parquet ['iso_spoken_language'], movies_df_parquet ['name_spoken_language'] = zip(*movies_df_parquet ['spoken_languages'].apply(desanidar_spoken_languages))

In [25]:
# Verifico la existencia y correcto guardado de las nuevas columnas
print(movies_df_parquet [['iso_spoken_language', 'name_spoken_language']].head())
print(movies_df_parquet .info())

  iso_spoken_language name_spoken_language
0                  en              English
1                  en              English
2                  en              English
3                  en              English
4                  en              English
<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 26 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   belongs_to_collection       4488 non-null   object        
 1   budget                      45376 non-null  int64         
 2   genres                      45376 non-null  object        
 3   id                          45376 non-null  object        
 4   original_language           45365 non-null  object        
 5   overview                    44435 non-null  object        
 6   popularity                  45376 non-null  object        
 7   production_companies        45376 non-null  object       

In [26]:
# Confirmo los tipos de datos que puedo encontrar dentro de la columna production_countries
print(movies_df_parquet ['production_countries'].head(1))

0    [{'iso_3166_1': 'US', 'name': 'United States o...
Name: production_countries, dtype: object


In [27]:
# Creo una función para desanidar los diccionarios de la columna production_countries

def desanidar_production_countries(columna):
    """
    Desanida la columna 'production_countries', extrayendo los valores de 'iso_3166_1' y 'name' y creando
    nuevas columnas 'iso_production_countries' y 'name_production_countries'.

    Parametros:
        columna: La Columna 'production_countries' del DataFrame que contiene datos en formato lista de diccionarios.

    Retorna:
        Tuplas con 'iso_country' y 'name_country'.
    """
    if pd.isna(columna) or not isinstance(columna, str):
        return None, None
    
    try:
        columna_list = ast.literal_eval(columna)
        if isinstance(columna_list, list) and len(columna_list) > 0:
            return columna_list[0].get('iso_3166_1', None), columna_list[0].get('name', None)
        else:
            return None, None
    except (ValueError, SyntaxError):
        return None, None

# Aplico la función
movies_df_parquet ['iso_production_countries'], movies_df_parquet ['name_production_countries'] = zip(*movies_df_parquet ['production_countries'].apply(desanidar_production_countries))

In [28]:
# Verifico la existencia y el correcto guardado de las nuevas columnas
print(movies_df_parquet [['iso_production_countries', 'name_production_countries']].head())
print(movies_df_parquet .info())



  iso_production_countries name_production_countries
0                       US  United States of America
1                       US  United States of America
2                       US  United States of America
3                       US  United States of America
4                       US  United States of America
<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 28 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   belongs_to_collection       4488 non-null   object        
 1   budget                      45376 non-null  int64         
 2   genres                      45376 non-null  object        
 3   id                          45376 non-null  object        
 4   original_language           45365 non-null  object        
 5   overview                    44435 non-null  object        
 6   popularity                  45376 non-null  object        
 7

In [29]:
# Confirmo los tipos de datos que puedo encontrar dentro de la columna genres
print(movies_df_parquet ['genres'].head(1))

0    [{'id': 16, 'name': 'Animation'}, {'id': 35, '...
Name: genres, dtype: object


In [30]:
# Creo una función para desanidar los diccionarios de la columna genres
def desanidar_genres(columna):
    """
    Desanida la columna 'genres', extrayendo el primer valor de 'id' y 'name' y creando
    nuevas columnas 'id_genre' y 'name_genre'.

    Parametros:
        columna: La Columna 'genres' del DataFrame que contiene datos en formato lista de diccionarios.

    Retorna:
        Tuplas con 'id_genre' y 'name_genre'.
    """
    if pd.isna(columna) or not isinstance(columna, str):
        return None, None
    
    try:
        columna_list = ast.literal_eval(columna)
        if isinstance(columna_list, list) and len(columna_list) > 0:
            return columna_list[0].get('id', None), columna_list[0].get('name', None)
        else:
            return None, None
    except (ValueError, SyntaxError):
        return None, None

# Aplico la función
movies_df_parquet ['id_genre'], movies_df_parquet ['name_genre'] = zip(*movies_df_parquet ['genres'].apply(desanidar_genres))

In [31]:
# Verifico la existencia de las nuevas columnas
print(movies_df_parquet [['iso_production_countries', 'name_production_countries']].head())
print(movies_df_parquet .info())


  iso_production_countries name_production_countries
0                       US  United States of America
1                       US  United States of America
2                       US  United States of America
3                       US  United States of America
4                       US  United States of America
<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 30 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   belongs_to_collection       4488 non-null   object        
 1   budget                      45376 non-null  int64         
 2   genres                      45376 non-null  object        
 3   id                          45376 non-null  object        
 4   original_language           45365 non-null  object        
 5   overview                    44435 non-null  object        
 6   popularity                  45376 non-null  object        
 7

### 7. Eliminacion de las columnas desanidadas

In [32]:
# Elimino las columnas desanidadas por que ya no van a tener ninguna relevancia
movies_df_parquet = movies_df_parquet.drop(columns=['belongs_to_collection','production_companies','production_countries','spoken_languages','genres'])

# Verifico que la eliminacion sea exitosa
print(movies_df_parquet .info())

<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   budget                      45376 non-null  int64         
 1   id                          45376 non-null  object        
 2   original_language           45365 non-null  object        
 3   overview                    44435 non-null  object        
 4   popularity                  45376 non-null  object        
 5   release_date                45376 non-null  datetime64[ns]
 6   revenue                     45376 non-null  float64       
 7   runtime                     45130 non-null  float64       
 8   status                      45296 non-null  object        
 9   tagline                     20398 non-null  object        
 10  title                       45376 non-null  object        
 11  vote_average                45376 non-null  float64       


### 8. Desanidado de Columnas del dataset credits

In [33]:
# Reviso las columnas y tipo de datos en credits_df_parquet
print(credits_df_parquet.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   cast    45476 non-null  object
 1   crew    45476 non-null  object
 2   id      45476 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 1.0+ MB
None


In [34]:
# Observo los tipos de datos que puedo encontrar dentro de la columna cast
print(credits_df_parquet['cast'].head(1))

0    [{'cast_id': 14, 'character': 'Woody (voice)',...
Name: cast, dtype: object


In [35]:
# Realizo una funcion para desanidar la columna cast

def desanidar_columna_cast(columna):
    """
    Desanida la columna 'cast' del DataFrame 'credits_df_parquet', que contiene información en listas de diccionarios.
    La función extrae los valores de 'id', 'name', 'character', 'gender', y 'profile_path' de la primera entrada en la lista 
    de cada fila y crea nuevas columnas en el DataFrame con estos valores.

    Parámetros:
        columna: Una columna del DataFrame que tiene una lista de diccionarios.

    Retorna:
        Una tupla con los valores extraídos: cast_id, character, credit_id, gender, id, name y order.
    """
    if pd.isna(columna) or not isinstance(columna, str):
        return None, None, None, None, None, None, None

    try:
        lista_dicts = ast.literal_eval(columna)

        if isinstance(lista_dicts, list) and lista_dicts and isinstance(lista_dicts[0], dict):
            # Extraigo los primeros valores de la lista para simplificar
            first_entry = lista_dicts[0]
            return (
                first_entry.get('cast_id', None),
                first_entry.get('character', None),
                first_entry.get('credit_id', None),
                first_entry.get('gender', None),
                first_entry.get('id', None),
                first_entry.get('name', None),
                first_entry.get('order', None),
            )
        else:
            return None, None, None, None, None, None, None
    except (ValueError, SyntaxError):
        return None, None, None, None, None, None, None

# Aplico la función para extraer 'cast_id', 'character', 'credit_id', 'gender', 'id', 'name' y 'order' de 'cast'
credits_df_parquet[['cast_id', 'cast_character', 'cast_credit_id', 'cast_gender', 'cast_id_actor', 'cast_name_actor', 'cast_order_credit']] = credits_df_parquet['cast'].apply(desanidar_columna_cast).apply(pd.Series)




In [36]:
# Verifico la existencia de las nuevas columnas
print(credits_df_parquet[['cast_id', 'cast_character', 'cast_credit_id', 'cast_gender', 'cast_id_actor', 'cast_name_actor', 'cast_order_credit']].head())
print(credits_df_parquet.info())

   cast_id             cast_character            cast_credit_id  cast_gender  \
0     14.0              Woody (voice)  52fe4284c3a36847f8024f95          2.0   
1      1.0               Alan Parrish  52fe44bfc3a36847f80a7c73          2.0   
2      2.0                Max Goldman  52fe466a9251416c75077a8d          2.0   
3      1.0  Savannah 'Vannah' Jackson  52fe44779251416c91011aad          1.0   
4      1.0               George Banks  52fe44959251416c75039eb9          2.0   

   cast_id_actor  cast_name_actor  cast_order_credit  
0           31.0        Tom Hanks                0.0  
1         2157.0   Robin Williams                0.0  
2         6837.0   Walter Matthau                0.0  
3         8851.0  Whitney Houston                0.0  
4        67773.0     Steve Martin                0.0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------

In [37]:
# Confirmo los tipos de datos que puedo encontrar dentro de la columna cast
print(credits_df_parquet['crew'].head(1))

0    [{'credit_id': '52fe4284c3a36847f8024f49', 'de...
Name: crew, dtype: object


In [38]:
# Realizo una funcion para desanidar la columna crew

def desanidar_columna_crew(columna):
    """
    Desanida la columna 'crew' del DataFrame 'credits_df_parquet', que contiene información en listas de diccionarios.
    La función extrae los valores de 'credit_id', 'department', 'gender', 'id', 'job', 'name', y 'profile_path' 
    de la primera entrada en la lista de cada fila y crea nuevas columnas en el DataFrame con estos valores.

    Parámetros:
        columna: Una columna del DataFrame que tiene una lista de diccionarios.

    Retorna:
        Una tupla con los valores extraídos: credit_id, department, gender, id, job, name y profile_path.
    """
    if pd.isna(columna) or not isinstance(columna, str):
        return None, None, None, None, None, None, None

    try:
        lista_dicts = ast.literal_eval(columna)

        if isinstance(lista_dicts, list) and lista_dicts and isinstance(lista_dicts[0], dict):
            # Extraigo los primeros valores de la lista para simplificar
            first_entry = lista_dicts[0]
            return (
                first_entry.get('credit_id', None),
                first_entry.get('department', None),
                first_entry.get('gender', None),
                first_entry.get('id', None),
                first_entry.get('job', None),
                first_entry.get('name', None),
                first_entry.get('profile_path', None),
            )
        else:
            return None, None, None, None, None, None, None
    except (ValueError, SyntaxError):
        return None, None, None, None, None, None, None

# Aplico la función para extraer 'credit_id', 'department', 'gender', 'id', 'job', 'name' y 'profile_path' de 'crew'
credits_df_parquet[['crew_credit_id', 'crew_department', 'crew_gender', 'crew_id_member', 'crew_job', 'crew_name_member', 'crew_profile_path_member']] = credits_df_parquet['crew'].apply(desanidar_columna_crew).apply(pd.Series)



In [39]:
# Verifico las primeras filas con las nuevas columnas

print(credits_df_parquet[['crew_credit_id', 'crew_department', 'crew_gender', 'crew_id_member', 'crew_job', 'crew_name_member', 'crew_profile_path_member']].head())
print(credits_df_parquet.info())

             crew_credit_id crew_department  crew_gender  crew_id_member  \
0  52fe4284c3a36847f8024f49       Directing          2.0          7879.0   
1  52fe44bfc3a36847f80a7cd1      Production          2.0           511.0   
2  52fe466a9251416c75077a89       Directing          2.0         26502.0   
3  52fe44779251416c91011acb       Directing          2.0          2178.0   
4  52fe44959251416c75039ed7           Sound          2.0            37.0   

                  crew_job crew_name_member          crew_profile_path_member  
0                 Director    John Lasseter  /7EdqiNbr4FRjIhKHyPPdFfEEEFG.jpg  
1       Executive Producer  Larry J. Franco                              None  
2                 Director    Howard Deutch  /68Vae1HkU1NxQZ6KEmuxIpno7c9.jpg  
3                 Director  Forest Whitaker  /4pMQkelS5lK661m9Kz3oIxLYiyS.jpg  
4  Original Music Composer   Alan Silvestri  /chEsfnDEtRmv1bfOaNAoVEzhCc6.jpg  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries

In [40]:
# Elimino las columnas desanidadas
credits_df_parquet = credits_df_parquet.drop(columns=['cast','crew'])

# Verifico la eliminacion exitosa
print(credits_df_parquet.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 15 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id                        45476 non-null  int64  
 1   cast_id                   43058 non-null  float64
 2   cast_character            43058 non-null  object 
 3   cast_credit_id            43058 non-null  object 
 4   cast_gender               43058 non-null  float64
 5   cast_id_actor             43058 non-null  float64
 6   cast_name_actor           43058 non-null  object 
 7   cast_order_credit         43058 non-null  float64
 8   crew_credit_id            44705 non-null  object 
 9   crew_department           44705 non-null  object 
 10  crew_gender               44705 non-null  float64
 11  crew_id_member            44705 non-null  float64
 12  crew_job                  44705 non-null  object 
 13  crew_name_member          44705 non-null  object 
 14  crew_p

### 9. Ordenamiento de las columnas finales del dataset

In [41]:
# Cambio el nombre de la columna id por id_credits para no crear confusion
credits_df_parquet.rename(columns={'id': 'id_credits'}, inplace=True)

# Cambio el nombre de la columna id por id_movies para no crear confusion
movies_df_parquet.rename(columns={'id': 'id_movies'}, inplace=True)

In [42]:
# reviso que las columnas de movies_df_parquet esten en el formato correcto
print(movies_df_parquet.info())


<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   budget                      45376 non-null  int64         
 1   id_movies                   45376 non-null  object        
 2   original_language           45365 non-null  object        
 3   overview                    44435 non-null  object        
 4   popularity                  45376 non-null  object        
 5   release_date                45376 non-null  datetime64[ns]
 6   revenue                     45376 non-null  float64       
 7   runtime                     45130 non-null  float64       
 8   status                      45296 non-null  object        
 9   tagline                     20398 non-null  object        
 10  title                       45376 non-null  object        
 11  vote_average                45376 non-null  float64       


In [43]:
# Modifico el tipo de dato de algunas columnas
movies_df_parquet['id_movies'] = movies_df_parquet['id_movies'].astype('int64', errors='ignore')
movies_df_parquet['popularity'] = movies_df_parquet['popularity'].astype('float64', errors='ignore')
movies_df_parquet['popularity'] = movies_df_parquet['popularity'].round(2)  # Limitar a 2 decimales

In [44]:
# reviso que se haya realizado el cambio
print(movies_df_parquet.info())

<class 'pandas.core.frame.DataFrame'>
Index: 45376 entries, 0 to 45465
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   budget                      45376 non-null  int64         
 1   id_movies                   45376 non-null  int64         
 2   original_language           45365 non-null  object        
 3   overview                    44435 non-null  object        
 4   popularity                  45376 non-null  float64       
 5   release_date                45376 non-null  datetime64[ns]
 6   revenue                     45376 non-null  float64       
 7   runtime                     45130 non-null  float64       
 8   status                      45296 non-null  object        
 9   tagline                     20398 non-null  object        
 10  title                       45376 non-null  object        
 11  vote_average                45376 non-null  float64       


In [45]:
# reviso que las columnas de credits_df_parquet esten en el formato correcto
print(credits_df_parquet.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 15 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id_credits                45476 non-null  int64  
 1   cast_id                   43058 non-null  float64
 2   cast_character            43058 non-null  object 
 3   cast_credit_id            43058 non-null  object 
 4   cast_gender               43058 non-null  float64
 5   cast_id_actor             43058 non-null  float64
 6   cast_name_actor           43058 non-null  object 
 7   cast_order_credit         43058 non-null  float64
 8   crew_credit_id            44705 non-null  object 
 9   crew_department           44705 non-null  object 
 10  crew_gender               44705 non-null  float64
 11  crew_id_member            44705 non-null  float64
 12  crew_job                  44705 non-null  object 
 13  crew_name_member          44705 non-null  object 
 14  crew_p

In [46]:
# Modifico los tipos de datos necesarios
credits_df_parquet['id_credits'] = credits_df_parquet['id_credits'].astype('int64', errors='ignore')


In [47]:
# reviso que las columnas de credits_df_parquet esten en el formato correcto
print(credits_df_parquet.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 15 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   id_credits                45476 non-null  int64  
 1   cast_id                   43058 non-null  float64
 2   cast_character            43058 non-null  object 
 3   cast_credit_id            43058 non-null  object 
 4   cast_gender               43058 non-null  float64
 5   cast_id_actor             43058 non-null  float64
 6   cast_name_actor           43058 non-null  object 
 7   cast_order_credit         43058 non-null  float64
 8   crew_credit_id            44705 non-null  object 
 9   crew_department           44705 non-null  object 
 10  crew_gender               44705 non-null  float64
 11  crew_id_member            44705 non-null  float64
 12  crew_job                  44705 non-null  object 
 13  crew_name_member          44705 non-null  object 
 14  crew_p

### 10. Revision de datos nulos con las nuevas columnas

In [48]:
# compruebo los datos nulos en movies_df_parquet
movies_df_parquet.isnull().sum()

budget                            0
id_movies                         0
original_language                11
overview                        941
popularity                        0
release_date                      0
revenue                           0
runtime                         246
status                           80
tagline                       24978
title                             0
vote_average                      0
vote_count                        0
release_year                      0
return                            0
id_belongs_to_collection      40888
name_belongs_to_collection    40888
id_production_companies       11796
name_production_companies     11796
iso_spoken_language            3768
name_spoken_language           3768
iso_production_countries       6211
name_production_countries      6211
id_genre                       2384
name_genre                     2384
dtype: int64

In [49]:
# Modifico los datos nulos necesarios
movies_df_parquet['name_genre'] = movies_df_parquet['name_genre'].fillna('Genero no especificado')
movies_df_parquet['name_spoken_language'] = movies_df_parquet['name_spoken_language'].fillna('No Language')
movies_df_parquet['iso_spoken_language'] = movies_df_parquet['iso_spoken_language'].fillna('xx')
movies_df_parquet['id_genre'] = movies_df_parquet['id_genre'].fillna(0)

In [50]:
# compruebo que los cambios realizados sobre los datos nulos de las columnas de movies_df_parquet se hayan realizado
movies_df_parquet.isnull().sum()

budget                            0
id_movies                         0
original_language                11
overview                        941
popularity                        0
release_date                      0
revenue                           0
runtime                         246
status                           80
tagline                       24978
title                             0
vote_average                      0
vote_count                        0
release_year                      0
return                            0
id_belongs_to_collection      40888
name_belongs_to_collection    40888
id_production_companies       11796
name_production_companies     11796
iso_spoken_language               0
name_spoken_language              0
iso_production_countries       6211
name_production_countries      6211
id_genre                          0
name_genre                        0
dtype: int64

In [51]:
# compruebo los datos nulos en el dataframe de credits_df_parquet
credits_df_parquet.isnull().sum()

id_credits                      0
cast_id                      2418
cast_character               2418
cast_credit_id               2418
cast_gender                  2418
cast_id_actor                2418
cast_name_actor              2418
cast_order_credit            2418
crew_credit_id                771
crew_department               771
crew_gender                   771
crew_id_member                771
crew_job                      771
crew_name_member              771
crew_profile_path_member    24011
dtype: int64

In [52]:
# Modifico los valores nulos del dataframe credits_df_parquet
credits_df_parquet['cast_gender'] = credits_df_parquet['cast_gender'].fillna(0)
credits_df_parquet['crew_gender'] = credits_df_parquet['crew_gender'].fillna(0)


In [53]:
# comprobacion de los cambios realizados sobre los datos nulos de las columnas de credits_df_parquet
credits_df_parquet.isnull().sum()

id_credits                      0
cast_id                      2418
cast_character               2418
cast_credit_id               2418
cast_gender                     0
cast_id_actor                2418
cast_name_actor              2418
cast_order_credit            2418
crew_credit_id                771
crew_department               771
crew_gender                     0
crew_id_member                771
crew_job                      771
crew_name_member              771
crew_profile_path_member    24011
dtype: int64

#### No se realiza ningun cambio sobre los valores de tipo float para realizar una revision de los datos nulos en el EDA conservando los datos numericos

### 10. Eliminacion de datos duplicados

In [54]:
# Tomo la columna id_movies para realizar la eliminacion de los duplicados ya que los id son unicos por pelicula

print(movies_df_parquet['id_movies'].duplicated(keep=False).sum())

# Cuento la frecuencia de cada 'id_movies'
frecuencia_id = movies_df_parquet['id_movies'].value_counts()

# Filtro solo los 'id_movies' que se repiten
id_repetidos = frecuencia_id[frecuencia_id > 1]

print("\n'id_movies' repetidos:")
print(id_repetidos)
print(movies_df_parquet.shape)


59

'id_movies' repetidos:
id_movies
141971    3
97995     2
10991     2
109962    2
119916    2
159849    2
84198     2
132641    2
168538    2
99080     2
18440     2
12600     2
5511      2
105045    2
14788     2
22649     2
15028     2
152795    2
11115     2
298721    2
13209     2
23305     2
110428    2
77221     2
42495     2
25541     2
265189    2
4912      2
69234     2
Name: count, dtype: int64
(45376, 25)


In [55]:
# Elimino las filas duplicadas basadas en la columna 'id_movies', manteniendo la primera aparicion

movies_df_parquet = movies_df_parquet.drop_duplicates(subset='id_movies', keep='first') # movies_df_parquet sin duplicados
print(movies_df_parquet.shape)

(45346, 25)


In [56]:
# Tomo la columna id_credits para realizar la eliminacion de los duplicados ya que los id son unicos por pelicula

print(credits_df_parquet['id_credits'].duplicated(keep=False).sum())

# Cuento la frecuencia de cada 'id_credits'
frecuencia_id = credits_df_parquet['id_credits'].value_counts()

# Filtro solo los 'id_credits' que se repiten
id_repetidos = frecuencia_id[frecuencia_id > 1]

print("\n'id_credits' repetidos:")
print(id_repetidos)
print(credits_df_parquet.shape)


87

'id_credits' repetidos:
id_credits
141971    3
298721    2
9755      2
10991     2
99080     2
152795    2
22649     2
18440     2
5511      2
132641    2
105045    2
159849    2
187156    2
43629     2
8767      2
123634    2
157301    2
4912      2
142563    2
42495     2
11752     2
84198     2
24026     2
110428    2
24023     2
199591    2
125458    2
3057      2
116723    2
23305     2
97995     2
168538    2
12600     2
14788     2
69234     2
13209     2
15028     2
109962    2
265189    2
25541     2
119916    2
11115     2
77221     2
Name: count, dtype: int64
(45476, 15)


In [57]:
# Elimino las filas duplicadas basadas en la columna 'id_credits', manteniendo la primera aparicion

credits_df_parquet = credits_df_parquet.drop_duplicates(subset='id_credits', keep='first') # credits_df_parquet sin duplicados
print(credits_df_parquet.shape)

(45432, 15)


# Eliminacion de filas por lenguaje para optimizacion del dataset

In [58]:
movies_df_parquet['original_language'].unique()

array(['en', 'fr', 'zh', 'it', 'fa', 'nl', 'de', 'cn', 'ar', 'es', 'ru',
       'sv', 'ja', 'ko', 'sr', 'bn', 'he', 'pt', 'wo', 'ro', 'hu', 'cy',
       'vi', 'cs', 'da', 'no', 'nb', 'pl', 'el', 'sh', 'xx', 'mk', 'bo',
       'ca', 'fi', 'th', 'sk', 'bs', 'hi', 'tr', 'is', 'ps', 'ab', 'eo',
       'ka', 'mn', 'bm', 'zu', 'uk', 'af', 'la', 'et', 'ku', 'fy', 'lv',
       'ta', 'sl', 'tl', 'ur', 'rw', 'id', 'bg', 'mr', 'lt', 'kk', 'ms',
       'sq', None, 'qu', 'te', 'am', 'jv', 'tg', 'ml', 'hr', 'lo', 'ay',
       'kn', 'eu', 'ne', 'pa', 'ky', 'gl', 'uz', 'sm', 'mt', 'hy', 'iu',
       'lb', 'si'], dtype=object)

In [59]:
# Observar el tamaño del dataset antes de la optimizacion
movies_df_parquet.shape

(45346, 25)

In [60]:
# Definicion de los idiomas a mantener
idiomas_permitidos = ['en', 'es']

# Filtrar el DataFrame para mantener solo las filas donde el idioma este en la lista de idiomas permitidos
movies_df_parquet = movies_df_parquet[movies_df_parquet['original_language'].isin(idiomas_permitidos)]

# Verificar los resultados
print(movies_df_parquet['original_language'].unique())

# Observar el tamaño del dataset despues de la optimizacion
print(movies_df_parquet.shape)

['en' 'es']
(33176, 25)


In [61]:
# Observo el tamaño del dataset antes de la optimizacion
credits_df_parquet.shape

(45432, 15)

In [62]:
# Filtro el DataFrame de credits para que contenga solo los ids que están en movies
credits_df_parquet = credits_df_parquet[credits_df_parquet['id_credits'].isin(movies_df_parquet['id_movies'])]

# Verifico el resultado
print(credits_df_parquet.shape)

(33175, 15)


In [63]:
# Guardo los cambios realizados en el dataset
movies_df_parquet.to_parquet('../Datasets/movies_dataset_parquet', index=False)
credits_df_parquet.to_parquet('../Datasets/credits_dataset_parquet', index=False)