# Proyecto Individual n°1

## Machine Learning Operations (MLOps)

### Proyecto ETL - Fase de Transformación

En esta fase del proyecto, se lleva a cabo la transformación de los datos del dataset "movies_datset.csv" y "credits.csv" para su posterior uso en las consultas de la API.

Este proyecto consiste en el desarrollo de una API para la gestión de información de películas.
La limpieza de datos se llevará a cabo aplicando una serie de transformaciones, como desanidar campos anidados, rellenar valores nulos, eliminar registros con datos faltantes, formatear fechas y calcular el retorno de inversión. Estas transformaciones permitirán que los datos estén listos para su uso posterior en consultas y análisis.

## Tabla de contenido:
- Uso
- Dependencias
- Transformaciones realizadas
- Contribuciones

### Uso
Para este proceso de ETL se utilizaron los conjuntos de datos "movies_dataset" y "credits" en formato CSV.

### Dependencias
Este proyecto requiere las siguientes dependencias de Python:
- pandas: Biblioteca para el manejo y análisis de datos.
- numpy: Biblioteca para operaciones matemáticas y manipulación de matrices.

### Transformaciones realizadas: de "movies_datset.csv"
Se realizarán las siguientes transformaciones a los datos planteadas en "Consignas_PI.md":

1. Eliminación de columnas no utilizadas: Se eliminarán las columnas que no serán utilizadas en el análisis, incluyendo video, imdb_id, adult, original_title, poster_path y homepage.

2. Eliminación de valores nulos: Los registros con valores nulos en el campo release_date serán eliminados.

3. Relleno de valores nulos: Los campos revenue y budget que tengan valores nulos serán rellenados con el número 0.

4. Cálculo del retorno de inversión: Se creará una columna llamada return que calculará el retorno de inversión dividiendo los campos revenue y budget. Si no hay datos disponibles para calcularlo, se tomará el valor 0.

5. Eliminación de valores nulos: Los registros con valores nulos en el campo release_date serán eliminados.

6. Formato de fecha: Las fechas en el campo release_date deberán tener el formato AAAA-mm-dd. Además, se creará una nueva columna llamada release_year para extraer el año de la fecha de estreno.

7. Desanidar campos anidados: Algunos campos, como belongs_to_collection, production_companies y otros, están anidados y contienen diccionarios o listas como valores en cada fila. Estos campos se desanidarán para que puedan ser unidos al conjunto de datos principal o accedidos directamente para consultas de la API.

### Transformaciones realizadas: de "credits.csv"

Se realizaran estas y otras transformaciones necesarias en ambos datasets.
Para simplificar el registro de posibles errores se generan copias y modifica el dataframe por cada paso necesario.  

### Contribuciones
Las contribuciones a este proyecto son bienvenidas.



In [None]:
# Instalación de las librerias necesarias
import pandas as pd
import numpy as np
import ast
from ast import literal_eval
# Librerias para el archivo "credits.csv"
import json


Se procede a cargar y limpiar el dataset "movies_dataset.csv"

In [None]:
# Cargar el archivo .csv en el dataframe
dfA = pd.read_csv('movies_dataset.csv', low_memory=False)

In [None]:
# Se observa el contenido del dataframe
dfA.info()
# Cuenta con 45466 filas × 24 columnas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45466 non-null  object 
 1   belongs_to_collection  4494 non-null   object 
 2   budget                 45466 non-null  object 
 3   genres                 45466 non-null  object 
 4   homepage               7782 non-null   object 
 5   id                     45466 non-null  object 
 6   imdb_id                45449 non-null  object 
 7   original_language      45455 non-null  object 
 8   original_title         45466 non-null  object 
 9   overview               44512 non-null  object 
 10  popularity             45461 non-null  object 
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date           45379 non-null  object 
 15  re

In [None]:
#Revisión de los primeros 3 elementos del dataframe
dfA.head(3)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0


Consigna:
1. Eliminación de columnas no utilizadas: Se eliminarán las columnas que no serán utilizadas en el análisis, incluyendo:  video, imdb_id, adult, original_title, poster_path y homepage.

In [None]:
# Eliminar las 6 columnas que no serán utilizadas
dfB = dfA.copy()
dfB2= dfB[['video', 'imdb_id', 'adult', 'original_title', 'poster_path', 'homepage']]
dfB.drop(columns=dfB2, inplace=True)
dfB.info() #quedan 18 columnas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 18 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   belongs_to_collection  4494 non-null   object 
 1   budget                 45466 non-null  object 
 2   genres                 45466 non-null  object 
 3   id                     45466 non-null  object 
 4   original_language      45455 non-null  object 
 5   overview               44512 non-null  object 
 6   popularity             45461 non-null  object 
 7   production_companies   45463 non-null  object 
 8   production_countries   45463 non-null  object 
 9   release_date           45379 non-null  object 
 10  revenue                45460 non-null  float64
 11  runtime                45203 non-null  float64
 12  spoken_languages       45460 non-null  object 
 13  status                 45379 non-null  object 
 14  tagline                20412 non-null  object 
 15  ti

Consigna:

2. Eliminación de valores nulos: Los registros con valores nulos en el campo release_date serán eliminados.

In [None]:
# Contar los valores nulos en la columna 'release_date'
nulos = dfB['release_date'].isnull().sum()

# Imprimir el número de valores nulos
print("Número de valores nulos en la columna 'release_date':", nulos)

Número de valores nulos en la columna 'release_date': 87


In [None]:
# Eliminar las filas con valores nulos en la columna 'release_date'
dfC = dfB.copy()
dfC.dropna(subset=['release_date'], inplace=True)

In [None]:
# Contar los valores nulos en la columna 'release_date'
nulos = dfC['release_date'].isnull().sum()

# Imprimir el número de valores nulos
print("Número de valores nulos en la columna 'release_date':", nulos)

Número de valores nulos en la columna 'release_date': 0


Consigna:

3. Relleno de valores nulos: Los campos revenue y budget que tengan valores nulos serán rellenados con el número 0.

In [None]:
# Contar los valores nulos en las columnas 'budget' y 'revenue'
nulos = dfC[['budget', 'revenue']].isnull().sum()

# Imprimir el número de valores nulos
print(nulos)
# tenemos 0 en budget y 3 en revenue

budget     0
revenue    3
dtype: int64


In [None]:
# Reemplazar los valores nulos por cero en la columna 'budget'
dfC['budget'].fillna(0, inplace=True)
dfC['revenue'].fillna(0, inplace=True)

In [None]:
# Contar los valores nulos en las columnas 'budget' y 'revenue'
nulos = dfC[['budget', 'revenue']].isnull().sum()

# Imprimir el número de valores nulos
print(nulos)
# ahora tenemos 0 valores nulos en ambas columnas

budget     0
revenue    0
dtype: int64


Consigna:

4. Cálculo del retorno de inversión: Se creará una columna llamada "return" que calculará el retorno de inversión dividiendo los campos "revenue" y "budget". Si no hay datos disponibles para calcularlo, se tomará el valor 0.

In [None]:
# Se procede a obtener los tipos de variables en las columnas 'budget' y 'revenue'
tipo_budget = dfC['budget'].dtype
tipo_revenue = dfC['revenue'].dtype

# Imprimir los tipos de variables
print("Tipo de variable en 'budget':", tipo_budget)
print("Tipo de variable en 'revenue':", tipo_revenue)

Tipo de variable en 'budget': object
Tipo de variable en 'revenue': float64


In [None]:
# Para poder operar entre columnas, es necesario que sean el mismo tipo de dato
# Se convierte la columna 'budget' a tipo numérico (float) y asigna los valores no válidos como NaN
dfC['budget'] = pd.to_numeric(dfC['budget'], errors='coerce')


In [None]:
# Se crea la columna 'return' calculando la división: 'revenue' / 'budget' y asignando el valor 0 en casos de valores nulos o no numéricos
dfC['return'] = dfC['revenue'] / dfC['budget']
dfC['return'] = dfC['return'].fillna(value=0)
dfC['return'].replace([np.inf, -np.inf], 0, inplace=True)

In [None]:
# Podemos revisar las 3 primeras filas despues de estas modificaciones
dfC.head(3)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,return
0,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000.0,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",862,en,"Led by Woody, Andy's toys live happily in his ...",21.946943,"[{'name': 'Pixar Animation Studios', 'id': 3}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,7.7,5415.0,12.451801
1,,65000000.0,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",8844,en,When siblings Judy and Peter discover an encha...,17.015539,"[{'name': 'TriStar Pictures', 'id': 559}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,6.9,2413.0,4.043035
2,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0.0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",15602,en,A family wedding reignites the ancient feud be...,11.7129,"[{'name': 'Warner Bros.', 'id': 6194}, {'name'...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,6.5,92.0,0.0


In [None]:
# Si revisamos el primer valor (primera celda): 'revenue' / 'budget'  = return
373554033.0 / 30000000.0  # en este caso: 12.451801

12.4518011

In [None]:
# Contar los valores igual a 0 en la columna 'return'
ceros = dfC['return'].value_counts()[0]

# Imprimir el número de valores 0 en 'return'
print("Número de valores igual a 0 en 'return':", ceros)

Número de valores igual a 0 en 'return': 39998


In [None]:
# Contar los valores igual a 0 en la columna 'budget'
ceros = dfC['budget'].value_counts()[0]

# Imprimir el número de valores 0 en 'budget'
print("Número de valores igual a 0 en 'budegt':", ceros)

Número de valores igual a 0 en 'budegt': 36490


Consigna:

5. Eliminación de valores nulos: Los registros con valores nulos en el campo release_date serán eliminados.

In [None]:
# Contar los valores nulos en la columna 'release_date'
nulos = dfC['release_date'].isnull().sum()

# Imprimir el número de valores nulos
print("Número de valores nulos en 'release_date':", nulos)

Número de valores nulos en 'release_date': 0


In [None]:
# Contar los valores igual a 0 en la columna 'release_date'
ceros = dfC['release_date'].value_counts()[0]

# Imprimir el número de valores 0
print("Número de valores igual a 0 en 'release_date':", ceros)

Número de valores igual a 0 en 'release_date': 136


Podemos notar que el dataframe en la columna "release_date" no tiene nulos, y posee 136 ceros

In [None]:
# Para eliminar los valores nulos de la columna 'release_date' se puede aplicar dropna
dfD = dfC.copy()
dfD.dropna(subset=['release_date'], inplace=True)

Consigna:

6. Formato de fecha: Las fechas en el campo "release_date" deberán tener el formato AAAA-mm-dd. Además, se creará una nueva columna llamada "release_year" para extraer el año de la fecha de estreno.

In [None]:
# Se realiza una copia del df con los cambios hasta el momento
dfE = dfD.copy()

# Convertir la columna 'release_date' a tipo datetime con formato AAAA-mm-dd
dfE['release_date'] = pd.to_datetime(dfE['release_date'], format='%Y-%m-%d', errors='coerce')

# Imprimir el DataFrame actualizado
dfE.info()
# Ahora la columna "release_date" tiene el formato: datetime64[ns]

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45379 entries, 0 to 45465
Data columns (total 19 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   belongs_to_collection  4491 non-null   object        
 1   budget                 45376 non-null  float64       
 2   genres                 45379 non-null  object        
 3   id                     45379 non-null  object        
 4   original_language      45368 non-null  object        
 5   overview               44438 non-null  object        
 6   popularity             45377 non-null  object        
 7   production_companies   45379 non-null  object        
 8   production_countries   45379 non-null  object        
 9   release_date           45376 non-null  datetime64[ns]
 10  revenue                45379 non-null  float64       
 11  runtime                45130 non-null  float64       
 12  spoken_languages       45376 non-null  object        
 13  s

In [None]:
# Contar los valores nulos en la columna 'release_date'
nulos = dfE['release_date'].isnull().sum()

# Imprimir el número de valores nulos
print("Número de valores nulos en 'release_date':", nulos)

Número de valores nulos en 'release_date': 3


In [None]:
# Eliminar los valores nulos de la columna 'release_date' (consigna 2)
dfF = dfE.copy()
dfF.dropna(subset=['release_date'], inplace=True)

In [None]:
# Se revisan los valores nulos en la columna
nulos = dfF['release_date'].isnull().sum()

# Imprimir el número de valores nulos
print("Número de valores nulos en 'release_date':", nulos)

Número de valores nulos en 'release_date': 0


In [None]:
# Se revisan los valores de la nueva columna
# Por ejemplo se puede revisar la frecuencia de valores en la columna 'release_date'
frecuencia_valores = dfF['release_date'].value_counts()

# Imprimir la frecuencia de valores
print(frecuencia_valores)

2008-01-01    136
2009-01-01    121
2007-01-01    118
2005-01-01    111
2006-01-01    101
             ... 
1957-09-26      1
1938-11-21      1
1936-08-19      1
2010-01-27      1
1917-10-21      1
Name: release_date, Length: 17333, dtype: int64


Se creará una nueva columna llamada release_year para extraer el año de la fecha de estreno.

In [None]:
dfG = dfF.copy()

# Crear la columna 'release_year' con los valores de los años
dfG['release_year'] = dfG['release_date'].dt.year


In [None]:
dfG.info() # Podemos ver que se creo la columna con los años

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45376 entries, 0 to 45465
Data columns (total 20 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   belongs_to_collection  4488 non-null   object        
 1   budget                 45376 non-null  float64       
 2   genres                 45376 non-null  object        
 3   id                     45376 non-null  object        
 4   original_language      45365 non-null  object        
 5   overview               44435 non-null  object        
 6   popularity             45376 non-null  object        
 7   production_companies   45376 non-null  object        
 8   production_countries   45376 non-null  object        
 9   release_date           45376 non-null  datetime64[ns]
 10  revenue                45376 non-null  float64       
 11  runtime                45130 non-null  float64       
 12  spoken_languages       45376 non-null  object        
 13  s

In [None]:
# Podemos visualizar algunos de estos datos
dfG.sample(3)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,return,release_year
20956,,0.0,"[{'id': 18, 'name': 'Drama'}, {'id': 35, 'name...",27861,ru,Georgian bush pilot Valentin (Valiko) Mizandar...,1.479568,"[{'name': 'Mosfilm', 'id': 5120}, {'name': 'Qa...","[{'iso_3166_1': 'GE', 'name': 'Georgia'}, {'is...",1977-06-06,0.0,92.0,"[{'iso_639_1': 'hy', 'name': ''}, {'iso_639_1'...",Released,,Mimino,7.6,16.0,0.0,1977
32307,"{'id': 357173, 'name': 'Sinister Collection', ...",10000000.0,"[{'id': 27, 'name': 'Horror'}]",283445,en,A young mother and her twin sons move into a r...,17.602928,"[{'name': 'Alliance Films', 'id': 2514}, {'nam...","[{'iso_3166_1': 'US', 'name': 'United States o...",2015-08-19,52882018.0,97.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,"Be careful, children at play.",Sinister 2,5.5,605.0,5.288202,2015
14836,,0.0,"[{'id': 18, 'name': 'Drama'}, {'id': 10769, 'n...",55522,fi,"With few options, newly pardoned convict Leila...",0.570175,[],[],2009-04-03,0.0,74.0,"[{'iso_639_1': 'fi', 'name': 'suomi'}]",Released,,Letters to Father Jacob,6.8,8.0,0.0,2009


Consigna:

7. Desanidar campos anidados: Algunos campos, como "belongs_to_collection", "production_companies" y otros, están anidados y contienen diccionarios o listas como valores en cada fila. Estos campos se desanidarán para que puedan ser unidos al conjunto de datos principal o accedidos directamente para consultas de la API.

Según el diccionario:
- belongs_to_collection: Un diccionario que indica a que franquicia o serie de películas pertenece la película
- genres: Un diccionario que indica todos los géneros asociados a la película
- production_companies - Lista con las compañias productoras asociadas a la película
- production_countries - Lista con los países donde se produjo la película
- spoken_languages - Lista con los idiomas que se hablan en la pelicula

In [None]:
# BELONGS_TO_COLECTION:

# Revisar el contenido de una celdam en este caso "belongs_to_colection"
contenido = dfG.iloc[4, dfG.columns.get_loc("belongs_to_collection")]
print(contenido)

{'id': 96871, 'name': 'Father of the Bride Collection', 'poster_path': '/nts4iOmNnq7GNicycMJ9pSAn204.jpg', 'backdrop_path': '/7qwE57OVZmMJChBpLEbJEmzUydk.jpg'}


In [None]:
dfH= dfG.copy()

# Función para desanidar la columna 'belongs_to_collection'
def parse_dict(text):
    try:
        return ast.literal_eval(text)
    except (ValueError, SyntaxError):
        return {}

# Desanidar la columna 'belongs_to_collection'
dfH['belongs_to_collection'] = dfH['belongs_to_collection'].apply(parse_dict)

# Crear columnas adicionales para cada clave del diccionario - se agrega "a" para identificar las columnas que proceden de columnas anidadas
dfH[['collection_id_a', 'collection_name_a', 'collection_poster_path_a', 'collection_backdrop_path_a']] = pd.DataFrame(dfH['belongs_to_collection'].tolist(), index=dfH.index)



In [None]:
dfH.info() # Podemos notar que se crearon las columnas indicadas previamente

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45376 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   belongs_to_collection       45376 non-null  object        
 1   budget                      45376 non-null  float64       
 2   genres                      45376 non-null  object        
 3   id                          45376 non-null  object        
 4   original_language           45365 non-null  object        
 5   overview                    44435 non-null  object        
 6   popularity                  45376 non-null  object        
 7   production_companies        45376 non-null  object        
 8   production_countries        45376 non-null  object        
 9   release_date                45376 non-null  datetime64[ns]
 10  revenue                     45376 non-null  float64       
 11  runtime                     45130 non-null  float64   

In [None]:
# Podemos ver el contenido de las primeras 3 filas en estas nuevas columnas creadas
dfH.head(3)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,...,tagline,title,vote_average,vote_count,return,release_year,collection_id_a,collection_name_a,collection_poster_path_a,collection_backdrop_path_a
0,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000.0,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",862,en,"Led by Woody, Andy's toys live happily in his ...",21.946943,"[{'name': 'Pixar Animation Studios', 'id': 3}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-10-30,...,,Toy Story,7.7,5415.0,12.451801,1995,10194.0,Toy Story Collection,/7G9915LfUQ2lVfwMEEhDsn3kT4B.jpg,/9FBwqcd9IRruEDUrTdcaafOMKUq.jpg
1,{},65000000.0,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",8844,en,When siblings Judy and Peter discover an encha...,17.015539,"[{'name': 'TriStar Pictures', 'id': 559}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-15,...,Roll the dice and unleash the excitement!,Jumanji,6.9,2413.0,4.043035,1995,,,,
2,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0.0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",15602,en,A family wedding reignites the ancient feud be...,11.7129,"[{'name': 'Warner Bros.', 'id': 6194}, {'name'...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-22,...,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,6.5,92.0,0.0,1995,119050.0,Grumpy Old Men Collection,/nLvUdqgPgm3F85NMCii9gVFUcet.jpg,/hypTnLot2z8wpFS7qwsQHW1uV8u.jpg


In [None]:
# De forma análoga para GENRES

dfI = dfH.copy()

#Revisar el contenido de una celda
contenido = dfI.iloc[10, dfI.columns.get_loc("genres")]
contenido2 = dfI.iloc[5, dfI.columns.get_loc("genres")]
print(contenido)
print(contenido2) # vemos que contiene cantidades variables de "id" y "name"

[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'name': 'Drama'}, {'id': 10749, 'name': 'Romance'}]
[{'id': 28, 'name': 'Action'}, {'id': 80, 'name': 'Crime'}, {'id': 18, 'name': 'Drama'}, {'id': 53, 'name': 'Thriller'}]


In [None]:
# Crear columnas vacías para almacenar los valores desanidados
dfI['id_a'] = ''
dfI['name_a'] = ''

# Iterar sobre cada fila del DataFrame
for index, row in dfI.iterrows():
    genres_str = row['genres']  # Obtener la cadena de géneros para la fila actual

    # Convertir la cadena en una lista de diccionarios
    try:
        genres_list = ast.literal_eval(genres_str)
    except (ValueError, SyntaxError):
        genres_list = []

    ids = []
    names = []

    # Iterar sobre cada diccionario de género en la lista
    for genre in genres_list:
        ids.append(str(genre['id']))  # Agregar el 'id' del género a la lista 'ids'
        names.append(genre['name'])  # Agregar el 'name' del género a la lista 'names'

    # Unir los valores de 'ids' y 'names' separados por ","
    id_str = ','.join(ids)
    name_str = ','.join(names)

    # Asignar los valores desanidados de "id" y "name" a las columnas correspondientes
    dfI.at[index, 'id_a'] = id_str
    dfI.at[index, 'name_a'] = name_str


In [None]:
# Se visualiza que se crearon las columnas solicitadas
dfI.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45376 entries, 0 to 45465
Data columns (total 26 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   belongs_to_collection       45376 non-null  object        
 1   budget                      45376 non-null  float64       
 2   genres                      45376 non-null  object        
 3   id                          45376 non-null  object        
 4   original_language           45365 non-null  object        
 5   overview                    44435 non-null  object        
 6   popularity                  45376 non-null  object        
 7   production_companies        45376 non-null  object        
 8   production_countries        45376 non-null  object        
 9   release_date                45376 non-null  datetime64[ns]
 10  revenue                     45376 non-null  float64       
 11  runtime                     45130 non-null  float64   

In [None]:
# Podemos visualizar los últimos 3 valores de las columnas nuevas
dfI.tail(3)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,...,vote_average,vote_count,return,release_year,collection_id_a,collection_name_a,collection_poster_path_a,collection_backdrop_path_a,id_a,name_a
45463,{},0.0,"[{'id': 28, 'name': 'Action'}, {'id': 18, 'nam...",67758,en,"When one of her hits goes wrong, a professiona...",0.903007,"[{'name': 'American World Pictures', 'id': 6165}]","[{'iso_3166_1': 'US', 'name': 'United States o...",2003-08-01,...,3.8,6.0,0.0,2003,,,,,281853.0,"Action,Drama,Thriller"
45464,{},0.0,[],227506,en,"In a small town live two brothers, one a minis...",0.003503,"[{'name': 'Yermoliev', 'id': 88753}]","[{'iso_3166_1': 'RU', 'name': 'Russia'}]",1917-10-21,...,0.0,0.0,0.0,1917,,,,,,
45465,{},0.0,[],461257,en,50 years after decriminalisation of homosexual...,0.163015,[],"[{'iso_3166_1': 'GB', 'name': 'United Kingdom'}]",2017-06-09,...,0.0,0.0,0.0,2017,,,,,,


Luego se procede a desanidar las listas:

- production_companies - Lista con las compañias productoras asociadas a la película
- production_countries - Lista con los países donde se produjo la película
- spoken_languages - Lista con los idiomas que se hablan en la pelicula

In [None]:
# PRODUCTION_COMPANIES

contenido = dfI.iloc[15, dfI.columns.get_loc("production_companies")]
contenido2 = dfI.iloc[5, dfI.columns.get_loc("production_companies")]
print(contenido)
print(contenido2)
# Nuevamente tenemos cantidades variables de información

[{'name': 'Universal Pictures', 'id': 33}, {'name': 'Légende Entreprises', 'id': 10898}, {'name': 'Syalis DA', 'id': 11583}, {'name': 'De Fina-Cappa', 'id': 11584}]
[{'name': 'Regency Enterprises', 'id': 508}, {'name': 'Forward Pass', 'id': 675}, {'name': 'Warner Bros.', 'id': 6194}]


In [None]:
dfJ = dfI.copy()

# Nuevamente se crean columnas vacías para almacenar los valores desanidados
dfJ['production_companies_name_a'] = ''
dfJ['production_companies_id_a'] = ''

# Iterar sobre cada fila del DataFrame
for index, row in dfJ.iterrows():
    production_str = row['production_companies']  # Obtener la cadena de compañías de producción para la fila actual

    # Convertir la cadena en una lista de diccionarios
    try:
        prod_list = ast.literal_eval(production_str)
    except (ValueError, SyntaxError):
        prod_list = []

    names_a = []
    id_a = []

    # Iterar sobre cada diccionario de compañía de producción en la lista
    for production_company in prod_list:
        names_a.append(production_company['name'])  # Agregar el 'name' de la compañía a la lista 'names_a'
        id_a.append(str(production_company['id']))  # Agregar el 'id' de la compañía a la lista 'id_a'

    # Unir los valores de 'names_a' e 'id_a' separados por ","
    names_str = ','.join(names_a)
    ids_str = ','.join(id_a)

    # Asignar los valores desanidados a las columnas correspondientes
    dfJ.at[index, 'production_companies_name_a'] = names_str
    dfJ.at[index, 'production_companies_id_a'] = ids_str


In [None]:
dfJ.info()
# Se crearon las columnas necesarias

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45376 entries, 0 to 45465
Data columns (total 28 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   belongs_to_collection        45376 non-null  object        
 1   budget                       45376 non-null  float64       
 2   genres                       45376 non-null  object        
 3   id                           45376 non-null  object        
 4   original_language            45365 non-null  object        
 5   overview                     44435 non-null  object        
 6   popularity                   45376 non-null  object        
 7   production_companies         45376 non-null  object        
 8   production_countries         45376 non-null  object        
 9   release_date                 45376 non-null  datetime64[ns]
 10  revenue                      45376 non-null  float64       
 11  runtime                      45130 non-nu

In [None]:
# Revisamos 3 valores aleatorios del dataset
dfJ.sample(3)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,...,return,release_year,collection_id_a,collection_name_a,collection_poster_path_a,collection_backdrop_path_a,id_a,name_a,production_companies_name_a,production_companies_id_a
31209,{},0.0,"[{'id': 18, 'name': 'Drama'}, {'id': 53, 'name...",192644,en,A musician with hyper-sensitive hearing goes i...,1.319479,[],[],2012-06-01,...,0.0,2012,,,,,1853,"Drama,Thriller",,
30799,{},0.0,"[{'id': 18, 'name': 'Drama'}]",310569,pt,After leaving her daughter Jessica in a small ...,5.458754,"[{'name': 'Gullane Entretenimento S.A.', 'id':...","[{'iso_3166_1': 'BR', 'name': 'Brazil'}]",2015-02-08,...,0.0,2015,,,,,18,Drama,"Gullane Entretenimento S.A.,África Filmes",4461547462.0
3108,{},0.0,"[{'id': 10402, 'name': 'Music'}]",123277,en,Hellhounds On My Trail is a tribute to the inf...,0.008917,[],[],2000-02-28,...,0.0,2000,,,,,10402,Music,,


In [None]:
# Revisamos el contenido de "production_countries"
contenido = dfJ.iloc[15, dfJ.columns.get_loc("production_countries")]
contenido2 = dfJ.iloc[25, dfJ.columns.get_loc("production_countries")]
print(contenido)
print(contenido2)

# Hay cantidades variables de información en cada celda

[{'iso_3166_1': 'FR', 'name': 'France'}, {'iso_3166_1': 'US', 'name': 'United States of America'}]
[{'iso_3166_1': 'IT', 'name': 'Italy'}]


#### Nota:
**'iso_3166_1':**
Es la primera parte del estándar internacional de normalización ISO 3166, publicado por la Organización Internacional de Normalización (ISO), que proporciona códigos para los nombres de países y otras dependencias administrativas. La norma ISO 3166 se publicó por primera vez en 1974 por la Organización Internacional para la Normalización (ISO), y se amplió a tres partes en 1997, de las cuales esta primera parte se corresponde con la parte única anterior.

ISO 3166-1 se ha convertido en uno de los estándares mundiales más conocidos y ampliamente utilizados para la codificación de nombres de países. El uso de un código de letras y/o números para representar el nombre de un país puede ayudar a ahorrar tiempo y energía, y reducir la tasa de error.

In [None]:
# PRODUCTION_COUNTRIES

dfK = dfJ.copy()
dfK['production_countries_iso_a'] = ''
dfK['production_countries_name_a'] = ''

# Iterar sobre cada fila del DataFrame
for index, row in dfK.iterrows():
    production_countries_str = row['production_countries']  # Obtener la cadena de países de producción para la fila actual

    # Convertir la cadena en una lista de diccionarios
    try:
        prod_c_list = ast.literal_eval(production_countries_str)
    except (ValueError, SyntaxError):
        prod_c_list = []

    iso_a = []
    countries_names_a = []

    # Iterar sobre cada diccionario de países de producción en la lista
    for production_country in prod_c_list:
        iso_a.append(production_country['iso_3166_1'])  # Agregar el 'iso' del país a la lista 'iso_a'
        countries_names_a.append(production_country['name'])  # Agregar el 'name' del país a la lista 'countries_names_a'

    # Unir los valores de 'iso_a' y 'countries_names_a' separados por ","
    iso_str = ','.join(iso_a)
    names_str = ','.join(countries_names_a)

    # Asignar los valores desanidados a las columnas correspondientes
    dfK.at[index, 'production_countries_iso_a'] = iso_str
    dfK.at[index, 'production_countries_name_a'] = names_str


In [None]:
# Revisamos la creación de nuevas columnas en el dataframe
dfK.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45376 entries, 0 to 45465
Data columns (total 30 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   belongs_to_collection        45376 non-null  object        
 1   budget                       45376 non-null  float64       
 2   genres                       45376 non-null  object        
 3   id                           45376 non-null  object        
 4   original_language            45365 non-null  object        
 5   overview                     44435 non-null  object        
 6   popularity                   45376 non-null  object        
 7   production_companies         45376 non-null  object        
 8   production_countries         45376 non-null  object        
 9   release_date                 45376 non-null  datetime64[ns]
 10  revenue                      45376 non-null  float64       
 11  runtime                      45130 non-nu

In [None]:
# Revisión de 5 filas del df
dfK.sample(5)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,...,collection_id_a,collection_name_a,collection_poster_path_a,collection_backdrop_path_a,id_a,name_a,production_companies_name_a,production_companies_id_a,production_countries_iso_a,production_countries_name_a
29907,"{'id': 306926, 'name': 'Monsters Collection', ...",0.0,"[{'id': 53, 'name': 'Thriller'}, {'id': 18, 'n...",145221,en,"Seven years on from the events of Monsters, an...",12.648061,"[{'name': 'International Traders', 'id': 6408}...","[{'iso_3166_1': 'GB', 'name': 'United Kingdom'}]",2014-10-09,...,306926.0,Monsters Collection,/64tYLixu5g9W3l4u9mTHnhbVYlz.jpg,/2k8KXYTcqxkKpq7lBZFMJ4zjBUF.jpg,5318878,"Thriller,Drama,Science Fiction","International Traders,Between The Eyes,Vertigo...",6408901610393,GB,United Kingdom
27255,{},0.0,"[{'id': 53, 'name': 'Thriller'}, {'id': 18, 'n...",28490,en,I Died a Thousand Times is essentially a remak...,4.929826,"[{'name': 'Warner Bros.', 'id': 6194}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1955-11-09,...,,,,,531880,"Thriller,Drama,Crime",Warner Bros.,6194,US,United States of America
37840,{},0.0,"[{'id': 18, 'name': 'Drama'}]",110299,en,A woman who believes she has been chosen by Go...,0.689068,"[{'name': 'Madera Productions', 'id': 14838}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1961-05-14,...,,,,,18,Drama,Madera Productions,14838,US,United States of America
40668,{},0.0,"[{'id': 27, 'name': 'Horror'}, {'id': 53, 'nam...",245627,en,A reporter unearths an urban legend about a ho...,4.541007,"[{'name': 'Radical Pictures', 'id': 7882}, {'n...","[{'iso_3166_1': 'US', 'name': 'United States o...",2016-12-08,...,,,,,2753,"Horror,Thriller","Radical Pictures,Dark Web Productions,Les Enfa...",788283067830688306983070,US,United States of America
11257,{},30000000.0,"[{'id': 12, 'name': 'Adventure'}, {'id': 35, '...",7512,en,To test its top-secret Human Hibernation Proje...,12.130803,[{'name': 'Twentieth Century Fox Film Corporat...,"[{'iso_3166_1': 'US', 'name': 'United States o...",2006-09-01,...,,,,,1235878,"Adventure,Comedy,Science Fiction","Twentieth Century Fox Film Corporation,Ternion...",30620992,US,United States of America


In [None]:
# Revisión de "spoken_lenguages"
contenido = dfK.iloc[5, dfK.columns.get_loc("spoken_languages")]
contenido2 = dfK.iloc[35, dfK.columns.get_loc("spoken_languages")]
print(contenido)
print(contenido2)

# Nuevamente hay cantidad variable de información

[{'iso_639_1': 'en', 'name': 'English'}, {'iso_639_1': 'es', 'name': 'Español'}]
[{'iso_639_1': 'en', 'name': 'English'}]


#### Nota:

ISO 639-1 es la primera parte del código ISO 639. Consiste en 184 códigos de dos letras usados para identificar los principales idiomas del mundo. Estos códigos son una taquigrafía internacional muy útil para indicar idiomas.

In [None]:
# SPOCKEN_LANGUAGES: de forma análoga a lo previamente aplicado
dfL = dfK.copy()
def extract_languages(row):
    languages_str = row['spoken_languages']

    try:
        language_list = ast.literal_eval(languages_str)
    except (ValueError, SyntaxError):
        language_list = []

    iso_l_a = []
    name_l_a = []

    for spoken_languages in language_list:
        iso_l_a.append(spoken_languages['iso_639_1'])
        name_l_a.append(spoken_languages['name'])

    row['spoken_language_iso_a'] = ','.join(iso_l_a)
    row['spoken_language_name_a'] = ','.join(name_l_a)

    return row

dfL[['spoken_language_iso_a', 'spoken_language_name_a']] = dfL.apply(extract_languages, axis=1)[['spoken_language_iso_a', 'spoken_language_name_a']]

In [None]:
# Revisión del nuevo dataframe
dfL.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45376 entries, 0 to 45465
Data columns (total 32 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   belongs_to_collection        45376 non-null  object        
 1   budget                       45376 non-null  float64       
 2   genres                       45376 non-null  object        
 3   id                           45376 non-null  object        
 4   original_language            45365 non-null  object        
 5   overview                     44435 non-null  object        
 6   popularity                   45376 non-null  object        
 7   production_companies         45376 non-null  object        
 8   production_countries         45376 non-null  object        
 9   release_date                 45376 non-null  datetime64[ns]
 10  revenue                      45376 non-null  float64       
 11  runtime                      45130 non-nu

In [None]:
# Visualización de las primeras 3 filas
dfL.head(3)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,...,collection_poster_path_a,collection_backdrop_path_a,id_a,name_a,production_companies_name_a,production_companies_id_a,production_countries_iso_a,production_countries_name_a,spoken_language_iso_a,spoken_language_name_a
0,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000.0,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",862,en,"Led by Woody, Andy's toys live happily in his ...",21.946943,"[{'name': 'Pixar Animation Studios', 'id': 3}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-10-30,...,/7G9915LfUQ2lVfwMEEhDsn3kT4B.jpg,/9FBwqcd9IRruEDUrTdcaafOMKUq.jpg,163510751,"Animation,Comedy,Family",Pixar Animation Studios,3,US,United States of America,en,English
1,{},65000000.0,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",8844,en,When siblings Judy and Peter discover an encha...,17.015539,"[{'name': 'TriStar Pictures', 'id': 559}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-15,...,,,121410751,"Adventure,Fantasy,Family","TriStar Pictures,Teitler Film,Interscope Commu...",559255010201,US,United States of America,"en,fr","English,Français"
2,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0.0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",15602,en,A family wedding reignites the ancient feud be...,11.7129,"[{'name': 'Warner Bros.', 'id': 6194}, {'name'...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-22,...,/nLvUdqgPgm3F85NMCii9gVFUcet.jpg,/hypTnLot2z8wpFS7qwsQHW1uV8u.jpg,1074935,"Romance,Comedy","Warner Bros.,Lancaster Gate",619419464,US,United States of America,en,English


In [None]:
# Visualizar los datos (opcional)
dfL.head(2)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,...,collection_poster_path_a,collection_backdrop_path_a,id_a,name_a,production_companies_name_a,production_companies_id_a,production_countries_iso_a,production_countries_name_a,spoken_language_iso_a,spoken_language_name_a
0,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000.0,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",862,en,"Led by Woody, Andy's toys live happily in his ...",21.946943,"[{'name': 'Pixar Animation Studios', 'id': 3}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-10-30,...,/7G9915LfUQ2lVfwMEEhDsn3kT4B.jpg,/9FBwqcd9IRruEDUrTdcaafOMKUq.jpg,163510751,"Animation,Comedy,Family",Pixar Animation Studios,3,US,United States of America,en,English
1,{},65000000.0,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",8844,en,When siblings Judy and Peter discover an encha...,17.015539,"[{'name': 'TriStar Pictures', 'id': 559}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-15,...,,,121410751,"Adventure,Fantasy,Family","TriStar Pictures,Teitler Film,Interscope Commu...",559255010201,US,United States of America,"en,fr","English,Français"


In [None]:
# Para poder unir los df eventualemente, previamente es necesario convertir la columna "id" de dfL a tipo object
dfL["id"] = dfL["id"].astype(float)

## --------------------------------------------------------------------
### Credits. csv

Se procede a desanidar las columnas y seleccionar aquellas que serán necesarias desde el archivo "credits.csv"

In [None]:
# Carga del archivo y revisión del mismo
df1 = pd.read_csv("credits.csv", low_memory=False)
print(df1.shape) # contiene 45476 filas y 3 columnas: cast, crew, id
df1.sample(3)

(45476, 3)


Unnamed: 0,cast,crew,id
7190,"[{'cast_id': 3, 'character': 'Narrator (voice)...","[{'credit_id': '52fe46249251416c9104a9ed', 'de...",37044
36088,"[{'cast_id': 1, 'character': 'Eyal Goldman', '...","[{'credit_id': '52fe4bb1c3a36847f820fbb5', 'de...",117316
19936,"[{'cast_id': 0, 'character': 'Barbara Olmstead...","[{'credit_id': '5372244fc3a3684366001102', 'de...",259292


In [None]:
# Evaluación de vacios del DataFrame
df1.isna().sum() # no contiene vacíos

cast    0
crew    0
id      0
dtype: int64

Será necesario para el trabajo futuro:
* Obtener el nombre de los actores de la columna "cast"
* Obtener el nombre del director de la columna "crew"

In [None]:
# CAST

# Se crea una columna "cast_eval" con los datos obtenidos de "cast"
df1["cast_eval"] = df1["cast"].apply(lambda x: ast.literal_eval(x))


In [None]:
# Se crea un df "cast_df" con la información de las columnas "id", "cast_eval"
cast_df = df1[["id","cast_eval"]].explode("cast_eval").reset_index(drop=True)
print(cast_df.shape) # este df cuenta con 564892 filas y 2 columnas
cast_df.sample(3)

(564892, 2)


Unnamed: 0,id,cast_eval
438555,50341,"{'cast_id': 7, 'character': '', 'credit_id': '..."
19363,38554,"{'cast_id': 45, 'character': 'Information Boot..."
3106,11980,"{'cast_id': 9, 'character': 'Gabriel', 'credit..."


In [None]:
# Agregar columnas normalizadas al df "cast_df"
cast_df = pd.concat([cast_df, pd.json_normalize(cast_df["cast_eval"])], axis=1).rename(columns={"id":"id_cast"})
print(cast_df.shape) #  Tine 564892 filas y 10 columnas
cast_df.sample(3)

(564892, 10)


Unnamed: 0,id_cast,cast_eval,cast_id,character,credit_id,gender,id_cast.1,name,order,profile_path
304857,5686,"{'cast_id': 13, 'character': 'Ivy', 'credit_id...",13.0,Ivy,544696fc0e0a26633d00b68f,0.0,65103.0,Linda Lee Cadwell,7.0,/yvl7es5vcJmzjPdS6K04SoY7VkT.jpg
72894,21056,"{'cast_id': 1, 'character': 'Henry Hart', 'cre...",1.0,Henry Hart,52fe440ac3a368484e00bf55,2.0,72028.0,Arye Gross,0.0,/ha4ziYlBSBBHs88ltnamOKLZ084.jpg
497353,85327,"{'cast_id': 13, 'character': '', 'credit_id': ...",13.0,,57abecefc3a368230b003dc8,0.0,84762.0,Kathryn Walker,11.0,/4e6tEWOmxQ1aIwsUlp6fXdTCoxr.jpg


In [None]:
# CREW

# De forma análoga se crea la columna "crew_eval" con los datos de "crew"
df1["crew_eval"] = df1["crew"].apply(lambda x: ast.literal_eval(x))

In [None]:
# Se crea el df "crew_df" y se normalizan los datos
crew_df = df1[["id","crew"]].explode("crew").reset_index(drop=True)
crew_df = pd.concat([crew_df, pd.json_normalize(crew_df["crew"])],axis=1).rename(columns={"id":"id_crew"})
print(crew_df.shape)
crew_df.sample(3)

(45476, 2)


Unnamed: 0,id_crew,crew
5290,27451,"[{'credit_id': '52fe454bc3a368484e051df1', 'de..."
10793,12096,"[{'credit_id': '5628186ac3a368487d00002a', 'de..."
5537,70443,"[{'credit_id': '52fe47f8c3a368484e0e353b', 'de..."


In [None]:
df1["crew_size"] = df1["crew_eval"].apply(len)
df1["cast_size"] = df1["cast_eval"].apply(len)

In [None]:
df1.sample(3)

Unnamed: 0,cast,crew,id,cast_eval,crew_eval,crew_size,cast_size
27477,"[{'cast_id': 1, 'character': 'Perry Mason', 'c...","[{'credit_id': '52fe4912c3a368484e119035', 'de...",75770,"[{'cast_id': 1, 'character': 'Perry Mason', 'c...","[{'credit_id': '52fe4912c3a368484e119035', 'de...",9,20
21616,"[{'cast_id': 5, 'character': 'Himself', 'credi...","[{'credit_id': '52fe496bc3a36847f819933d', 'de...",58607,"[{'cast_id': 5, 'character': 'Himself', 'credi...","[{'credit_id': '52fe496bc3a36847f819933d', 'de...",4,1
24711,"[{'cast_id': 2, 'character': 'Jack Ryan', 'cre...","[{'credit_id': '52fe46cbc3a368484e0a4355', 'de...",64160,"[{'cast_id': 2, 'character': 'Jack Ryan', 'cre...","[{'credit_id': '52fe46cbc3a368484e0a4355', 'de...",2,3


In [None]:
# Podemos evaluar el contenido de algunas celdas de la columna "crew_eval"
contenido1 = df1.iloc[3, df1.columns.get_loc("crew_eval")]
print(contenido1)

[{'credit_id': '52fe44779251416c91011acb', 'department': 'Directing', 'gender': 2, 'id': 2178, 'job': 'Director', 'name': 'Forest Whitaker', 'profile_path': '/4pMQkelS5lK661m9Kz3oIxLYiyS.jpg'}, {'credit_id': '52fe44779251416c91011ae1', 'department': 'Writing', 'gender': 0, 'id': 5144, 'job': 'Screenplay', 'name': 'Ronald Bass', 'profile_path': None}, {'credit_id': '52fe44779251416c91011ae7', 'department': 'Production', 'gender': 0, 'id': 5144, 'job': 'Producer', 'name': 'Ronald Bass', 'profile_path': None}, {'credit_id': '52fe44779251416c91011aff', 'department': 'Production', 'gender': 2, 'id': 21968, 'job': 'Producer', 'name': 'Ezra Swerdlow', 'profile_path': None}, {'credit_id': '52fe44779251416c91011af9', 'department': 'Production', 'gender': 1, 'id': 70592, 'job': 'Producer', 'name': 'Deborah Schindler', 'profile_path': '/2vFzdHxcB8cEtvPlNSs2VGZ7WG3.jpg'}, {'credit_id': '52fe44779251416c91011adb', 'department': 'Writing', 'gender': 0, 'id': 111118, 'job': 'Screenplay', 'name': 'Ter

In [None]:
df2=df1.copy()
df2= pd.DataFrame(df2)

In [None]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   cast       45476 non-null  object
 1   crew       45476 non-null  object
 2   id         45476 non-null  int64 
 3   cast_eval  45476 non-null  object
 4   crew_eval  45476 non-null  object
 5   crew_size  45476 non-null  int64 
 6   cast_size  45476 non-null  int64 
dtypes: int64(3), object(4)
memory usage: 2.4+ MB


In [None]:
# Crear una nueva columna llamada "Name_actors" con los nombres de los actores separados por comas
df2['Name_actors'] = df2['cast'].apply(lambda x: ', '.join([actor['name'] for actor in eval(x)]))

In [None]:
# Reviso nuevamente las modificaciones realizadas
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   cast         45476 non-null  object
 1   crew         45476 non-null  object
 2   id           45476 non-null  int64 
 3   cast_eval    45476 non-null  object
 4   crew_eval    45476 non-null  object
 5   crew_size    45476 non-null  int64 
 6   cast_size    45476 non-null  int64 
 7   Name_actors  45476 non-null  object
dtypes: int64(3), object(5)
memory usage: 2.8+ MB


In [None]:
# Podemos ver las columnas de las 3 primeras filas
df2.head(3)

Unnamed: 0,cast,crew,id,cast_eval,crew_eval,crew_size,cast_size,Name_actors
0,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",862,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",106,13,"Tom Hanks, Tim Allen, Don Rickles, Jim Varney,..."
1,"[{'cast_id': 1, 'character': 'Alan Parrish', '...","[{'credit_id': '52fe44bfc3a36847f80a7cd1', 'de...",8844,"[{'cast_id': 1, 'character': 'Alan Parrish', '...","[{'credit_id': '52fe44bfc3a36847f80a7cd1', 'de...",16,26,"Robin Williams, Jonathan Hyde, Kirsten Dunst, ..."
2,"[{'cast_id': 2, 'character': 'Max Goldman', 'c...","[{'credit_id': '52fe466a9251416c75077a89', 'de...",15602,"[{'cast_id': 2, 'character': 'Max Goldman', 'c...","[{'credit_id': '52fe466a9251416c75077a89', 'de...",4,7,"Walter Matthau, Jack Lemmon, Ann-Margret, Soph..."


In [None]:
# Si revisamos el contenido de la celda 3 podemos ver que se encuentran los actores separados por ","
contenido = df2.iloc[3, df2.columns.get_loc("Name_actors")]
print(contenido)

Whitney Houston, Angela Bassett, Loretta Devine, Lela Rochon, Gregory Hines, Dennis Haysbert, Michael Beach, Mykelti Williamson, Lamont Johnson, Wesley Snipes


In [None]:
# DIRECTOR

df3= df2.copy()

In [None]:
# Crear una nueva columna llamada "Names_crew" con los nombres de los actores separados por comas
df3['Names_crew'] = df3['crew'].apply(lambda x: ', '.join([director['name'] for director in eval(x)]))


In [None]:
df3.head(3)

Unnamed: 0,cast,crew,id,cast_eval,crew_eval,crew_size,cast_size,Name_actors,Names_crew
0,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",862,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",106,13,"Tom Hanks, Tim Allen, Don Rickles, Jim Varney,...","John Lasseter, Joss Whedon, Andrew Stanton, Jo..."
1,"[{'cast_id': 1, 'character': 'Alan Parrish', '...","[{'credit_id': '52fe44bfc3a36847f80a7cd1', 'de...",8844,"[{'cast_id': 1, 'character': 'Alan Parrish', '...","[{'credit_id': '52fe44bfc3a36847f80a7cd1', 'de...",16,26,"Robin Williams, Jonathan Hyde, Kirsten Dunst, ...","Larry J. Franco, Jonathan Hensleigh, James Hor..."
2,"[{'cast_id': 2, 'character': 'Max Goldman', 'c...","[{'credit_id': '52fe466a9251416c75077a89', 'de...",15602,"[{'cast_id': 2, 'character': 'Max Goldman', 'c...","[{'credit_id': '52fe466a9251416c75077a89', 'de...",4,7,"Walter Matthau, Jack Lemmon, Ann-Margret, Soph...","Howard Deutch, Mark Steven Johnson, Mark Steve..."


In [None]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   cast         45476 non-null  object
 1   crew         45476 non-null  object
 2   id           45476 non-null  int64 
 3   cast_eval    45476 non-null  object
 4   crew_eval    45476 non-null  object
 5   crew_size    45476 non-null  int64 
 6   cast_size    45476 non-null  int64 
 7   Name_actors  45476 non-null  object
 8   Names_crew   45476 non-null  object
dtypes: int64(3), object(6)
memory usage: 3.1+ MB


In [None]:
# Transformar la columna "Names_crew" a string
df3['Names_crew'] = df3['Names_crew'].astype(str)

print(df3.dtypes)

cast           object
crew           object
id              int64
cast_eval      object
crew_eval      object
crew_size       int64
cast_size       int64
Name_actors    object
Names_crew     object
dtype: object


In [None]:
# Podemos ver que se armó una lista de los nombres de las personas en "crew"
print(df3['Names_crew'].head())

0    John Lasseter, Joss Whedon, Andrew Stanton, Jo...
1    Larry J. Franco, Jonathan Hensleigh, James Hor...
2    Howard Deutch, Mark Steven Johnson, Mark Steve...
3    Forest Whitaker, Ronald Bass, Ronald Bass, Ezr...
4    Alan Silvestri, Elliot Davis, Nancy Meyers, Na...
Name: Names_crew, dtype: object


In [None]:
# Extraer el primer nombre de "names_crew", asumiendo que en esta lista es el Director
df3['Director_name'] = df3['Names_crew'].str.split(',').str.get(0)

In [None]:
df3.sample(2)

Unnamed: 0,cast,crew,id,cast_eval,crew_eval,crew_size,cast_size,Name_actors,Names_crew,Director_name
19741,"[{'cast_id': 1002, 'character': 'Pauline', 'cr...","[{'credit_id': '52fe48df9251416c9109b1cf', 'de...",84194,"[{'cast_id': 1002, 'character': 'Pauline', 'cr...","[{'credit_id': '52fe48df9251416c9109b1cf', 'de...",13,17,"AnnaLynne McCord, Traci Lords, Ariel Winter, R...","Richard Bates Jr., Richard Bates Jr., Dylan Ha...",Richard Bates Jr.
25519,"[{'cast_id': 1, 'character': 'The Genie', 'cre...","[{'credit_id': '52fe4531c3a36847f80c162b', 'de...",9807,"[{'cast_id': 1, 'character': 'The Genie', 'cre...","[{'credit_id': '52fe4531c3a36847f80c162b', 'de...",10,5,"Bud Spencer, Luca Venantini, Julian Voloshin, ...","Menahem Golan, Yoram Globus, Mario Amendola, S...",Menahem Golan


In [None]:
# Dividir la columna "directores" en nombre y apellido
df4 = df3.copy()
df4[['D_Name', 'D_LastName']] = df4['Director_name'].str.rsplit(' ', 1).apply(pd.Series)

  df4[['D_Name', 'D_LastName']] = df4['Director_name'].str.rsplit(' ', 1).apply(pd.Series)


In [None]:
df4.sample(2)

Unnamed: 0,cast,crew,id,cast_eval,crew_eval,crew_size,cast_size,Name_actors,Names_crew,Director_name,D_Name,D_LastName
19457,"[{'cast_id': 1, 'character': 'Gary', 'credit_i...","[{'credit_id': '52fe48ee9251416c9109d113', 'de...",84348,"[{'cast_id': 1, 'character': 'Gary', 'credit_i...","[{'credit_id': '52fe48ee9251416c9109d113', 'de...",19,30,"Calvin Lee Reeder, Lane Hughes, Adam Wingard, ...","Joe Swanberg, Matt Bettinelli-Olpin, Matt Bett...",Joe Swanberg,Joe,Swanberg
1275,"[{'cast_id': 3, 'character': 'Jacob Sterling',...","[{'credit_id': '5372fddfc3a3681518000a4f', 'de...",41671,"[{'cast_id': 3, 'character': 'Jacob Sterling',...","[{'credit_id': '5372fddfc3a3681518000a4f', 'de...",3,11,"Stephen Macht, Shawn Weatherly, Megan Ward, Da...","Tony Randel, Christopher DeFaria, Antonio Toro",Tony Randel,Tony,Randel


In [None]:
# Creo una funcion para obtener los nombres de los Directores, esto no va a servir para los actores
# ya que tendra que ser en un formato de lista porque son varios por peliculas

def bus_director(x):
    '''
    Esta funcion busca en una lista por diccionario que tiene la clave 'job' con el valor de director, una vez
    se encuentra el diccionario de director se devuelve el valor asociado a la clave 'name'.
    De no encontrar valor se devolvera un valor nulo.
    '''
    for i in x:
        if i['job'] == 'Director':
            return i['name']
    return np.nan

In [None]:
df5 = df4.copy()

In [None]:
#df5 = pd.read_csv('proyecto1_crew.csv', low_memory=False)
df5['crew'] = df5['crew'].apply(literal_eval)
df5['director'] = df5['crew'].apply(bus_director)

Ahora, se pueden unir ambos dataset usando el ID

In [None]:
# Realizar la comparación de las columnas "id" y unir los DataFrames
df_unidos = pd.merge(dfL, df5, on="id", how="inner")

In [None]:
df_unidos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45451 entries, 0 to 45450
Data columns (total 43 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   belongs_to_collection        45451 non-null  object        
 1   budget                       45451 non-null  float64       
 2   genres                       45451 non-null  object        
 3   id                           45451 non-null  float64       
 4   original_language            45440 non-null  object        
 5   overview                     44510 non-null  object        
 6   popularity                   45451 non-null  object        
 7   production_companies         45451 non-null  object        
 8   production_countries         45451 non-null  object        
 9   release_date                 45451 non-null  datetime64[ns]
 10  revenue                      45451 non-null  float64       
 11  runtime                      45205 non-nu

Finalmente es posible exportar los dataframes de interes a un archivo .csv por ejemplo

In [None]:
# Ruta y nombre de archivo de salida
#ruta_salida = "ProyectoPI_df_unido.csv"

# Exportar el DataFrame como CSV con un códec de caracteres específico
#df_unidos.to_csv(ruta_salida, index=False, encoding='utf-8')

In [None]:
# De forma análoga es posible exportar los df separados
#dfL.to_csv('proyecto1_movies.csv', index=False)
#df4.to_csv('proyecto1_crew.csv', index=False)

Una vez finalizada esta etapa, se puede pasar al desarrollo de la API