### ETL credits ###

Procedemos a importar librerias necesarias, cargar el archivo, configurar vistas de impresiones. Luego visualizaremos la estructura del dataset.


In [1]:
import pandas as pd
import ast
from sklearn.preprocessing import MinMaxScaler

In [3]:
# Cargamos el dataset de créditos
credits_df = pd.read_csv('credits.csv')

credits_df = credits_df.copy()   # Hacemos una copia para asegurarnos que se guarden los cambios que hagamos.



Se inspeccionará que columnas hay y que tipo de dato tienen


In [4]:
# Visualizamos la información del DataFrame
print(credits_df.info())

# Verificamos si hay valores nulos
print(credits_df.isnull().sum())

# Aplicamos type a todos los elementos de las columnas seleccionadas
type_data_columns = credits_df[['cast', 'crew', 'id']].applymap(type)

# Muestra los tipos de datos de cada elemento en las columnas seleccionadas
print(type_data_columns)

# Verificamos los tipos de datos de las columnas
tipos_por_columna = credits_df.applymap(type).nunique()
print("Cantidad de tipos de datos únicos por columna:")
print(tipos_por_columna)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   cast    45476 non-null  object
 1   crew    45476 non-null  object
 2   id      45476 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 1.0+ MB
None
cast    0
crew    0
id      0
dtype: int64
                cast           crew             id
0      <class 'str'>  <class 'str'>  <class 'int'>
1      <class 'str'>  <class 'str'>  <class 'int'>
2      <class 'str'>  <class 'str'>  <class 'int'>
3      <class 'str'>  <class 'str'>  <class 'int'>
4      <class 'str'>  <class 'str'>  <class 'int'>
...              ...            ...            ...
45471  <class 'str'>  <class 'str'>  <class 'int'>
45472  <class 'str'>  <class 'str'>  <class 'int'>
45473  <class 'str'>  <class 'str'>  <class 'int'>
45474  <class 'str'>  <class 'str'>  <class 'int'>
45475  <class 'str'>  <class 'str'>  <class 'int'>

[

  type_data_columns = credits_df[['cast', 'crew', 'id']].applymap(type)
  tipos_por_columna = credits_df.applymap(type).nunique()


Como vamos a usar el id para nuestro modelo de recomendación, vamos a revisar bien dicha columna para prevenir errores

In [5]:
# Verificamos el tipo de dato de la columna 'id'
print(type(credits_df['id'][0]))

<class 'numpy.int64'>


In [6]:
#Eliminamos duplicados
credits_df.drop_duplicates(subset='id', inplace=True)

Dado que son cadenas que representan listas de dict, se realiza la conversion necesaria para poder extraer la informacion útil 

In [7]:
# Convertimos columnas 'cast' y 'crew' de string a listas de diccionarios
credits_df['cast'] = credits_df['cast'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else None)
credits_df['crew'] = credits_df['crew'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else None)

# Extraemos nombres de actores en 'cast'
credits_df['actor_names'] = credits_df['cast'].apply(lambda x: [actor['name'] for actor in x if 'name' in actor] if x else pd.NA)

# Extraemos nombre de los directores en 'crew'
credits_df['director_names'] = credits_df['crew'].apply(lambda x: [director['name'] for director in x if director.get('job') == 'Director'] if x else pd.NA)

# Visualizamos algunas filas para verificar las transformaciones
print(credits_df[['actor_names', 'director_names']].head())



                                         actor_names     director_names
0  [Tom Hanks, Tim Allen, Don Rickles, Jim Varney...    [John Lasseter]
1  [Robin Williams, Jonathan Hyde, Kirsten Dunst,...     [Joe Johnston]
2  [Walter Matthau, Jack Lemmon, Ann-Margret, Sop...    [Howard Deutch]
3  [Whitney Houston, Angela Bassett, Loretta Devi...  [Forest Whitaker]
4  [Steve Martin, Diane Keaton, Martin Short, Kim...    [Charles Shyer]


In [8]:
# Verificamos el tipo de dato en cada fila para 'actor_names' y 'director_names'
tipos_actor_names = credits_df['actor_names'].apply(type)
tipos_director_names = credits_df['director_names'].apply(type)

# Mostramos los tipos
print("Tipos de 'actor_names':")
print(tipos_actor_names.value_counts())

print("\nTipos de 'director_names':")
print(tipos_director_names.value_counts())


Tipos de 'actor_names':
actor_names
<class 'list'>                           43018
<class 'pandas._libs.missing.NAType'>     2414
Name: count, dtype: int64

Tipos de 'director_names':
director_names
<class 'list'>                           44661
<class 'pandas._libs.missing.NAType'>      771
Name: count, dtype: int64


Al toparme con valores nulos en las columnas nuevas de actor_names y director_name, como son porcentajes minimos decido excluirlos.

In [9]:
# Eliminamos filas con valores nulos en 'actor_names' y 'director_names'
credits_df.dropna(subset=['actor_names', 'director_names'], inplace=True)

# Verificamos cuántas filas quedan después de la eliminación
print(f"Filas restantes en credits_df: {credits_df.shape[0]}")


Filas restantes en credits_df: 42668


In [10]:
# Contabilizamos los valores nulos en 'actor_names' y 'director_names' luego del proceso
nulos_actor_names = credits_df['actor_names'].isna().sum()
nulos_director_names = credits_df['director_names'].isna().sum()
print(nulos_actor_names)
print(nulos_director_names)

0
0


Elimino las columnas innecesarias

In [11]:
credits_df.drop(columns=['cast', 'crew'], inplace=True)

# Verificamos el nuevo DataFrame
print(credits_df.head())


      id                                        actor_names     director_names
0    862  [Tom Hanks, Tim Allen, Don Rickles, Jim Varney...    [John Lasseter]
1   8844  [Robin Williams, Jonathan Hyde, Kirsten Dunst,...     [Joe Johnston]
2  15602  [Walter Matthau, Jack Lemmon, Ann-Margret, Sop...    [Howard Deutch]
3  31357  [Whitney Houston, Angela Bassett, Loretta Devi...  [Forest Whitaker]
4  11862  [Steve Martin, Diane Keaton, Martin Short, Kim...    [Charles Shyer]


Se finaliza el proceso de transformaciones necesarias, se guarda el nuevo data set

In [12]:
credits_df.to_csv('credits_ok.csv', index=False)

Realizamos la unión de ambos data set limpios para disponer de toda la información junta para las consultas de la API

In [13]:
# Cargamos el nuevo dataset de movies 
movies_ok = pd.read_csv('movies_ok.csv')  

#Cargamos el nuevo dataset de credits
credits_ok = pd.read_csv('credits_ok.csv')

# Verifica que se haya cargado correctamente
print(movies_ok.head())
print(credits_ok.head())


      budget      id                                           overview  \
0          0  253292  a comedic, brutally honest documentary followi...   
1          0  156268  a no-nonsense cop has a flair for fashion and ...   
2          0   68297  the documentary recounts the world's first nuc...   
3  150000000     809  shrek, fiona and donkey set off to far, far aw...   
4          0  171795  a behind the scenes look into george romero's ...   

   popularity release_date      revenue                     title  \
0    2.811629   2014-03-08          0.0                harmontown   
1    3.097025   2013-03-22        228.0      inappropriate comedy   
2    1.127808   2005-08-05          0.0                 hiroshima   
3   16.229860   2004-05-19  919838758.0                   shrek 2   
4    1.452115   2013-10-18          0.0  birth of the living dead   

   vote_average  vote_count   collection_name  \
0           6.9        37.0     sin colección   
1           3.6        31.0     sin 

Chequeamos el tamaño del dataframe antes de hacer la unión.

In [14]:
print(credits_ok.shape) #chequeamos tamaño de df antes de filtrarlo

(42668, 3)


In [15]:
# Unir el DataFrame de credits con el de movies
merged_df = movies_ok.merge(credits_ok, on='id', how='left')

# Verificamos el nuevo DataFrame
print(merged_df.head())


      budget      id                                           overview  \
0          0  253292  a comedic, brutally honest documentary followi...   
1          0  156268  a no-nonsense cop has a flair for fashion and ...   
2          0   68297  the documentary recounts the world's first nuc...   
3  150000000     809  shrek, fiona and donkey set off to far, far aw...   
4          0  171795  a behind the scenes look into george romero's ...   

   popularity release_date      revenue                     title  \
0    2.811629   2014-03-08          0.0                harmontown   
1    3.097025   2013-03-22        228.0      inappropriate comedy   
2    1.127808   2005-08-05          0.0                 hiroshima   
3   16.229860   2004-05-19  919838758.0                   shrek 2   
4    1.452115   2013-10-18          0.0  birth of the living dead   

   vote_average  vote_count   collection_name  \
0           6.9        37.0     sin colección   
1           3.6        31.0     sin 

Revisamos que efectivamente se redujo el tamaño del dataframe

In [16]:
print(merged_df.shape) #chequeamos tamaño de df antes de filtrarlo

(2300, 18)


Para realizar el modelo de recomendación, necesitaremos unificar en una sola columna, las columnas de género, director y país. 

In [17]:
# Hacemos una copia del DataFrame, es buena practica.
merged_df = merged_df.copy()

# Convertimos cada lista en una cadena de texto
merged_df['genre_names'] = merged_df['genre_names'].apply(lambda x: ' '.join(x) if isinstance(x, list) else x)
merged_df['director_names'] = merged_df['director_names'].apply(lambda x: ' '.join(x) if isinstance(x, list) else x)
merged_df['countries_names'] = merged_df['countries_names'].apply(lambda x: ' '.join(x) if isinstance(x, list) else x)

#Creamos la columna combinada 
merged_df['features'] = merged_df['genre_names'] + " " + merged_df['director_names'] + " " + merged_df['countries_names']

#Manejo de Nan
merged_df['features'] = merged_df['features'].fillna('')   




También necesito crear una columna nueva para guardar el escalado de vote_average

In [18]:
scaler = MinMaxScaler()
merged_df['vote_average_scaled'] = scaler.fit_transform(merged_df[['vote_average']])

Para finalizar, convertimos el archivo a parquet porque es una excelente idea para optimizar el almacenamiento y lectura de datos en la API y guardamos el nuevo dataset.

In [19]:

# Guardamos el nuevo dataset 
merged_df.to_parquet("dataset_ok.parquet", index=False)

merged_df.to_csv("dataset_ok.csv", index=False)