# **ETL (Extracción, Transformación y Carga)**

### Importación de Librerías

In [3]:
import os
import os.path
import json
import numpy as np
import pandas as pd
import datetime as dt
import ast
from ast import literal_eval
import requests
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
# !pip install googletrans==4.0.0-rc1
from googletrans import Translator

## **Ingesta de Datos**

El desarrollo de este notebook se hizo a través de Google Colab. Las siguientes
líneas de código permitirán acceder a los archivos que se encuentran alojados en Google Drive en la carpeta Dataset.

In [4]:
# Mostrar las extensiones de los archivos que se encuentran presentes en la carpeta 'Dataset'
dataset_dir = '/content/drive/MyDrive/Colab Notebooks/PI_MLOps/Dataset'
files = os.listdir(dataset_dir)

for archivo in files:
    nombre, extension = os.path.splitext(archivo)
    print("Extensión '{}'".format(
  extension))

Extensión '.csv'
Extensión '.csv'


### Archivos .csv

Dado que los datos están almacenados en archivos con extensión .csv, es necesario extraer la ruta de cada archivo para que puedan ser leídos por la biblioteca Pandas.




In [5]:
# Crear una lista con el path de los archivos detectados en la carpeta files
csv_files = []

for file in files:
    if os.path.isfile(os.path.join(dataset_dir, file)) and file.endswith('.csv'):
        csv_files.append(f'{dataset_dir}/{file}')

print(f'csv_files: {csv_files}')

csv_files: ['/content/drive/MyDrive/Colab Notebooks/PI_MLOps/Dataset/credits.csv', '/content/drive/MyDrive/Colab Notebooks/PI_MLOps/Dataset/movies_dataset.csv']


In [6]:
# Leer los archivos .csv y crear 2 Dataframes de Pandas para poder hacer la manipulación de los datos
credits_csv = pd.read_csv(csv_files[0])
# Se establece "low_memory = False", dado que hay columnas con tipos de datos mixtos
movies_csv = pd.read_csv(csv_files[1], low_memory = False)

print('archivos .csv leidos correctamente')

archivos .csv leidos correctamente


## **Tratamiento de datos**

Primero, se llevará a cabo la transformación y limpieza de los datos en cada Dataframe de forma individual. Esto implica la corrección de errores en los datos y la transformación de los datos en un formato adecuado para un análisis posterior. Una vez que se han limpiado y transformado los datos de cada uno, se procederá a unir los Dataframes resultantes a través de una columna en común.

### **Datafame ```credits_csv```**

#### Información de credits_csv

In [7]:
# Imprimir las primeras 5 filas de "credits_csv"
credits_csv.head()

Unnamed: 0,cast,crew,id
0,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",862
1,"[{'cast_id': 1, 'character': 'Alan Parrish', '...","[{'credit_id': '52fe44bfc3a36847f80a7cd1', 'de...",8844
2,"[{'cast_id': 2, 'character': 'Max Goldman', 'c...","[{'credit_id': '52fe466a9251416c75077a89', 'de...",15602
3,"[{'cast_id': 1, 'character': ""Savannah 'Vannah...","[{'credit_id': '52fe44779251416c91011acb', 'de...",31357
4,"[{'cast_id': 1, 'character': 'George Banks', '...","[{'credit_id': '52fe44959251416c75039ed7', 'de...",11862


In [8]:
# Imprimir las últimas 5 filas de "credits_csv"
credits_csv.tail()

Unnamed: 0,cast,crew,id
45471,"[{'cast_id': 0, 'character': '', 'credit_id': ...","[{'credit_id': '5894a97d925141426c00818c', 'de...",439050
45472,"[{'cast_id': 1002, 'character': 'Sister Angela...","[{'credit_id': '52fe4af1c3a36847f81e9b15', 'de...",111109
45473,"[{'cast_id': 6, 'character': 'Emily Shaw', 'cr...","[{'credit_id': '52fe4776c3a368484e0c8387', 'de...",67758
45474,"[{'cast_id': 2, 'character': '', 'credit_id': ...","[{'credit_id': '533bccebc3a36844cf0011a7', 'de...",227506
45475,[],"[{'credit_id': '593e676c92514105b702e68e', 'de...",461257


In [9]:
# Mostrar información del número de columnas, filas, tipos de datos y valores faltantes presentes en "credits_csv"
credits_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45476 entries, 0 to 45475
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   cast    45476 non-null  object
 1   crew    45476 non-null  object
 2   id      45476 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 1.0+ MB


In [10]:
# Tupla con la cantidad de registros y columnas presentes en "credits_csv"
entries_original = credits_csv.shape[0]
credits_csv.shape

(45476, 3)

#### Datos faltantes en la data cruda
¿cuántos datos faltantes hay y que % representan en base al total de datos?

In [11]:
# Cantidad de valores faltantes por columna en "credits_csv"
missing_values_count = credits_csv.isnull().sum()
columns = credits_csv.shape[1]
missing_values_count[0:columns]

cast    0
crew    0
id      0
dtype: int64

#### Examinando la data en formato JSON por atributo

In [12]:
# Acceder a los datos de la primera fila del df
credits_csv.loc[0]

cast    [{'cast_id': 14, 'character': 'Woody (voice)',...
crew    [{'credit_id': '52fe4284c3a36847f8024f49', 'de...
id                                                    862
Name: 0, dtype: object

Hay 2 columnas en formato JSON (cast, crew)

In [13]:
# Acceder a los datos de la fila 390 de la columna crew
credits_csv.crew.loc[390]

"[{'credit_id': '535e69b80e0a264fdb006416', 'department': 'Directing', 'gender': 2, 'id': 126837, 'job': 'Director', 'name': 'Michael A. Nickles', 'profile_path': None}, {'credit_id': '535e69c60e0a264fe80065ef', 'department': 'Writing', 'gender': 2, 'id': 126837, 'job': 'Writer', 'name': 'Michael A. Nickles', 'profile_path': None}]"

**Decisión:**

Al revisar el conjunto de datos, se puede ver que tanto el campo correspondiente al casting asi como al equipo están en formato JSON. Ahora se convertiran estas columnas a un formato que se pueda leer e interpretar fácilmente.

#### Buscando inconsistencias en la entrada de los datos (Data Entry)

##### Atributo id

In [14]:
# Imprimir un array con los valores correspondientes a los id
unique_id = credits_csv.id.unique()
unique_id.sort()
print(unique_id)

[     2      3      5 ... 468343 468707 469172]


In [15]:
# Cantidad de veces que se repiten los id
credits_csv.id.value_counts().head()

141971    3
298721    2
9755      2
10991     2
99080     2
Name: id, dtype: int64

**Observación:**

Se han identificado registros duplicados en el atributo id. Antes de tomar una decisión al respecto, se procederá primero a desanidar la información contenida en el resto del Dataframe y extraer la información relevante. Luego, se examinarán cuidadosamente los registros duplicados para determinar la causa de la duplicación y tomar una decisión al respecto.

##### Atributos cast y crew

In [16]:
# Filtrar las filas de credits_csv en las que la columna 'cast' tengan '[]'
filtro_cast = credits_csv[credits_csv['cast'].str.contains('[]', regex = False)]
filtro_cast.head()

Unnamed: 0,cast,crew,id
137,[],"[{'credit_id': '52fe4ab0c3a368484e161d3d', 'de...",124639
240,[],"[{'credit_id': '52fe464ac3a36847f80f6d61', 'de...",43475
393,[],"[{'credit_id': '52fe4624c3a36847f80ef0a5', 'de...",42981
438,[],"[{'credit_id': '52fe448dc3a368484e029383', 'de...",24257
595,[],"[{'credit_id': '52fe4aacc3a368484e16115b', 'de...",124472


In [17]:
empty_data_cast = filtro_cast.cast.shape[0]
print(f'Hay {empty_data_cast} registros en la columna cast con strings que contienen una lista vacia "[]"')

Hay 2418 registros en la columna cast con strings que contienen una lista vacia "[]"


In [18]:
# Filtrar las filas de credits_csv en las que la columna 'crew' tengan '[]'
filtro_crew = credits_csv[credits_csv['crew'].str.contains('[]', regex = False)]
filtro_crew.head()

Unnamed: 0,cast,crew,id
189,"[{'cast_id': 4, 'character': 'Himself', 'credi...",[],56088
614,"[{'cast_id': 1, 'character': 'Grace Rhodes', '...",[],123505
635,"[{'cast_id': 0, 'character': 'Joachim Krippo',...",[],339428
661,[],[],318177
711,[],[],365371


In [19]:
empty_data_crew = filtro_crew.crew.shape[0]
print(f'Hay {empty_data_crew} registros en la columna crew con strings que contienen una lista vacia "[]"')

Hay 771 registros en la columna crew con strings que contienen una lista vacia "[]"


**Observación:**

Hay que tomar en cuenta que todos estos datos ```'[]'``` representan valores NaN, por lo que las variables ```empty_data_cast``` y ```empty_data_crew``` se utilizarán más adelante para comparar los valores NaN resultantes de la data limpia.

#### Desaninando la Data

Dado que los datos se encuentran en formato de listas "stringificadas" ("stringified" lists), es necesario tratarlos para que tengan una estructura manejable y así poder extraer la información que necesitamos.

In [20]:
# Se creará una copia para no afectar los datos originales
copy_credits = credits_csv.copy()

In [21]:
# Convertir una cadena que contiene una lista en una lista de objetos para los atributos 'cast' y 'crew'
columns_credits = ['cast', 'crew']

for atribute in columns_credits:
  # Se utiliza la función ast.literal_eval para convertir la cadena en una lista de objetos
  copy_credits[atribute] = copy_credits[atribute].apply(lambda x: ast.literal_eval(str(x)))

# Imprimir las primeras filas del dataframe modificado
copy_credits.head()

Unnamed: 0,cast,crew,id
0,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",862
1,"[{'cast_id': 1, 'character': 'Alan Parrish', '...","[{'credit_id': '52fe44bfc3a36847f80a7cd1', 'de...",8844
2,"[{'cast_id': 2, 'character': 'Max Goldman', 'c...","[{'credit_id': '52fe466a9251416c75077a89', 'de...",15602
3,"[{'cast_id': 1, 'character': 'Savannah 'Vannah...","[{'credit_id': '52fe44779251416c91011acb', 'de...",31357
4,"[{'cast_id': 1, 'character': 'George Banks', '...","[{'credit_id': '52fe44959251416c75039ed7', 'de...",11862


In [22]:
# Visualizar las key-values que se encuentran en el atributo cast de la primera fila
copy_credits.cast.loc[0][0]

{'cast_id': 14,
 'character': 'Woody (voice)',
 'credit_id': '52fe4284c3a36847f8024f95',
 'gender': 2,
 'id': 31,
 'name': 'Tom Hanks',
 'order': 0,
 'profile_path': '/pQFoyx7rp09CJTAb932F2g8Nlho.jpg'}

In [23]:
# Visualizar las key-values que se encuentran en el atributo crew de la primera fila
copy_credits.crew.loc[0][0]

{'credit_id': '52fe4284c3a36847f8024f49',
 'department': 'Directing',
 'gender': 2,
 'id': 7879,
 'job': 'Director',
 'name': 'John Lasseter',
 'profile_path': '/7EdqiNbr4FRjIhKHyPPdFfEEEFG.jpg'}

In [24]:
# Crear un conteo de las profesiones que se encuentran en la clave job del atributo crew
pd.DataFrame(copy_credits.crew[0])['job'].value_counts().sort_index().head(12)

ADR Editor                 1
ADR Voice Casting          1
Animation                 26
Animation Director         2
Art Direction              1
Assistant Editor           4
Assistant Sound Editor     4
CG Painter                 2
Casting Consultant         1
Character Designer         8
Color Timer                1
Director                   1
Name: job, dtype: int64

**Decisión:**

Del atributo ```cast``` se extraerán los nombres de los actores de las películas, mientras que para el caso del atributo ```crew``` se extraerán los nombres de los directores de cada película.

##### Columna ```crew```

In [25]:
# Se crea una función que extrae y retorna el nombre del director en el atributo "crew"
def get_director(data):
  # Verifica si data es una lista
  if isinstance(data, list):
    # Verifica si la lista data está vacia
    if len(data) == 0:
      return np.nan
    # Se crea una lista de nombres de directores que cumplen la condición
    director_names = [i['name'] for i in data if i['job'] == 'Director']
    # Se verifica si la lista dictor_names está vacia
    if len(director_names) == 0:
      return np.nan
    # Une los nombres de los directores con una coma y un espacio
    return ','.join(director_names)
  else:
    # Si data no es una lista, devuelve NaN
    return np.nan

In [26]:
# Se crea una nueva columna 'director' en el DataFrame "copy_credits" utilizando la función "get_director"
copy_credits['director'] = copy_credits['crew'].apply(lambda x: get_director(x))
copy_credits.head()

Unnamed: 0,cast,crew,id,director
0,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",862,John Lasseter
1,"[{'cast_id': 1, 'character': 'Alan Parrish', '...","[{'credit_id': '52fe44bfc3a36847f80a7cd1', 'de...",8844,Joe Johnston
2,"[{'cast_id': 2, 'character': 'Max Goldman', 'c...","[{'credit_id': '52fe466a9251416c75077a89', 'de...",15602,Howard Deutch
3,"[{'cast_id': 1, 'character': 'Savannah 'Vannah...","[{'credit_id': '52fe44779251416c91011acb', 'de...",31357,Forest Whitaker
4,"[{'cast_id': 1, 'character': 'George Banks', '...","[{'credit_id': '52fe44959251416c75039ed7', 'de...",11862,Charles Shyer


In [27]:
# Se verifica si hay cadenas vacías en el atributo "director"
copy_credits[copy_credits['director'] == '']

Unnamed: 0,cast,crew,id,director


In [28]:
# Mostrar un conteo de los directores previamente extraidos
copy_credits['director'].value_counts(dropna = False).head(5)

NaN                 887
John Ford            63
Michael Curtiz       61
Alfred Hitchcock     52
Werner Herzog        52
Name: director, dtype: int64

##### Columna ```cast```

In [29]:
# Se crea una función que returna los nombres de los actores que se encuentran en el atributo "cast"
def get_actors(data):
  # Verifica si data es una lista
  if isinstance(data, list) == True:
    # Verifica si la lista data esta vacía
    if len(data) == 0:
      return np.nan
    # Se crea una lista de nombres de actores
    actors_names = [i['name'] for i in data]
    # Se verifica si la lista actors_names esta vacía
    if len(actors_names) == 0:
      return np.nan
    # Une los nombres de los directores con una coma y un espacio
    return ','.join(actors_names)
  else:
    # Si data no es una lista, devuelve NaN
    return np.nan

In [30]:
# Se crea una nueva columna 'actors' en el DataFrame "copy_credits" utilizando la función "get_actors"
copy_credits['actors'] = copy_credits['cast'].apply(lambda x: get_actors(x))
copy_credits.head()

Unnamed: 0,cast,crew,id,director,actors
0,"[{'cast_id': 14, 'character': 'Woody (voice)',...","[{'credit_id': '52fe4284c3a36847f8024f49', 'de...",862,John Lasseter,"Tom Hanks,Tim Allen,Don Rickles,Jim Varney,Wal..."
1,"[{'cast_id': 1, 'character': 'Alan Parrish', '...","[{'credit_id': '52fe44bfc3a36847f80a7cd1', 'de...",8844,Joe Johnston,"Robin Williams,Jonathan Hyde,Kirsten Dunst,Bra..."
2,"[{'cast_id': 2, 'character': 'Max Goldman', 'c...","[{'credit_id': '52fe466a9251416c75077a89', 'de...",15602,Howard Deutch,"Walter Matthau,Jack Lemmon,Ann-Margret,Sophia ..."
3,"[{'cast_id': 1, 'character': 'Savannah 'Vannah...","[{'credit_id': '52fe44779251416c91011acb', 'de...",31357,Forest Whitaker,"Whitney Houston,Angela Bassett,Loretta Devine,..."
4,"[{'cast_id': 1, 'character': 'George Banks', '...","[{'credit_id': '52fe44959251416c75039ed7', 'de...",11862,Charles Shyer,"Steve Martin,Diane Keaton,Martin Short,Kimberl..."


In [31]:
# Se verifica si hay cadenas vacías en el atributo "actors"
copy_credits[copy_credits['actors'] == '']

Unnamed: 0,cast,crew,id,director,actors


In [32]:
# Mostrar un conteo de los actores previamente extraidos
copy_credits['actors'].value_counts(dropna = False).head()

NaN               2418
Georges Méliès      24
Louis Theroux       15
Mel Blanc           12
Jimmy Carr           9
Name: actors, dtype: int64

Una vez que la información requerida fue extraída. Se crea un nuevo Dataframe con los atributos: ```id```, ```director``` y ```actors```

In [33]:
# Se crea un nuevo DataFrame "credits" que contiene sólo las columnas "id", "director" y "actors" de "copy_credits"
credits = copy_credits[['id', 'director', 'actors']].copy()
credits.head()

Unnamed: 0,id,director,actors
0,862,John Lasseter,"Tom Hanks,Tim Allen,Don Rickles,Jim Varney,Wal..."
1,8844,Joe Johnston,"Robin Williams,Jonathan Hyde,Kirsten Dunst,Bra..."
2,15602,Howard Deutch,"Walter Matthau,Jack Lemmon,Ann-Margret,Sophia ..."
3,31357,Forest Whitaker,"Whitney Houston,Angela Bassett,Loretta Devine,..."
4,11862,Charles Shyer,"Steve Martin,Diane Keaton,Martin Short,Kimberl..."


#### Valores Faltantes con la data desanidada

Se verifica la cantidad de valores nulos y se comparan con los datos contenidos en las variables ```empty_data_cast``` y ```empty_data_crew```

In [34]:
# Calcular la cantidad de valores faltantes por columna en "credits"
missing_values_count = credits.isnull().sum() # "isnull()" determina si cada valor es nulo y "sum()" suma esa cantidad
columns = credits.shape[1]
missing_values_count[0:columns]

id             0
director     887
actors      2418
dtype: int64

In [35]:
# Comparativa de los valores NaN con los registros '[]' en el atributo "crew"
data_nan_director = credits['director'].isnull().sum()
print('Columna crew')
print(f'Cantidad de registros del tipo string con listas vacias contenidas ("[]"): {empty_data_crew}')
print(f'Cantidad de registros NaN: {data_nan_director}')

Columna crew
Cantidad de registros del tipo string con listas vacias contenidas ("[]"): 771
Cantidad de registros NaN: 887


Se observa que la cantidad de valores nulos ha aumentado a 887. Este aumento se debe a que, además de las listas vacías contenidas en strings, 116 de las listas no vacías no incluían el nombre del director en los diccionarios correspondientes.

In [36]:
# Comparativa de los valores NaN con los registros '[]' en el atributo "actors"
data_nan_actors = credits['actors'].isnull().sum()
print('Columna cast')
print(f'Cantidad de registros del tipo string con listas vacias contenidas ("[]"): {empty_data_cast}')
print(f'Cantidad de registros NaN: {data_nan_actors}')

Columna cast
Cantidad de registros del tipo string con listas vacias contenidas ("[]"): 2418
Cantidad de registros NaN: 2418


La cantidad de listas vacias contenidas en strings coincide con la cantidad de datos NaN, lo que indica que en todas las listas no vacías se encontró el valor correspondiente para los nombres de los actores.

**Decisión:**

En este momento, no se tomará ninguna decisión con respecto a los datos faltantes. Primero, se procederá a limpiar los datos en el Dataframe "movies_csv" para poder posteriormente realizar un merge() con el Dataframe "credits" de películas.

#### Comprobando y removiendo datos duplicados

In [37]:
# Se verifica si hay datos duplicados en la columna "id"
credits[credits.duplicated(subset = 'id', keep = False)].shape[0]  # shape[0] indica el número de filas

87

In [38]:
# Mostrar un conteo de los id que más se repiten en el atributo "id"
credits['id'].value_counts().head()

141971    3
298721    2
9755      2
10991     2
99080     2
Name: id, dtype: int64

In [39]:
# Se verifica como ejemplo las 2 apariciones del id = 10991
duplicate_id = credits[credits['id'] == 10991]
duplicate_id

Unnamed: 0,id,director,actors
4114,10991,"Michael Haigney,Kunihiko Yuyama","Veronica Taylor,Rachael Lillis,Eric Stuart"
44831,10991,"Michael Haigney,Kunihiko Yuyama","Veronica Taylor,Rachael Lillis,Eric Stuart"


In [40]:
# Imprimir el valor correspondiente a la columna "actors" para los id = 10991
print(duplicate_id.iat[0,2])
print(duplicate_id.iat[1,2])

Veronica Taylor,Rachael Lillis,Eric Stuart
Veronica Taylor,Rachael Lillis,Eric Stuart


**Decisión:**

Estos id duplicados, sus filas presentan duplicidad en los registros si se comparan cada id correspondiente. Por lo que se determina, eliminar estos id duplicados.

In [41]:
# Se eliminan los id duplicados presentes en el atributo "id"
credits.drop_duplicates(subset = 'id', inplace = True)

In [42]:
# Se comprueba que ya no ha id duplicados en el atributo "id"
credits[credits.duplicated(subset = 'id', keep = False)].shape[0]

0

In [43]:
# Se verifica con el id = 141971, que los cambios fueron realizados
credits[credits['id'] == 141971]

Unnamed: 0,id,director,actors
13261,141971,JP Siili,"Petteri Summanen,Ismo Kallio,Eppu Salminen,Iri..."


In [44]:
print(f'Cantidad de registros con duplicados: {entries_original}')
entries_final = credits.shape[0]
print(f'Cantidad de registros sin duplicados: {entries_final}')
print(f'% de datos eliminados respecto a la cantidad orginal: {round(100 - (entries_final * 100/entries_original), 4)}')

Cantidad de registros con duplicados: 45476
Cantidad de registros sin duplicados: 45432
% de datos eliminados respecto a la cantidad orginal: 0.0968


**Observación:**

El cálculo anterior indica que la pérdida de data fue prácticamente nula

#### Data limpia

In [45]:
# Imprimir las primeras 5 filas del Dataframe "credits"
credits.head()

Unnamed: 0,id,director,actors
0,862,John Lasseter,"Tom Hanks,Tim Allen,Don Rickles,Jim Varney,Wal..."
1,8844,Joe Johnston,"Robin Williams,Jonathan Hyde,Kirsten Dunst,Bra..."
2,15602,Howard Deutch,"Walter Matthau,Jack Lemmon,Ann-Margret,Sophia ..."
3,31357,Forest Whitaker,"Whitney Houston,Angela Bassett,Loretta Devine,..."
4,11862,Charles Shyer,"Steve Martin,Diane Keaton,Martin Short,Kimberl..."


### **Dataframe ```movies_csv```**

#### Información de movies_csv

In [47]:
# Imprimir las primeras 5 filas de "movies_csv"
movies_csv.head()

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0
3,False,,16000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,1995-12-22,81452156.0,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34.0
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,1995-02-10,76578911.0,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173.0


In [48]:
# Imprimir las últimas 5 filas de "movies_csv"
movies_csv.tail()

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
45461,False,,0,"[{'id': 18, 'name': 'Drama'}, {'id': 10751, 'n...",http://www.imdb.com/title/tt6209470/,439050,tt6209470,fa,رگ خواب,Rising and falling between a man and woman.,...,,0.0,90.0,"[{'iso_639_1': 'fa', 'name': 'فارسی'}]",Released,Rising and falling between a man and woman,Subdue,False,4.0,1.0
45462,False,,0,"[{'id': 18, 'name': 'Drama'}]",,111109,tt2028550,tl,Siglo ng Pagluluwal,An artist struggles to finish his work while a...,...,2011-11-17,0.0,360.0,"[{'iso_639_1': 'tl', 'name': ''}]",Released,,Century of Birthing,False,9.0,3.0
45463,False,,0,"[{'id': 28, 'name': 'Action'}, {'id': 18, 'nam...",,67758,tt0303758,en,Betrayal,"When one of her hits goes wrong, a professiona...",...,2003-08-01,0.0,90.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,A deadly game of wits.,Betrayal,False,3.8,6.0
45464,False,,0,[],,227506,tt0008536,en,Satana likuyushchiy,"In a small town live two brothers, one a minis...",...,1917-10-21,0.0,87.0,[],Released,,Satan Triumphant,False,0.0,0.0
45465,False,,0,[],,461257,tt6980792,en,Queerama,50 years after decriminalisation of homosexual...,...,2017-06-09,0.0,75.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Queerama,False,0.0,0.0


In [49]:
# Mostrar información del número de columnas, filas, tipos de datos y valores faltantes presentes en "movies_csv"
movies_csv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45466 entries, 0 to 45465
Data columns (total 24 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   adult                  45466 non-null  object 
 1   belongs_to_collection  4494 non-null   object 
 2   budget                 45466 non-null  object 
 3   genres                 45466 non-null  object 
 4   homepage               7782 non-null   object 
 5   id                     45466 non-null  object 
 6   imdb_id                45449 non-null  object 
 7   original_language      45455 non-null  object 
 8   original_title         45466 non-null  object 
 9   overview               44512 non-null  object 
 10  popularity             45461 non-null  object 
 11  poster_path            45080 non-null  object 
 12  production_companies   45463 non-null  object 
 13  production_countries   45463 non-null  object 
 14  release_date           45379 non-null  object 
 15  re

In [50]:
# Tupla con la cantidad de registros y columnas presentes en "movies_csv"
entries_original = movies_csv.shape[0]
movies_csv.shape

(45466, 24)

#### Datos faltantes en la data cruda

¿cuántos datos faltantes hay y que % representan en base al total de datos?

In [51]:
# Cantidad de valores faltantes por columna en "movies_csv"
missing_values_count = movies_csv.isnull().sum()
columns = movies_csv.shape[1]
missing_values_count[0:columns]

adult                        0
belongs_to_collection    40972
budget                       0
genres                       0
homepage                 37684
id                           0
imdb_id                     17
original_language           11
original_title               0
overview                   954
popularity                   5
poster_path                386
production_companies         3
production_countries         3
release_date                87
revenue                      6
runtime                    263
spoken_languages             6
status                      87
tagline                  25054
title                        6
video                        6
vote_average                 6
vote_count                   6
dtype: int64

In [52]:
# % de datos faltantes respecto al total de los datos presentes en "movies_csv"
total_cells = np.product(movies_csv.shape)
total_missing = missing_values_count.sum()
percent_missing = (total_missing / total_cells) * 100
print(f'{round(percent_missing, 2)} %')

9.67 %


#### Eliminando atributos

Dado que las columnas ```adult```, ```imdb_id```, ```homepage```, ```original_title```, ```poster_path```, ```video``` no serán utilizadas, se procede a eliminarlas.

In [53]:
# Se crea una lista de las columnas que se desean eliminar de "movies_csv"
columns_drop = ['adult', 'imdb_id', 'homepage', 'original_title', 'poster_path', 'video']
# Se eliminan las columnas especificadas en columns_drop
movies_csv.drop(columns_drop, axis = 1, inplace = True)
# Verificar que los cambios se realizaron
movies_csv.columns

Index(['belongs_to_collection', 'budget', 'genres', 'id', 'original_language',
       'overview', 'popularity', 'production_companies',
       'production_countries', 'release_date', 'revenue', 'runtime',
       'spoken_languages', 'status', 'tagline', 'title', 'vote_average',
       'vote_count'],
      dtype='object')

#### Buscando inconsistencias en la data no anidada

In [54]:
# Todas las columnas presentes en "movies_csv"
movies_csv.columns

Index(['belongs_to_collection', 'budget', 'genres', 'id', 'original_language',
       'overview', 'popularity', 'production_companies',
       'production_countries', 'release_date', 'revenue', 'runtime',
       'spoken_languages', 'status', 'tagline', 'title', 'vote_average',
       'vote_count'],
      dtype='object')

- Las columnas ```budget```,```id```, ```popularity``` y ```release_date```, como su tipo de dato no es el correcto, serán analizados más adelante.

- Los atributos ```belongs_to_collection```, ```genres```, ```production_companies```, ```production_countries``` y ```spoken_languages``` como los datos están en formato JSON, se estudiaran más adelante cuando se proceda a desanidar la data.

Por lo que se buscaran inconsistencias en los campos ```original_language```, ```overview```, ```status```, ```tagline```, ```title``` y ```runtime```

##### Atributo original_language

In [55]:
# Mostrar un conteo de los lenguages que más se repiten en el atributo "original_language"
movies_csv['original_language'].value_counts(dropna = False)

en       32269
fr        2438
it        1529
ja        1350
de        1080
         ...  
zu           1
qu           1
104.0        1
la           1
si           1
Name: original_language, Length: 93, dtype: int64

**Observación:**

Como hay números presentes en los valores de ```original_language```, se importa la librería re para filtrar y ubicar todos aquellos valores númericos. Para finalmente, reemplazarlos por NaN

In [56]:
# Se crea una función que verifica si una cadena contiene algún número
def contiene_numeros(cadena):
  return bool(re.search(r'\d', str(cadena)))

# Se convierte la columna 'original_language' a tipo string
movies_csv['original_language'] = movies_csv['original_language'].astype(str)

# Aplicar la función a la columna 'original_language'
condicion = movies_csv['original_language'].apply(contiene_numeros)

# Filtramos el dataframe con la condición
movies_csv[condicion].original_language

19730    104.0
29503     68.0
35587     82.0
Name: original_language, dtype: object

In [57]:
# Reemplazar estos datos sucios por NaN
movies_csv.loc[condicion, 'original_language'] = np.nan

In [58]:
# Verificar que se realizaron los cambios
movies_csv[condicion].original_language

19730    NaN
29503    NaN
35587    NaN
Name: original_language, dtype: object

##### Atributo overview

In [59]:
# Mostrar un conteo de las descripciones generales que más se repiten en el atributo "overview"
movies_csv['overview'].value_counts(dropna = False).head()

NaN                             954
No overview found.              133
No Overview                       7
                                  5
No movie overview available.      3
Name: overview, dtype: int64

**Observación:**

Hay 5 filas con registros vacíos

In [60]:
# Identificar las filas que contienen cadenas de texto vacías, eliminando los espacios en blanco al principio y al final de cada cadena
movies_csv.loc[movies_csv['overview'].str.strip() == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
4246,,0,"[{'id': 35, 'name': 'Comedy'}, {'id': 10749, '...",47596,en,,0.046139,[],"[{'iso_3166_1': 'US', 'name': 'United States o...",1999-01-01,0.0,90.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Rumored,,Snow days,5.0,1.0
4538,,0,"[{'id': 18, 'name': 'Drama'}]",49788,en,,0.684803,[],"[{'iso_3166_1': 'US', 'name': 'United States o...",1989-03-18,0.0,124.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Slaves of New York,4.8,6.0
18171,,0,[],46770,en,,0.122466,[],"[{'iso_3166_1': 'AR', 'name': 'Argentina'}, {'...",1988-01-01,0.0,127.0,"[{'iso_639_1': 'es', 'name': 'Español'}, {'iso...",,,Sur,3.7,3.0
28408,,0,"[{'id': 35, 'name': 'Comedy'}]",47110,en,,0.234066,[],"[{'iso_3166_1': 'GR', 'name': 'Greece'}]",2008-10-23,0.0,102.0,"[{'iso_639_1': 'el', 'name': 'ελληνικά'}]",Released,,Afstiros katallilo,7.5,4.0
34919,,0,[],43524,en,,0.004794,[],"[{'iso_3166_1': 'US', 'name': 'United States o...",1942-09-21,0.0,79.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Iceland,0.0,0.0


In [61]:
# Se filtra las filas que contienen cadenas vacías y a estas se les asigna el valor NaN
movies_csv.loc[movies_csv['overview'].str.strip() == '', 'overview'] = np.nan

In [62]:
# Verificar que no hay cadenas vacías y que el total de NaN en overview aumentó en 5 unidades
movies_csv['overview'].value_counts(dropna = False).head(4)

NaN                   959
No overview found.    133
No Overview             7
Released                3
Name: overview, dtype: int64

**Decisión:**

Dado que la cantidad de valores faltantes en ```overview``` es relativamente baja (menos del 2% de los registros), se considerará más adelante reemplazar estos datos faltantes por 'No overview found'

##### Atributo status

In [63]:
# Mostrar un conteo del status de las peliculas de acuerdo a la cantidad de apariciones en el atributo "status"
movies_csv['status'].value_counts(dropna = False)

Released           45014
Rumored              230
Post Production       98
NaN                   87
In Production         20
Planned               15
Canceled               2
Name: status, dtype: int64

##### Atributo tagline

In [64]:
# Mostrar un conteo de los eslogan que más se repiten en el atributo "original_language"
movies_csv['tagline'].value_counts()

Based on a true story.                                        7
Be careful what you wish for.                                 4
Trust no one.                                                 4
-                                                             4
Classic Albums                                                3
                                                             ..
A special force in a special kind of hell!                    1
Play it. Sing it. Shout it. Feel it.                          1
If It's On TV, It Must Be The Truth.                          1
"I LOVE YOU BABY, BUT MY WIFE JUST REFUSES TO UNDERSTAND!"    1
A deadly game of wits.                                        1
Name: tagline, Length: 20283, dtype: int64

**Obsevación:**

Hay 4 filas en ```tagline``` que tienen un guión, lo que puede interpretarse como valor nulo

In [65]:
# Reemplazando el signo "-" por NaN
movies_csv['tagline'] = movies_csv['tagline'].replace('-', np.nan)

##### Atributo title

In [66]:
# Mostrar un conteo de los titulos de las peliculas que más se repiten en el atributo "title"
movies_csv['title'].value_counts(dropna = False)

Cinderella              11
Alice in Wonderland      9
Hamlet                   9
Les Misérables           8
Beauty and the Beast     8
                        ..
Cluny Brown              1
Babies                   1
The Green Room           1
Captain Conan            1
Queerama                 1
Name: title, Length: 42278, dtype: int64

**Observación:**

Hay nombres de películas repetidos, esto puede deberse a que las películas con el mismo nombre fueron lanzadas en años distintos por productoras distintas. Sin embargo, esto se comprobará más adelante

In [67]:
# Identificar las filas que contienen cadenas de texto vacías, eliminando los espacios en blanco al principio y al final de cada cadena
movies_csv.loc[movies_csv['overview'].str.strip() == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count


##### Atributo runtime

In [68]:
# Mostrar un conteo de los tiempos de duracion que más se repiten en el atributo "runtime"
movies_csv['runtime'].value_counts(dropna = False)

90.0     2556
0.0      1558
100.0    1470
95.0     1412
93.0     1214
         ... 
410.0       1
283.0       1
238.0       1
566.0       1
780.0       1
Name: runtime, Length: 354, dtype: int64

**Observación:**

Hay 1558 registros en ```runtime``` con valores iguales 0. Una pelicula con una duración igual 0 minutos causa ruido, por lo que se evaluará el status de estas películas con 0 minutos de duración

In [69]:
# Conteo de los status para las peliculas con runtime igual a 0 minutos
movies_csv[movies_csv['runtime'] == 0].status.value_counts()

Released           1496
Rumored              20
Post Production      13
In Production         7
Planned               4
Canceled              1
Name: status, dtype: int64

**Deducciones:**

- La gran mayoría de estas películas han sido lanzadas (**Released**): El hecho de que haya tantas películas lanzadas con tiempo de ejecución igual a cero sugiere que estos valores faltantes pueden deberse a errores en la entrada de datos o en la recopilación de información.
- También hay algunas películas en postproducción (**Post Production**), en producción (**In Production**) o planificadas (**Planned**) con tiempo de ejecución igual a cero. Esto podría deberse a que la duración de la película aún no se ha determinado o no se ha informado.
- Hay un pequeño número de películas que se han rumoreado (**Rumored**) o cancelado (**Canceled**) con tiempo de ejecución igual a cero. Esto podría deberse a que estas películas nunca se completaron o se lanzaron, o que la información sobre ellas es muy limitada.

**Decisión:**

En general, es importante tener en cuenta que un tiempo de ejecución igual a cero no siempre indica un valor faltante o erróneo. En algunos casos, podría ser un valor válido si es un cortometraje. Sin embargo, dados los resultados de la consulta, parece que en muchos casos, el tiempo de ejecución igual a cero es un valor faltante o incorrecto. Por lo tanto, imputar estos valores faltantes utilizando información de una fuente confiable como TMDB podría mejorar la calidad de los datos y hacer que el análisis posterior sea más preciso, lo cual se hará más adelante.

#### Examinando la data en formato JSON por atributo

In [70]:
# Los valores de todas las columnas de la primera fila de "movies_csv"
movies_csv.loc[0]

belongs_to_collection    {'id': 10194, 'name': 'Toy Story Collection', ...
budget                                                            30000000
genres                   [{'id': 16, 'name': 'Animation'}, {'id': 35, '...
id                                                                     862
original_language                                                       en
overview                 Led by Woody, Andy's toys live happily in his ...
popularity                                                       21.946943
production_companies        [{'name': 'Pixar Animation Studios', 'id': 3}]
production_countries     [{'iso_3166_1': 'US', 'name': 'United States o...
release_date                                                    1995-10-30
revenue                                                        373554033.0
runtime                                                               81.0
spoken_languages                  [{'iso_639_1': 'en', 'name': 'English'}]
status                   

Hay cinco columnas en formato JSON (belongs_to_collection, genres, production_companies, production_countries, and spoken_languages).

In [71]:
# Valor de la primera fila de la columna "belongs_to_collection"
movies_csv.belongs_to_collection.loc[0]

"{'id': 10194, 'name': 'Toy Story Collection', 'poster_path': '/7G9915LfUQ2lVfwMEEhDsn3kT4B.jpg', 'backdrop_path': '/9FBwqcd9IRruEDUrTdcaafOMKUq.jpg'}"

In [72]:
# Valor de la primera fila de la columna "genres"
movies_csv.genres.loc[0]

"[{'id': 16, 'name': 'Animation'}, {'id': 35, 'name': 'Comedy'}, {'id': 10751, 'name': 'Family'}]"

In [73]:
# Valor de la primera fila de la columna "production_companies"
movies_csv.production_companies.loc[0]

"[{'name': 'Pixar Animation Studios', 'id': 3}]"

In [74]:
# Valor de la primera fila de la columna "production_countries"
movies_csv.production_countries.loc[0]

"[{'iso_3166_1': 'US', 'name': 'United States of America'}]"

In [75]:
# Valor de la primera fila de la columna "spoken_languages"
movies_csv.spoken_languages.loc[0]

"[{'iso_639_1': 'en', 'name': 'English'}]"

**Decisión:**

Dada la observación. Se determina que la información que se extraerá de los datos anidados serán los correspondientes a el valor de la clave 'name' para cada atributo.

#### Buscando inconsistencias en la data en formato JSON

##### Atributo belongs_to_collection

In [76]:
# Identificar las filas que contienen cadenas de texto vacías, eliminando los espacios en blanco al principio y al final de cada cadena
movies_csv.loc[movies_csv['belongs_to_collection'].str.strip() == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count


In [77]:
# Verificar si hay registros del tipo strings con diccionarios contenidos vacios
filtro_btc = movies_csv[movies_csv['belongs_to_collection'].str.contains('{}', na = False, regex = False)]
filtro_btc

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count


##### Atributo genres

In [78]:
# Identificar las filas que contienen cadenas de texto vacías, eliminando los espacios en blanco al principio y al final de cada cadena
movies_csv.loc[movies_csv['genres'].str.strip() == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count


In [79]:
# Verificar si hay registros del tipo strings con listas contenidas vacias
filtro_genres = movies_csv[movies_csv['genres'].str.contains('[]', regex = False)]
filtro_genres.genres.head()

55     []
83     []
126    []
137    []
390    []
Name: genres, dtype: object

In [80]:
empty_data_genres = filtro_genres.genres.shape[0]
print(f'Hay {empty_data_genres} registros en la columna genres con strings que contienen una lista vacia "[]"')

Hay 2442 registros en la columna genres con strings que contienen una lista vacia "[]"


##### Atributo production_companies

In [81]:
# Identificar las filas que contienen cadenas de texto vacías, eliminando los espacios en blanco al principio y al final de cada cadena
movies_csv.loc[movies_csv['production_companies'].str.strip() == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count


In [82]:
# Verificar si hay registros del tipo strings con listas contenidas vacias
filtro_pc = movies_csv[movies_csv['production_companies'].str.contains('[]', na = False, regex = False)]
filtro_pc.production_companies.head()

50    []
52    []
57    []
58    []
83    []
Name: production_companies, dtype: object

In [83]:
empty_data_pc = filtro_pc['production_companies'].shape[0]
print(f'Hay {empty_data_pc} registros en la columna production_companies con strings que contienen una lista vacia "[]"')

Hay 11875 registros en la columna production_companies con strings que contienen una lista vacia "[]"


##### Atributo production_countries

In [84]:
# Identificar las filas que contienen cadenas de texto vacías, eliminando los espacios en blanco al principio y al final de cada cadena
movies_csv.loc[movies_csv['production_countries'].str.strip() == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count


In [85]:
# Verificar si hay registros del tipo strings con listas contenidas vacias
filtro_countries = movies_csv[movies_csv['production_countries'].str.contains('[]', na = False, regex = False)]
filtro_countries.production_countries.head()

50     []
55     []
83     []
106    []
107    []
Name: production_countries, dtype: object

In [86]:
empty_data_countries = filtro_countries['production_countries'].shape[0]
print(f'Hay {empty_data_countries} registros en la columna production_countries con strings que contienen una lista vacia "[]"')

Hay 6282 registros en la columna production_countries con strings que contienen una lista vacia "[]"


##### Atributo spoken_languages

In [87]:
# Identificar las filas que contienen cadenas de texto vacías, eliminando los espacios en blanco al principio y al final de cada cadena
movies_csv.loc[movies_csv['spoken_languages'].str.strip() == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count


In [88]:
# Verificar si hay registros del tipo strings con listas contenidas vacias
filtro_languages = movies_csv[movies_csv['spoken_languages'].str.contains('[]', na = False, regex = False)]
filtro_languages.spoken_languages.head()

50     []
83     []
107    []
126    []
137    []
Name: spoken_languages, dtype: object

In [89]:
empty_data_languages = filtro_languages['spoken_languages'].shape[0]
print(f'Hay {empty_data_languages} registros en la columna spoken_languages con strings que contienen una lista vacia "[]"')

Hay 3829 registros en la columna spoken_languages con strings que contienen una lista vacia "[]"


#### Desinando la data

Al igual que en el dataset "credits_csv", hay atributos donde los datos se presentan en forma de listas "stringificadas" ("stringified" lists) por lo que de la misma forma se procede a tratarlos, con el objetivo de que obtengan una estructura manejable para poder extraer la información que necesitamos.

In [90]:
# Copia para no afectar los datos originales
copy_movies = movies_csv.copy()

In [91]:
# Función que retorna el literal de python que se encuentre contenido en cadenas
def stringified(data):
  # Verifica si data es un string
  if isinstance(data, str):
    # Evaluar cadenas que contienen literales y devuelve el objeto correspondiente (para este caso lista o dict)
    x = ast.literal_eval(data)
    return x
  else:
    # Si data no es un string, devuelve NaN
    return np.nan

In [92]:
# Columnas con datos del tipo string que contienen literales de python
columns_movies = ['belongs_to_collection', 'genres', 'production_companies', 'production_countries', 'spoken_languages']

for columns in columns_movies:
  # Aplicar la funcion stringified() a cada columna de columns_movies
  copy_movies[columns] = copy_movies[columns].apply(lambda x: stringified(x))

copy_movies.head(3)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count
0,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",862,en,"Led by Woody, Andy's toys live happily in his ...",21.946943,"[{'name': 'Pixar Animation Studios', 'id': 3}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,7.7,5415.0
1,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",8844,en,When siblings Judy and Peter discover an encha...,17.015539,"[{'name': 'TriStar Pictures', 'id': 559}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,6.9,2413.0
2,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",15602,en,A family wedding reignites the ancient feud be...,11.7129,"[{'name': 'Warner Bros.', 'id': 6194}, {'name'...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,6.5,92.0


##### Atributo ```belongs_to_collection```

In [93]:
# Función que extrae y returna un string con el valor de la clave name para cada atributo
def get_name(data):
  # Verifica si data es un diccionario
  if isinstance(data, dict):
    # Alamacena el valor de la clave name
    name = data['name']
    # Verifica si el valor es un string vacio
    if name == '':
      return np.nan
    return name
  else:
    # Si data no es un dict, devuelve NaN
    return np.nan

In [94]:
# Aplicar get_name para el atributo belongs_to_collection dado que sus registros son del tipo dict
copy_movies['collection'] = copy_movies['belongs_to_collection'].apply(lambda x: get_name(x))
copy_movies['collection'].head()

0              Toy Story Collection
1                               NaN
2         Grumpy Old Men Collection
3                               NaN
4    Father of the Bride Collection
Name: collection, dtype: object

In [95]:
# Mostrar un conteo de los nombres de las colecciones que más se repiten en el atributo "collection"
copy_movies['collection'].value_counts(dropna = False).head()

NaN                              40975
The Bowery Boys                     29
Totò Collection                     27
James Bond Collection               26
Zatôichi: The Blind Swordsman       26
Name: collection, dtype: int64

##### Atributos ```genres```, ```production_companies```, ```production_countries```, ```spoken_languages```

In [96]:
# Función que extrae y returna el valor de las claves 'name'
def get_names(data):
  # Verifica si data es una lista
  if isinstance(data, list):
    # Verifica si la lista data esta vacia
    if len(data) == 0:
      return np.nan

    # Crea una lista con los valores obtenidos
    names = [i['name'] for i in data]
    # Verifica si la lista names esta vacia
    if len(names) == 0:
      return np.nan
    # Se une los nombres extraidos con una coma y un espacio
    return ','.join(names)
  else:
    # Si data no es una lista, devuelve NaN
    return np.nan

In [97]:
# Atributos que sus registros son del tipo lista
columns_movies_1 = ['genres', 'production_companies', 'production_countries']

for atribute in columns_movies_1:
  # Aplicar la funcion get_names() a cada columna de columns_movies_1
  copy_movies[atribute] = copy_movies[atribute].apply(lambda x: get_names(x))

# Aplicar la funcion get_names() al atributo "spoken_languages" y almacenar en otra variable llamada "languages"
copy_movies['languages'] = copy_movies['spoken_languages'].apply(lambda x: get_names(x))

##### Examinar cambios aplicados

In [98]:
# Confirmar que ya no hay registros anidados y se extrajo la información requerida
copy_movies[['collection', 'genres', 'production_companies', 'production_countries', 'languages']].head()

Unnamed: 0,collection,genres,production_companies,production_countries,languages
0,Toy Story Collection,"Animation,Comedy,Family",Pixar Animation Studios,United States of America,English
1,,"Adventure,Fantasy,Family","TriStar Pictures,Teitler Film,Interscope Commu...",United States of America,"English,Français"
2,Grumpy Old Men Collection,"Romance,Comedy","Warner Bros.,Lancaster Gate",United States of America,English
3,,"Comedy,Drama,Romance",Twentieth Century Fox Film Corporation,United States of America,English
4,Father of the Bride Collection,Comedy,"Sandollar Productions,Touchstone Pictures",United States of America,English


**Atribiuto ```genres```**

In [99]:
# Mostrar un conteo de los géneros que más se repiten en el atributo "genres"
copy_movies['genres'].value_counts(dropna = False).head()

Drama            5000
Comedy           3621
Documentary      2723
NaN              2442
Drama,Romance    1301
Name: genres, dtype: int64

In [100]:
# Comparación entre los valores '[]' y NaN en la columna genres
empty_data_nan = copy_movies['genres'].isnull().sum()
print(f'Hay {empty_data_nan} datos nulos en la columna genres')
print(f'Habian {empty_data_genres} datos con listas vacias contenidas en un string ("[]")')

Hay 2442 datos nulos en la columna genres
Habian 2442 datos con listas vacias contenidas en un string ("[]")


In [101]:
# Verificar si retornaron strings vacios
copy_movies[copy_movies['genres'] == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,collection,languages


**Atributo ```production_companies```**

In [102]:
# Los primeros 5 valores que más se repiten en la columna production_companies
copy_movies['production_companies'].value_counts(dropna = False).head()

NaN                                       11881
Metro-Goldwyn-Mayer (MGM)                   742
Warner Bros.                                540
Paramount Pictures                          505
Twentieth Century Fox Film Corporation      439
Name: production_companies, dtype: int64

In [103]:
# Comparación entre los valores '[]' y NaN en la columna production_companies
empty_data_nan = copy_movies['production_companies'].isnull().sum()
print(f'Hay {empty_data_nan} datos nulos en la columna production_companies')
print(f'Habian {empty_data_pc} datos con listas vacias contenidas en un string ("[]")')

Hay 11881 datos nulos en la columna production_companies
Habian 11875 datos con listas vacias contenidas en un string ("[]")


La cantidad de datos nulos en el atributo production_companies aumentó debido a que en las listas no vacías hay diccionarios que no tienen el nombre de la compañia de producción

In [104]:
# Verificar si retornaron strings vacios
copy_movies[copy_movies['production_companies'] == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,collection,languages


**Atributo ```production_countries```**

In [105]:
# Los primeros 5 valores que más se repiten en la columna production_countries
copy_movies['production_countries'].value_counts(dropna = False).head()

United States of America    17851
NaN                          6288
United Kingdom               2238
France                       1654
Japan                        1356
Name: production_countries, dtype: int64

In [106]:
# Comparación entre los valores '[]' y NaN en la columna production_countries
empty_data_nan = copy_movies['production_countries'].isnull().sum()
print(f'Hay {empty_data_nan} datos nulos en la columna production_countries')
print(f'Habian {empty_data_countries} datos con listas vacias contenidas en un string ("[]")')

Hay 6288 datos nulos en la columna production_countries
Habian 6282 datos con listas vacias contenidas en un string ("[]")


La cantidad de datos nulos en el atributo production_countries aumentó debido a que en las listas no vacias hay diccionarios que no tienen el nombre de los países productores

In [107]:
# Verificar si retornaron strings vacios
copy_movies[copy_movies['production_countries'] == '']

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,collection,languages


**Atributo ```languages```**

In [108]:
# Los valores que más se repiten en la columna languages
copy_movies['languages'].value_counts(dropna = False)

English                              22395
NaN                                   3835
Français                              1853
日本語                                   1289
Italiano                              1218
                                     ...  
Français,Latin,,Português,English        1
Español,עִבְרִית,English                 1
English,Íslenska,Pусский                 1
فارسی,                                   1
Fulfulde,English                         1
Name: languages, Length: 1843, dtype: int64

In [109]:
# Comparación entre los valores '[]' y NaN en la columna languages
empty_data_nan = copy_movies['languages'].isnull().sum()
print(f'Hay {empty_data_nan} datos nulos en la columna languages')
print(f'Habian {empty_data_languages} datos con listas vacias contenidas en un string ("[]")')

Hay 3835 datos nulos en la columna languages
Habian 3829 datos con listas vacias contenidas en un string ("[]")


**Observación:**

La cantidad de datos nulos en el atributo ```spoken_languages``` aumentó debido a que en las listas no vacías hay diccionarios que no tienen el idioma hablado. Sin embargo, veamos la siguiente linea de codigo:

In [110]:
# Verificar si retornaron strings vacios
copy_movies[copy_movies['languages'] == ''].languages.head()

773     
4184    
5283    
7778    
7798    
Name: languages, dtype: object

In [111]:
# Cantidad de filas que contienen cadenas de texto vacías, eliminando los espacios en blanco al principio y al final de cada cadena
print(copy_movies.loc[copy_movies['languages'].str.strip() == ''].languages.shape[0], 'filas')

123 filas


In [112]:
# Verificar el registro de spoken_languages de la fila 773
movies_csv['spoken_languages'].loc[773]

"[{'iso_639_1': 'tl', 'name': ''}]"

Estos strings vacíos surgieron debido a que hay diccionarios en ```spoken_languages``` que tienen como valor ```''``` para la clave 'name'.

**Decisión:**

Se decide reemplazar estos strings vacíos por NaN

In [113]:
copy_movies.loc[copy_movies['languages'].str.strip() == '', 'languages'] = np.nan

In [114]:
# Verificar que ya no hay strings vacíos
copy_movies[copy_movies['languages'] == ''].languages

Series([], Name: languages, dtype: object)

#### Corrigiendo el tipo de dato

In [115]:
# Tipos de datos por cada columna presente en "copy_movies"
copy_movies.dtypes

belongs_to_collection     object
budget                    object
genres                    object
id                        object
original_language         object
overview                  object
popularity                object
production_companies      object
production_countries      object
release_date              object
revenue                  float64
runtime                  float64
spoken_languages          object
status                    object
tagline                   object
title                     object
vote_average             float64
vote_count               float64
collection                object
languages                 object
dtype: object

**Observación:**

Hay variables con el tipo de dato incorrecto

In [116]:
# Los valores de todas las columnas de la segunda fila de "copy_movies"
copy_movies.loc[1]

belongs_to_collection                                                  NaN
budget                                                            65000000
genres                                            Adventure,Fantasy,Family
id                                                                    8844
original_language                                                       en
overview                 When siblings Judy and Peter discover an encha...
popularity                                                       17.015539
production_companies     TriStar Pictures,Teitler Film,Interscope Commu...
production_countries                              United States of America
release_date                                                    1995-12-15
revenue                                                        262797249.0
runtime                                                              104.0
spoken_languages         [{'iso_639_1': 'en', 'name': 'English'}, {'iso...
status                   

**Decisión:**

De la información obtenida, se procede a cambiar el tipo de dato de los atributos:
- ```budget``` (de object a int)
- ```id``` (de object a int)
- ```popularity``` (de object a float)
- ```release_date``` (de object a datetime)
- ```vote_count``` (de float a int)

##### Convertiendo al tipo numérico

**Atributo ```id```**

Que la librería Pandas no haya podido leer en el formato ideal (int) esta columna, es un indicativo de que posee algún dato no numérico.

Igualmente esta apreciación es respaldada si se decide utilizar la función astype() para cambiar el tipo de dato del campo id a int, dado que retornará un error **ValueError** indicando que "*invalid literal for int() with base 10: '1997-08-20'*"

Por lo que en base a lo anterior se aplicará un filtro buscando todos los valores en id que contengan '-'

In [117]:
# Filtrar copy_movies para seleccionar las filas que contienen el carácter "-" en la columna "id"
copy_movies[copy_movies['id'].str.contains('-', regex = False)]

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,collection,languages
19730,0.065736,/ff9qCepilowshEtG2GYWwzt2bs4.jpg,"Carousel Productions,Vision View Entertainment...",1997-08-20,,Released,,,,1,,,,,,,,,,
29503,1.931659,/zV8bHuSL6WXoD6FWogP9j4x80bL.jpg,"Aniplex,GoHands,BROSTA TV,Mardock Scramble Pro...",2012-09-29,,Released,,,,12,,,,,,,,,,
35587,2.185485,/zaSf5OG7V8X8gqFvly88zDdRm46.jpg,"Odyssey Media,Pulser Productions,Rogue State,T...",2014-01-01,,Released,Beware Of Frost Bites,,,22,,,,,,,,,,


**Observación:**

El Dataframe resultante, indica que hay datos incorrectos no sólo en la columna id, sino otras también. A simple vista pareciera que hay un desfase en la entrada de los datos, dado que lo que debería estar registrado en un columna se encuentra en otra. Por otro lado, las filas también demuestran una alta cantidad de valores nulos (13) en comparación con la cantidad de datos no nulos que resultan estar erróneos.

**Decisión:**

Dado que:
- La información que proporcinan es inexacta para cada atributo,
- De 18 columnas relevantes (no se cuentan aquellas con datos anidados) 6 poseen datos errados y 12 datos nulos,
- No se conoce el id y tampoco el título de las películas como para recurrir a una documentación o investigación para tratar de obtener los datos faltantes.

Se determina eliminar las 3 filas. Añadiendo que la perdida de información relavante es casi nula comparanda con la cantidad de registros del dataset y que en estas 3 filas la mayoría de los datos son nulos.

In [118]:
# Eliminar las filas con índices 2, 4 y 6 del DataFrame copy_movies
copy_movies.drop(index = [19730, 29503, 35587], inplace = True)

In [119]:
# Se verifica que los cambios se realizaron
copy_movies[copy_movies['id'].str.contains('-', regex = False)]

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,collection,languages


In [120]:
# Convertir la columna "id" de un tipo de datos object a un tipo de datos int32
copy_movies['id'] = copy_movies['id'].astype('int32', errors = 'raise')
copy_movies['id'].dtypes

dtype('int32')

**Atributo ```budget```**

La columna ```budget``` contiene valores numéricos en formato de cadena de texto que representan el presupuesto de las películas en dólares. Antes de cambiar el tipo de dato se filtrarán los valores en la búsqueda de puntos '.' o comas ','

In [121]:
# Filtrar copy_movies para seleccionar las filas que contienen el carácter "." en la columna "budget"
copy_movies[copy_movies['budget'].str.contains('.', regex = False)]

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,collection,languages


In [122]:
# Filtrar copy_movies para seleccionar las filas que contienen el carácter "," en la columna "budget"
copy_movies[copy_movies['budget'].str.contains(',', regex = False)]

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,collection,languages


In [123]:
# Convertir la columna "budget" de un tipo de datos object a un tipo de datos int32
copy_movies['budget'] = copy_movies['budget'].astype('int32', errors = 'raise')
copy_movies['budget'].dtypes

dtype('int32')

**Atributo ```popularity```**

La columna ```popularity``` contiene valores numéricos en formato de cadena de texto que representan el puntaje de popularidad de la película, asignado por TMDB (TheMoviesData). Antes de cambiar el tipo de dato se filtrarán los valores en la búsqueda de puntos '.' o comas ','

In [124]:
# Filtrar copy_movies para seleccionar las filas que contienen el carácter "." en la columna "popularity"
filtro_popularity = copy_movies[copy_movies['popularity'].str.contains('.', na = False, regex = False)]
filtro_popularity.popularity.head()

0    21.946943
1    17.015539
2      11.7129
3     3.859495
4     8.387519
Name: popularity, dtype: object

In [125]:
# Filtrar copy_movies para seleccionar las filas que contienen el carácter "." en la columna "popularity"
filtro_popularity_1 = copy_movies[copy_movies['popularity'].str.contains('0.0', na = False, regex = False)]
filtro_popularity_1.popularity.head()

107     0.001346
126     0.001178
132     0.001838
137     0.001205
173    10.058329
Name: popularity, dtype: object

In [126]:
# Convertir la columna "popularity" de un tipo de datos object a un tipo de datos float64
copy_movies['popularity'] = copy_movies['popularity'].astype('float64', errors = 'raise')
copy_movies['popularity'].dtypes

dtype('float64')

##### Convertiendo al tipo datetime

**Atributo release_date**

In [127]:
# Verificar el formato de la fecha
copy_movies['release_date'].head()

0    1995-10-30
1    1995-12-15
2    1995-12-22
3    1995-12-22
4    1995-02-10
Name: release_date, dtype: object

In [128]:
# Convertir la columna "release_date" de un tipo de datos object a un tipo de datos datetime64
copy_movies['release_date'] = pd.to_datetime(copy_movies['release_date'], format = '%Y-%m-%d')
copy_movies['release_date'].dtypes

dtype('<M8[ns]')

A continuación, se valida si hay fechas mayores a la actual

In [129]:
# Obtener la fecha y hora actuales
current_datetime = dt.datetime.now()
# Convertir la fecha y hora actuales a un objeto datetime64[ns]
current_datetime64 = pd.to_datetime(current_datetime)
# Seleccionar las filas en el DataFrame copy_movies donde la columna "release_date" es mayor que la fecha y hora actuales
copy_movies[copy_movies['release_date'] > current_datetime64]

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average,vote_count,collection,languages


In [130]:
# Validar la ultima fecha en la se tomaron los datos (si estan actualizados)
copy_movies['release_date'].max()

Timestamp('2020-12-16 00:00:00')

In [131]:
# Verificar que los tipos de dato sean correctos
copy_movies.dtypes

belongs_to_collection            object
budget                            int32
genres                           object
id                                int32
original_language                object
overview                         object
popularity                      float64
production_companies             object
production_countries             object
release_date             datetime64[ns]
revenue                         float64
runtime                         float64
spoken_languages                 object
status                           object
tagline                          object
title                            object
vote_average                    float64
vote_count                      float64
collection                       object
languages                        object
dtype: object

#### Verificando y removiendo datos duplicados

In [132]:
# Se realiza una copia con los atributos representativos
movies = copy_movies[['budget', 'genres',	'id',	'original_language', 'overview', 'popularity',
                      'production_companies', 'production_countries',	'release_date',	'revenue',
                      'runtime', 'status', 'tagline', 'title',	'vote_average',
                      'vote_count',	'collection',	'languages']].copy()

In [133]:
# Verificar la cantiad de duplicados en la columna id
movies[movies.duplicated(subset = 'id', keep = False)].shape[0]

59

In [134]:
# Número de veces que aparece cada valor en la columna "id" del DataFrame movies, ordenados por frecuencia descendente
frequent_ids = movies['id'].value_counts()[movies['id'].value_counts() >= 2]
frequent_ids.head()

141971    3
5511      2
132641    2
10991     2
168538    2
Name: id, dtype: int64

**Observación:**

De los 59 id duplicados, unos corresponden a filas donde toda la data está repetida y otros donde existe al menos una columna que diferencia las filas.

**Decisión:**

Por lo que primero se tratarán las filas duplicadas y luego aquellas que pese a tener el mismo id presentan diferencias.

##### **Id con filas replicadas**

In [135]:
# los id donde sus filas respecto a cada id se encuentran replicadas.
id_duplicated = [141971, 5511, 168538, 18440, 265189, 11115, 42495, 152795, 298721, 25541, 105045, 119916, 159849, 23305, 97995, 99080]
duplicated_movies = movies[movies['id'].isin(id_duplicated)].sort_values(by = 'id')
duplicated_movies.head(4)

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
7345,0,"Crime,Drama,Thriller",5511,fr,Hitman Jef Costello is a perfectionist who alw...,9.091288,"Fida cinematografica,Compagnie Industrielle et...","France,Italy",1967-10-25,39481.0,105.0,Released,There is no solitude greater than that of the ...,Le Samouraï,7.9,187.0,,Français
9165,0,"Crime,Drama,Thriller",5511,fr,Hitman Jef Costello is a perfectionist who alw...,9.091288,"Fida cinematografica,Compagnie Industrielle et...","France,Italy",1967-10-25,39481.0,105.0,Released,There is no solitude greater than that of the ...,Le Samouraï,7.9,187.0,,Français
24844,0,"Comedy,Drama",11115,en,As an ex-gambler teaches a hot-shot college ki...,6.880365,"Andertainment Group,Crescent City Pictures,Tag...",United States of America,2008-01-29,0.0,85.0,Released,,Deal,5.2,22.0,,English
14012,0,"Comedy,Drama",11115,en,As an ex-gambler teaches a hot-shot college ki...,6.880365,"Andertainment Group,Crescent City Pictures,Tag...",United States of America,2008-01-29,0.0,85.0,Released,,Deal,5.2,22.0,,English


In [136]:
# Encontrar y eliminar las filas duplicadas, se utiliza "inplace = True" para modificar directamente el objeto "movies"
for i in id_duplicated:
  index = movies[movies['id'] == i].index.tolist()
  if len(index) == 3:
    drop_index = index[-2:]
    movies.drop(labels = drop_index, inplace = True)
  else:
    drop_index = index[-1]
    movies.drop(labels = drop_index, inplace = True)

# Verificar que no hay id duplicados
movies[movies['id'].isin(id_duplicated)].sort_values(by = 'id').head()

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
7345,0,"Crime,Drama,Thriller",5511,fr,Hitman Jef Costello is a perfectionist who alw...,9.091288,"Fida cinematografica,Compagnie Industrielle et...","France,Italy",1967-10-25,39481.0,105.0,Released,There is no solitude greater than that of the ...,Le Samouraï,7.9,187.0,,Français
14012,0,"Comedy,Drama",11115,en,As an ex-gambler teaches a hot-shot college ki...,6.880365,"Andertainment Group,Crescent City Pictures,Tag...",United States of America,2008-01-29,0.0,85.0,Released,,Deal,5.2,22.0,,English
14000,0,"Action,Horror,Science Fiction",18440,en,When a comet strikes Earth and kicks up a clou...,1.436085,,United States of America,2007-01-01,0.0,89.0,Released,,Days of Darkness,5.0,5.0,,English
8068,0,"Adventure,Animation,Drama,Action,Foreign",23305,en,"In feudal India, a warrior (Khan) who renounce...",1.967992,Filmfour,"France,Germany,India,United Kingdom",2001-09-23,0.0,86.0,Released,,The Warrior,6.3,15.0,,हिन्दी
17229,0,Drama,25541,da,Former Danish servicemen Lars and Jimmy are th...,2.587911,,"Sweden,Denmark",2009-10-21,0.0,90.0,Released,,Brotherhood,7.1,21.0,,Dansk


##### **Id duplicados pero con valores distintos en un 1 o 2 columnas**

Las columnas donde difieren los datos son (```popularity```, ```vote_count```)

- Como no son columnas con un impacto menor en los datos, lo mas conveniente seria hacer una investigación adicional (Revisión de documentación) para determinar cuál es la entrada correcta o si ambas entradas son válidas.

- Es posible que las diferencias se deban a cambios en la popularidad y el número de votos a lo largo del tiempo, especialmente si las filas corresponden a diferentes momentos en la vida útil de la película (por ejemplo, antes y después de su lanzamiento).

Sin embargo, dado el alcance del proyecto resulta difícil determinar con certeza si las diferencias en la popularidad y el número de votos de dos filas con el mismo id en un conjunto de datos de películas se deben a cambios reales en los datos o a errores de entrada de datos.

**Decisión:**

Por lo que la accion a tomar sera la siguiente: como no podemos elegir una de las filas como la "correcta", se procede a fusionar las dos filas en una sola sacando la mediana de los datos que difieren y usandola como sustitucion.

In [137]:
# Verificar para el mismo id hay datos que difieren
sustitucion_132641 = movies[movies['id'] == 132641][['id','popularity']]
sustitucion_132641

Unnamed: 0,id,popularity
838,132641,0.096079
30001,132641,0.619388


In [138]:
# Calcular la mediana de la columna "popularity" para filas con el id 132641
new_value = round(sustitucion_132641.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 838
drop_index = 30001
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 132641]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
838,0,Drama,132641,ja,"Ten years into a marriage, the wife is disappo...",0.357734,Toho Company,Japan,1953-04-29,0.0,89.0,Released,,Wife,0.0,0.0,,日本語


In [139]:
# Verificar para el mismo id hay datos que difieren
sustitucion_10991 = movies[movies['id'] == 10991][['id','popularity','vote_count']]
sustitucion_10991

Unnamed: 0,id,popularity,vote_count
4114,10991,10.264597,143.0
44821,10991,6.480376,144.0


In [140]:
# Calcular la mediana de la columna "popularity" y "vote_count" para filas con el id 10991
new_value = round(sustitucion_10991.groupby('id')['popularity'].median().iloc[0], 6)
new_value_1 = round(sustitucion_10991.groupby('id')['vote_count'].median().iloc[0], 1)
# Actualizar el valor de la fila en la columna "popularity" y "vote_count"
row_index = 4114
drop_index = 44821
movies.loc[row_index, 'popularity'] = new_value
movies.loc[row_index, 'vote_count'] = new_value_1
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 10991]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
4114,16000000,"Adventure,Fantasy,Animation,Action,Family",10991,ja,When Molly Hale's sadness of her father's disa...,8.372487,"TV Tokyo,4 Kids Entertainment,Nintendo,Pikachu...",Japan,2000-07-08,68411275.0,93.0,Released,Pokémon: Spell of the Unknown,Pokémon: Spell of the Unknown,6.0,143.5,Pokémon Collection,English


In [141]:
# Verificar para el mismo id hay datos que difieren
sustitucion_4912 = movies[movies['id'] == 4912][['id','popularity']]
sustitucion_4912

Unnamed: 0,id,popularity
5865,4912,11.331072
33826,4912,7.645827


In [142]:
# Calcular la mediana de la columna "popularity" para filas con el id 4912
new_value = round(sustitucion_4912.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 5865
drop_index = 33826
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 4912]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
5865,30000000,"Comedy,Crime,Drama,Romance,Thriller",4912,en,"Television made him famous, but his biggest hi...",9.48845,"Miramax Films,Allied Filmmakers,Mad Chance",United States of America,2002-12-30,33013805.0,113.0,Released,Some things are better left top secret.,Confessions of a Dangerous Mind,6.6,281.0,,English


In [143]:
# Verificar para el mismo id hay datos que difieren
sustitucion_15028 = movies[movies['id'] == 15028][['id','popularity', 'vote_count']]
sustitucion_15028

Unnamed: 0,id,popularity,vote_count
5130,15028,5.373623,89.0
33743,15028,4.920175,90.0


In [144]:
# Calcular la mediana de la columna "popularity" y "vote_count" para filas con el id 15028
new_value = round(sustitucion_15028.groupby('id')['popularity'].median().iloc[0], 6)
new_value_1 = round(sustitucion_15028.groupby('id')['vote_count'].median().iloc[0], 1)
# Actualizar el valor de la fila en la columna "popularity" y "vote_count"
row_index = 5130
drop_index = 33743
movies.loc[row_index, 'popularity'] = new_value
movies.loc[row_index, 'vote_count'] = new_value_1
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 15028]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
5130,26000000,"Adventure,Family,Science Fiction,Thriller",15028,en,"Until now, Zak Gibbs' greatest challenge has b...",5.146899,"Paramount Pictures,Nickelodeon Movies,Valhalla...",United States of America,2002-03-17,38793283.0,94.0,Released,"The adventure of a lifetime, in a few mere sec...",Clockstoppers,4.9,89.5,,"Český,English"


In [145]:
# Verificar para el mismo id hay datos que difieren
sustitucion_14788 = movies[movies['id'] == 14788][['id','popularity']]
sustitucion_14788

Unnamed: 0,id,popularity
10419,14788,3.185256
12066,14788,3.008299


In [146]:
# Calcular la mediana de la columna "popularity" para filas con el id 14788
new_value = round(sustitucion_14788.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 10419
drop_index = 12066
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 14788]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
10419,1600000,"Drama,Crime,Mystery",14788,en,Set against the backdrop of a decaying Midwest...,3.096778,"Magnolia Pictures,Extension 765",United States of America,2005-09-03,0.0,73.0,Released,,Bubble,6.4,36.0,,English


In [147]:
# Verificar para el mismo id hay datos que difieren
sustitucion_84198 = movies[movies['id'] == 84198][['id','popularity']]
sustitucion_84198

Unnamed: 0,id,popularity
2564,84198,0.501046
21116,84198,1.673307


In [148]:
# Calcular la mediana de la columna "popularity" para filas con el id 84198
new_value = round(sustitucion_84198.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 2564
drop_index = 21116
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 84198]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
2564,0,Documentary,84198,en,"Using personal stories, this powerful document...",1.087176,,United States of America,2012-03-22,0.0,84.0,Released,One Nation. Underfed.,A Place at the Table,6.9,7.0,,English


In [149]:
# Verificar para el mismo id hay datos que difieren
sustitucion_13209 = movies[movies['id'] == 13209][['id','popularity']]
sustitucion_13209

Unnamed: 0,id,popularity
11342,13209,1.52896
15765,13209,1.529879


In [150]:
# Calcular la mediana de la columna "popularity" para filas con el id 13209
new_value = round(sustitucion_13209.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 11342
drop_index = 15765
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 13209]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
11342,2500,"Drama,Comedy,Foreign",13209,fa,"Since women are banned from soccer matches, Ir...",1.52942,Jafar Panahi Film Productions,Iran,2006-05-26,0.0,93.0,Released,,Offside,6.7,27.0,,فارسی


In [151]:
# Verificar para el mismo id hay datos que difieren
sustitucion_77221 = movies[movies['id'] == 77221][['id','popularity']]
sustitucion_77221

Unnamed: 0,id,popularity
11155,77221,6.652197
20843,77221,6.475665


In [152]:
# Calcular la mediana de la columna "popularity" para filas con el id 77221
new_value = round(sustitucion_77221.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 11155
drop_index = 20843
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 77221]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
11155,40000000,"Adventure,Drama",77221,en,"On the Arabian Peninsula in the 1930s, two war...",6.563931,"France 2 Cinéma,Quinta Communications,Carthago...","France,Italy,Qatar,Tunisia",2011-12-21,5446000.0,130.0,Released,,Black Gold,5.9,77.0,,English


In [153]:
# Verificar para el mismo id hay datos que difieren
sustitucion_109962 = movies[movies['id'] == 109962][['id','popularity']]
sustitucion_109962

Unnamed: 0,id,popularity
5710,109962,12.180836
20899,109962,10.396878


In [154]:
# Calcular la mediana de la columna "popularity" para filas con el id 109962
new_value = round(sustitucion_109962.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 5710
drop_index = 20899
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 109962]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
5710,0,Drama,109962,en,Two literary women compete for 20 years: one w...,11.288857,"Metro-Goldwyn-Mayer (MGM),Jaquet",United States of America,1981-09-23,0.0,115.0,Released,"From the very beginning, they knew they'd be f...",Rich and Famous,4.9,7.0,,English


In [155]:
# Verificar para el mismo id hay datos que difieren
sustitucion_22649 = movies[movies['id'] == 22649][['id','popularity']]
sustitucion_22649

Unnamed: 0,id,popularity
949,22649,1.914697
15074,22649,2.411191


In [156]:
# Calcular la mediana de la columna "popularity" para filas con el id 22649
new_value = round(sustitucion_22649.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 949
drop_index = 15074
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 22649]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
949,4,"Drama,Romance,War",22649,en,British nurse Catherine Barkley (Helen Hayes) ...,2.162944,Paramount Pictures,United States of America,1932-12-08,25.0,89.0,Released,Every woman who has loved will understand,A Farewell to Arms,6.2,29.0,,English


In [157]:
# Verificar para el mismo id hay datos que difieren
sustitucion_110428 = movies[movies['id'] == 110428][['id','popularity']]
sustitucion_110428

Unnamed: 0,id,popularity
4356,110428,0.134014
23534,110428,0.110065


In [158]:
# Calcular la mediana de la columna "popularity" para filas con el id 110428
new_value = round(sustitucion_110428.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 4356
drop_index = 23534
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 110428]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
4356,3512454,Drama,110428,fr,"Winter, 1915. Confined by her family to an asy...",0.12204,"Canal+,Arte France Cinéma,3B Productions,C.R.R...",France,2013-03-13,115860.0,95.0,Released,,Camille Claudel 1915,7.0,20.0,,Français


In [159]:
# Verificar para el mismo id hay datos que difieren
sustitucion_69234 = movies[movies['id'] == 69234][['id','popularity']]
sustitucion_69234

Unnamed: 0,id,popularity
9576,69234,0.441872
26625,69234,0.43849


In [160]:
# Calcular la mediana de la columna "popularity" para filas con el id 69234
new_value = round(sustitucion_69234.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 9576
drop_index = 26625
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 69234]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
9576,10000000,"Drama,Horror,Music,Romance,TV Movie",69234,en,Count de Chagnie has discovered Christine's si...,0.440181,"Beta Film,Reteitalia,TF1,Hexatel,Saban/Scheric...","France,Germany,Italy,United States of America",1990-03-18,0.0,168.0,Released,,The Phantom of the Opera,5.0,3.0,,"English,Italiano"


In [161]:
# Verificar para el mismo id hay datos que difieren
sustitucion_12600 = movies[movies['id'] == 12600][['id','popularity']]
sustitucion_12600

Unnamed: 0,id,popularity
5535,12600,7.072301
44826,12600,6.080108


In [162]:
# Calcular la mediana de la columna "popularity" para filas con el id 12600
new_value = round(sustitucion_12600.groupby('id')['popularity'].median().iloc[0], 6)
# Actualizar el valor de la fila en la columna "popularity"
row_index = 5535
drop_index = 44826
movies.loc[row_index, 'popularity'] = new_value
# Eliminar la fila con el indice correspondiente a drop_index
movies.drop(labels = drop_index, inplace = True)
# Verificar que los cambios se han realizado
movies[movies['id'] == 12600]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
5535,0,"Adventure,Fantasy,Animation,Science Fiction,Fa...",12600,ja,"All your favorite Pokémon characters are back,...",6.576204,,"Japan,United States of America",2001-07-06,28023563.0,75.0,Released,,Pokémon 4Ever: Celebi - Voice of the Forest,5.7,82.0,Pokémon Collection,日本語


Confirmando si los cambios se realizaron y ya no hay id duplicados

In [163]:
# Verificando la cantiad de duplicados en la columna id
movies[movies.duplicated(subset = 'id', keep = False)].shape[0]

0

#### Data limpia

In [164]:
# Imprimir las primeras 5 filas de "movies"
movies.head()

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages
0,30000000,"Animation,Comedy,Family",862,en,"Led by Woody, Andy's toys live happily in his ...",21.946943,Pixar Animation Studios,United States of America,1995-10-30,373554033.0,81.0,Released,,Toy Story,7.7,5415.0,Toy Story Collection,English
1,65000000,"Adventure,Fantasy,Family",8844,en,When siblings Judy and Peter discover an encha...,17.015539,"TriStar Pictures,Teitler Film,Interscope Commu...",United States of America,1995-12-15,262797249.0,104.0,Released,Roll the dice and unleash the excitement!,Jumanji,6.9,2413.0,,"English,Français"
2,0,"Romance,Comedy",15602,en,A family wedding reignites the ancient feud be...,11.7129,"Warner Bros.,Lancaster Gate",United States of America,1995-12-22,0.0,101.0,Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,6.5,92.0,Grumpy Old Men Collection,English
3,16000000,"Comedy,Drama,Romance",31357,en,"Cheated on, mistreated and stepped on, the wom...",3.859495,Twentieth Century Fox Film Corporation,United States of America,1995-12-22,81452156.0,127.0,Released,Friends are the people who let you be yourself...,Waiting to Exhale,6.1,34.0,,English
4,0,Comedy,11862,en,Just when George Banks has recovered from his ...,8.387519,"Sandollar Productions,Touchstone Pictures",United States of America,1995-02-10,76578911.0,106.0,Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,5.7,173.0,Father of the Bride Collection,English


### **Unión de ```credits``` y ```movies```**

#### Verificando la similitud de los id antes de la unión

Dado que el id en el dataframe "credits" y "movies", es el mismo ya que corresponde al id de cada pelicula. Se procede a unificar ambos dataframes para facilitar el resto de la limpieza.

In [165]:
# Imprimir la cantidad de id presentes tanto en "credits" como en "movies"
print('Cantidad de id en el dataframe credicts: ', credits.id.shape[0])
print('Cantidad de id en el dataframe movies: ', movies.id.shape[0])

Cantidad de id en el dataframe credicts:  45432
Cantidad de id en el dataframe movies:  45433


In [166]:
# Se verifica si hay id duplicados tanto en "credits" como en "movies"
print('Id duplicados en el dataframe credicts: ', movies[movies.duplicated(subset = 'id', keep = False)].shape[0])
print('Id duplicados en el dataframe movies: ', movies[movies.duplicated(subset = 'id', keep = False)].shape[0])

Id duplicados en el dataframe credicts:  0
Id duplicados en el dataframe movies:  0


In [167]:
# Se selecciona la columna "id" del DataFrame "movies" y se crea un nuevo DataFrame "movies_test"
movies_test = movies[['id']]
# Se selecciona la columna "id" del DataFrame "credits" y se crea un nuevo DataFrame "credits_test"
credits_test = credits[['id']]

# Se combinan los DataFrames "movies_test" y "credits_test" mediante el método "merge" y se utiliza el argumento "indicator"
# para mostrar si: una fila está presente en ambos DataFrames, sólo en "movies_test" o sólo en "credits_test"
comparacion_id = movies_test.merge(credits_test, how = 'outer', indicator = 'union')
list_both = np.array([comparacion_id.union == 'both']).sum()  # Si está presente en ambos
list_left_only = np.array([comparacion_id.union == 'left_only']).sum()  # Si está presente sólo en "movies_test"
list_right_only = np.array([comparacion_id.union == 'right_only']).sum()  # # Si está presente sólo en "credits_test"

# Se imprimen los resultados
print(f'Cantidad de Id presentes en ambos: {list_both}')
print(f'Cantidad de Id que estan presentes en movies pero no en credits: {list_left_only}')
print(f'Cantidad de Id que estan presentes en credits pero no en movies: {list_right_only}')

Cantidad de Id presentes en ambos: 45432
Cantidad de Id que estan presentes en movies pero no en credits: 1
Cantidad de Id que estan presentes en credits pero no en movies: 0


In [168]:
# Se busca el Id que está presente sólo en "movies_test"
id_movies_only = comparacion_id[comparacion_id['union'] == 'left_only']['id']
print(f'El Id que está presente solo en movies es: {id_movies_only.values[0]}')

El Id que está presente solo en movies es: 401840


In [169]:
# Se verifica si el id = 401840 no se encuentra en el dataframe 'credits_csv' , en el cual la data se encuentra sin modificar
credits_csv[credits_csv['id'] == 401840]

Unnamed: 0,cast,crew,id


In [170]:
# Se verifica a que película corresponde el id = 401840
movies[movies['id'] == 401840][['id', 'title', 'popularity', 'release_date']]

Unnamed: 0,id,title,popularity,release_date
42883,401840,School's out,0.207775,2017-05-30


**Decisión:**

Pese a que hay un id que no está presente en en ambos Dataframes, se procede a unirlos utilizando la columna id como clave de unión.

Para esto se usara el metodo merge() de Pandas, con el argumento ```how```  establecido en 'outer' el cual incluirá todas las filas de ambos DataFrames, incluso si no tienen una correspondencia (el id faltante en credits). Las filas que no tienen una correspondencia se completarán con valores NaN.

In [171]:
# Se utiliza el método merge para unir los Dataframes "movies" y "credits"
merged_df = movies.merge(credits, on = 'id', how = 'outer')
# Imprimir las primeras 5 filas del Dataframe "merged_df"
merged_df.head()

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,collection,languages,director,actors
0,30000000,"Animation,Comedy,Family",862,en,"Led by Woody, Andy's toys live happily in his ...",21.946943,Pixar Animation Studios,United States of America,1995-10-30,373554033.0,81.0,Released,,Toy Story,7.7,5415.0,Toy Story Collection,English,John Lasseter,"Tom Hanks,Tim Allen,Don Rickles,Jim Varney,Wal..."
1,65000000,"Adventure,Fantasy,Family",8844,en,When siblings Judy and Peter discover an encha...,17.015539,"TriStar Pictures,Teitler Film,Interscope Commu...",United States of America,1995-12-15,262797249.0,104.0,Released,Roll the dice and unleash the excitement!,Jumanji,6.9,2413.0,,"English,Français",Joe Johnston,"Robin Williams,Jonathan Hyde,Kirsten Dunst,Bra..."
2,0,"Romance,Comedy",15602,en,A family wedding reignites the ancient feud be...,11.7129,"Warner Bros.,Lancaster Gate",United States of America,1995-12-22,0.0,101.0,Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,6.5,92.0,Grumpy Old Men Collection,English,Howard Deutch,"Walter Matthau,Jack Lemmon,Ann-Margret,Sophia ..."
3,16000000,"Comedy,Drama,Romance",31357,en,"Cheated on, mistreated and stepped on, the wom...",3.859495,Twentieth Century Fox Film Corporation,United States of America,1995-12-22,81452156.0,127.0,Released,Friends are the people who let you be yourself...,Waiting to Exhale,6.1,34.0,,English,Forest Whitaker,"Whitney Houston,Angela Bassett,Loretta Devine,..."
4,0,Comedy,11862,en,Just when George Banks has recovered from his ...,8.387519,"Sandollar Productions,Touchstone Pictures",United States of America,1995-02-10,76578911.0,106.0,Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,5.7,173.0,Father of the Bride Collection,English,Charles Shyer,"Steve Martin,Diane Keaton,Martin Short,Kimberl..."


In [172]:
# Información del número de columnas, filas, tipos de datos y valores faltantes
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45433 entries, 0 to 45432
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   budget                45433 non-null  int32         
 1   genres                42991 non-null  object        
 2   id                    45433 non-null  int32         
 3   original_language     45433 non-null  object        
 4   overview              44474 non-null  object        
 5   popularity            45430 non-null  float64       
 6   production_companies  33562 non-null  object        
 7   production_countries  39151 non-null  object        
 8   release_date          45346 non-null  datetime64[ns]
 9   revenue               45430 non-null  float64       
 10  runtime               45173 non-null  float64       
 11  status                45349 non-null  object        
 12  tagline               20397 non-null  object        
 13  title           

In [173]:
# Tupla con la cantidad de registros y columnas presentes en "merged_df"
entries_original = merged_df.shape[0]
merged_df.shape

(45433, 20)

#### Datos faltantes

¿cuántos datos faltantes hay y que % representan en base al total de datos?

In [174]:
# Cantidad de datos faltantes por columna en "merged_df"
missing_values_count = merged_df.isnull().sum()
columns = merged_df.shape[1]
missing_values_count[0:columns]

budget                      0
genres                   2442
id                          0
original_language           0
overview                  959
popularity                  3
production_companies    11871
production_countries     6282
release_date               87
revenue                     3
runtime                   260
status                     84
tagline                 25036
title                       3
vote_average                3
vote_count                  3
collection              40945
languages                3953
director                  888
actors                   2415
dtype: int64

**Observación:**

Todas las columnas excepto 3 presentan datos faltantes. Sin embargo, las que mayor datos nulos presentan son: ```collection```, ```tagline``` y ```production_companies```.

In [175]:
# % de datos faltantes respecto al total de los datos presentes en "merged_df"
total_cells = np.product(merged_df.shape)
total_missing = missing_values_count.sum()
percent_missing = (total_missing / total_cells) * 100
print(f'{round(percent_missing, 2)}%')

10.48%


##### Atributo ```Collection```



In [176]:
# Cálculo de datos faltantes en el atributo "collection" respecto al total de sus registros, medido en %
total_collection = merged_df['collection'].shape[0]
total_missing_collection = merged_df['collection'].isnull().sum()
percent_missing_collection = (total_missing_collection / total_collection) * 100
value = round(percent_missing_collection, 2)
print(f'De {total_collection} registros que posee la columna collection, {total_missing_collection} corresponden a los datos faltantes. Lo que representa el {value}% de los datos de la columna')

De 45433 registros que posee la columna collection, 40945 corresponden a los datos faltantes. Lo que representa el 90.12% de los datos de la columna


**Decisión:**

Considerando que la columna tiene el 90.12% de sus registros como nulos y no está aportando información significativa. Se procede a descartarla

In [177]:
# Se elimina el atributo "collection" con el método "drop"
merged_df = merged_df.drop(['collection'], axis = 1)
# Se imprime los nombres de las columnas resultantes en "merged_df"
merged_df.columns

Index(['budget', 'genres', 'id', 'original_language', 'overview', 'popularity',
       'production_companies', 'production_countries', 'release_date',
       'revenue', 'runtime', 'status', 'tagline', 'title', 'vote_average',
       'vote_count', 'languages', 'director', 'actors'],
      dtype='object')

In [178]:
# Cálculo del total de datos faltantes considerando la eliminanción del atributo "collection"
missing_values_count = merged_df.isnull().sum()

# % de datos faltantes respecto al total de los datos en "merged_df"
total_cells = np.product(merged_df.shape)
total_missing = missing_values_count.sum()
percent_missing = (total_missing / total_cells) * 100
print(f'{round(percent_missing, 2)}%')

6.29%


**Observación:**

Con el descarte de la columna ```collection```, la cantidad de datos faltantes disminuyó un 4.19%

##### Atributo ```Tagline```

In [179]:
# Cálculo de datos faltantes en el atributo "tagline" respecto al total de sus registros, medido en %
total_tagline = merged_df['tagline'].shape[0]
total_missing_tagline = merged_df['tagline'].isnull().sum()
percent_missing_tagline = (total_missing_tagline / total_tagline) * 100
value = round(percent_missing_tagline, 2)
print(f'De {total_tagline} registros que posee la columna tagline, {total_missing_tagline} corresponden a los datos faltantes. Lo que representa el {value}% de los datos de la columna')

De 45433 registros que posee la columna tagline, 25036 corresponden a los datos faltantes. Lo que representa el 55.11% de los datos de la columna


**Decisión:**

A pesar de que hay más del 50% de los registros como faltantes en esta columna no se procede a eliminarla. Ya que presenta información útil, lo que se pudiese sugerir en caso de necesitar imputar la data faltante sería usar la API tanto de TMDB como IMDB

##### Atributo ```release_date```

In [180]:
# Cálculo de datos faltantes en el atributo "release_date" respecto al total de sus registros, medido en %
total_release_date = merged_df['release_date'].shape[0]
total_missing_release_date = merged_df['release_date'].isnull().sum()
percent_missing_release_date = (total_missing_release_date / total_release_date) * 100
value = round(percent_missing_release_date, 2)
print(f'De {total_release_date} registros que posee la columna release_date, {total_missing_release_date} corresponden a los datos faltantes. Lo que representa el {value}% de los datos de la columna')

De 45433 registros que posee la columna release_date, 87 corresponden a los datos faltantes. Lo que representa el 0.19% de los datos de la columna


In [181]:
# Se crea un Dataframe con los valores nulos en "release_date", para facilitar el estudio de los mismos
null_dates = merged_df[merged_df['release_date'].isnull()]
null_dates.head(3)

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,languages,director,actors
711,0,,365371,en,Seven New Zealand women speak about their live...,0.005625,,,NaT,0.0,95.0,Released,,War Stories Our Mother Never Told Us,0.0,0.0,,,
734,0,,215107,en,Vermont is for Lovers is an independently prod...,0.75,,,NaT,0.0,88.0,Released,,Vermont Is for Lovers,0.0,0.0,,John O'Brien,"George Thrush,Marya Cohn,Ann O'Brien"
3459,0,Drama,94214,en,"Jails, Hospitals &amp; Hip-Hop is a cinematic ...",0.009057,,,NaT,10.0,90.0,,three worlds / two million voices / one genera...,"Jails, Hospitals & Hip-Hop",0.0,0.0,,,


In [182]:
# Imprimir la cantidad de valores nulos en los atributos "director" y "actors"
print('De las 87 filas con datos nulos en release_date:')
print('El atributo director tiene:', null_dates['director'].isnull().sum(), 'datos nulos')
print('El atributo actors tiene:', null_dates['actors'].isnull().sum(), 'datos nulos')
print('El atributo title tiene:', null_dates['title'].isnull().sum(), 'datos nulos')
print('El atributo overview tiene:', null_dates['overview'].isnull().sum(), 'datos nulos')

De las 87 filas con datos nulos en release_date:
El atributo director tiene: 52 datos nulos
El atributo actors tiene: 66 datos nulos
El atributo title tiene: 3 datos nulos
El atributo overview tiene: 13 datos nulos


**Observación:**

Para el caso de las 3 filas sin las el nombre del título, se procede a identificar ese dato faltante junto con su fecha de lanzamiento

In [183]:
#  Verificar si hay más información que permita identificar el nombre de la película a través de IMDB de forma manual
null_dates[null_dates['title'].isnull()]

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,languages,director,actors
19721,0,"Action,Thriller,Drama",82663,en,British soldiers force a recently captured IRA...,,,,NaT,,,,,,,,,Lawrence Gordon Clark,"Rob Lowe,Kenneth Cranham,Deborah Moore,Hannes ..."
29481,0,"Animation,Science Fiction",122662,ja,Third film of the Mardock Scramble series.,,,,NaT,,,,,,,,,Susumu Kudo,"Megumi Hayashibara,Hiroki Touchi,Kazuya Nakai,..."
35561,0,"TV Movie,Action,Horror,Science Fiction",249260,en,A group of skiers are terrorized during spring...,,,,NaT,,,,,,,,,Scott Wheeler,"Alexander Mendeluk,Kate Nauta,Benjamin Easterd..."


**Resultados de la búsqueda manual:**

Considerando la información proporciona por las columnas ```genres```, ```overview```, ```director``` y ```actors```, se logró determinar que:

- Para la fila N° 19721: ```Title``` = Midnight Man, ```release_date``` =
August 20, 1997 y ```runtime``` = 1h 44m
- Para la fila N° 29481: ```Title``` = Mardock Scramble: The Third Exhaust,  ```release_date``` = September 29, 2012 y ```runtime``` = 1h 6m
- Para la fila N° 35561: ```Title``` = Avalanche Sharks,  ```release_date``` = January 12, 2014 y ```runtime``` = 1h 20m

In [184]:
# Reemplazar los valores encontrados respecto al index 19721
merged_df.loc[19721, 'title'] = 'Midnight Man'
merged_df.loc[19721, 'release_date'] = pd.Timestamp('1997-08-20')
merged_df.loc[19721, 'runtime'] = 104.0
# Reemplazar los valores encontrados respecto al index 29481
merged_df.loc[29481, 'title'] = 'Mardock Scramble: The Third Exhaust'
merged_df.loc[29481, 'release_date'] = pd.Timestamp('2012-09-29')
merged_df.loc[29481, 'runtime'] = 66.0
# Reemplazar los valores encontrados respecto al index 35561
merged_df.loc[35561, 'title'] = 'Avalanche Sharks'
merged_df.loc[35561, 'release_date'] = pd.Timestamp('2014-01-12')
merged_df.loc[35561, 'runtime'] = 80.0

**Decisión:**

Debido a que se tiene información del títulos de las películas, se puede solicitar la data faltante respecto al año de lanzamiento a la API de TMDB

In [185]:
# Definir la URL base de la API de TMDB y tu clave de API
url_base = 'https://api.themoviedb.org/3'
api_key = '8bd5fa92be7125df3d546af00e20d1b6'

# Itera sobre las filas del dataframe
for i, row in merged_df.iterrows():
  title = row['title']
  release_date = row['release_date']
  # Verifica si el valor en 'release_date' es nulo
  if pd.isna(release_date):
    # Buscar la película en TMDB
    query = title
    url = f'{url_base}/search/movie'
    params = {'api_key': api_key, 'query': query}
    response = requests.get(url, params=params)
    # Obtener el ID de la película
    if response.status_code == 200:
      data = response.json()
      if data['total_results'] > 0:
        movie_id = data['results'][0]['id']
        # Enviar una solicitud GET a la API de TMDB para obtener información sobre la película
        url = f'{url_base}/movie/{movie_id}'
        params = {'api_key': api_key}
        response = requests.get(url, params=params)
        # Verificar si la solicitud se realizó correctamente y obtener la fecha de lanzamiento
        if response.status_code == 200:
          data = response.json()
          release_date_str = data['release_date']
          if release_date_str:
            release_date = pd.to_datetime(release_date_str)
            # Reemplazar los NaN en la columna 'release_date' con las fechas de lanzamiento
            merged_df.at[i, 'release_date'] = release_date

In [186]:
# Verificando si disminuyó la cantidad de datos nulos
merged_df['release_date'].isnull().sum()

22

**Decisión:**

Dado que no se logró imputar todas las filas y sólo quedaron 22 registros con el año de lanzamiento como faltante, se procede a intentar reemplazar estos valores forma manual usando la página de IMDB. Si la cantidad de filas fuera mucho más grande, la decisión final sería intentar usar la API de IMDB.

In [187]:
# Extraer información de aquellas filas donde 'releasee_date' sea NaT
merged_df[merged_df['release_date'].isnull()].head()

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,languages,director,actors
711,0,,365371,en,Seven New Zealand women speak about their live...,0.005625,,,NaT,0.0,95.0,Released,,War Stories Our Mother Never Told Us,0.0,0.0,,,
20292,0,,367678,en,American Documentary,0.0,,,NaT,0.0,0.0,Released,,Enola Gay and the Atomic Bombing of Japan,0.0,0.0,,,
20622,120000,Documentary,116059,en,Stand up comedian Graham Elwood's journey phys...,0.0375,,,NaT,0.0,90.0,Released,,Laffghanistan: Comedy Down Range,0.0,0.0,,,
21154,0,"Action,Thriller,Science Fiction",93649,en,Nadine (Lisa Sookhiram) is sucked into an othe...,0.0,,,NaT,0.0,91.0,Released,,Reflection,0.0,0.0,,,"Lisa Sookhiram,James Kautz,Gerard Adimando,Car..."
27480,0,,76162,en,Stephen Fry travels through each of America's ...,0.05048,,,NaT,0.0,59.0,Released,,Stephen Fry In America - New World,8.0,1.0,,,


In [188]:
# Reemplazar los valores encontrados respecto al index 711
merged_df.loc[711, 'release_date'] = pd.Timestamp('1995-09-09')
merged_df.loc[711, 'director'] = 'Gaylene Preston'
merged_df.loc[711, 'genres'] = 'Documentary, Romance, War'
# Reemplazar los valores encontrados respecto al index 20292
merged_df.loc[20292, 'release_date'] = pd.Timestamp('1995-01-01')
merged_df.loc[20292, 'director'] = 'Tim Curran'
merged_df.loc[20292, 'runtime'] = 45.0
merged_df.loc[20292, 'genres'] = 'Documentary'
# Reemplazar los valores encontrados respecto al index 20622
merged_df.loc[20622, 'release_date'] = pd.Timestamp('2009-04-10')
merged_df.loc[20622, 'director'] = 'Graham Elwood'
# Reemplazar los valores encontrados respecto al index 21154
merged_df.loc[21154, 'release_date'] = pd.Timestamp('2007-03-20')
merged_df.loc[21154, 'director'] = 'Robert Dixon'
# Reemplazar los valores encontrados respecto al index 27480
merged_df.loc[27480, 'release_date'] = pd.Timestamp('2008-10-12')
merged_df.loc[27480, 'director'] = 'John Paul Davidson'
merged_df.loc[27480, 'genres'] = 'Documentary'
# Reemplazar los valores encontrados respecto al index 32715
merged_df.loc[32715, 'release_date'] = pd.Timestamp('2015-03-15')
merged_df.loc[32715, 'actors'] = 'David Morrison, John W. Boyd, Simon P. Worden'

In [189]:
# Reemplazar los valores encontrados respecto al index 34220
merged_df.loc[34220, 'release_date'] = pd.Timestamp('1977-06-01')
merged_df.loc[34220, 'genres'] = 'Drama, Romance'
merged_df.loc[34220, 'runtime'] = 93.0
# Reemplazar los valores encontrados respecto al index 34415
merged_df.loc[34415, 'release_date'] = pd.Timestamp('2013-07-23')
merged_df.loc[34415, 'genres'] = 'Documentary'
merged_df.loc[34415, 'director'] = 'Ema Ryan Yamazaki'
# Reemplazar los valores encontrados respecto al index 36394
merged_df.loc[36394, 'release_date'] = pd.Timestamp('2014-06-14')
merged_df.loc[36394, 'runtime'] = 9.0
merged_df.loc[36394, 'director'] = 'Thierry Terrasson Jim'
merged_df.loc[36394, 'overview'] = 'The meeting of two worlds opposed to a red light, between a pretty young woman in a car and SDF. A film filled with tenderness, with beautiful images on a topic of precariousness. It causes you to turn round in an idyllic set on the sidewalk as curious pedestrian or as a stowaway in the cabin of the conductor.'
merged_df.loc[36394, 'genres'] = 'Short, Comedy, Romance'
# Reemplazar los valores encontrados respecto al index 37187
merged_df.loc[37187, 'release_date'] = pd.Timestamp('2001-12-06')
merged_df.loc[37187, 'director'] = 'Frank van den Engel'
merged_df.loc[37187, 'runtime'] = 82.0
merged_df.loc[37187, 'genres'] = 'Documentary'

In [190]:
# Reemplazar los valores encontrados respecto al index 38302
merged_df.loc[38302, 'release_date'] = pd.Timestamp('2002-06-20')
merged_df.loc[38302, 'director'] = 'Kôichi Mashimo, Masayuki Yoshihara'
merged_df.loc[38302, 'genres'] = 'Animation, Drama, Mystery, Science Fiction'
# Reemplazar los valores encontrados respecto al index 39576
merged_df.loc[39576, 'release_date'] = pd.Timestamp('2013-03-02')
merged_df.loc[39576, 'genres'] = 'Documentary'
# Reemplazar los valores encontrados respecto al index 41039
merged_df.loc[41039, 'release_date'] = pd.Timestamp('2000-01-01')
merged_df.loc[41039, 'runtime'] = 70.0
merged_df.loc[41039, 'director'] = 'Scott Zakarin'
merged_df.loc[41039, 'genres'] = 'Comedy, Family, Fantasy'
merged_df.loc[41039, 'production_companies'] = 'Walt Disney Productions'
# Reemplazar los valores encontrados respecto al index 42538
merged_df.loc[42538, 'release_date'] = pd.Timestamp('2012-09-18')
merged_df.loc[42538, 'genres'] = 'Family'
# Reemplazar los valores encontrados respecto al index 42543
merged_df.loc[42543, 'title'] = 'When the Day Had No Name'
merged_df.loc[42543, 'release_date'] = pd.Timestamp('2017-02-11')
merged_df.loc[42543, 'runtime'] = 93.0
merged_df.loc[42543, 'genres'] = 'Drama'
merged_df.loc[42543, 'director'] = 'Teona Strugar Mitevska'
merged_df.loc[42543, 'overview'] = 'Day before Easter 2012, perfectly lined up bodies of four teenagers, each with a bullet hole in their head, were found near a lake just outside Skopje, Macedonian capital. They just went fishing. The nation was shocked. The rumours run wild. Ethnic tensions were boiling. The police investigation, officially named "Monsters", pointed to Islamists terrorists. Two years later, court jailed four persons for murder and terrorism. The alleged perpetrators deny the act. This film is fiction about what could have happened that day, those hours before the tragedy stroke. Through the film we live the last day in the life of six youngsters. It is a reconstruction of Macedonian grim reality, not of the actual events. It is a film about a country where life can cease suddenly without a cause, as it is lived.'

In [191]:
# Reemplazar los valores encontrados respecto al index 42911
merged_df.loc[42911, 'release_date'] = pd.Timestamp('1978-10-27')
merged_df.loc[42911, 'director'] = 'Stein Roger Bull'
merged_df.loc[42911, 'genres'] = 'Horror, Mystery, Science Fiction, Thriller'
merged_df.loc[42911, 'runtime'] = 110.0
# Reemplazar los valores encontrados respecto al index 43932
merged_df.loc[43932, 'release_date'] = pd.Timestamp('2013-05-30')
merged_df.loc[43932, 'director'] = 'Jordan Stone'
merged_df.loc[43932, 'genres'] = 'Documentary, Biography'
# Reemplazar los valores encontrados respecto al index 44068
merged_df.loc[44068, 'title'] = 'Igra na vybyvanie'
merged_df.loc[44068, 'release_date'] = pd.Timestamp('2005-12-08')
merged_df.loc[44068, 'director'] = 'Vadim Shmelev'
merged_df.loc[44068, 'genres'] = 'Thriller'
# Reemplazar los valores encontrados respecto al index 44768
merged_df.loc[44768, 'release_date'] = pd.Timestamp('2004-07-01')
merged_df.loc[44768, 'director'] = 'David Firth'
# Reemplazar los valores encontrados respecto al index 45038
merged_df.loc[45038, 'release_date'] = pd.Timestamp('2017-05-11')
merged_df.loc[45038, 'director'] = 'Josias Teófilo'
merged_df.loc[45038, 'genres'] = 'Documentary'
merged_df.loc[45038, 'runtime'] = 81.0

In [192]:
# Verifcando que sólo queden 2 filas nulas en 'release_date'
merged_df['release_date'].isnull().sum()

2

In [193]:
# Ver las 2 filas con los valores faltantes en 'release_date'
merged_df[merged_df['release_date'].isnull()].head()

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,languages,director,actors
32144,0,"History,Animation,Drama",284258,en,"In post-Katrina New Orleans, a Syrian-born pai...",0.036084,"Clinica Estetico,MK2 Productions",,NaT,0.0,0.0,Planned,,Zeitoun,0.0,0.0,English,Jonathan Demme,
33334,0,,47934,en,Plot unknown,0.642294,,,NaT,0.0,0.0,Canceled,,Independence Day 3,3.9,4.0,English,Roland Emmerich,


**Decisión:**

Como las 2 filas corresponden a películas que de acuerdo a la columna ```status``` fueron planeada y cancelada respectivamente, se procede a la eliminación de estas.

In [194]:
# Se eliminan las filas donde la columna "release_date" tiene valores nulos
merged_df = merged_df.dropna(subset = ['release_date'])

In [195]:
# Cálculo de la cantidad de valores faltantes considerando los cambios en el atributo "release_date"
missing_values_count = merged_df.isnull().sum()

# % de datos faltantes respecto al total de los datos
total_cells = np.product(merged_df.shape)
total_missing = missing_values_count.sum()
percent_missing = (total_missing / total_cells) * 100
print(f'{round(percent_missing, 2)}%')

6.27%


**Observación:**

Con las imputaciones manuales en la columna ```release_date```, la cantidad de datos faltantes disminuyó un 0.02%

##### Atributo ```overview```

In [196]:
# Cálculo de datos faltantes en el atributo "overview" respecto al total de sus registros, medido en %
total_overview = merged_df['overview'].shape[0]
total_missing_overview = merged_df['overview'].isnull().sum()
percent_missing_overview = (total_missing_overview / total_overview) * 100
value = round(percent_missing_overview, 2)
print(f'De {total_overview} registros que posee la columna overview, {total_missing_overview} corresponden a los datos faltantes. Lo que representa el {value}% de los datos de la columna')

De 45431 registros que posee la columna overview, 957 corresponden a los datos faltantes. Lo que representa el 2.11% de los datos de la columna


In [197]:
# Mostrar un conteo de las descripciones que más se repiten en el atributo "overview"
merged_df['overview'].value_counts(dropna = False).head()

NaN                                     957
No overview found.                      133
No Overview                               7
Adaptation of the Jane Austen novel.      3
No movie overview available.              3
Name: overview, dtype: int64

Las primeras 4 salidas corresponden a valores faltantes. Por lo que será conveniente corregirlas para tener una consistencia

In [198]:
# Limpiar los valores faltantes de la columna 'overview'
merged_df['overview'] = merged_df['overview'].apply(lambda x: str(x).strip())
merged_df['overview'] = merged_df['overview'].apply(lambda x: re.sub(r'[^\w\s]','',x))
merged_df['overview'] = merged_df['overview'].apply(lambda x: x.lower())

# Reemplazar los valores faltantes con 'No overview found' o NaN
merged_df['overview'] = merged_df['overview'].apply(lambda x: 'no overview found' if x in ['nan', 'no overview', 'no overview found', 'no movie overview available', None] else x)
merged_df['overview'] = merged_df['overview'].apply(lambda x: np.nan if x == '' else x)

In [199]:
# Verificando que los cambios se realizaron
merged_df['overview'].value_counts(dropna = False).head(4)

no overview found                                            1103
a few funny little novels about different aspects of life       3
no overview yet                                                 3
adaptation of the jane austen novel                             3
Name: overview, dtype: int64

In [200]:
# Verificando si quedaron datos nulos
merged_df['overview'].isnull().sum()

1

In [201]:
# Encuentrar el índice del valor nulo en la columna "overview"
null_index = merged_df["overview"].isnull().idxmax()
# Imprime el valor de la columna "overview" para la fila correspondiente al índice "null_index"
merged_df.loc[null_index, "overview"]

nan

In [202]:
merged_df['overview'].fillna('no overview found', inplace=True)

In [203]:
# Cálculo del total de datos faltantes considerando los cambios en el atributo "overview"
missing_values_count = merged_df.isnull().sum()

# % de datos faltantes respecto al total de los datos en "merged_df"
total_cells = np.product(merged_df.shape)
total_missing = missing_values_count.sum()
percent_missing = (total_missing / total_cells) * 100
print(f'{round(percent_missing, 2)}%')

6.16%


**Observación:**

Con la imputación de los valores nulos en el campo ```overview```, la cantidad de datos faltantes disminuyó un 0.11%

##### Atributo ```genres```

In [204]:
# Cálculo de datos faltantes en el atributo "genres" respecto al total de sus registros, medido en %
total_genres = merged_df['genres'].shape[0]
total_missing_genres = merged_df['genres'].isnull().sum()
percent_missing_genres = (total_missing_genres / total_genres) * 100
value = round(percent_missing_genres, 2)
print(f'De {total_genres} registros que posee la columna genres, {total_missing_genres} corresponden a los datos faltantes. Lo que representa el {value}% de los datos de la columna')

De 45431 registros que posee la columna genres, 2425 corresponden a los datos faltantes. Lo que representa el 5.34% de los datos de la columna


**Decisión:**

Aunque los datos faltantes en la columna ```genres``` representan solo el 5.34% del total de los datos de esa columna, es fundamental intentar imputar los datos faltantes ya que en la industria cinematográfica es fundamental tener la información respecto a los géneros de las películas y series. Por lo que se volverá a utilizar la API de TMDB para obtener esta información. Además, este campo puede ser relevante para futuros análisis y, por lo tanto, la imputación de los datos puede mejorar significativamente la calidad de los resultados.

In [205]:
# Definir la URL base de la API de TMDB y tu clave de API
url_base = 'https://api.themoviedb.org/3'
api_key = '8bd5fa92be7125df3d546af00e20d1b6'

# Itera sobre las filas del dataframe
for i, row in merged_df.iterrows():
  title = row['title']
  genres = row['genres']
  # Verifica si el valor en 'genres' es nulo
  if pd.isna(genres):
    # Buscar la película en TMDB
    query = title
    url = f'{url_base}/search/movie'
    params = {'api_key': api_key, 'query': query}
    response = requests.get(url, params=params)
    # Obtener el ID de la película
    if response.status_code == 200:
      data = response.json()
      if data['total_results'] > 0:
        movie_id = data['results'][0]['id']
        # Enviar una solicitud GET a la API de TMDB para obtener información sobre la película
        url = f'{url_base}/movie/{movie_id}'
        params = {'api_key': api_key}
        response = requests.get(url, params=params)
        # Verificar que la solicitud se haya realizado correctamente y obtener información adicional sobre la película
        if response.status_code == 200:
          data = response.json()
          genres = [genre['name'] for genre in data['genres']]
          # Reemplazar los NaN en la columna 'genres' con los géneros como un string separado por comas
          merged_df.at[i, 'genres'] = ', '.join(genres[:3])

In [206]:
# Mostrar un conteo de los géneros que más se repiten en el atributo "genres"
merged_df['genres'].value_counts(dropna = False).head()

Drama            5326
Comedy           3821
Documentary      2959
Drama,Romance    1300
Comedy,Drama     1133
Name: genres, dtype: int64

**Decisión:**

Como se imputaron algunos datos faltantes, se verficará si hay una inconsistencia en el total de los registros.

In [207]:
# Identificar si retornaron filas que contienen cadenas de texto vacías
merged_df.loc[merged_df['genres'].str.strip() == ''].genres.shape[0]

447

In [208]:
# Reemplazar los valores de cadena vacía en la columna "genres" con valores NaN
merged_df['genres'] = merged_df['genres'].replace('', np.nan)

In [209]:
# Verificar cuantos registros nulos no se pudieron imputar
merged_df['genres'].isnull().sum()

516

**Observación:**

De 2425 registros nulos se pasó a 516. Por lo que se logró una disminución del 78.69%

In [210]:
# Función que elimina espacios en blanco al principio, al final y entre cada nombre de género
def strip_genres(genres):
  # Verifica si el registro es nulo
  if pd.isnull(genres):
    return genres
  # Si no es nulo, elimina los espacios en blanco
  else:
    return genres.replace(' ', '').strip()

merged_df['genres'] = merged_df['genres'].apply(strip_genres)

In [211]:
# Función que verifica si hay géneros duplicados dentro de cada registro en la columna "genres"
def has_duplicates(genres):
  # Verifica si el registro es nulo
  if pd.isnull(genres):
    return False
  # Si no es nulo, compara el largo de los géneros en la misma fila
  else:
    return len(genres.split(',')) != len(set(genres.split(',')))

# Se almacena la información retornada de la función en duplicates
duplicates = merged_df['genres'].apply(has_duplicates)

# Imprimir cualquier registro que contenga géneros duplicados en la columna "genres"
if duplicates.any():
  print('Los siguientes registros contienen géneros duplicados en la columna "genres":')
  for record in merged_df[duplicates]['genres']:
    print('  -', record)
else:
    print('No hay géneros duplicados en la columna "genres"')

No hay géneros duplicados en la columna "genres"


In [212]:
# Convertir a minúsculas los géneros en la columna "genres"
def lower_case_genres(genres):
  # Verifica si el registro es nulo
  if pd.isnull(genres):
    return genres
  # Si no es nulo, convierte a minúscula los géneros
  else:
    return genres.lower()

merged_df['genres'] = merged_df['genres'].apply(lower_case_genres)

**Observación:**

Ahora se obtendrá una lista los géneros únicos presentes en "merged_df". De esta forma se examina que todos los cambios se han realizado con éxito

In [213]:
# Copia de "merged_df" para no afectar los registros nulos
df_verif = merged_df.copy()

# Eliminar cualquier fila que contenga un valor nulo en la columna "genres"
df_verif = df_verif.dropna(subset=['genres'])

# Crear un dataframe de indicadores de género
genres_df = df_verif['genres'].str.get_dummies(sep = ',')

# Sumar las columnas para obtener la lista de géneros únicos
genres_list = genres_df.columns.tolist()

# Imprimir la lista de géneros y cantidad de géneros únicos
print(f'Lista de géneros presentes en la columna "genres":\n{genres_list}\n')
print(f'Cantidad de géneros únicos: {len(genres_list)}')

Lista de géneros presentes en la columna "genres":
['action', 'adventure', 'animation', 'biography', 'comedy', 'crime', 'documentary', 'drama', 'family', 'fantasy', 'foreign', 'history', 'horror', 'music', 'mystery', 'romance', 'sciencefiction', 'short', 'thriller', 'tvmovie', 'war', 'western']

Cantidad de géneros únicos: 22


In [214]:
# Cálculo del total de datos faltantes considerando los cambios en el atributo "genres"
missing_values_count = merged_df.isnull().sum()

# % de datos faltantes respecto al total de los datos en "merged_df"
total_cells = np.product(merged_df.shape)
total_missing = missing_values_count.sum()
percent_missing = (total_missing / total_cells) * 100
print(f'{round(percent_missing, 2)}%')

5.94%


**Observación:**

Con la imputacion de los valores nulos en el campo ```genres```, la cantidad de datos faltantes disminuyó un 0.22%

#### Imputación de Datos

##### Atributo ```runtime```

In [215]:
# Mostrar un conteo de las tiempos en minutos que más se repiten en el atributo "runtime"
merged_df.runtime.value_counts().head()

90.0     2555
0.0      1551
100.0    1470
95.0     1411
93.0     1214
Name: runtime, dtype: int64

In [216]:
# Conteo de la cantidad de datos nulos en el atributo "runtime"
merged_df.runtime.isnull().sum()

254

**Decisión:**

Dado que causa ruido una duración de 0 minutos para 1535 títulos considerando que 1496 tienen el status de Released (como se observó en la limpieza de movies_csv). Se consumirá la API de TMDB para corroborar todos aquellos títulos que tienen una duración de 0 minutos. Si el dato es erróneo se reemplazará por el valor real, de lo contrario volverá a retornar 0.

In [217]:
# Definir la URL base de la API de TMDB y tu clave de API
url_base = 'https://api.themoviedb.org/3'
api_key = '8bd5fa92be7125df3d546af00e20d1b6'

# Función para obtener la duración de la película a partir del título utilizando la API de TMDB
def get_runtime(title):
  # Buscar la película en TMDB
  query = title
  url = f'{url_base}/search/movie'
  params = {'api_key': api_key, 'query': query}
  response = requests.get(url, params=params)
  # Obtener el ID de la película
  if response.status_code == 200:
    data = response.json()
    if data['total_results'] > 0:
      movie_id = data['results'][0]['id']
      # Enviar una solicitud GET a la API de TMDB para obtener información sobre la película
      url = f'{url_base}/movie/{movie_id}'
      params = {'api_key': api_key}
      response = requests.get(url, params=params)
      # Verificar que la solicitud se haya realizado correctamente y obtener la duración de la película
      if response.status_code == 200:
        data = response.json()
        runtime = data['runtime']
        # Devolver la duración de la película si no es nula
        if pd.notnull(runtime):
          return runtime
  return None

# Aplicar la función get_runtime a la columna 'title' sólo a las filas que tengan un valor de 0 o NaN en 'runtime'
mask = (merged_df['runtime'].isnull()) | (merged_df['runtime'] == 0)
merged_df.loc[mask, 'runtime'] = merged_df.loc[mask, 'title'].apply(get_runtime)

In [218]:
# Verificar que los cambios se han realizados
merged_df.runtime.value_counts().head()

90.0     2666
100.0    1522
95.0     1460
93.0     1264
96.0     1137
Name: runtime, dtype: int64

In [219]:
# Verificar cuantos títulos tienen efectivamente una duración de 0 minutos
merged_df[merged_df['runtime'] == 0].shape[0]

344

In [220]:
# Verificar la cantidad de datos nulos finales
merged_df.runtime.isnull().sum()

19

**Observación:**

De acuerdo a los resultados obtenidos, efectivamente 1186 títulos tenían una duración distinta a los 0 minutos. Por otro lado, se logró la disminución de los datos faltante pasando de 254 a 19.

In [221]:
# Cálculo del total de datos faltantes considerando los cambios en el atributo "runtime"
missing_values_count = merged_df.isnull().sum()

# % de datos faltantes respecto al total de los datos en "merged_df"
total_cells = np.product(merged_df.shape)
total_missing = missing_values_count.sum()
percent_missing = (total_missing / total_cells) * 100
print(f'{round(percent_missing, 2)}%')

5.91%


**Observación:**

Con la imputacion de algunos valores nulos en el campo ```runtime```, la cantidad de datos faltantes disminuyó un 0.02%

##### Atributo ```languages```

In [222]:
# Mostrar un conteo de las tiempos en minutos que más se repiten en el atributo "languages"
merged_df.languages.value_counts(dropna = False).head(5)

English     22379
NaN          3953
Français     1851
日本語          1287
Italiano     1218
Name: languages, dtype: int64

In [223]:
# Separar los lenguajes en múltiples filas utilizando el método explode()
filtro_languages = merged_df.assign(languages = merged_df['languages'].str.split(',')).explode('languages')

# Obtener el conteo de valores de cada lenguaje único
conteo_languages = filtro_languages['languages'].str.strip().value_counts(dropna = False)

In [224]:
# Mostrar el conteo de valores de cada lenguaje único
conteo_languages.sample(10)

Bahasa melayu      16
Gaeilge            21
日本語              1756
Pусский          1563
isiZulu            18
Fulfulde            2
Somali              9
Kiswahili          24
Bamanankan          6
Lietuvikai        26
Name: languages, dtype: int64

In [225]:
conteo_languages.sample(10)

Azərbaycan            4
ozbek                 2
euskera              16
Bosanski             33
беларуская мова       2
پښتو                  8
Deutsch            2624
Latviešu             21
?????                 4
                    375
Name: languages, dtype: int64

**Observación:**

Vemos como hay 369 strings vacíos, 5 simbolos de puntación como lenguaje hablado por película y 319 frases como "No Language".

**Decisión:**

Por lo que los valores nulos, los strings vacíos y los símbolos serán imputados por "No Language".

#### Buscando inconsistencias en los atributos ```title``` y ```overview```

Dado que el objetivo principal de este ETL es utilizar estos datos para crear un modelo de sistema de recomendación de películas. Es necesario percatarse que ciertas columnas no tengan carácteres especiales que puedan afectar algunas técnicas que podrían ser empleadas.

In [226]:
# Copia para no afectar todos los cambios y amputaciones que se han realizado
merged = merged_df.copy()

##### Atributo ```title```

In [227]:
# Identificar las filas que contienen cadenas de texto vacías, eliminando los espacios en blanco al principio y al final de cada cadena
merged.loc[merged['title'].str.strip() == '']

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,languages,director,actors


In [228]:
# Verificar si hay caracteres especiales que no sean letras o números en la columna 'title'
special_chars_regex = re.compile('[^A-Za-z0-9\s]+')
contains_special_chars = merged['title'].str.contains(special_chars_regex)

# Mostrar las filas del DataFrame que contienen caracteres especiales
df_contains_special_chars = merged[contains_special_chars]
df_contains_special_chars_sorted = df_contains_special_chars.sort_values('title')
df_contains_special_chars_sorted.title.head()

18749    !Women Art Revolution
30938      #1 Cheerleader Camp
36126                  #Horror
23485             #chicagoGirl
28023      $1,000 on the Black
Name: title, dtype: object

In [229]:
# Filtrar las filas donde el título de la película contiene un signo de dólar
dollar_titles = merged.loc[merged['title'].str.contains('\$')]
filas = dollar_titles.shape[0]
print(f'Hay {filas} filas que contienen el caracter especial $\n')
dollar_titles.title.head()

Hay 18 filas que contienen el caracter especial $



5055             How to Beat the High Co$t of Living
7614     The First $20 Million Is Always the Hardest
9505                    What the #$*! Do We (K)now!?
11865               Who the #$&% Is Jackson Pollock?
14827                                          $9.99
Name: title, dtype: object

In [230]:
# Filtrar las filas donde el título de la película contiene un signo del hashtag
hashtag_titles = merged.loc[merged['title'].str.contains('\#')]
filas = hashtag_titles.shape[0]
print(f'Hay {filas} filas que contienen el caracter especial #\n')
hashtag_titles.title.head()

Hay 12 filas que contienen el caracter especial #



5731                        Revolution #9
9222       Female Prisoner #701: Scorpion
9505         What the #$*! Do We (K)now!?
11865    Who the #$&% Is Jackson Pollock?
12736            Gunnin' for That #1 Spot
Name: title, dtype: object

**Decisión:**

Es posible que algunos de estos títulos sean correctos y otros no. Por lo que sólo se modifcaran aquellos que no sean correctos o tengan otra versión más limpia de su nombre.

In [231]:
# Corregir el título de algunas películas
merged.loc[merged['title'] == 'What the #$*! Do We (K)now!?', 'title'] = 'What the Bleep Do We Know!?'
merged.loc[merged['title'] == 'Night #1', 'title'] = 'Nuit #1'
merged.loc[merged['title'] == "Richard Pryor: I Ain't Dead Yet, #*%$#@!!", 'title'] = "Richard Pryor: I Ain't Dead Yet"
merged.loc[merged['title'] == 'How to Beat the High Co$t of Living', 'title'] = 'How to Beat the High Cost of Living'

##### Atributo ```overview```

In [232]:
# Patrón de búsqueda para caracteres especiales no numéricos
pattern = r'[^a-zA-Z0-9\s]'
# Crear una máscara booleana que indica si cada descripción de película contiene caracteres especiales no numéricos
mask = merged['overview'].str.contains(pattern, regex=True)
# Filtrar el dataframe para incluir solo las filas que contienen caracteres especiales no numéricos
merged_con_caracteres = merged[mask]
# Imprimir el dataframe resultante
merged_con_caracteres['overview']

2        a family wedding reignites the ancient feud be...
45       soontobewed graduate student finn dodd develop...
72       in france during world war ii a poor and illit...
76       a look into the many lives of christa päffgen ...
139      a gay cabaret owner and his drag queen compani...
                               ...                        
45316    in an era in which it is difficult for the tru...
45364    the tuner russian настройщик nastroyshchik is ...
45375    somewhere deep deep in russia there is a town ...
45379    у девушки даши приехавшей с подругой покорять ...
45414    the background of this picture represents a sc...
Name: overview, Length: 2019, dtype: object

**Observación:**

Hay 2019 descripciones de películas con caracteres especiales no numéricos, específicamente se observa como hay descripciones que no están en inglés.

**Decisión:**

Uno de los objetivos de esta data, es servir como fuente para un sistema de recomendación de películas. Cuando las descripciones de las películas están en diferentes idiomas, el modelo de recomendación puede tener dificultades para entender el contenido de las películas y, por lo tanto, puede tener dificultades para hacer recomendaciones precisas y relevantes.

Es por esto que para las siguientes descripciones que no están en inglés en ```overview```, se le aplicará una traducción.

Para esto se creará una nueva columna llamada ```overview_clean``` la cual tendrá todas las descripciones incluidas las traducidas. Esto con el objetivo de mantener las descripciones originales en el Dataframe.

In [233]:
# Se crea una copia de la columna "overview" para aplicar los cambios en "overview_clean"
merged['overview_clean'] = merged['overview'].copy()

In [234]:
# Patrón de búsqueda para caracteres especiales no numéricos
pattern = r'[^a-zA-Z0-9\s]'
# Crear una máscara booleana que indica si cada descripción de película contiene caracteres especiales no numéricos
mask = merged['overview_clean'].str.contains(pattern, regex=True)
# Filtrar el dataframe para incluir solo las filas que contienen caracteres especiales no numéricos
merged_con_caracteres = merged[mask]
# Imprimir el dataframe resultante
merged_con_caracteres['overview_clean']

2        a family wedding reignites the ancient feud be...
45       soontobewed graduate student finn dodd develop...
72       in france during world war ii a poor and illit...
76       a look into the many lives of christa päffgen ...
139      a gay cabaret owner and his drag queen compani...
                               ...                        
45316    in an era in which it is difficult for the tru...
45364    the tuner russian настройщик nastroyshchik is ...
45375    somewhere deep deep in russia there is a town ...
45379    у девушки даши приехавшей с подругой покорять ...
45414    the background of this picture represents a sc...
Name: overview_clean, Length: 2019, dtype: object

###### **Traducción de las descripciones**

In [235]:
# Filtrar las filas que no contengan "English"
filtered_df = merged_con_caracteres[~merged_con_caracteres['languages'].str.contains('English', na = False)]
filtered_df[['id', 'overview_clean', 'languages']]

Unnamed: 0,id,overview_clean,languages
72,48750,in france during world war ii a poor and illit...,Français
151,649,beautiful young housewife séverine serizy cann...,"Français,,Español"
196,5967,this simple romantic tragedy begins in 1957 gu...,Français
302,110,red this is the third film from the trilogy by...,Français
317,12527,havana cuba 1979 flamboyantly gay artist diego...,Español
...,...,...,...
45316,63990,in an era in which it is difficult for the tru...,"Français,Deutsch,Polski"
45364,61385,the tuner russian настройщик nastroyshchik is ...,Pусский
45375,100152,somewhere deep deep in russia there is a town ...,
45379,63281,у девушки даши приехавшей с подругой покорять ...,Pусский


Descripciones en Portugués

In [236]:
# ID Portugués
id_portuguese = [32958, 24243, 57979]

In [237]:
# Verificamos que los siguientes id corresponden a overview con idioma portugués
merged.loc[merged['id'].isin(id_portuguese), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
17784,32958,aos seis anos roberto carlos ramos é internado...
31545,24243,mano francisco miguez é um adolescente de 15 a...
42826,57979,pro dia nascer feliz é o segundo longametragem...


In [238]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en portugués como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en portugués.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de portugués a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_portuguese:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='pt', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [239]:
# Verificamos que la traducción del portugués al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_portuguese), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
17784,32958,At age six Roberto Carlos Ramos is hospitalize...
31545,24243,Man Francisco Miguez is a 15 -year -old he is ...
42826,57979,Pro Dia Born Feliz is the second long -term of...


Descripciones en Español

In [240]:
# ID Español
id_spanish = [38238, 21194]

In [241]:
# Verificamos que los siguientes id corresponden a overview con idioma español
merged.loc[merged['id'].isin(id_spanish), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
30568,38238,la cerrada comunidad de altos de la cascada un...
40937,21194,cuatro ambiciosas y hermosas jóvenes de cuatro...


In [242]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en español como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en español.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de español a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_spanish:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='es', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [243]:
# Verificamos que la traducción del español al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_spanish), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
30568,38238,The closed cascade community of the waterfall ...
40937,21194,Four ambitious and beautiful young people from...


Descripciones en Francés

In [244]:
# ID Français (Francás)
id_frances = [78285, 44539, 52612, 13710, 15702, 17605, 37832, 65081,
 57726, 6360, 54157, 40192, 65611, 19106, 13748, 93840, 86868, 31359,
 59455, 53975, 45221, 51883, 52538, 18825]

In [245]:
# Verificamos que los siguientes id corresponden a overview con idioma francés
merged.loc[merged['id'].isin(id_frances), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
776,78285,la vieille qui marchait dans la mer english th...
7110,44539,cécile et alain vivent ensemble depuis vingt a...
10796,52612,auteur à succès darius voit des affiches annon...
12034,53975,une petite ville de province au milieu des ann...
13766,13710,annemarie vient de perdre son mari dans un acc...


In [246]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en francés como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en francés.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de francés a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_frances:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='fr', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [247]:
# Verificamos que la traducción del francés al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_frances), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
776,78285,La Vieille who walked in the sea English the o...
7110,44539,Cécile and Alain have lived together for twent...
10796,52612,Successful author Darius sees posters announci...
12034,53975,"A small provincial town in the mid -80s, the d..."
13766,13710,Annemarie has just lost her husband in a car a...


Descripciones en Alemán

In [248]:
# ID Deutsch (Alemán)
id_deutsch = [52116, 36626, 58769, 65188, 12495]

In [249]:
# Verificamos que los siguientes id corresponden a overview con idioma alemán
merged.loc[merged['id'].isin(id_deutsch), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
35275,52116,die zehnjährige emma freut sich auf die ferien...
35863,36626,dwudziestoparoletni waldemar postanawia wyjech...
36376,58769,eines tages wird es den tieren zu bunt ständig...
37172,65188,der film portraitiert eine gruppe von microsof...
37261,12495,ein märchen der gebrüder grimm in this east g...


In [250]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en alemán como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en alemán.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de alemán a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_deutsch:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='de', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [251]:
# Verificamos que la traducción del alemán al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_deutsch), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
35275,52116,Ten -year -old Emma is looking forward to the ...
35863,36626,Dwudziestoparoletni Waldemar Postanawia Wyjech...
36376,58769,One day it will be kept to the animals too col...
37172,65188,The film portrays a group of Microsofaße -owne...
37261,12495,A fairy tale of the brothers Grimm in this Eas...


Descripciones en Polaco

In [252]:
# ID Polaco (Polski)
id_polski = [58018, 14558, 39317, 36620, 26314, 92108, 38876, 38870, 77600]

In [253]:
# Verificamos que los siguientes id corresponden a overview con idioma polaco
merged.loc[merged['id'].isin(id_polski), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
13618,38870,małżeństwo marii i wiktora przechodzi kryzys k...
13760,58018,królowy most to miasteczko gdzieś przy wschodn...
34499,14558,to zwariowana historia czterech przyjaciółek ł...
34500,39317,bohaterem filmu jest 50letni biznesmen tomasz ...
35853,77600,film o przyjaźni dwóch dziewcząt które poznają...


In [254]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en polaco como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en polaco.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de polaco a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_polski:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='pl', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [255]:
# Verificamos que la traducción del polaco al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_polski), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
13618,38870,The marriage of Maria and Wiktor is undergoing...
13760,58018,The Królny Bridge is a town somewhere at the e...
34499,14558,This is a crazy story of four friends Łucja Ed...
34500,39317,The hero of
35853,77600,A film about the friendship of two girls who m...
35856,36620,This film shows a few days from the life of th...
35857,26314,A crazy comedy absurdly absurd chemist adi and...
45245,92108,Two real guys who was combined by an exciting ...
45279,38876,Class II b as a homework as a homework he rece...


Descripciones en Italiano

In [256]:
# ID Italian
id_italian = [56014 ,32042, 41583, 76575, 49321, 37501, 22728, 118802, 37777]

In [257]:
# Verificamos que los siguientes id corresponden a overview con idioma italiano
merged.loc[merged['id'].isin(id_italian), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
8746,32042,when los angeles private detective harry moseb...
25350,118802,dopo otto anni trascorsi su una piattaforma pe...
25887,37777,la madremanager di una giovanissima modella am...
25899,22728,gilberto 50enne si fa coinvolgere in una cosid...
31375,37501,pasquale baudaffi amnistiato esce dal carcere ...


In [258]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en italiano como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en italiano.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de alemán a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_italian:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='it', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [259]:
# Verificamos que la traducción del italiano al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_italian), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
8746,32042,When Los Angeles Private Detective Harry Moseb...
25350,118802,After eight years spent on an oil platform Gui...
25887,37777,The mothermanger of a very young American mode...
25899,22728,Gilberto 50 years old gets involved in a so -c...
31375,37501,Pasquale Baudaffi Amneistato leaves the prison...
31507,56014,males against females is a comedy that revolve...
32042,49321,Brancaleone is again traveling with his band o...
33501,76575,March on Rome the march on Rome is a 1962 Come...
40128,41583,"On a cold November evening at Marco's house, a..."


Descripciones en Turco

In [260]:
# ID Turco (Türkçe)
id_turke = [37429, 13296,31060, 31061, 50025, 74302, 57739, 50737, 77862, 38614]

In [261]:
# Verificamos que los siguientes id corresponden a overview con idioma turco
merged.loc[merged['id'].isin(id_turke), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
22055,37429,vali faruk yazıcının en son görev yeri denizli...
31681,13296,i̇skender cem yılmaz hokkabazdır yani aslında ...
34870,31060,adamın biri yolda cüzdanını düşürür başka bir ...
34871,31061,recep i̇vedikin güldüren tartışmaları da düşün...
38135,50025,para darphanede basılır imzası atılır banknot ...


In [262]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en turco como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en turco.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de turco a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_turke:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='tr', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [263]:
# Verificamos que la traducción del turco al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_turke), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
22055,37429,Governor Faruk Yazıcı's last task will be base...
31681,13296,"cem Yilmaz is a magician, but his childhood fr..."
34870,31060,One man dropped his wallet on the road and ano...
34871,31061,Recep İmvikin laughing discussions also think ...
38135,50025,MONEY MOUNTRY IS PROVIDED IN THE MOUNTRY SIGNA...


Descripciones en Danés

In [264]:
# ID Danés (Dansk)
id_dansk = [45783, 16884]

In [265]:
# Verificamos que los siguientes id corresponden a overview con idioma danés
merged.loc[merged['id'].isin(id_dansk), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
38979,45783,tal for dig selv er anders matthesens tredje o...
38981,16884,den seneste standup dvd fra danmarks største k...


In [266]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en danés como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en danés.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de danés a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_dansk:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='da', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [267]:
# Verificamos que la traducción del danés al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_dansk), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
38979,45783,Talk for yourself is Anders Matthesen's third ...
38981,16884,The latest standup DVD from Denmark's largest ...


Descripciones en Sueco

In [268]:
# ID Sueco (svenska)
id_svenska = [14078, 26111, 35646, 23654, 37730, 54257, 45064, 57548]

In [269]:
# Verificamos que los siguientes id corresponden a overview con idioma sueco
merged.loc[merged['id'].isin(id_svenska), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
20249,14078,utrikesreportern morgan pålsson och hans fotog...
24315,26111,bullerbyn är en liten liten by i småland där l...
27663,35646,året är 1969 artonårige martin mönstrar på som...
28174,23654,den här gången är jönssonligan verkligen illa ...
28176,37730,hör och häpna de gamla kumpanerna ragnar vanhe...


In [270]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en sueco como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en sueco.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de sueco a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_svenska:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='sv', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [271]:
# Verificamos que la traducción del sueco al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_svenska), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
20249,14078,Foreign reporter Morgan Pålsson and his photog...
24315,26111,Bullerbyn is a small small village in Småland ...
27663,35646,The year is 1969 eighteen -year -old Martin pa...
28174,23654,"This time, Jönsson League is really bad out Ch..."
28176,37730,Listen and amazed the ancient Kumpans Ragnar V...


Descripciones en Finés

In [272]:
# ID Finés (Suomi)
id_suomi = [20158, 40660, 41142, 40664, 38944, 81347, 51038]

In [273]:
# Verificamos que los siguientes id corresponden a overview con idioma finés
merged.loc[merged['id'].isin(id_suomi), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
9065,51038,pekka martti suosalo saapuu pitkästä aikaa kot...
12765,20158,remu kasvaa vaatimattomissa oloissa teinipoika...
14696,40660,musiikkielokuva joka kertoo ministerin tyttäre...
15365,41142,perustuu väinö linnan samannimiseen romaanitri...
16257,40664,nuori nainen on saanut kutsun saapua poliisin ...


In [274]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en finés como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en finés.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de finés a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_suomi:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='fi', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [275]:
# Verificamos que la traducción del finés al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_suomi), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
9065,51038,Pekka Martti Preferalo arrives in the small vi...
12765,20158,Remu grows in modest conditions as a teenage b...
14696,40660,Music movie that tells the daughter of the min...
15365,41142,"Based on the same name of Väinö Linna's novel,..."
16257,40664,The young woman has been invited to arrive by ...


Descripciones en Húngaro

In [276]:
# ID Húngaro (Magyar)
id_magyar = [17780]

In [277]:
# Verificamos que los siguientes id corresponden a overview con idioma húngaro
merged.loc[merged['id'].isin(id_magyar), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
25000,17780,a lottónyereménynek hála tamás megcsinálhatta ...


In [278]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en húngaro como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en húngaro.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de húngaro a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_magyar:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='hu', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [279]:
# Verificamos que la traducción del húngaro al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_magyar), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
25000,17780,"Thanks to the lottery prize, Tamás Tamás could..."


Descricpiones en Checo

In [280]:
# ID Checo (Český)
id_czech = [65896, 61320, 61313, 82279, 65900]

In [281]:
# Verificamos que los siguientes id corresponden a overview con idioma checo
merged.loc[merged['id'].isin(id_czech), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
30929,65896,je to film sestávající ze šesti povídek které ...
36804,61320,celovečerné animované pásmo na motívy rovnomen...
36805,61313,čtyři zbrusu nové pohádky pro chytré děti a ch...
37056,82279,pohádka o mladém ševcovském tovaryšovi jírovi ...
40824,65900,komedie o rodičích a dětech chce navázat na ne...


In [282]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en checo como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en checo.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de checo a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_czech:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='cs', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [283]:
# Verificamos que la traducción del checo al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_czech), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
30929,65896,It is a film consisting of six stories that mo...
36804,61320,The full -length animated band for the motifs ...
36805,61313,Four brand new fairy tales for smart children ...
37056,82279,A fairy tale about a young shoemaker's journey...
40824,65900,The comedy about parents and children wants to...


Descripciones en Ruso

In [284]:
# ID Ruso (Pусский)
id_russian = [73534, 64268, 94696, 56372, 31059, 78323, 65679, 56304, 63281, 68192, 67545]

In [285]:
# Verificamos que los siguientes id corresponden a overview con idioma ruso
merged.loc[merged['id'].isin(id_russian), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
29083,73534,москва 90 е город без прошлого и без будущего...
30019,64268,ульяна тулина необычный человек во взрослом т...
34219,68192,фильм создан в жанре музыкальной комедии по мо...
34231,94696,по вызову своего жениха светлана поехала в зах...
43124,56372,артем колчин был одним из многих но он хотел с...


In [286]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en ruso como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en ruso.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de ruso a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_russian:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='ru', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [287]:
# Verificamos que la traducción del ruso al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_russian), ['id', 'overview_clean']].head()

Unnamed: 0,id,overview_clean
29083,73534,"Moscow 90 E, without the past and without the ..."
30019,64268,Ulyana Tulina is an unusual person in an adult...
34219,68192,The film was created in the genre of the music...
34231,94696,"On the challenge of her fiancé, Svetlana went ..."
43124,56372,"Artem Kolchin was one of the many, but he want..."


Descripciones en Griego

In [288]:
# ID Griego (ελληνικά)
id_greek = [87908, 16513]

In [289]:
# Verificamos que los siguientes id corresponden a overview con idioma griego
merged.loc[merged['id'].isin(id_greek), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
37162,16513,μια παρέα νεοσύλλεκτων που ο καθένας για τους ...
42230,87908,ο μπάμπης βλαδίμηρος κυριακίδης ο άγης δημήτρη...


In [290]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en griego como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en griego.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de griego a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_greek:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='el', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [291]:
# Verificamos que la traducción del griego al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_greek), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
37162,16513,A group of recruits that for each of their own...
42230,87908,"Babis Vladimir Kyriakidis, Agis Dimitris Tzoum..."


Descriciones en Holandés

In [292]:
# ID Holandés (Nederlands)
id_nederlands = [10509, 100250, 35840]

In [293]:
# Verificamos que los siguientes id corresponden a overview con idioma holandés
merged.loc[merged['id'].isin(id_nederlands), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
35616,10509,de 12jarige gilles droomt ervan om profvoetbal...
36914,100250,in tussenland kruisen de paden van twee onthee...
40839,35840,januari 1963 ondanks het barre weer besluit he...


In [294]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en holandés como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en holandés.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de holandés a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_nederlands:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='nl', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [295]:
# Verificamos que la traducción del holandés al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_nederlands), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
35616,10509,12 -year -old Gilles dreams of becoming a prof...
36914,100250,"In the intermediate country, the paths of two ..."
40839,35840,"January 1963 Despite the harsh again, the boar..."


Descriciones en Catalán

In [296]:
# ID Catalán (Català)
id_catalan = [214251]

In [297]:
# Verificamos que los siguientes id corresponden a overview con idioma catalán
merged.loc[merged['id'].isin(id_catalan), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
27687,214251,famous lover casanova vicenç altaió now long p...


In [298]:
def traducir_descripcion(descripcion):
  '''
  Esta funcíón recibe una descripción en catalán como argumento y la traduce a inglés usando
  la biblioteca de 'googletrans'. Para esto se verifica el ID de las películas con descripción
  en catalán.
  '''

  # Si la descripción es None, devuelve None
  if descripcion is None:
    return None
  # Traducción automática de catalán a inglés utilizando la biblioteca 'googletrans'
  elif merged.loc[merged['overview_clean'] == descripcion, 'id'].iloc[0] in id_catalan:
    translator = Translator(service_urls=['translate.google.com'])
    translation = translator.translate(descripcion, src='ca', dest='en')
    return translation.text
  # Si el ID de la película no está en la lista de ID deseada, devuelve la descripción original
  else:
    return descripcion

# Aplicar la función traducir_descripcion() a la nueva columna "overview_clean"
merged['overview_clean'] = merged['overview_clean'].apply(traducir_descripcion)

In [299]:
# Verificamos que la traducción del catalán al inglés se realizó correctamente
merged.loc[merged['id'].isin(id_catalan), ['id', 'overview_clean']]

Unnamed: 0,id,overview_clean
27687,214251,Famous Lover Casanova Vicenç Altaió Now Long P...


###### **Limpieza de caracteres no numéricos**

Ya que las traducciones se realizaron con éxito, se continúa con la limpieza del resto de las descripciones con caracteres no numéricos. Para esto se recurre al Kit de Herramientas de Lenguaje Natural (NLTK)

In [300]:
# Descargar las dependencias necesarias para nltk
nltk.download('punkt')
nltk.download('wordnet')

# Crear un objeto WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


In [301]:
# Función para limpiar las descripciones de películas
def limpiar_descripcion(descripcion):
  # Convertir toda la descripción a minúsculas
  descripcion = descripcion.lower()
   # Eliminar los caracteres especiales de la descripción utilizando una expresión regular
  descripcion = re.sub(r'[^a-zA-Z0-9\s]', '', descripcion)
  # Tokenizar la descripción en palabras individuales
  palabras = word_tokenize(descripcion)
  # Lematizar cada palabra de la descripción para obtener su forma base (lemmatization)
  palabras_lemmatizadas = [lemmatizer.lemmatize(palabra) for palabra in palabras]
  # Unir las palabras lematizadas en una sola cadena de texto nuevamente
  descripcion_limpia = ' '.join(palabras_lemmatizadas)
  # Devolver la descripción limpia
  return descripcion_limpia

# Aplicar la función 'limpiar_descripcion' a la nueva columna 'overview_clean'
merged['overview_clean'] = merged['overview_clean'].apply(limpiar_descripcion)

Ahora, se corrobora que todos los cambios se realizaron correctamente y no hay caracteres especiales no numéricos

In [302]:
# Patrón de búsqueda para caracteres especiales no numéricos
pattern = r'[^a-zA-Z0-9\s]'
# Crear una máscara booleana que indica si cada descripción de película contiene caracteres especiales no numéricos
mask = merged['overview_clean'].str.contains(pattern, regex=True)
# Filtrar el dataframe para incluir solo las filas que contienen caracteres especiales no numéricos
merged_con_caracteres = merged[mask]
# Imprimir el dataframe resultante
merged_con_caracteres['overview_clean']

Series([], Name: overview_clean, dtype: object)

In [303]:
# Se verifica que en el nuevo atributo no hayan datos con strings vacios
merged[merged['overview_clean'] == '']

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,status,tagline,title,vote_average,vote_count,languages,director,actors,overview_clean


#### Examinando atributos ```revenue``` y ```budget```

A partir de estos dos atributos se creará la columna de retorno de inversión llamada ```return```. Por lo que primero se verificará que no hayan valores nulos

##### Atributo revenue

In [304]:
# Conteno de la cantidad de valores nulos en la columna "revenue"
merged['revenue'].isnull().sum()

3

**Decisión:**

Se reemplazarán los 3 valores nulos por 0

In [305]:
# Se reemplazan los valores faltantes con 0
merged['revenue'] = merged['revenue'].fillna(0)

##### Atributo budget

In [306]:
# Conteno de la cantidad de valores nulos en la columna "budget"
merged['budget'].isnull().sum()

0

El Dataframe de ```movies_csv``` en su data cruda no presentó datos faltantes para este campo.

#### Añadiendo atributos

Para facilitar futuros análisis se agregaran 2 campos adicionales al Dataframe final. Uno será ```release_year``` y el otro ```return``` como se comentó previamente

##### Atributo ```release_year```

In [307]:
# Se agrega una nueva columna llamada "release_year" al DataFrame "merged" que contiene el año de lanzamiento de cada película.
merged['release_year'] = merged['release_date'].dt.year.astype('int32')
merged['release_year'].head()

0    1995
1    1995
2    1995
3    1995
4    1995
Name: release_year, dtype: int32

##### Atributo ```return```

La columna ```return``` en el DataFrame de películas contendrá los datos correspondientes al retorno de inversión para cada película. El retorno de inversión se calcula dividiendo los campos ```revenue``` y ```budget``` de cada película, lo que proporciona una estimación de la rentabilidad del proyecto.

Sin embargo, antes de realizar los cálculos necesarios para obtener el retorno de inversión, es importante verificar si existen valores iguales a cero en la columna ```budget```, ya que de ser así la división no será posible y se producirá un error

In [308]:
# Conteo de la cantidad de registros con valor igual a 0 en el atributo "budget"
np.array([merged['budget'] == 0]).sum()

36551

In [309]:
# Conteo de la cantidad de registros con valor igual a 0 en el atributo "revenue"
np.array([merged['revenue'] == 0]).sum()

38033

**Decisión:**

Como hay registros con valores igual a 0 para ambos campos, la división ```revenue``` / ```budget``` generará un error de división por cero. Para evitar esto, se decide crea una función que verifique si el valor de ```budget``` es 0, y si es así, que devuelva 0. De lo contrario, la función realizará la división.

In [310]:
# Se define una función para calcular el retorno de inversión para cada película en "merged".
def calculate_return(row):
  # Si el valor en la columna "budget" es igual a cero, se devuelve 0 como retorno de inversión.
  if row['budget'] == 0:
    return 0
  else:
    # Se calcula el retorno de inversión dividiendo los valores entre las columnas "revenue" y "budget".
    return row['revenue'] / row['budget']

In [311]:
# Se crea la columna 'return' utilizando la función 'calculate_return'
merged['return'] = merged.apply(calculate_return, axis = 1)
# Se reemplazan los valores faltantes con 0
merged['return'] = merged['return'].fillna(0)
# Se imprime los primeros 5 valores del atributo "return"
merged['return'].head()

0    12.451801
1     4.043035
2     0.000000
3     5.090760
4     0.000000
Name: return, dtype: float64

## **Carga / Disponibilización de datos**

Una vez que se han limpiado los datos, ya se encuentran listos para ser exportados y utilizados en el EDA

In [312]:
# Imprimir las primeras 5 filas del Dataframe "merged"
merged.head()

Unnamed: 0,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,...,tagline,title,vote_average,vote_count,languages,director,actors,overview_clean,release_year,return
0,30000000,"animation,comedy,family",862,en,led by woody andys toys live happily in his ro...,21.946943,Pixar Animation Studios,United States of America,1995-10-30,373554033.0,...,,Toy Story,7.7,5415.0,English,John Lasseter,"Tom Hanks,Tim Allen,Don Rickles,Jim Varney,Wal...",led by woody andys toy live happily in his roo...,1995,12.451801
1,65000000,"adventure,fantasy,family",8844,en,when siblings judy and peter discover an encha...,17.015539,"TriStar Pictures,Teitler Film,Interscope Commu...",United States of America,1995-12-15,262797249.0,...,Roll the dice and unleash the excitement!,Jumanji,6.9,2413.0,"English,Français",Joe Johnston,"Robin Williams,Jonathan Hyde,Kirsten Dunst,Bra...",when sibling judy and peter discover an enchan...,1995,4.043035
2,0,"romance,comedy",15602,en,a family wedding reignites the ancient feud be...,11.7129,"Warner Bros.,Lancaster Gate",United States of America,1995-12-22,0.0,...,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,6.5,92.0,English,Howard Deutch,"Walter Matthau,Jack Lemmon,Ann-Margret,Sophia ...",a family wedding reignites the ancient feud be...,1995,0.0
3,16000000,"comedy,drama,romance",31357,en,cheated on mistreated and stepped on the women...,3.859495,Twentieth Century Fox Film Corporation,United States of America,1995-12-22,81452156.0,...,Friends are the people who let you be yourself...,Waiting to Exhale,6.1,34.0,English,Forest Whitaker,"Whitney Houston,Angela Bassett,Loretta Devine,...",cheated on mistreated and stepped on the woman...,1995,5.09076
4,0,comedy,11862,en,just when george banks has recovered from his ...,8.387519,"Sandollar Productions,Touchstone Pictures",United States of America,1995-02-10,76578911.0,...,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,5.7,173.0,English,Charles Shyer,"Steve Martin,Diane Keaton,Martin Short,Kimberl...",just when george bank ha recovered from his da...,1995,0.0


In [313]:
# Mostrar información del número de columnas, filas, tipos de datos y valores faltantes presentes en "merged"
merged.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 45431 entries, 0 to 45432
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   budget                45431 non-null  int32         
 1   genres                44915 non-null  object        
 2   id                    45431 non-null  int32         
 3   original_language     45431 non-null  object        
 4   overview              45431 non-null  object        
 5   popularity            45428 non-null  float64       
 6   production_companies  33562 non-null  object        
 7   production_countries  39151 non-null  object        
 8   release_date          45431 non-null  datetime64[ns]
 9   revenue               45431 non-null  float64       
 10  runtime               45412 non-null  float64       
 11  status                45347 non-null  object        
 12  tagline               20397 non-null  object        
 13  title           

In [314]:
# % de datos faltantes respecto al total de los datos presentes en "merged"
total_cells = np.product(merged.shape)
total_missing = missing_values_count.sum()
percent_missing = (total_missing / total_cells) * 100
print(f'{round(percent_missing, 2)}%')

5.11%


**Importante:**

Aunque la cantidad de datos faltantes disminuyó en un 5%. Se tomó la decisión de mantener el porcentaje restante de datos faltantes, ya que eliminar esas filas no era viable, y se podría perder información valiosa para futuros análisis y para el desarrollo del sistema de recomendación de películas. Sin embargo, hay que tener en cuenta que, aunque la cantidad de datos faltantes ha disminuido, aún puede haber un impacto en la precisión del sistema de recomendación.

### Data limpia completa para futuros análisis

In [315]:
# Se exporta toda la data limpia a formato .parquet
merged.to_csv('movies_clean.csv', index = False)
merged.to_parquet('movies_clean.parquet', index = False)

### Data limpia para el consumo de la API

In [316]:
# Columnas necesarias para el consumo de la API
api = merged[['popularity' ,'release_date', 'title', 'vote_average', 'vote_count', 'actors',
              'release_year', 'director', 'return', 'budget', 'revenue']]

In [317]:
# Se exporta las columnas necesarias para el consumo de la API en formato .csv y .parquet
api.to_csv('api_consultations.csv', index = False)
api.to_parquet('api_consultations.parquet', index = False)