In [1]:
# importamos todas las librerias necesarias

import pandas as pd
import numpy as np
import json
import locale

In [2]:
# Cargamos el dataset desde su ruta
df_origin = pd.read_csv("Datasets/movies_dataset.csv", encoding="latin", dtype="str")

In [3]:
# Creamos una copia para no modificar el dataset original en caso de necesitarlo más adelante
df_data = df_origin.copy()
df_data.head(3)

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92


In [4]:
# Eliminamos las columnas que no vamos a necesitar y si, ya estan eliminadas arroja un mensaje informando.
try:
    df_data = df_data.drop(["video", "imdb_id", "adult", "original_title", "vote_count", "poster_path", "homepage"], axis=1)
except:
    print("Las columnas ya fueron eliminadas")

df_data.head(3)

Unnamed: 0,belongs_to_collection,budget,genres,id,original_language,overview,popularity,production_companies,production_countries,release_date,revenue,runtime,spoken_languages,status,tagline,title,vote_average
0,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",862,en,"Led by Woody, Andy's toys live happily in his ...",21.946943,"[{'name': 'Pixar Animation Studios', 'id': 3}]","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-10-30,373554033,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,7.7
1,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",8844,en,When siblings Judy and Peter discover an encha...,17.015539,"[{'name': 'TriStar Pictures', 'id': 559}, {'na...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-15,262797249,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,6.9
2,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",15602,en,A family wedding reignites the ancient feud be...,11.7129,"[{'name': 'Warner Bros.', 'id': 6194}, {'name'...","[{'iso_3166_1': 'US', 'name': 'United States o...",1995-12-22,0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,6.5


In [5]:
# Verificamos valores vacios en el dataframe

print(df_data.isna().sum())

belongs_to_collection    40972
budget                       0
genres                       0
id                           0
original_language           11
overview                   954
popularity                   5
production_companies         3
production_countries         3
release_date                87
revenue                      6
runtime                    263
spoken_languages             6
status                      87
tagline                  25054
title                        6
vote_average                 6
dtype: int64


In [6]:
# O se puede verificar valores nulos en el dataframe

print(df_data.isnull().sum())

belongs_to_collection    40972
budget                       0
genres                       0
id                           0
original_language           11
overview                   954
popularity                   5
production_companies         3
production_countries         3
release_date                87
revenue                      6
runtime                    263
spoken_languages             6
status                      87
tagline                  25054
title                        6
vote_average                 6
dtype: int64


In [7]:
# Remplazamos los valores vacios en las columnas "revenue" y "budget" por ceros y eliminamos las filas que tienen valores nulos en "release_date"

df_data["revenue"].fillna(0, inplace=True)
df_data["budget"].fillna(0, inplace=True)
df_data.dropna(subset=["release_date"], inplace=True)

In [8]:
# Se crea un nuevo dataframe con nombre fecha, donde se divide la fecha en 3 columna y estas las ingresamos al dataframe como: "release_year", "release_month", "release_day"
fecha = df_data["release_date"].str.split("-", expand=True)
df_data["release_year"] = fecha[0].astype(int)
df_data["release_month"] = fecha[1]
df_data["release_day"] = fecha[2]

In [9]:
# Se verifican valores nulos en el dataframe en lsa columnas de fechas

print(df_data.isnull().sum())

belongs_to_collection    40888
budget                       0
genres                       0
id                           0
original_language           11
overview                   941
popularity                   2
production_companies         0
production_countries         0
release_date                 0
revenue                      0
runtime                    249
spoken_languages             3
status                      83
tagline                  24981
title                        3
vote_average                 3
release_year                 0
release_month                3
release_day                  3
dtype: int64


In [10]:
# Eliminamos las filas que tienen valores nulos en "release_day, con lo cual eliminamos los valores nulos tanto en "release_day" como en "release_month"

df_data.dropna(subset=["release_day"], inplace=True)

In [11]:
# Cambiamos el tipo de variable para las columnas "revenue" y "budget". Y a partir de estas dos calculamos la columna "return"

df_data["revenue"] = df_data["revenue"].astype(float)
df_data["budget"] = df_data["budget"].astype(float)
df_data["return"] = df_data["revenue"]/df_data["budget"] 

In [12]:
# Definimos una función que intenta cargar una cadena JSON en un objeto Python. En caso de error de carga, la función devuelve un diccionario vacío {}.

def safe_json_loads(s):
    try:
        return json.loads(s)
    except:
        return {}

In [13]:
# Se remplazan los valores de comilla simpre ' por comillas dobles " en la columna de "belongs_to_collection"

df_data['belongs_to_collection'] = df_data['belongs_to_collection'].str.replace("'", '"')

# Se rellenan los valores faltantes en la columna "belongs_to_collection" con la cadena vacía "{}". Esto se hace para asegurarse de que todos los valores sean cadenas JSON válidas.

df_data['belongs_to_collection'] = df_data['belongs_to_collection'].fillna('{}')

#  Se aplica la función safe_json_loads a cada valor de la columna "belongs_to_collection", normalizando los resultados en un dataframe llamado df_belongs.

df_belongs = pd.json_normalize(df_data['belongs_to_collection'].apply(safe_json_loads))

In [14]:
# Por medio de un try eliminamos columnas del dataframe df_belongs que no vamos a utilizar.

try:
    df_belongs = df_belongs.drop(["poster_path", "backdrop_path"], axis=1).rename(columns={"id":"IdCollection", "name":"NameCollection"})
except:
    print("Las columnas ya fueron renombradas")

In [15]:
# Se remplazan los valores de comilla simpre (') por comillas dobles (") en la columna de "genres"

df_data['genres'] = df_data['genres'].str.replace("'", '"')

# Se rellenan los valores faltantes en la columna "genres" con la cadena vacía "{}"

df_data['genres'] = df_data['genres'].fillna('{}')

#  Se aplica la función safe_json_loads a cada valor de la columna "belongs_to_collection", separando datos en un dataframe llamado df_genres.
df_genres = pd.json_normalize(df_data['genres'].apply(safe_json_loads))

In [16]:
# Analizamos el dataframe resultante, observando que a pesar de que se separaron algunos datos, aún hay datos anidados.

df_genres.head(3)

Unnamed: 0,0,1,2,3,4,5,6,7
0,"{'id': 16, 'name': 'Animation'}","{'id': 35, 'name': 'Comedy'}","{'id': 10751, 'name': 'Family'}",,,,,
1,"{'id': 12, 'name': 'Adventure'}","{'id': 14, 'name': 'Fantasy'}","{'id': 10751, 'name': 'Family'}",,,,,
2,"{'id': 10749, 'name': 'Romance'}","{'id': 35, 'name': 'Comedy'}",,,,,,


In [17]:
# Se crea una variable para almacenar las dimensiones del dataframe "df_genres"

shape = df_genres.shape

# Se crea una lista vacía llamada dfs_genres que se utilizará para almacenar los dataframes resultantes.

dfs_genres = []

# Se implementa un ciclo for para iterar sobre las columnas del dataframe "df_genres" usando el rango desde 0 hasta el número de columnas del mismo, por medio de la variable shape (más adelante no se utilizará la variable shape).

for i in range(0, shape[1]):
    # Se convierte la columna "i" del dataframe "df_genres" en tipo de dato string (str).
    df_genres[[i]] = df_genres[[i]].astype(str)

    # Se reemplazaron las comillas simples (') por comillas dobles (") en los valores de la columna "i" del dataframe df_genres.
    df_genres[i] = df_genres[i].str.replace("'", '"')

    # Se rellenaron los valores faltantes en la columna "i" del dataframe df_genres con la cadena vacía "{}".
    df_genres[i] = df_genres[i].fillna('{}')

    # Se aplica la función safe_json_loads a cada valor de la columna "i" del dataframe df_genres, normaliza los resultados en un nuevo dataframe y renombramndo las columnas resultantes (IdGenre, NameGenre)
    globals()['df_genres{}'.format(i)] = pd.json_normalize(df_genres[i].apply(safe_json_loads)).rename(columns={"id":"IdGenre{}".format(i+1), "name":"NameGenre{}".format(i+1)})

    # Se agrega cada DataFrame resultante a la lista dfs_genres
    dfs_genres.append(globals()['df_genres{}'.format(i)])  

# Se concatenan todos los DataFrames de la lista en uno solo, denominado df_genres_f
df_genres_f = pd.concat(dfs_genres, axis=1) 


In [18]:
# Se realiza el mismo proceso que se utilizo para "genres" para la columna "production_companies", donde se remplazan comillas simples, se rellenan valores vacios y se aplica la función safe_json_loads.

df_data['production_companies'] = df_data['production_companies'].str.replace("'", '"')
df_data['production_companies'] = df_data['production_companies'].fillna('{}')
df_prod_companies = pd.json_normalize(df_data['production_companies'].apply(safe_json_loads))

In [19]:
# Se crea una lista vacía llamada "dfs_companie" que se utilizará para almacenar los dataframes resultantes.

dfs_companie = []

# Se implementa un ciclo for para iterar sobre las columnas del dataframe "df_prod_companies" usando el rango desde 0 hasta el número de columnas del mismo
for i in range (0, df_prod_companies.shape[1]):

     # Se convierte la columna "i" del dataframe "df_prod_companies" en tipo de dato string (str).
    df_prod_companies[[i]] = df_prod_companies[[i]].astype(str)

    # Se reemplazaron las comillas simples (') por comillas dobles (") en los valores de la columna "i" del dataframe df_prod_companies.
    df_prod_companies[i] = df_prod_companies[i].str.replace("'", '"')

    # Se rellenaron los valores faltantes en la columna "i" del dataframe df_prod_companies con la cadena vacía "{}".
    df_prod_companies[i] = df_prod_companies[i].fillna('{}')

    # Se aplica la función safe_json_loads a cada valor de la columna "i" del dataframe df_prod_companies, normaliza los resultados en un nuevo dataframe y renombramndo las columnas resultantes (IdCompany, NameCompanie)
    globals()['df_prod_companies{}'.format(i)] = pd.json_normalize(df_prod_companies[i].apply(safe_json_loads)).astype(str).rename(columns={"id":"IdCompanie{}".format(i+1), "name":"NameCompanie{}".format(i+1)})

    # Se agrega cada DataFrame resultante a la lista df_prod_companies
    dfs_companie.append(globals()['df_prod_companies{}'.format(i)])

# Se concatenan todos los DataFrames de la lista en uno solo, denominado df_production_companies
df_production_companies = pd.concat(dfs_companie, axis=1) 

In [20]:
# Se realiza el mismo proceso que se utilizo para "genres" para la columna "production_countries", donde se remplazan comillas simples, se rellenan valores vacios y se aplica la función safe_json_loads.

df_data['production_countries'] = df_data['production_countries'].str.replace("'", '"')
df_data['production_countries'] = df_data['production_countries'].fillna('{}')
df_pro_country = pd.json_normalize(df_data['production_countries'].apply(safe_json_loads))

In [21]:
# Se crea una lista vacía llamada "dfs_country" que se utilizará para almacenar los dataframes resultantes.

dfs_country = []

# Se implementa un ciclo for para iterar sobre las columnas del dataframe "df_pro_country" usando el rango desde 0 hasta el número de columnas del mismo
for i in range (0, df_pro_country.shape[1]):

     # Se convierte la columna "i" del dataframe "df_pro_country" en tipo de dato string (str).
    df_pro_country[[i]] = df_pro_country[[i]].astype(str)

    # Se reemplazaron las comillas simples (') por comillas dobles (") en los valores de la columna "i" del dataframe df_pro_country.
    df_pro_country[i] = df_pro_country[i].str.replace("'", '"')

     # Se rellenaron los valores faltantes en la columna "i" del dataframe df_pro_country con la cadena vacía "{}".
    df_pro_country[i] = df_pro_country[i].fillna('{}')

    # Se aplica la función safe_json_loads a cada valor de la columna "i" del dataframe df_pro_country, normaliza los resultados en un nuevo dataframe y renombramndo las columnas resultantes (Country)
    globals()['df_pro_country{}'.format(i)] = pd.json_normalize(df_pro_country[i].apply(safe_json_loads)).astype(str).rename(columns={"name":"Country{}".format(i+1)})

    # Se agrega cada DataFrame resultante a la lista df_pro_country
    dfs_country.append(globals()['df_pro_country{}'.format(i)]) 

# Se concatenan todos los DataFrames de la lista en uno solo, denominado df_production_country
df_production_country = pd.concat(dfs_country, axis=1)  

In [22]:
# Se realiza el mismo proceso que se utilizo para "genres" para la columna "spoken_languages", donde se remplazan comillas simples, se rellenan valores vacios y se aplica la función safe_json_loads.

df_data['spoken_languages'] = df_data['spoken_languages'].str.replace("'", '"')
df_data['spoken_languages'] = df_data['spoken_languages'].fillna('{}')
df_lan = pd.json_normalize(df_data['spoken_languages'].apply(safe_json_loads))

In [23]:
# Se repiten los procesos anteriores, dando como resultado un dataframe de nombre df_languajes.

dfs_lang = []

for i in range (0, df_lan.shape[1]):
    df_lan[[i]] = df_lan[[i]].astype(str)
    df_lan[i] = df_lan[i].str.replace("'", '"')
    df_lan[i] = df_lan[i].fillna('{}')
    globals()['df_lan{}'.format(i)] = pd.json_normalize(df_lan[i].apply(safe_json_loads)).astype(str).rename(columns={"name":"Languaje"})
    dfs_lang.append(globals()['df_lan{}'.format(i)]) 

# Se concatenan todos los DataFrames de la lista en uno solo, denominado df_languajes
df_languajes = pd.concat(dfs_lang, axis=1) 

In [24]:
# Se concatenan todos los dataframes resultantes en uno solo para facilitar su manipulación.

df_movies_general = pd.concat([df_data, df_belongs, df_genres_f, df_production_companies,  df_production_country, df_languajes],  axis=1)

In [25]:
# Se sustituyen los valores de "release_date" con los datos de "release_year", "release_month" y "release_month" para que tenga formato de fecha.

df_movies_general['release_date'] = pd.to_datetime(df_data['release_year'].astype(int)*10000 + df_data['release_month'].astype(int)*100 + df_data['release_month'].astype(int), format='%Y%m%d')

In [26]:
# Por alguna razón el dataframe resultante ingreso columnas de mas, por lo tanto se eliminan por medio de esta funcion

df_movies_general.dropna(subset=["belongs_to_collection"], inplace=True)

In [27]:
# Elimiminamos columnas con datos anidados

try:
    df_movies_general = df_movies_general.drop(["belongs_to_collection", "genres", "production_companies", "production_countries", "spoken_languages"], axis=1)
except:
    print("Las columnas ya fueron eliminadas")

In [28]:
# Se estableció la configuración regional para el lenguaje y las convenciones de fecha en español, por medio de la libreria "locale" y la función "setlocale".
locale.setlocale(locale.LC_TIME, 'es_ES')

# Verificamos que la  columna 'release_date' a tenga datos de tipo fecha y hora, 
df_movies_general['release_date'] = pd.to_datetime(df_movies_general['release_date'])

# Crear una columna "day" con los días de la semana en español, correspondientes a la fecha
df_movies_general["day"] = df_movies_general['release_date'].dt.strftime('%A')

# Se mapearon los dias en español, para que al ingestar coincidan
dias_semana_ingles = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
dias_semana_espanol = ['lunes', 'martes', 'miércoles', 'jueves', 'viernes', 'sábado', 'domingo']
df_movies_general["day"] = df_movies_general["day"].replace(dias_semana_ingles, dias_semana_espanol)

In [29]:
df_movies_general.to_csv("Datasets/movies_general.csv", encoding="utf-8", index=False)