# Análisis descriptivo de datos
* Datos: Títulos del catálogo de Netflix y Disney Plus
* Fuente: Datasets en bucket de Amazon Simple Storage Service
* La extracción de datos se realiza en el archivo 'extractS3.py'

## Herramientas utilizadas
* Lenguaje: Python 3.10.2
* Documento Jupyter Notebook
* Librerias: 
    * Pandas
    * boto3
    * environ

### Import de librerias requeridas

In [1]:
import pandas as pd
import boto3 
import botocore
import environ

### Extracción de datos

Se utilizan archivos de tipo "csv" extraídos de un bucket de Amazon Simple Storage Services, de la siguiente manera:

In [None]:
def descargar_archivo_s3(bucket, access_key, secret_access_key, nombre_archivo, ruta_local):
    """Descarga y almacena archivos de Amazon S3
    
    Args:
      bucket(str): Nombre del bucket del que descargar el archivo
      access_key(str): Key para conectarse
      secret_access_key(str): Key secreta para conectarse
      nombre_archivo(str): Nombre del archivo que se quiere descargar
      ruta_local(str): Ruta en la que se va a alojar el archivo descargado, debe incluir el nombre del archivo
      
    Raises:
      ClientError: Se puede ocasionar si el archivo a descargar no existe
    """
    s3 = boto3.client(
        service_name='s3', 
        aws_access_key_id=access_key, 
        aws_secret_access_key=secret_access_key
    ) 
    try:
        s3.download_file(bucket, nombre_archivo, ruta_local) # Descarga el archivo del bucket especificado
    except botocore.exceptions.ClientError as e:
        if e.response['Error']['Code'] == "404": # Si el archivo no existe retorna un error
            print("El archivo no existe.")

# Se realiza la busqueda y lectura de un archivo .env para buscar las credenciales necesarias
env = environ.Env()
environ.Env.read_env()

# Credenciales para realizar la petición a Amazon S3
AWS_ACCESS_KEY_ID = env("AWS_ACCESS_KEY_ID")
AWS_SECRET_ACCESS_KEY = env("AWS_SECRET_ACCESS_KEY")

descargar_archivo_s3("desafio-rkd", AWS_ACCESS_KEY_ID, AWS_SECRET_ACCESS_KEY, "disney_plus_titles.csv", "disney_plus_titles.csv")
descargar_archivo_s3("desafio-rkd", AWS_ACCESS_KEY_ID, AWS_SECRET_ACCESS_KEY, "netflix_titles.csv", "netflix_titles.csv")

### Estructura de los datos de 'disney_plus_titles.csv'

In [2]:
# Conversión del archivo csv a un dataframe de Pandas
disneyp_titles_df = pd.read_csv("disney_plus_titles.csv")
disneyp_titles_df.head()  # Lectura de las primeras 5 filas del dataframe

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Duck the Halls: A Mickey Mouse Christmas Special,"Alonso Ramirez Ramos, Dave Wasson","Chris Diamantopoulos, Tony Anselmo, Tress MacN...",,"November 26, 2021",2016,TV-G,23 min,"Animation, Family",Join Mickey and the gang as they duck the halls!
1,s2,Movie,Ernest Saves Christmas,John Cherry,"Jim Varney, Noelle Parker, Douglas Seale",,"November 26, 2021",1988,PG,91 min,Comedy,Santa Claus passes his magic bag to a new St. ...
2,s3,Movie,Ice Age: A Mammoth Christmas,Karen Disher,"Raymond Albert Romano, John Leguizamo, Denis L...",United States,"November 26, 2021",2011,TV-G,23 min,"Animation, Comedy, Family",Sid the Sloth is on Santa's naughty list.
3,s4,Movie,The Queen Family Singalong,Hamish Hamilton,"Darren Criss, Adam Lambert, Derek Hough, Alexa...",,"November 26, 2021",2021,TV-PG,41 min,Musical,"This is real life, not just fantasy!"
4,s5,TV Show,The Beatles: Get Back,,"John Lennon, Paul McCartney, George Harrison, ...",,"November 25, 2021",2021,,1 Season,"Docuseries, Historical, Music",A three-part documentary from Peter Jackson ca...


In [3]:
# Se muestran la cantidad de filas y columnas del dataframe
disneyp_titles_df.shape

(1450, 12)

In [3]:
# Se muestran los tipos de datos por cada columna
disneyp_titles_df.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

### Estructura de datos de 'netflix_titles.csv'

In [3]:
# Se utiliza "sep" para indicar que las celdas están separadas por ';' en el archivo csv
# Si no se especifica este parámetro se genera un error porque Pandas separa celdas con ',' por defecto
netflix_titles_df = pd.read_csv("netflix_titles.csv", sep=';')
netflix_titles_df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [18]:
# Se muestran la cantidad de filas y columnas del dataframe
netflix_titles_df.shape

(8807, 12)

In [7]:
# Se muestran los tipos de datos por cada columna
netflix_titles_df.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year    object
rating          object
duration        object
listed_in       object
description     object
dtype: object

### Control y limpieza de datos

Este punto se puede ver reflejado de manera mas completa y funcional en el archivo "transform_catalogs.py".

### Limpieza de datos erróneos

* Para la detección de errores se va a establecer una condición donde el campo "show_id" comience con el caracter 's'.

In [8]:
netflix_titles_df[~netflix_titles_df.show_id.str.startswith('s')]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
8202,"and probably will.""",,,,,,,,,,,
8421,"Flying Fortress""",William Wyler,,United States,"March 31, 2017",1944.0,TV-PG,40 min,"Classic Movies, Documentaries",This documentary centers on the crew of the B-...,,


In [4]:
# Se eliminan las filas que cumplan la condición anteriormente mostrada
# ".index" devuelve el indice de las filas que cumplan con la condición, mientras que "inplace" realiza la eliminación en el mismo
# dataframe y no hay que reasignarlo a la misma u otra variable
netflix_titles_df.drop(netflix_titles_df[~netflix_titles_df.show_id.str.startswith('s')].index, inplace=True)

In [10]:
# En este caso no es necesario realizar la eliminación de filas, como se observa
disneyp_titles_df[~disneyp_titles_df.show_id.str.startswith('s')]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description


* Por otro lado, hay que establecer una condición en la que el campo "title" no sea "NaN", ya que el dato no serviría.

(Si no se realiza la eliminación bajo la condición anterior, entonces si habrían filas con "title" como "NaN")

In [11]:

netflix_titles_df[pd.isnull(netflix_titles_df.title)]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description


In [12]:
disneyp_titles_df[pd.isnull(disneyp_titles_df.title)]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description


* Por último se deben observar aquellas filas donde solo haya datos "NaN".

In [13]:
netflix_titles_df[netflix_titles_df.isnull().all(1)]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description


In [14]:
disneyp_titles_df[disneyp_titles_df.isnull().all(1)]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description


### Arreglos en la inferencia de tipos de Pandas

En 'netflix_titles_df':

In [212]:
netflix_titles_df.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year    object
rating          object
duration        object
listed_in       object
description     object
dtype: object


* Se debe cambiar el tipo de dato de "date_added" por datos de tipo datetime, no sin antes cambiar los que sean "NaN" por una fecha estándar, como "January, 1, 0".
* Se debe cambiar el tipo de dato de "release_year" por datos de tipo int64, también cambiando los que sean "NaN" por el número 0. 

In [5]:
netflix_titles_df.date_added = netflix_titles_df.date_added.fillna("January, 1, 0")
netflix_titles_df.date_added = pd.to_datetime(netflix_titles_df.date_added)

netflix_titles_df.release_year = netflix_titles_df.release_year.fillna(0)
netflix_titles_df.release_year = netflix_titles_df.release_year.astype('int64')

netflix_titles_df.dtypes

show_id                 object
type                    object
title                   object
director                object
cast                    object
country                 object
date_added      datetime64[ns]
release_year             int64
rating                  object
duration                object
listed_in               object
description             object
dtype: object

En 'disneyp_titles_df':


In [218]:
disneyp_titles_df.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

* Se debe cambiar el tipo de dato de "date_added" por datos de tipo datetime, no sin antes cambiar los que sean "NaN" por una fecha estándar, como "January, 1, 0"

In [6]:
disneyp_titles_df.date_added = disneyp_titles_df.date_added.fillna("January, 1, 0")
disneyp_titles_df.date_added = pd.to_datetime(disneyp_titles_df.date_added)

disneyp_titles_df.dtypes

show_id                 object
type                    object
title                   object
director                object
cast                    object
country                 object
date_added      datetime64[ns]
release_year             int64
rating                  object
duration                object
listed_in               object
description             object
dtype: object

### Comparación entre catálogos

* Inconsistencia de datos en uno o ambos catálogos

Si se hace un inner join entre los dos catálogos de las plataformas para observar cuales shows pertenecen a ambos catálgos (Disney Plus y Netflix), se puede observar que hay datos que deberían ser iguales en ambos catálogos, asi como "release_date" o "type", pero no tienen el mismo valor.
Esto genera una inconsistencia en los datos que no permite saber cuál es el correcto.
Como solución se propone incluir un tercer catálogo para comparar datos y verificar cuáles pueden llegar a ser consistentes y cuáles no.

In [7]:
pd.merge(netflix_titles_df, disneyp_titles_df, on="title", how="inner").head()

Unnamed: 0,show_id_x,type_x,title,director_x,cast_x,country_x,date_added_x,release_year_x,rating_x,duration_x,...,type_y,director_y,cast_y,country_y,date_added_y,release_year_y,rating_y,duration_y,listed_in_y,description_y
0,s1015,TV Show,PJ Masks,,"Jacob Ewaniuk, Kyle Breitkopf, Addison Holley","France, United Kingdom",2021-04-19,2019,TV-Y,3 Seasons,...,TV Show,,"Kyle Breitkopf, Jacob Ursomarzo, Addison Holley","France, United Kingdom",2021-10-20,2015,TV-Y7,5 Seasons,"Action-Adventure, Animation, Kids",Look out Night Time Baddies the PJ Masks are c...
1,s1571,TV Show,Once Upon a Time,,"Ruby, Mohamed Farraag, Ahmed Dawood, Sawsan Ba...",Egypt,2020-12-09,2019,TV-14,1 Season,...,TV Show,,"Ginnifer Goodwin, Jennifer Morrison, Robert Ca...",United States,2020-09-18,2011,TV-PG,7 Seasons,"Action-Adventure, Fantasy, Soap Opera / Melodrama",Fairy tale characters inhabit a land of good a...
2,s2226,TV Show,Gigantosaurus,,,France,2020-07-18,2019,TV-Y,1 Season,...,TV Show,,"Dylan Schombing, Áine Sunderland, Nahanni Mitc...",France,2021-08-25,2018,TV-Y,2 Seasons,"Action-Adventure, Animation, Kids",Four dinos explore the mystery of the Gigantos...
3,s2560,Movie,Becoming,Nadia Hallgren,Michelle Obama,United States,2020-05-06,2020,PG,89 min,...,TV Show,,,United States,2020-09-18,2020,TV-PG,1 Season,"Anthology, Docuseries, Family",Becoming chronicles the origin stories of worl...
4,s4095,Movie,Genius,Suseenthiran,"Roshan, Priyaa Lal, Aadukalam Naren, Singam Pu...",India,2019-02-17,2018,TV-14,96 min,...,Movie,Rod Daniel,"Trevor Morgan, Emmy Rossum, Yannick Bisson, Pe...",United States,2019-11-12,1999,TV-G,86 min,"Comedy, Coming of Age",A teen genius juggles the roles of college stu...


* Cambio de datos "NaN" por datos existentes en otro catálogo

Se puede observar que existen datos nulos en un catálogo que se pueden completar utilizando datos del otro catálogo para enriquecer la salida final de ambos catálogos. Como ejemplo, se podría completar el director de una película que aparece como "NaN" en un catálogo, que tiene ese dato válido en el otro catálogo.

In [8]:
def completar_catalogo_con(cat_df1, cat_df2):
    """Completa los campos 'director', 'cast' y 'description' que sean 'NaN' en 'cat_df1'
       con los mismos campos de 'cat_df2' que si tengan un valor válido

       Precond: Ambos dataframes deben tener los siguientes campos en el siguiente orden:
                'show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
                'release_year', 'rating', 'duration', 'listed_in' y 'description'.

       Args:
          cat_df1(Pandas dataframe): El catalogo a completar con valores de 'cat_df2'.
          cat_df2(Pandas dataframe): El catalogo que se va a utilizar para completar datos 
                                    de 'cat_df1'.

       Returns:
         Pandas dataframe: Retorna un dataframe de Pandas con los datos de 'cat_df1' pero
                           con campos que antes eran 'NaN' y se completaron con datos
                           de 'cat_df2' que resultaron útiles para 'cat_df1'.

       Notes:
         'cat_df1' obtiene datos de 'cat_df2' siempre y cuando el valor del campo 'title'
         coincida entre los dataframes.
         
    """
    # Realiza un left join entre "cat_df1" y "cat_df2", si "title" de "cat_df1" no coincide con
    # ningun campo "title" de "cat_df2", entonces se hace un join de los datos de "cat_df1"
    # con valores "NaN"
    df_merge = pd.merge(cat_df1, cat_df2, on='title', how='left')

    # Se rellenan los campos "NaN" de "cat_df1" cuando sea posible recuperar datos de "cat_df2"
    df_merge["director_x"].fillna(df_merge["director_y"], inplace=True)
    df_merge["cast_x"].fillna(df_merge["cast_y"], inplace=True)
    df_merge["description_x"].fillna(df_merge["description_y"], inplace=True)

    # Se borran las celdas que eran de "cat_df2"
    df_merge.drop("show_id_y", axis=1, inplace=True)
    df_merge.drop("type_y", axis=1, inplace=True)
    df_merge.drop("director_y", axis=1, inplace=True)
    df_merge.drop("cast_y", axis=1, inplace=True)
    df_merge.drop("country_y", axis=1, inplace=True)
    df_merge.drop("date_added_y", axis=1, inplace=True)
    df_merge.drop("release_year_y", axis=1, inplace=True)
    df_merge.drop("rating_y", axis=1, inplace=True)
    df_merge.drop("duration_y", axis=1, inplace=True)
    df_merge.drop("listed_in_y", axis=1, inplace=True)
    df_merge.drop("description_y", axis=1, inplace=True)

    # Se renombran las celdas que eran de "cat_df1" de manera correcta
    df_merge.rename(columns={'show_id_x': 'show_id',
                               'type_x': 'type',
                               'director_x': 'director',
                               'cast_x': 'cast',
                               'country_x': 'country',
                               'date_added_x': 'date_added',
                               'release_year_x': 'release_year',
                               'rating_x': 'rating',
                               'duration_x': 'duration',
                               'listed_in_x': 'listed_in',
                               'description_x': 'description'}, inplace=True)
    return df_merge

clean_disneyp_titles_df = completar_catalogo_con(disneyp_titles_df, netflix_titles_df)
clean_netflix_titles_df = completar_catalogo_con(netflix_titles_df, disneyp_titles_df)

# Final

Los archivos listos para comenzar con el modelado de datos y proceder con la carga a la base de datos relacional.