# Extracción, Transformación y Carga

In [1]:
import pandas as pd
import numpy as np

# Cargamos los datos 

In [2]:
amazon_df = pd.read_csv("amazon_prime_titles.csv")
disney_df = pd.read_csv("disney_plus_titles.csv")
hulu_df = pd.read_csv("hulu_titles.csv")
netflix_df = pd.read_csv("netflix_titles.csv")

A continuación una breve exploración de los dataframe

In [3]:
print('Amazon:', amazon_df.shape)
print('Disney:', disney_df.shape)
print('Hulu:', hulu_df.shape)
print('Netflix:', netflix_df.shape)

Amazon: (9668, 12)
Disney: (1450, 12)
Hulu: (3073, 12)
Netflix: (8807, 12)


In [4]:
#amazon_df.info()
#disney_df.info()
hulu_df.info() # esta plataforma presenta mayor cantidad de datos faltantes
#netflix_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3073 entries, 0 to 3072
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   show_id       3073 non-null   object 
 1   type          3073 non-null   object 
 2   title         3073 non-null   object 
 3   director      3 non-null      object 
 4   cast          0 non-null      float64
 5   country       1620 non-null   object 
 6   date_added    3045 non-null   object 
 7   release_year  3073 non-null   int64  
 8   rating        2553 non-null   object 
 9   duration      2594 non-null   object 
 10  listed_in     3073 non-null   object 
 11  description   3069 non-null   object 
dtypes: float64(1), int64(1), object(10)
memory usage: 288.2+ KB


# Requerimientos del PI

+ Generar campo **`id`**: Cada id se compondrá de la primera letra del nombre de la plataforma, seguido del show_id ya presente en los datasets (ejemplo para títulos de Amazon = **`as123`**)

In [5]:
''' Función que genera la columna 'id' '''
def generar_id(df, letra):
    df['Aux'] = letra # Agregamos una nueva columna auxiliar con la primera letra de la plataforma correcpondiente
    df['id'] = df.Aux.str.cat(df.show_id) # Concatenamos las columnas 'Aux' con 'show_id" en una nueva columna 'id'
    df.drop(columns=['Aux'], inplace = True) # Eliminamos las columnas que ya no sirven    

In [6]:
'''Llamamos a la función 'generar_id' para cada data frame'''
generar_id(amazon_df,'a')  
generar_id(disney_df,'d')
generar_id(hulu_df,'h')
generar_id(netflix_df,'n')

In [7]:
''' Comprobamos que el campo 'id' sea correcto '''
amazon_df.head(3)
#disney_df.head(3)
#hulu_df.head(3)
#netflix_df.head(3)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,id
0,s1,Movie,The Grand Seduction,Don McKellar,"Brendan Gleeson, Taylor Kitsch, Gordon Pinsent",Canada,"March 30, 2021",2014,,113 min,"Comedy, Drama",A small fishing village must procure a local d...,as1
1,s2,Movie,Take Care Good Night,Girish Joshi,"Mahesh Manjrekar, Abhay Mahajan, Sachin Khedekar",India,"March 30, 2021",2018,13+,110 min,"Drama, International",A Metro Family decides to fight a Cyber Crimin...,as2
2,s3,Movie,Secrets of Deception,Josh Webber,"Tom Sizemore, Lorenzo Lamas, Robert LaSardo, R...",United States,"March 30, 2021",2017,,74 min,"Action, Drama, Suspense",After a man discovers his wife is cheating on ...,as3


+ Los valores nulos del campo rating deberán reemplazarse por el string “**`G`**” (corresponde al maturity rating: “general for all audiences”

In [8]:
''' Función que reemplaza los valores NaN de la columna 'ratings' '''
def remplazo_NaN(df):
    df.rating.fillna('G', inplace = True)

In [9]:
''' Llamamos a la funcion 'remplazo_NaN' que nos reemplaza los valores núlos'''
remplazo_NaN(amazon_df)
remplazo_NaN(disney_df)
remplazo_NaN(hulu_df)
remplazo_NaN(netflix_df)

In [10]:
'''Verificamos que en efecto ya no hay valores núlos en la columna 'rating' '''
#amazon_df[amazon_df['rating'].isnull()]
#disney_df[disney_df['rating'].isnull()]
#hulu_df[hulu_df['rating'].isnull()]
netflix_df[netflix_df['rating'].isnull()]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,id


+ De haber fechas, deberán tener el formato **`AAAA-mm-dd`**

In [11]:
''' Función que edita la fecha '''
def edicion_fechas(df):
    df['date_added'] = pd.to_datetime(df['date_added'])
    #Amazon['date_added'] = pd.to_datetime(Amazon['date_added'])    

In [12]:
''' Hacemos el llamado a la funcion para cada data frame '''
edicion_fechas(amazon_df)
edicion_fechas(disney_df)
edicion_fechas(hulu_df)
edicion_fechas(netflix_df)

In [13]:
''' Comprobamos los cambios '''
#amazon_df['date_added'].head()
#disney_df['date_added'].head()
#hulu_df['date_added'].head()
netflix_df['date_added'].head()

0   2021-09-25
1   2021-09-24
2   2021-09-24
3   2021-09-24
4   2021-09-24
Name: date_added, dtype: datetime64[ns]

+ Los campos de texto deberán estar en **minúsculas**, sin excepciones

In [14]:
''' Función que transforma en minusculas los campos de texto '''
def conversion_minus(df):
    l = len(df.columns) - 1
    for i in range(0,l):
        if df[df.columns[i]].dtype == 'O':
            df[df.columns[i]] = df[df.columns[i]].str.lower()
        else:
            continue

In [15]:
''' Llamamos a la función para los 4 data frame'''
conversion_minus(amazon_df)
conversion_minus(disney_df)
conversion_minus(hulu_df)
conversion_minus(netflix_df)

In [16]:
''' Verificamos los cambios'''
#amazon_df.head(3)
disney_df.head(1)
#hulu_df.head(3)
#netflix_df.head(3)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,id
0,s1,movie,duck the halls: a mickey mouse christmas special,"alonso ramirez ramos, dave wasson","chris diamantopoulos, tony anselmo, tress macn...",,2021-11-26,2016,tv-g,23 min,"animation, family",join mickey and the gang as they duck the halls!,ds1


+ El campo ***duration*** debe convertirse en dos campos: **`duration_int`** y **`duration_type`**. El primero será un integer y el segundo un string indicando la unidad de medición de duración: min (minutos) o season (temporadas)

In [17]:
''' Se observan valores tipo NaN en la columna 'duration' de los data frame 'hulu_df' y 'netflix_df' '''
print(amazon_df['duration'].isna().sum(axis =0))
print(disney_df['duration'].isna().sum(axis =0))
print(hulu_df['duration'].isna().sum(axis =0))
print(netflix_df['duration'].isna().sum(axis =0))

0
0
479
3


In [18]:
''' Reemplazamos estos valores NaN por la etiqueta '0 sin_dato' '''
hulu_df['duration'].fillna('0 sin_dato', inplace = True)
netflix_df['duration'].fillna('0 sin_dato', inplace = True)

In [19]:
''' Comprobamos los cambios '''
print(hulu_df['duration'].isna().sum(axis =0))
print(netflix_df['duration'].isna().sum(axis =0))

0
0


Ahora si procederemos a separar la columna ´duration´

In [20]:
''' Función que separa en dos columnas '''
def separacion(DF):
    DF[['duration_int', 'duration_type']] = DF['duration'].str.split(' ', expand=True)    

In [21]:
''' Llamamos a la función para los 4 data frame'''
separacion(amazon_df)
separacion(disney_df)
separacion(hulu_df)
separacion(netflix_df)

In [22]:
''' Comprobamos cambios '''
#amazon_df.columns
#disney_df.columns
hulu_df.columns
#netflix_df.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description', 'id',
       'duration_int', 'duration_type'],
      dtype='object')

# Unificación y Edición 

Agregaremos una nueva columna con la etiqueta de la plataforma correspondiente

In [23]:

amazon_df['Plataforma'] = 'Amazon'
disney_df['Plataforma'] = 'Disney'
hulu_df['Plataforma'] = 'Hulu'
netflix_df['Plataforma'] = 'Netflix'

Unificamos los 4 dataframe en uno solo al cual llamaremos 'movie_df'

In [24]:
movie_df = pd.concat([amazon_df, disney_df, hulu_df, netflix_df])

A continuación una exploración y edición del data frame 'movie_df'

In [25]:
movie_df.shape

(22998, 16)

In [26]:
movie_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22998 entries, 0 to 8806
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   show_id        22998 non-null  object        
 1   type           22998 non-null  object        
 2   title          22998 non-null  object        
 3   director       14739 non-null  object        
 4   cast           17677 non-null  object        
 5   country        11499 non-null  object        
 6   date_added     13444 non-null  datetime64[ns]
 7   release_year   22998 non-null  int64         
 8   rating         22998 non-null  object        
 9   duration       22998 non-null  object        
 10  listed_in      22998 non-null  object        
 11  description    22994 non-null  object        
 12  id             22998 non-null  object        
 13  duration_int   22998 non-null  object        
 14  duration_type  22998 non-null  object        
 15  Plataforma     22998

In [29]:
''' Convertimos a entero la columa 'duration_int'  '''
movie_df.duration_int = movie_df.duration_int.astype("Int64")

In [32]:
''' Verificamos los cambios '''
print(movie_df.duration_int.dtype)

Int64


In [27]:
''' Observamos las columnas con valores faltantes'''
movie_df.isnull().sum()

show_id              0
type                 0
title                0
director          8259
cast              5321
country          11499
date_added        9554
release_year         0
rating               0
duration             0
listed_in            0
description          4
id                   0
duration_int         0
duration_type        0
Plataforma           0
dtype: int64

Considerando que son 22998 datos totales, las faltantes de datos son considerables, asi que optaremos por no eliminarlas y colocar una etiqueta 'sin_dato' en su lugar 

In [33]:
movie_df['director'].fillna('sin_dato', inplace=True)
movie_df['cast'].fillna('sin_dato', inplace=True)
movie_df['country'].fillna('sin_dato', inplace=True)
movie_df['date_added'].fillna('sin_dato', inplace=True)
movie_df['description'].fillna('sin_dato', inplace=True)

In [34]:
''' Comprobamos los cambios'''
movie_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22998 entries, 0 to 8806
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   show_id        22998 non-null  object
 1   type           22998 non-null  object
 2   title          22998 non-null  object
 3   director       22998 non-null  object
 4   cast           22998 non-null  object
 5   country        22998 non-null  object
 6   date_added     22998 non-null  object
 7   release_year   22998 non-null  int64 
 8   rating         22998 non-null  object
 9   duration       22998 non-null  object
 10  listed_in      22998 non-null  object
 11  description    22998 non-null  object
 12  id             22998 non-null  object
 13  duration_int   22998 non-null  Int64 
 14  duration_type  22998 non-null  object
 15  Plataforma     22998 non-null  object
dtypes: Int64(1), int64(1), object(14)
memory usage: 3.0+ MB


In [40]:
''' Eliminamos la columna 'show_id' y 'duration' pues es redundante'''
movie_df.drop(columns=['show_id'], inplace = True)
movie_df.drop(columns=['duration'], inplace = True)

Normalizamos el campo 'duration_type' puesto que 'season' y 'seasons'  son la misma etiqueta

In [36]:

movie_df['duration_type'].unique()

array(['min', 'season', 'seasons', 'sin_dato'], dtype=object)

In [38]:
movie_df.loc[movie_df['duration_type'] == 'seasons', 'duration_type'] = 'season'
movie_df['duration_type'].unique()

array(['min', 'season', 'sin_dato'], dtype=object)

In [41]:
movie_df.columns

Index(['type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'listed_in', 'description', 'id',
       'duration_int', 'duration_type', 'Plataforma'],
      dtype='object')

 Reordenamos algunas columnas  

In [42]:
''' Reordenamos las columnas '''
movie_df = movie_df[['id','type','title','director','cast','country','date_added','release_year','rating','listed_in','description','duration_int','duration_type','Plataforma']]
movie_df.head(2)

Unnamed: 0,id,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,duration_int,duration_type,Plataforma
0,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30 00:00:00,2014,g,"comedy, drama",a small fishing village must procure a local d...,113,min,Amazon
1,as2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-03-30 00:00:00,2018,13+,"drama, international",a metro family decides to fight a cyber crimin...,110,min,Amazon


# Obtención del Score 

In [44]:
''' Cargamos el data frame 'score_set' '''
score_df = pd.read_csv('score_set.csv')
score_df.head()

Unnamed: 0,movieId,score(prom)
0,as1,3.467131
1,as10,3.439571
2,as100,3.609302
3,as1000,3.556701
4,as1001,3.585288


In [45]:
''' Hacemos la concatenación de los data frame 'movie_df'  y 'score_df' sobre las columnas 'id' y 'movieId' '''
movie_df = movie_df.merge(score_df, left_on='id', right_on='movieId') 

In [46]:
movie_df.head(2)

Unnamed: 0,id,type,title,director,cast,country,date_added,release_year,rating,listed_in,description,duration_int,duration_type,Plataforma,movieId,score(prom)
0,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30 00:00:00,2014,g,"comedy, drama",a small fishing village must procure a local d...,113,min,Amazon,as1,3.467131
1,as2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-03-30 00:00:00,2018,13+,"drama, international",a metro family decides to fight a cyber crimin...,110,min,Amazon,as2,3.548682


In [47]:
movie_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22998 entries, 0 to 22997
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             22998 non-null  object 
 1   type           22998 non-null  object 
 2   title          22998 non-null  object 
 3   director       22998 non-null  object 
 4   cast           22998 non-null  object 
 5   country        22998 non-null  object 
 6   date_added     22998 non-null  object 
 7   release_year   22998 non-null  int64  
 8   rating         22998 non-null  object 
 9   listed_in      22998 non-null  object 
 10  description    22998 non-null  object 
 11  duration_int   22998 non-null  Int64  
 12  duration_type  22998 non-null  object 
 13  Plataforma     22998 non-null  object 
 14  movieId        22998 non-null  object 
 15  score(prom)    22998 non-null  float64
dtypes: Int64(1), float64(1), int64(1), object(13)
memory usage: 3.0+ MB


Exportamos el DataFrame

In [48]:
''' Finalmente exportamos '''
movie_df.to_csv("movie_set.csv", index=False) 