**Introducción**

Dentro de este notebook, se podrá ver un breve proceso de ETL (Extracción, Transformación y Carga, por sus siglas en inglés) con el fin de transformar y limpiar ciertos datos ubicados en DataFrames que se originarán a lo largo del proyecto.

A continuación, se mostrará una "guía" de las tareas realizadas en el proceso de ETL, donde podremos encontrar oraciones para introducir la acción realizada en la casilla del código y comentarios dentro del código para mejorar la experiencia de la persona que desee ver este proyecto.

Antes de empezar el proceso de ETL, vamos a importar la libreria a utilizar, llamada Pandas.

In [1]:
import pandas as pd

**Comienzo del proceso de ETL.**

Obtendremos los DataFrames de los datasets correspondientes a Amazon Prime, Disney Plus, Hulu y Netflix.

In [2]:
df_ap = pd.read_csv(r'.\Dataset\amazon_prime_titles.csv') # DataFrame de Amazon Prime
df_dp = pd.read_csv(r'.\Dataset\disney_plus_titles.csv') # DataFrame de Disney Plus
df_hl = pd.read_csv(r'.\Dataset\hulu_titles.csv') # DataFrame de Hulu
df_nx = pd.read_csv(r'.\Dataset\netflix_titles.csv') # DataFrame de Netflix

Verificamos que se hallan cargado correctamente los datos en los DataFrames, y haremos una breve exploración de los datos con las funciones: .head() e .info().

In [3]:
# DataFrame de Amazon Prime:
df_ap.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,The Grand Seduction,Don McKellar,"Brendan Gleeson, Taylor Kitsch, Gordon Pinsent",Canada,"March 30, 2021",2014,,113 min,"Comedy, Drama",A small fishing village must procure a local d...
1,s2,Movie,Take Care Good Night,Girish Joshi,"Mahesh Manjrekar, Abhay Mahajan, Sachin Khedekar",India,"March 30, 2021",2018,13+,110 min,"Drama, International",A Metro Family decides to fight a Cyber Crimin...
2,s3,Movie,Secrets of Deception,Josh Webber,"Tom Sizemore, Lorenzo Lamas, Robert LaSardo, R...",United States,"March 30, 2021",2017,,74 min,"Action, Drama, Suspense",After a man discovers his wife is cheating on ...
3,s4,Movie,Pink: Staying True,Sonia Anderson,"Interviews with: Pink, Adele, Beyoncé, Britney...",United States,"March 30, 2021",2014,,69 min,Documentary,"Pink breaks the mold once again, bringing her ..."
4,s5,Movie,Monster Maker,Giles Foster,"Harry Dean Stanton, Kieran O'Brien, George Cos...",United Kingdom,"March 30, 2021",1989,,45 min,"Drama, Fantasy",Teenage Matt Banting wants to work with a famo...


In [4]:
# Breve información de los datos presentes en el DataFrame de Amazon Prime. Cabe mencionar que luego se hará un breve análisis de todos los Dataframes. 
df_ap.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9668 entries, 0 to 9667
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       9668 non-null   object
 1   type          9668 non-null   object
 2   title         9668 non-null   object
 3   director      7586 non-null   object
 4   cast          8435 non-null   object
 5   country       672 non-null    object
 6   date_added    155 non-null    object
 7   release_year  9668 non-null   int64 
 8   rating        9331 non-null   object
 9   duration      9668 non-null   object
 10  listed_in     9668 non-null   object
 11  description   9668 non-null   object
dtypes: int64(1), object(11)
memory usage: 906.5+ KB


In [5]:
# DataFrame de Disney Plus:
df_dp.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Duck the Halls: A Mickey Mouse Christmas Special,"Alonso Ramirez Ramos, Dave Wasson","Chris Diamantopoulos, Tony Anselmo, Tress MacN...",,"November 26, 2021",2016,TV-G,23 min,"Animation, Family",Join Mickey and the gang as they duck the halls!
1,s2,Movie,Ernest Saves Christmas,John Cherry,"Jim Varney, Noelle Parker, Douglas Seale",,"November 26, 2021",1988,PG,91 min,Comedy,Santa Claus passes his magic bag to a new St. ...
2,s3,Movie,Ice Age: A Mammoth Christmas,Karen Disher,"Raymond Albert Romano, John Leguizamo, Denis L...",United States,"November 26, 2021",2011,TV-G,23 min,"Animation, Comedy, Family",Sid the Sloth is on Santa's naughty list.
3,s4,Movie,The Queen Family Singalong,Hamish Hamilton,"Darren Criss, Adam Lambert, Derek Hough, Alexa...",,"November 26, 2021",2021,TV-PG,41 min,Musical,"This is real life, not just fantasy!"
4,s5,TV Show,The Beatles: Get Back,,"John Lennon, Paul McCartney, George Harrison, ...",,"November 25, 2021",2021,,1 Season,"Docuseries, Historical, Music",A three-part documentary from Peter Jackson ca...


In [6]:
# Breve información de los datos presentes en el DataFrame de Disney Plus.
df_dp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1450 entries, 0 to 1449
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       1450 non-null   object
 1   type          1450 non-null   object
 2   title         1450 non-null   object
 3   director      977 non-null    object
 4   cast          1260 non-null   object
 5   country       1231 non-null   object
 6   date_added    1447 non-null   object
 7   release_year  1450 non-null   int64 
 8   rating        1447 non-null   object
 9   duration      1450 non-null   object
 10  listed_in     1450 non-null   object
 11  description   1450 non-null   object
dtypes: int64(1), object(11)
memory usage: 136.1+ KB


In [7]:
# DataFrame de Hulu:
df_hl.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Ricky Velez: Here's Everything,,,,"October 24, 2021",2021,TV-MA,,"Comedy, Stand Up",​Comedian Ricky Velez bares it all with his ho...
1,s2,Movie,Silent Night,,,,"October 23, 2021",2020,,94 min,"Crime, Drama, Thriller","Mark, a low end South London hitman recently r..."
2,s3,Movie,The Marksman,,,,"October 23, 2021",2021,PG-13,108 min,"Action, Thriller",A hardened Arizona rancher tries to protect an...
3,s4,Movie,Gaia,,,,"October 22, 2021",2021,R,97 min,Horror,A forest ranger and two survivalists with a cu...
4,s5,Movie,Settlers,,,,"October 22, 2021",2021,,104 min,"Science Fiction, Thriller",Mankind's earliest settlers on the Martian fro...


In [8]:
# Breve información de los datos presentes en el DataFrame de Hulu.
df_hl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3073 entries, 0 to 3072
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   show_id       3073 non-null   object 
 1   type          3073 non-null   object 
 2   title         3073 non-null   object 
 3   director      3 non-null      object 
 4   cast          0 non-null      float64
 5   country       1620 non-null   object 
 6   date_added    3045 non-null   object 
 7   release_year  3073 non-null   int64  
 8   rating        2553 non-null   object 
 9   duration      2594 non-null   object 
 10  listed_in     3073 non-null   object 
 11  description   3069 non-null   object 
dtypes: float64(1), int64(1), object(10)
memory usage: 288.2+ KB


In [9]:
# DataFrame de Netflix:
df_nx.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [10]:
# Breve información de los datos presentes en el DataFrame de Netflix.
df_nx.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


Luego de corroborar que se hayan cargado los datos correctamente en los DataFrames, y ver el estado de los mismos podemos encontrar varias conclusiones. 

Como primera premisa, encontramos que no hay un campo 'id' para cada una de las plataformas que esté identificada con ella, por ejemplo si en algún futuro se intentara unir los todos los DataFremes en uno solo, no se podría identificar a cuál plataforma de streaming pertenece cada película o serie. Como segunda conclusión, en la columna 'rating' encontramos varios valores nulos en todos los DataFrames, donde nos va a perjudicar a la hora de hacer el sistema de recomendación. Como tercer punto, en la columna llamada 'date_added' se puede ver que en todos los Dataframes, las filas perteneciententes a dicha columna tienen un tipo de dato llamado objeto, y deberían estar en formato fecha. Por otro lado, se debería estandarizar y normalizar que todos los datos de texto se encuentren en minúscula, ya que en la mayoría de las filas entontramos datos que tienen letras o palabras en mayúscula. Además, en la columna 'duration' se puede observar que hay dos tipos de valores diferentes: uno se trata de números, que hacen referencia a una unidad de tiempo o cantidad; y otro formato de tipo texto donde especifican la unidad de medida, es decir donde se puede ver si la fila corresponde a una película (min) o serie (Seasons o temporadas). Por último, se identificaron que las columnas ubicadas en todos los DataFrames llamadas 'director', 'cast', 'country', 'date_added' y 'rating',como se mencionó anteriormente, tienen varios campos vacios o nulos. Sumado a que en el caso de la plataforma Hulu, faltan datos en las columnas 'duration' (al igual que en el caso de Netflix) y 'description'.

Cabe destacar que a lo largo de este trabajo, se corregirán la mayoría de estos errores. Por otro lado, se aclara que sólo con el fin de mostrar que se realizaron las modificaciones correspondientes, se usará a modo de ejemplo el DataFrame perteneciente a Amazon Prime, ya que es el mismo proceso de emplear para los demás DataFrames.

Como primera transformación, generaremos un campo 'id' para cada DataFrame. En ella, se almacenará la primera letra del nombre de la plataforma, seguido del número de id ya asignado previamente en la columna 'show_id'.

In [11]:
# Agregamos una nueva columna para cada DataFrame con los nuevos campos id generados:
df_ap['id'] = 'a' + df_ap['show_id']
df_dp['id'] = 'd' + df_ap['show_id']
df_hl['id'] = 'h' + df_ap['show_id']
df_nx['id'] = 'n' + df_ap['show_id']

Verificamos que se halla realizado esta modificación con la función .head(). Se verá a modo de ejemplo el caso de Amazon Prime.

In [12]:
df_ap.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,id
0,s1,Movie,The Grand Seduction,Don McKellar,"Brendan Gleeson, Taylor Kitsch, Gordon Pinsent",Canada,"March 30, 2021",2014,,113 min,"Comedy, Drama",A small fishing village must procure a local d...,as1
1,s2,Movie,Take Care Good Night,Girish Joshi,"Mahesh Manjrekar, Abhay Mahajan, Sachin Khedekar",India,"March 30, 2021",2018,13+,110 min,"Drama, International",A Metro Family decides to fight a Cyber Crimin...,as2
2,s3,Movie,Secrets of Deception,Josh Webber,"Tom Sizemore, Lorenzo Lamas, Robert LaSardo, R...",United States,"March 30, 2021",2017,,74 min,"Action, Drama, Suspense",After a man discovers his wife is cheating on ...,as3
3,s4,Movie,Pink: Staying True,Sonia Anderson,"Interviews with: Pink, Adele, Beyoncé, Britney...",United States,"March 30, 2021",2014,,69 min,Documentary,"Pink breaks the mold once again, bringing her ...",as4
4,s5,Movie,Monster Maker,Giles Foster,"Harry Dean Stanton, Kieran O'Brien, George Cos...",United Kingdom,"March 30, 2021",1989,,45 min,"Drama, Fantasy",Teenage Matt Banting wants to work with a famo...,as5


Realizamos la segunda correción referida a los valores nulos en la columna 'rating', donde los cambiaremos por el valor 'G', ya que corresponde al maturity rating: “general for all audiences". Este error, lo corregimos con la función .fillna().

In [13]:
# Cabe aclarar que usamos el: ', inplace = True' para que se efectúe el cambio del "status" de los datos ubicados en la columna 'rating'.
df_ap['rating'].fillna(value ='G', inplace = True)
df_dp['rating'].fillna(value = 'G', inplace = True)
df_hl['rating'].fillna(value = 'G', inplace = True)
df_nx['rating'].fillna(value = 'G', inplace = True)

Verificamos que se halla realizado esta modificación con la función .isnull() seguido de .sum(), donde podremos ver que no hay valores nulos. A modo de ejemplo, presentaremos el caso de Amazon Prime.

In [14]:
df_ap['rating'].isnull().sum()

0

Se hará la tercera modificación, donde se cambiarán los tipos de datos ubicados dentro de la columna 'date_added' usando la función .datetime().

In [15]:
df_ap['date_added'] = pd.to_datetime(df_ap['date_added'])
df_dp['date_added'] = pd.to_datetime(df_dp['date_added'])
df_hl['date_added'] = pd.to_datetime(df_hl['date_added'])
df_nx['date_added'] = pd.to_datetime(df_nx['date_added'])

Verificamos que se halla modificado con la función .info(). Se verá a modo de ejemplo el caso de Amazon Prime.

In [16]:
df_ap['date_added'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 9668 entries, 0 to 9667
Series name: date_added
Non-Null Count  Dtype         
--------------  -----         
155 non-null    datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 75.7 KB


En este caso, se usará la función .applymap() junto una función creada en este archivo,  para cambiar las palabras y/o letras que estén en mayúscula por minúscula.

In [17]:
# La función creada para corregir las mayúsculas es la siguiente:

def transformar_a_minuscula (x): # la función está nombrada como transformar_a_minuscula, y usa como parámetro un valor x.
    if isinstance(x,str): # crea un filtro con if, condicionandolo a que si el valor x es de tipo str.
        return x.lower() # devuelva el texto en minuscula.
    elif type(x) == int or float: # en cambio, si se trata de un valor de tipo int o float.
        pass # continua sin hacer cambios, ya que no podria cambiarlo y devolvería un error.
    else:
        x.lower() # por ultimo, si el valor no es de tipo str, ni de ningun tipo numérico, se aplica la función de todas formas
    return x

In [18]:
df_ap = df_ap.applymap(transformar_a_minuscula)
df_dp = df_dp.applymap(transformar_a_minuscula)
df_hl = df_hl.applymap(transformar_a_minuscula)
df_nx = df_nx.applymap(transformar_a_minuscula)

A continuación, se podrán ver los cambios efectuados utilizando como ejemplo el DataFrame de Amazon Prime.

In [19]:
df_ap.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,id
0,s1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113 min,"comedy, drama",a small fishing village must procure a local d...,as1
1,s2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-03-30,2018,13+,110 min,"drama, international",a metro family decides to fight a cyber crimin...,as2
2,s3,movie,secrets of deception,josh webber,"tom sizemore, lorenzo lamas, robert lasardo, r...",united states,2021-03-30,2017,g,74 min,"action, drama, suspense",after a man discovers his wife is cheating on ...,as3
3,s4,movie,pink: staying true,sonia anderson,"interviews with: pink, adele, beyoncé, britney...",united states,2021-03-30,2014,g,69 min,documentary,"pink breaks the mold once again, bringing her ...",as4
4,s5,movie,monster maker,giles foster,"harry dean stanton, kieran o'brien, george cos...",united kingdom,2021-03-30,1989,g,45 min,"drama, fantasy",teenage matt banting wants to work with a famo...,as5


Por último, se dividirá la columna 'duration' en 'duration_int' donde ubicaremos los números; y en 'duration_type' donde se indicarán si el número se refiere a minutos (min) o a la cantidad temporadas (seasons). Esto se realizará con la función.str.split(). Además, se cambiarán los tipos de datos de las nuevas columnas 'duration_int' a 'int64' para que en el futuro se puedan realizar en ellas funciones de agregación.

In [20]:
# Cabe mencionar que luego del str.split(" "), se utilizar el str.get() para que en la columna que creamos (ya sea 'duration_in' o 'duration_type') queden los valores correspondientes: 
# 0 corresponde a los números y 1 corresponde al texto que, dependiendo el caso, podrá ser 'min', 'season' o 'seasons'.

df_ap['duration_int'] = (df_ap['duration'].str.split(' ').str.get(0)).astype('int64')
df_ap['duration_type'] = df_ap['duration'].str.split(' ').str.get(1)

In [21]:
df_ap.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9668 entries, 0 to 9667
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   show_id        9668 non-null   object        
 1   type           9668 non-null   object        
 2   title          9668 non-null   object        
 3   director       7586 non-null   object        
 4   cast           8435 non-null   object        
 5   country        672 non-null    object        
 6   date_added     155 non-null    datetime64[ns]
 7   release_year   9668 non-null   int64         
 8   rating         9668 non-null   object        
 9   duration       9668 non-null   object        
 10  listed_in      9668 non-null   object        
 11  description    9668 non-null   object        
 12  id             9668 non-null   object        
 13  duration_int   9668 non-null   int64         
 14  duration_type  9668 non-null   object        
dtypes: datetime64[ns](1),

In [22]:
df_dp['duration_int'] = df_dp['duration'].str.split(' ').str.get(0).astype('int64')
df_dp['duration_type'] = df_dp['duration'].str.split(' ').str.get(1)

In [23]:
df_dp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1450 entries, 0 to 1449
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   show_id        1450 non-null   object        
 1   type           1450 non-null   object        
 2   title          1450 non-null   object        
 3   director       977 non-null    object        
 4   cast           1260 non-null   object        
 5   country        1231 non-null   object        
 6   date_added     1447 non-null   datetime64[ns]
 7   release_year   1450 non-null   int64         
 8   rating         1450 non-null   object        
 9   duration       1450 non-null   object        
 10  listed_in      1450 non-null   object        
 11  description    1450 non-null   object        
 12  id             1450 non-null   object        
 13  duration_int   1450 non-null   int64         
 14  duration_type  1450 non-null   object        
dtypes: datetime64[ns](1),

Luego de realizar los cambios correspondientes, encontramos que en los DataFrames pertenecientes a 'Hulu' y a 'Netflix' en la columna 'duration_int' hay valores nulos, y como nos van a perjudicar a la hora de hacer las consultas, se modificarán por el valor '0' y luego se los cambiará a tipo 'int64'.

In [24]:

df_hl['duration_int'] = df_hl['duration'].str.split(' ').str.get(0)
df_hl['duration_type'] = df_hl['duration'].str.split(' ').str.get(1)
df_hl['duration_int'].fillna(value = 0, inplace = True)
df_hl['duration_int'] = df_hl['duration_int'].astype('int64')

df_nx['duration_int'] = df_nx['duration'].str.split(' ').str.get(0)
df_nx['duration_type'] = df_nx['duration'].str.split(' ').str.get(1)
df_nx['duration_int'].fillna(value = 0, inplace = True)
df_nx['duration_int'] = df_nx['duration_int'].astype('int64')

Verificamos que se hayan corregido estos errores. Utilizamos a modo de ejemplo el caso de la plataforma 'Hulu'.

In [25]:
df_hl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3073 entries, 0 to 3072
Data columns (total 15 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   show_id        3073 non-null   object        
 1   type           3073 non-null   object        
 2   title          3073 non-null   object        
 3   director       3 non-null      object        
 4   cast           0 non-null      float64       
 5   country        1620 non-null   object        
 6   date_added     3045 non-null   datetime64[ns]
 7   release_year   3073 non-null   int64         
 8   rating         3073 non-null   object        
 9   duration       2594 non-null   object        
 10  listed_in      3073 non-null   object        
 11  description    3069 non-null   object        
 12  id             3073 non-null   object        
 13  duration_int   3073 non-null   int64         
 14  duration_type  2594 non-null   object        
dtypes: datetime64[ns](1),

Para poder manipular todos los DataFrames de cada plataforma de una manera más ágil, se procederá a unirlos en un sólo DataFrame, utilizando la función concat().

In [26]:
# Cabe mencionar que indicamos como 'axis = 0', para que los DataFrames se unan por filas y no por columnas.
plataformas = pd.concat([df_ap, df_dp, df_hl, df_nx], axis = 0)
plataformas

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,id,duration_int,duration_type
0,s1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113 min,"comedy, drama",a small fishing village must procure a local d...,as1,113,min
1,s2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-03-30,2018,13+,110 min,"drama, international",a metro family decides to fight a cyber crimin...,as2,110,min
2,s3,movie,secrets of deception,josh webber,"tom sizemore, lorenzo lamas, robert lasardo, r...",united states,2021-03-30,2017,g,74 min,"action, drama, suspense",after a man discovers his wife is cheating on ...,as3,74,min
3,s4,movie,pink: staying true,sonia anderson,"interviews with: pink, adele, beyoncé, britney...",united states,2021-03-30,2014,g,69 min,documentary,"pink breaks the mold once again, bringing her ...",as4,69,min
4,s5,movie,monster maker,giles foster,"harry dean stanton, kieran o'brien, george cos...",united kingdom,2021-03-30,1989,g,45 min,"drama, fantasy",teenage matt banting wants to work with a famo...,as5,45,min
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,movie,zodiac,david fincher,"mark ruffalo, jake gyllenhaal, robert downey j...",united states,2019-11-20,2007,r,158 min,"cult movies, dramas, thrillers","a political cartoonist, a crime reporter and a...",ns8803,158,min
8803,s8804,tv show,zombie dumb,,,,2019-07-01,2018,tv-y7,2 seasons,"kids' tv, korean tv shows, tv comedies","while living alone in a spooky town, a young g...",ns8804,2,seasons
8804,s8805,movie,zombieland,ruben fleischer,"jesse eisenberg, woody harrelson, emma stone, ...",united states,2019-11-01,2009,r,88 min,"comedies, horror movies",looking to survive in a world taken over by zo...,ns8805,88,min
8805,s8806,movie,zoom,peter hewitt,"tim allen, courteney cox, chevy chase, kate ma...",united states,2020-01-11,2006,pg,88 min,"children & family movies, comedies","dragged from civilian life, a former superhero...",ns8806,88,min


Se eliminan las columnas 'show_id' y 'duration' ya que anteriormente se habían realizado las correcciones correspondientes.

In [27]:
del plataformas['show_id'] 
del plataformas['duration']

Luego reordenamos el DataFrame con la función reindex(), para que sea más ordenado a la hora de realizar las futuras consultas. 

In [28]:
plataformas = plataformas.reindex(columns= ['id','type','title','director','cast','country','date_added','release_year','rating','duration_int','duration_type','listed_in','description'])

Verificamos que se haya efectuado el cambio con la función .head().

In [29]:
plataformas.head()

Unnamed: 0,id,type,title,director,cast,country,date_added,release_year,rating,duration_int,duration_type,listed_in,description
0,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113,min,"comedy, drama",a small fishing village must procure a local d...
1,as2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-03-30,2018,13+,110,min,"drama, international",a metro family decides to fight a cyber crimin...
2,as3,movie,secrets of deception,josh webber,"tom sizemore, lorenzo lamas, robert lasardo, r...",united states,2021-03-30,2017,g,74,min,"action, drama, suspense",after a man discovers his wife is cheating on ...
3,as4,movie,pink: staying true,sonia anderson,"interviews with: pink, adele, beyoncé, britney...",united states,2021-03-30,2014,g,69,min,documentary,"pink breaks the mold once again, bringing her ..."
4,as5,movie,monster maker,giles foster,"harry dean stanton, kieran o'brien, george cos...",united kingdom,2021-03-30,1989,g,45,min,"drama, fantasy",teenage matt banting wants to work with a famo...


**Datos de reseñas de usuarios de las plataformas**

Por otro lado, en nuestro Dataset, hay otra carpeta llamada 'ratings' la cual almacena ocho archivos diferentes que contienen las puntuaciones que les dieron los usuarios de cada plataforma a las películas y series. A continuación, se comenzará el proceso de ETL de estos datos. 

In [30]:
r1 = pd.read_csv(r'.\Dataset\ratings\1.csv')
r2 = pd.read_csv(r'.\Dataset\ratings\2.csv')
r3 = pd.read_csv(r'.\Dataset\ratings\3.csv')
r4 = pd.read_csv(r'.\Dataset\ratings\4.csv')
r5 = pd.read_csv(r'.\Dataset\ratings\5.csv')
r6 = pd.read_csv(r'.\Dataset\ratings\6.csv')
r7 = pd.read_csv(r'.\Dataset\ratings\7.csv')
r8 = pd.read_csv(r'.\Dataset\ratings\8.csv')

Verificamos que se hallan cargado correctamente los datos en los DataFrames, y haremos una breve exploración de los datos con las funciones: .head() e .info().

In [31]:
r1.head()

Unnamed: 0,userId,rating,timestamp,movieId
0,1,1.0,1425941529,as680
1,1,4.5,1425942435,ns2186
2,1,5.0,1425941523,hs2381
3,1,5.0,1425941546,ns3663
4,1,5.0,1425941556,as9500


In [32]:
r1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500000 entries, 0 to 1499999
Data columns (total 4 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   userId     1500000 non-null  int64  
 1   rating     1500000 non-null  float64
 2   timestamp  1500000 non-null  int64  
 3   movieId    1500000 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 45.8+ MB


In [33]:
r2.head()

Unnamed: 0,userId,rating,timestamp,movieId
0,15424,3.0,1369585147,ns3012
1,15424,2.5,1369586851,ns3195
2,15424,3.0,1369585112,ns357
3,15424,2.5,1372541498,as7069
4,15424,3.0,1369586846,as6943


In [34]:
r2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500000 entries, 0 to 1499999
Data columns (total 4 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   userId     1500000 non-null  int64  
 1   rating     1500000 non-null  float64
 2   timestamp  1500000 non-null  int64  
 3   movieId    1500000 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 45.8+ MB


In [35]:
r3.head()

Unnamed: 0,userId,rating,timestamp,movieId
0,31332,4.0,974205261,as2251
1,31332,3.0,974205170,as7226
2,31332,3.0,974205034,as6479
3,31332,3.0,974205261,ns2422
4,31332,4.0,974205034,as4041


In [36]:
r3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500000 entries, 0 to 1499999
Data columns (total 4 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   userId     1500000 non-null  int64  
 1   rating     1500000 non-null  float64
 2   timestamp  1500000 non-null  int64  
 3   movieId    1500000 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 45.8+ MB


In [37]:
r4.head()

Unnamed: 0,userId,rating,timestamp,movieId
0,46200,5.0,1015603683,as3203
1,46200,1.0,1012323069,as5959
2,46200,3.0,996245609,as4430
3,46200,4.0,996245595,as6604
4,46200,3.0,996245595,ds311


In [38]:
r4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500000 entries, 0 to 1499999
Data columns (total 4 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   userId     1500000 non-null  int64  
 1   rating     1500000 non-null  float64
 2   timestamp  1500000 non-null  int64  
 3   movieId    1500000 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 45.8+ MB


In [39]:
r5.head()

Unnamed: 0,userId,rating,timestamp,movieId
0,61768,4.0,1438075492,as5376
1,61768,3.0,1435693148,as7172
2,61768,3.0,1438075482,ns4557
3,61768,3.0,1438075496,ns7804
4,61768,3.5,1438075486,as3030


In [40]:
r5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500000 entries, 0 to 1499999
Data columns (total 4 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   userId     1500000 non-null  int64  
 1   rating     1500000 non-null  float64
 2   timestamp  1500000 non-null  int64  
 3   movieId    1500000 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 45.8+ MB


In [41]:
r6.head()

Unnamed: 0,userId,rating,timestamp,movieId
0,249182,3.5,1460518555,ds327
1,249182,4.0,1461878500,ns2124
2,249182,3.0,1460182087,as8841
3,249182,4.5,1460183214,hs2318
4,249182,2.5,1460184332,as5743


In [42]:
r6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500000 entries, 0 to 1499999
Data columns (total 4 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   userId     1500000 non-null  int64  
 1   rating     1500000 non-null  float64
 2   timestamp  1500000 non-null  int64  
 3   movieId    1500000 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 45.8+ MB


In [43]:
r7.head()

Unnamed: 0,userId,rating,timestamp,movieId
0,265409,5.0,891417042,ds781
1,265409,5.0,891417042,as9331
2,265409,4.0,891417435,hs384
3,265409,3.0,891417191,hs398
4,265409,5.0,891417224,as8434


In [44]:
r7.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 524289 entries, 0 to 524288
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     524289 non-null  int64  
 1   rating     524289 non-null  float64
 2   timestamp  524289 non-null  int64  
 3   movieId    524289 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 16.0+ MB


In [45]:
r8.head()

Unnamed: 0,userId,rating,timestamp,movieId
0,108422,4.5,1350689762,as1399
1,108422,4.0,1350341401,as6724
2,108422,5.0,1350689691,ns512
3,108422,4.5,1350341088,ns7444
4,108422,4.5,1350689619,as2230


In [46]:
r8.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500000 entries, 0 to 1499999
Data columns (total 4 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   userId     1500000 non-null  int64  
 1   rating     1500000 non-null  float64
 2   timestamp  1500000 non-null  int64  
 3   movieId    1500000 non-null  object 
dtypes: float64(1), int64(2), object(1)
memory usage: 45.8+ MB


Después de cargar los datos, se llegó a la conclusión de que la columna llamada 'rating' se podría renombrar para no prestar lugar a confusión con el DataFrame 'plataformas', además de que en el futuro vamos a combinar dicha columna a este último DataFrame para un mejor análisis. Este cambio se realizará con la funcion .rename(). Pero antes se juntarán todos los DataFrames para realizar los cambios necesarios de una manera más sencilla.

In [47]:
puntaje = pd.concat([r1, r2, r3, r4, r5, r6, r7, r8], axis = 0)
puntaje.rename(columns = {'rating': 'score', 'movieId':'id'}, inplace = True)

Validamos la unión de los DataFrames y la modificación correspondiente.

In [48]:
puntaje

Unnamed: 0,userId,score,timestamp,id
0,1,1.0,1425941529,as680
1,1,4.5,1425942435,ns2186
2,1,5.0,1425941523,hs2381
3,1,5.0,1425941546,ns3663
4,1,5.0,1425941556,as9500
...,...,...,...,...
1499995,124380,4.5,1196786159,ns5272
1499996,124380,2.5,1196786030,ns5492
1499997,124380,3.5,1196785679,hs305
1499998,124380,4.5,1196787089,ns7881


Para obtener un mejor análisis y visualización de las puntuaciones, se creará una columna donde se almacenarán los promedios de las puntuaciones por cada película o serie. Se utilizará la función .groupby(), .mean() y .map() para resolver este punto.

In [49]:
promedio_score = puntaje.groupby('id')['score'].mean()
puntaje['mean_score'] = puntaje['id'].map(promedio_score)

Se prueba si se agregó la columna correctamente.

In [50]:
puntaje.head()

Unnamed: 0,userId,score,timestamp,id,mean_score
0,1,1.0,1425941529,as680,3.549127
1,1,4.5,1425942435,ns2186,3.556886
2,1,5.0,1425941523,hs2381,3.604124
3,1,5.0,1425941546,ns3663,3.547085
4,1,5.0,1425941556,as9500,3.532158


Por otro lado, se corrigirá el formato de fecha de la columna 'timestamp'.

In [63]:
puntaje['timestamp'] =pd.to_datetime(puntaje['timestamp'], unit = 's')

Se verifica que se haya realizado la modificación correctamente.

In [64]:
puntaje.head()

Unnamed: 0,userId,score,timestamp,id,mean_score
0,1,1.0,2015-03-09 22:52:09,as680,3.549127
1,1,4.5,2015-03-09 23:07:15,ns2186,3.556886
2,1,5.0,2015-03-09 22:52:03,hs2381,3.604124
3,1,5.0,2015-03-09 22:52:26,ns3663,3.547085
4,1,5.0,2015-03-09 22:52:36,as9500,3.532158


In [65]:
puntaje.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 11024289 entries, 0 to 1499999
Data columns (total 5 columns):
 #   Column      Dtype         
---  ------      -----         
 0   userId      int64         
 1   score       float64       
 2   timestamp   datetime64[ns]
 3   id          object        
 4   mean_score  float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(1)
memory usage: 504.7+ MB


Luego, se unirá la nueva columna creada al DataFrame de 'plataformas' para que se puedan realizar las consultas y se pueda navegar desde un sólo archivo/DataFrame. Esta modificación se obtiene gracias a la función .merge().

In [66]:
plataformas = pd.merge(plataformas,puntaje, on= 'id')

Se verifica que se haya realizado el merge(), pero se puede observar que hay millones de valores duplicados. Estos valores hacen referencia a que hay varias filas que pertenecen al mismo id donde se repite también el promedio de los scores de los usuarios.

In [67]:
plataformas.head()

Unnamed: 0,id,type,title,director,cast,country,date_added,release_year,rating,duration_int,duration_type,listed_in,description,userId,score,timestamp,mean_score
0,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113,min,"comedy, drama",a small fishing village must procure a local d...,543,5.0,2003-07-30 20:23:02,3.467131
1,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113,min,"comedy, drama",a small fishing village must procure a local d...,595,3.0,1996-08-13 12:00:03,3.467131
2,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113,min,"comedy, drama",a small fishing village must procure a local d...,611,3.0,2001-01-03 19:11:48,3.467131
3,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113,min,"comedy, drama",a small fishing village must procure a local d...,2523,3.5,2012-06-25 14:36:20,3.467131
4,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113,min,"comedy, drama",a small fishing village must procure a local d...,3082,4.0,2000-03-30 06:10:36,3.467131


In [68]:
plataformas.value_counts(plataformas.duplicated())

False    11024165
True          124
dtype: int64

Es por ello que, se eliminarán los registros duplicados del DataFrame con la función .drop_duplicates().

In [69]:
# Cabe aclarar que se declara el subset = 'id' borre todos los duplicados que se encuentran en esta columna. Por otro lado, se menciona que sólo mantengan el primer valor con keep = 'first'.
plataformas = plataformas.drop_duplicates(subset='id', keep='first')

Se valida que se hayan eliminado.

In [70]:
plataformas.head()

Unnamed: 0,id,type,title,director,cast,country,date_added,release_year,rating,duration_int,duration_type,listed_in,description,userId,score,timestamp,mean_score
0,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113,min,"comedy, drama",a small fishing village must procure a local d...,543,5.0,2003-07-30 20:23:02,3.467131
502,as2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-03-30,2018,13+,110,min,"drama, international",a metro family decides to fight a cyber crimin...,321,3.0,2007-06-10 04:59:41,3.548682
995,as3,movie,secrets of deception,josh webber,"tom sizemore, lorenzo lamas, robert lasardo, r...",united states,2021-03-30,2017,g,74,min,"action, drama, suspense",after a man discovers his wife is cheating on ...,582,5.0,2011-09-24 05:49:30,3.5
1417,as4,movie,pink: staying true,sonia anderson,"interviews with: pink, adele, beyoncé, britney...",united states,2021-03-30,2014,g,69,min,documentary,"pink breaks the mold once again, bringing her ...",151,1.5,2004-04-08 19:54:41,3.538055
1890,as5,movie,monster maker,giles foster,"harry dean stanton, kieran o'brien, george cos...",united kingdom,2021-03-30,1989,g,45,min,"drama, fantasy",teenage matt banting wants to work with a famo...,24,5.0,2001-01-20 06:34:51,3.478992


Antes de terminar con el proceso de ETL, se debe estandarizar los datos de la columna 'duration_type' en el caso de que se trate de una serie, ya que dependiendo de la cantidad de temporadas, va a aparecer en singular o plural. Esto se debe corregir porque puede llegar a traer ciertas dificultades a la hora de realizar las futuras consultas. Cabe aclarar que se decidió estandarizarlo en el valor 'season', porque cuando se busque puede que el usuario/a utilice la palabra en plural. Por otro lado, se reseteará el índice para una mejor visión del DataFrame.

In [71]:
plataformas['duration_type'] = plataformas['duration_type'].replace('seasons','season')
plataformas = plataformas.reset_index(drop = True)

Se verifica que se hayan realizado dichas modificaciones.

In [72]:
plataformas.head()

Unnamed: 0,id,type,title,director,cast,country,date_added,release_year,rating,duration_int,duration_type,listed_in,description,userId,score,timestamp,mean_score
0,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113,min,"comedy, drama",a small fishing village must procure a local d...,543,5.0,2003-07-30 20:23:02,3.467131
1,as2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-03-30,2018,13+,110,min,"drama, international",a metro family decides to fight a cyber crimin...,321,3.0,2007-06-10 04:59:41,3.548682
2,as3,movie,secrets of deception,josh webber,"tom sizemore, lorenzo lamas, robert lasardo, r...",united states,2021-03-30,2017,g,74,min,"action, drama, suspense",after a man discovers his wife is cheating on ...,582,5.0,2011-09-24 05:49:30,3.5
3,as4,movie,pink: staying true,sonia anderson,"interviews with: pink, adele, beyoncé, britney...",united states,2021-03-30,2014,g,69,min,documentary,"pink breaks the mold once again, bringing her ...",151,1.5,2004-04-08 19:54:41,3.538055
4,as5,movie,monster maker,giles foster,"harry dean stanton, kieran o'brien, george cos...",united kingdom,2021-03-30,1989,g,45,min,"drama, fantasy",teenage matt banting wants to work with a famo...,24,5.0,2001-01-20 06:34:51,3.478992


In [73]:
plataformas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22998 entries, 0 to 22997
Data columns (total 17 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id             22998 non-null  object        
 1   type           22998 non-null  object        
 2   title          22998 non-null  object        
 3   director       14739 non-null  object        
 4   cast           17677 non-null  object        
 5   country        11499 non-null  object        
 6   date_added     13444 non-null  datetime64[ns]
 7   release_year   22998 non-null  int64         
 8   rating         22998 non-null  object        
 9   duration_int   22998 non-null  int64         
 10  duration_type  22516 non-null  object        
 11  listed_in      22998 non-null  object        
 12  description    22994 non-null  object        
 13  userId         22998 non-null  int64         
 14  score          22998 non-null  float64       
 15  timestamp      2299

Para finalizar con esta primera parte del proyecto, se exportará el DataFrame obtenido luego de todas las transformaciones necesarias en formato .csv para poder realizar las consultas necesarias en el siguiente apartado.

In [74]:
# Cabe aclarar que se agrega al final index = False para que no se exporte el índice del DataFrame.
plataformas.to_csv(r'.\Dataset\Streaming_services_clean.csv', index = False)

Para continuar el seguimiento del proyecto, se invita a dirigirse al archivo 'Funciones_API'.ipynb.