# Juan Valentín Fogliatti - Proyecto Individual Nro1 - DS-05
### Importación de librerías a utilizar

In [1]:
# Importamos pandas para manipular el dataset
import pandas as pd

# Importamos Path para trabajar con las rutas de los archivos
from pathlib import Path


### Ingesta de los Datasets
Vemos que tenemos archivos en formato csv y json. Definimos una función para realizar la ingesta de ambos 

In [2]:
# Ingestamos los archivos
def import_files(path):
    with open(path, 'rb'):
        if Path(path).suffix == ".csv": 
            data = pd.read_csv(path)
        elif Path(path).suffix == ".json": 
            data = pd.read_json(path, precise_float=True)
        
    return data 

Importamos los datasets utilizando la función anterior

In [3]:
amazon = import_files(f'./Datasets/amazon_prime_titles.csv')
disney = import_files(f'./Datasets/disney_plus_titles.csv')
hulu = import_files(f'./Datasets/hulu_titles.csv')
netflix = import_files(f'./Datasets/netflix_titles.json')

### Análisis Exploratorio de Datos (EDA)
Comenzamos a hacer un análisis de los dataframes creados. A cada uno le vamos a dar una mirada general para descubrir sus estructuras, tipos de datos, cantidad de registros, etc. Es el primer acercamiento con los datos que hasta el momento desconocemos.

In [4]:
# Visualizamos el dataframe usando '.sample()' para poder ver una muestra aleatoria de los items, 
# y de esta forma tener una primera idea de cómo está conformada cada tabla. Lo hacemos para los 4 dataframes.

#amazon.sample(n=20)
#disney.sample(n=20)
#hulu.sample(n=20)
netflix.sample(15)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
5813,s5814,Movie,Louis C.K.: Live at the Comedy Store,Louis C.K.,Louis C.K.,United States,"August 15, 2016",2015,66 min,,Movies,The comic puts his trademark hilarious/thought...
7492,s7493,Movie,Monster High: Freaky Fusion,"William Lau, Sylvain Blais","Cam Clarke, Audu Paden, Laura Bailey, Cindy Ro...",United States,"January 30, 2018",2014,TV-Y7,74 min,Children & Family Movies,"When Frankie Stein travels back in time, a tee..."
5880,s5881,Movie,"Trailer Park Boys: Drunk, High and Unemployed:...","Gary Howsam, Mike Smith, John Paul Tremblay, R...","Mike Smith, John Paul Tremblay, Robb Wells, Jo...",Canada,"December 9, 2015",2015,TV-MA,74 min,"Comedies, International Movies","Ricky, Julian and Bubbles bring their trailer ..."
3056,s3057,TV Show,Chhota Bheem Kung Fu Dhamaka Series,,"Pinky Pal Rajput, Sonal Kaushal, Julie Tejwani...",,"January 1, 2020",2019,TV-Y7,1 Season,Kids' TV,"From kung fu battles to run-ins with bandits, ..."
7797,s7798,Movie,Professor Mack,Christopher Nolen,"Lisa Wu, Timon Kyle Durrett, Robert Christophe...",United States,"August 6, 2019",2018,TV-MA,84 min,"Comedies, Romantic Movies",When a confident college professor is courted ...
1066,s1067,Movie,The Soul,Cheng Wei-hao,"Chang Chen, Janine Chang, Christopher Lee, Ank...","China, Taiwan","April 14, 2021",2021,TV-MA,130 min,"Dramas, International Movies, Thrillers",While investigating the death of a businessman...
6992,s6993,Movie,Hoodwinked Too! Hood vs. Evil,Mike Disa,"Hayden Panettiere, Glenn Close, Patrick Warbur...",United States,"November 3, 2018",2011,PG,86 min,"Children & Family Movies, Comedies","Fresh off a top-secret training, feisty heroin..."
3251,s3252,Movie,Dorasaani,KVR Mahendra,"Anand Deverakonda, Shivatmika Rajasekhar, Kann...",India,"November 20, 2019",2019,TV-14,134 min,"Dramas, International Movies, Romantic Movies",A village landlord's daughter and an educated ...
6475,s6476,Movie,Chris Brown: Welcome to My Life,Andrew Sandler,Chris Brown,United States,"October 7, 2017",2017,TV-MA,80 min,"Documentaries, Music & Musicals","Featuring interviews, concert footage and behi..."
934,s935,Movie,JT LeRoy,Justin Kelly,"Kristen Stewart, Laura Dern, Jim Sturgess, Dia...","United Kingdom, Canada, United States","May 1, 2021",2018,R,109 min,"Dramas, Independent Movies","In an elaborate hoax, a young woman pretends t..."


In [5]:
# Vemos la información de todas las columnas, también para los 4 dataframes

#amazon.info()
#disney.info()
#hulu.info()
netflix.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


Eliminaremos las columnas que, teniendo en cuenta las consignas planteadas, no nos serán de utilidad. Lo hacemos solo a efectos de tener una mejor visual de las tablas y de no ocupar recursos innecesarios, pero dajarlas tampoco implicaría un problema.

In [6]:
# Primero agregamos cada plataforma a una lista
plataformas = [amazon, disney, hulu, netflix]

In [7]:
# Eliminamos las columnas indeseadas
for p in plataformas:
    p.drop(columns=['director','country','date_added','rating','description'], inplace=True)

Modificamos la columna show_id y agregamos una columna con el nombre de la plataforma

In [8]:
# Reemplazamos los caracteres de la columna 'show_id' por otro más representativo a la plataforma en cuestión.
# Seteamos esta misma columna como index.
ind = ['a', 'd', 'h', 'n']
for p, i in zip(plataformas, ind):
    p['show_id'] = p['show_id'].str.replace('[a-zA-Z]', i, regex=True)
    p.set_index('show_id', inplace=True)
   

In [9]:
# Agregamos la columna plataforma
amazon['plataforma'] = 'amazon'
disney['plataforma'] = 'disney'
hulu['plataforma'] = 'hulu'
netflix['plataforma'] = 'netflix'

In [10]:
# Chequeamos si hay filas duplicadas
for p in plataformas:
    dup = p.duplicated().sum()
    print(f'La plataforma {p.plataforma[0]} tiene {dup} duplicados')

La plataforma amazon tiene 0 duplicados
La plataforma disney tiene 0 duplicados
La plataforma hulu tiene 0 duplicados
La plataforma netflix tiene 0 duplicados


In [11]:
amazon.sample(15)

Unnamed: 0_level_0,type,title,cast,release_year,duration,listed_in,plataforma
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
a2609,TV Show,Dream Change Laundromat,"Jei (Fiestar), Kang-hee, Yoon Ji-min, Yeo Wook...",2017,1 Season,"Drama, Fantasy",amazon
a5772,Movie,The Perfect Game,"Clifton Collins Jr., Cheech Marin, Moises Aria...",2011,117 min,Drama,amazon
a8128,Movie,Iruvar Ullam,"Vinay Rai, Payal Rajput",2021,120 min,Romance,amazon
a8889,Movie,Touch of Pink,"Jimi Mistry, Kyle MacLachlan, Suleka Mathew",2004,90 min,"Comedy, Drama",amazon
a9639,Movie,Oven,Lauren Ojeda,2019,2 min,Drama,amazon
a3214,Movie,Arpo the Robot for All Kids - Kung Fu Time & M...,,2020,21 min,"Animation, Kids",amazon
a5724,Movie,Devil's Island,"Elle Alexander, Cliff Yates, Kristjan Sokoli, ...",2021,72 min,"Horror, Suspense",amazon
a5697,Movie,Wheels on the Bus & More Kids Songs - CoComelon,,2018,51 min,Kids,amazon
a3563,Movie,100-Minutes of Symphony on Washington's Lake C...,Kimiko Ishizaka,2019,109 min,"Arts, Entertainment, and Culture, Music Videos...",amazon
a7106,Movie,Mosakutty,"Veera, Mahima Nambiar, Joe Malloori, M. S. Bha...",2014,109 min,Romance,amazon


### Exploración de datos en columnas
Ahora haremos un barrido de cada columna para determinar si encontramos datos extraños, o faltantes que deberían tenerse en cuenta.

El siguiente código busca valores únicos en las columnas especificadas. No tenemos todas en cuenta ya que sabemos que las que excluímos tienen demasiados datos únicos y sería irrelevante hacer este proceso. La idea es ver si hay algún dato extraño.
``` python
for p in plataformas:
    column = ['type', 'release_year', 'duration']
    for c in column:
        un = p[c].unique()
        un.sort()
        print(f'La plataforma {p.plataforma[0]} en la columna {c} tiene los siguientes datos únicos: \n {un}')
```

In [12]:
# Código comentado para que no ensucie visualmente el notebook
'''
for p in plataformas:
    column = ['type', 'release_year', 'duration']
    for c in column:
        un = p[c].unique()
        un.sort()
        print(f'La plataforma {p.plataforma[0]} en la columna {c} tiene los siguientes datos únicos: \n {un}')
'''

"\nfor p in plataformas:\n    column = ['type', 'release_year', 'duration']\n    for c in column:\n        un = p[c].unique()\n        un.sort()\n        print(f'La plataforma {p.plataforma[0]} en la columna {c} tiene los siguientes datos únicos: \n {un}')\n"

Para las columnas 'type' y 'release_year' parece no haber nada que tocar. 

Por otro lado, encontramos que la columna 'duration' tiene valores nulos en los df de hulu y netflix. 

También que para el caso de los 'TV Show', la duración de una temporada aparece como '1 Season', mientras que para más temporadas es "Seasons". Debemos normalizar para no tener problemas luego con las querys.

Adicionalmente, nos va a resultar conveniente separar los valores 'int' de los valores 'str' en 'duration'.

In [13]:
# Separamos valores 'int' de valores 'str' en dos columnas, y eliminamos la original
for p in plataformas:
    spt = p['duration'].str.split(' ', n=1, expand=True)
    p['duration_len'] = spt[0]
    p['duration_type'] = spt[1]
    p.drop(columns=['duration'], inplace=True)

In [14]:
# Reemplazamos 'Seasons' por 'Season'
for p in plataformas:
    p['duration_type'] = p['duration_type'].str.replace('Seasons', 'season')

Chequeamos si los nulos corresponden a 'Movie' o 'TV Show', ya que dependiendo de esto se le puede dar diferente tratamiento

In [15]:
# Le damos una mirada a nuestros valores nulos filtrados por type
movie_nulls = hulu[(hulu['type'] == 'Movie') & hulu['duration_len'].isnull()]
#tvshow_nulls = hulu[(hulu['type'] == 'TV Show') & hulu['duration_len'].isnull()]
#movie_nulls = netflix[(netflix['type'] == 'Movie') & netflix['duration_len'].isnull()]
#tvshow_nulls = netflix[(netflix['type'] == 'TV Show') & netflix['duration_len'].isnull()]

movie_nulls
#tvshow_nulls

Unnamed: 0_level_0,type,title,cast,release_year,listed_in,plataforma,duration_len,duration_type
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
h1,Movie,Ricky Velez: Here's Everything,,2021,"Comedy, Stand Up",hulu,,
h13,Movie,Out of the Shadows: The Man Behind the Steele ...,,2021,News,hulu,,
h16,Movie,Showtime Championship Boxing: Lopez vs. Salido...,,2011,Sports,hulu,,
h38,Movie,BELLATOR MMA: Kongo vs. Johnson 2,,2020,Sports,hulu,,
h41,Movie,In the Crease,,2020,Sports,hulu,,
...,...,...,...,...,...,...,...,...
h2952,Movie,All Saints (1998),,1998,"Drama, International",hulu,,
h2956,Movie,Getting On,,2009,"Comedy, International, Sitcom",hulu,,
h2959,Movie,(Sub) Ninja Scroll,,1993,"Action, Adult Animation, Adventure",hulu,,
h2960,Movie,Packed to the Rafters,,2008,"Comedy, Drama, International",hulu,,


Antes de darle un valor a los registros nulos, veremos si faltan datos en otras columnas. De esta forma ahorramos código posteriormente.

In [16]:
# Chequeamos por valores faltantes
for p in plataformas:
    column = ['type', 'title', 'cast', 'release_year', 'listed_in', 'duration_len', 'duration_type']
    for c in column:
        un = p[c].isnull().sum()
        print(f'La plataforma {p.plataforma[0]} en la columna {c} tiene {un} datos faltantes')

La plataforma amazon en la columna type tiene 0 datos faltantes
La plataforma amazon en la columna title tiene 0 datos faltantes
La plataforma amazon en la columna cast tiene 1233 datos faltantes
La plataforma amazon en la columna release_year tiene 0 datos faltantes
La plataforma amazon en la columna listed_in tiene 0 datos faltantes
La plataforma amazon en la columna duration_len tiene 0 datos faltantes
La plataforma amazon en la columna duration_type tiene 0 datos faltantes
La plataforma disney en la columna type tiene 0 datos faltantes
La plataforma disney en la columna title tiene 0 datos faltantes
La plataforma disney en la columna cast tiene 190 datos faltantes
La plataforma disney en la columna release_year tiene 0 datos faltantes
La plataforma disney en la columna listed_in tiene 0 datos faltantes
La plataforma disney en la columna duration_len tiene 0 datos faltantes
La plataforma disney en la columna duration_type tiene 0 datos faltantes
La plataforma hulu en la columna type

Ahora debemos darle tratamiento a todos los registros faltantes:
        * Para las columnas de 'duration_len' y 'duration_type': Como todos los valores nulos corresponden a 'Movie', le damos el valor de 0 (cero) a 'duration_len'. Se le asigna cero para que todos los valores de la columna sean númericos. Y le damos el valor de 'min' a 'duration_type'.
        * Para la columna cast, que tiene faltantes en todos los df, le asignamos el valor 'sin datos'.

In [17]:
# Llenamos los vacíos
for p in plataformas:
    p['duration_len'] = p['duration_len'].fillna(0).astype('int64')
    p['duration_type'] = p['duration_type'].fillna('min')
    p['cast'] = p['cast'].fillna('sin datos')

Concatenación de Dataframes y exportación en csv

In [18]:
# Concatenamos los 4 dataframes
plataforma_db = pd.concat(plataformas)

In [19]:
# Chequeamos cómo quedó el df final
plataforma_db.sample(20)

Unnamed: 0_level_0,type,title,cast,release_year,listed_in,plataforma,duration_len,duration_type
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
n3764,Movie,Elisa & Marcela,"Natalia de Molina, Greta Fernández, Sara Casas...",2019,"Dramas, International Movies, LGBTQ Movies",netflix,119,min
a9514,Movie,A Stormy Night,"Jacob Perkins, David Moragas, Jordan Geiger, M...",2020,"Drama, LGBTQ",amazon,77,min
a7426,Movie,Accident Man,"Bryan Brown, Matthias Hues, Amanda Pays, Art M...",2018,"Action, Suspense",amazon,106,min
n346,Movie,Open Season: Scared Silly,"William Townsend, Donny Lucas, Melissa Sturm, ...",2015,"Children & Family Movies, Comedies",netflix,85,min
d1059,TV Show,Marvel's Guardians of the Galaxy (Series),"Will Friedle, Trevor Devall, Kevin Richardson,...",2015,"Action-Adventure, Animation, Kids",disney,3,season
a4071,Movie,Fun Animal Songs for Kids by HooplaKidz,"Annie, Ben, Mango",2017,"Animation, Kids",amazon,35,min
n6750,Movie,Figures of Speech,Chris Pine,2016,Documentaries,netflix,92,min
n593,Movie,She's Out of My League,"Jay Baruchel, Alice Eve, T.J. Miller, Mike Vog...",2010,"Comedies, Romantic Movies",netflix,106,min
n791,Movie,Dream/Killer,"Bill Ferguson, Ryan Ferguson",2015,Documentaries,netflix,109,min
n5401,Movie,Professor,"Shammi Kapoor, Kalpana, Lalita Pawar, Parveen ...",1962,"Comedies, Dramas, International Movies",netflix,163,min


In [20]:
# Exportamos a un archivo csv
plataforma_db.to_csv(r'./Datasets/plataforma_db.csv')

# Consultas
A continuación definiremos las funciones para realizar las posteriores consultas a la API

In [64]:
# Máxima duración según tipo de film (película/serie), por plataforma y por año: El request debe ser: get_max_duration(año, plataforma, [min o season])
def get_max_duration(anio, plataforma, duracion):
    plataforma = plataforma.lower().strip()
    duracion = duracion.lower().strip()
    db = pd.read_csv(r'./Datasets/plataforma_db.csv')
    query_1 = db[(db['plataforma'] == plataforma) & (db['release_year'] == anio) & (db['duration_type'] == duracion)]
    out = query_1.sort_values('duration_len', ascending=False, ignore_index=True)
    return (f'La producción "{out.title[0]}", con {out.duration_len[0]} {duracion}, fue la de mayor duración en la plataforma {plataforma}')

In [65]:
get_max_duration(2018,'hulu','min')

'La producción "The House That Jack Built", con 151 min, fue la de mayor duración en la plataforma hulu'

In [66]:
# Cantidad de películas y series (separado) por plataforma El request debe ser: get_count_plataform(plataforma)
def get_count_plataform(plataforma):
    plataforma = plataforma.lower().strip()
    db = pd.read_csv(r'./Datasets/plataforma_db.csv')
    query_2 = db[db['plataforma'] == plataforma]
    cant = query_2['type'].value_counts()
    return (f'En la plataforma {plataforma} hay un total de {cant[0]} películas y de {cant[1]} series')

In [67]:
get_count_plataform('netflix')

'En la plataforma netflix hay un total de 6131 películas y de 2676 series'

In [110]:
# Cantidad de veces que se repite un género y plataforma con mayor frecuencia del mismo. El request debe ser: get_listedin('genero')
# Como ejemplo de género pueden usar 'comedy', el cuál deberia devolverles un cunt de 2099 para la plataforma de amazon.
def get_listedin(genero):
    genero = genero.lower().strip()
    db = pd.read_csv(r'./Datasets/plataforma_db.csv')
    query_3 = db[db['listed_in'].str.contains(genero, case=False)]
    query_3 = query_3.groupby(['plataforma'])['plataforma'].count().sort_values(ascending=False)
    query_3 = query_3.to_dict()

    return (f'El genero "{genero}" se repite {list(query_3.values())[0]} veces para la plataforma {list(query_3)[0]}')
    

In [115]:
get_listedin('comedy')

'El genero "comedy" se repite 2099 veces para la plataforma amazon'

In [208]:
def get_actor(plataforma, anio):
    plataforma = plataforma.lower().strip()
    db = pd.read_csv(r'./Datasets/plataforma_db.csv')
    db.drop(db[db['cast'] == 'sin datos'].index, inplace = True)
    query_4 = db.query(f'plataforma == "{plataforma}" & release_year == {anio}')
    cant = query_4['cast'].str.get_dummies(sep=', ').sum()
    cant = cant.sort_values(ascending=False).to_dict()
    
    return (f'El actor "{list(cant)[0]}" se repite {list(cant.values())[0]} veces para la plataforma {plataforma} en el año {anio}')

In [209]:
get_actor('netflix', 2018)

'El actor "Andrea Libman" se repite 8 veces para la plataforma netflix en el año 2018'