# Juan Valentín Fogliatti - Proyecto Individual Nro1 - DS-05
### Importación de librerías a utilizar

In [2]:
# Importamos pandas para manipular el dataset
import pandas as pd

# Importamos Path para trabajar con las rutas de los archivos
from pathlib import Path


### Ingesta de los Datasets
Vemos que tenemos archivos en formato csv y json. Definimos una función para realizar la ingesta de ambos 

In [3]:
# Ingestamos los archivos
def import_files(path):
    with open(path, 'rb'):
        if Path(path).suffix == ".csv": 
            data = pd.read_csv(path)
        elif Path(path).suffix == ".json": 
            data = pd.read_json(path, precise_float=True)
        
    return data 

Importamos los datasets utilizando la función anterior

In [4]:
amazon = import_files(f'./Datasets/amazon_prime_titles.csv')
disney = import_files(f'./Datasets/disney_plus_titles.csv')
hulu = import_files(f'./Datasets/hulu_titles.csv')
netflix = import_files(f'./Datasets/netflix_titles.json')

### Análisis Exploratorio de Datos (EDA)
Comenzamos a hacer un análisis de los dataframes creados. A cada uno le vamos a dar una mirada general para descubrir sus estructuras, tipos de datos, cantidad de registros, etc. Es el primer acercamiento con los datos que hasta el momento desconocemos.

In [5]:
# Visualizamos el dataframe usando '.sample()' para poder ver una muestra aleatoria de los items, 
# y de esta forma tener una primera idea de cómo está conformada cada tabla. Lo hacemos para los 4 dataframes.

#amazon.sample(n=20)
#disney.sample(n=20)
#hulu.sample(n=20)
netflix.sample(15)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
5871,s5872,TV Show,Chelsea Does,,Chelsea Handler,United States,"January 23, 2016",2016,TV-MA,1 Season,"Docuseries, Science & Nature TV","In a provocative documentary series, comedian ..."
3167,s3168,Movie,Celebrity Marriage,Pascal Amanfo,"Kanayo O. Kanayo, Tonto Dikeh, Jackie Appiah, ...",,"December 6, 2019",2017,TV-14,107 min,"Dramas, International Movies",A successful actress with an abusive husband c...
5128,s5129,TV Show,Dawai Asmara,,"Hanna Aqiela, Tengku Putri Najuwa, Emelie Hani...",,"December 11, 2017",2016,TV-14,1 Season,"International TV Shows, TV Dramas","Following life-changing traumas, two girls fro..."
327,s328,Movie,Beowulf,Robert Zemeckis,"Ray Winstone, Anthony Hopkins, John Malkovich,...","United States, United Kingdom","August 1, 2021",2007,PG-13,114 min,"Action & Adventure, Sci-Fi & Fantasy",This deftly animated take on a legendary Old E...
4398,s4399,Movie,Loudon Wainwright III: Surviving Twin,Christopher Guest,Loudon Wainwright III,,"November 13, 2018",2018,TV-14,92 min,Music & Musicals,Grammy-winning singer Loudon Wainwright III re...
3580,s3581,Movie,Invader Zim: Enter the Florpus,,"Richard Steven Horvitz, Rikki Simons, Andy Ber...","South Korea, United States","August 16, 2019",2019,TV-Y7,72 min,"Children & Family Movies, Comedies, Sci-Fi & F...",When Zim reappears to begin the next phase of ...
3582,s3583,Movie,Selfless,Tarsem Singh,"Ryan Reynolds, Natalie Martinez, Matthew Goode...",United States,"August 16, 2019",2015,PG-13,117 min,"Sci-Fi & Fantasy, Thrillers",A dying tycoon has his consciousness transplan...
5835,s5836,Movie,Jim Jefferies: Freedumb,Ryan Polito,Jim Jefferies,United States,"July 1, 2016",2016,TV-MA,87 min,Stand-Up Comedy,"Returning for a second Netflix comedy special,..."
1173,s1174,TV Show,Men on a Mission,Jung-ah Im,"Ho-dong Kang, Soo-geun Lee, Sang-min Lee, Youn...",South Korea,"March 23, 2021",2021,TV-14,6 Seasons,"International TV Shows, Korean TV Shows, Stand...",Male celebs play make-believe as high schooler...
8743,s8744,Movie,Wildlife,Paul Dano,"Carey Mulligan, Ed Oxenbould, Bill Camp, Jake ...",United States,"September 1, 2020",2018,PG-13,105 min,"Dramas, Independent Movies",A teen’s life in 1960 Montana grows complicate...


In [6]:
# Vemos la información de todas las columnas, también para los 4 dataframes

#amazon.info()
#disney.info()
#hulu.info()
netflix.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


Eliminaremos las columnas que, teniendo en cuenta las consignas planteadas, no nos serán de utilidad. Lo hacemos solo a efectos de tener una mejor visual de las tablas y de no ocupar recursos innecesarios, pero dajarlas tampoco implicaría un problema.

In [7]:
# Primero agregamos cada plataforma a una lista
plataformas = [amazon, disney, hulu, netflix]

In [8]:
# Eliminamos las columnas indeseadas
for p in plataformas:
    p.drop(columns=['director','country','date_added','rating','description'], inplace=True)

Modificamos la columna show_id y agregamos una columna con el nombre de la plataforma

In [9]:
# Reemplazamos los caracteres de la columna 'show_id' por otro más representativo a la plataforma en cuestión.
# Seteamos esta misma columna como index.
ind = ['a', 'd', 'h', 'n']
for p, i in zip(plataformas, ind):
    p['show_id'] = p['show_id'].str.replace('[a-zA-Z]', i, regex=True)
    p.set_index('show_id', inplace=True)
   

In [10]:
# Agregamos la columna plataforma
amazon['plataforma'] = 'amazon'
disney['plataforma'] = 'disney'
hulu['plataforma'] = 'hulu'
netflix['plataforma'] = 'netflix'

In [11]:
# Chequeamos si hay filas duplicadas
for p in plataformas:
    dup = p.duplicated().sum()
    print(f'La plataforma {p.plataforma[0]} tiene {dup} duplicados')

La plataforma amazon tiene 0 duplicados
La plataforma disney tiene 0 duplicados
La plataforma hulu tiene 0 duplicados
La plataforma netflix tiene 0 duplicados


In [12]:
amazon.sample(15)

Unnamed: 0_level_0,type,title,cast,release_year,duration,listed_in,plataforma
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
a9565,Movie,A-Team: Life After Film School with Joe Carnahan,,2010,10 min,"Action, Adventure, Comedy",amazon
a8451,Movie,After Miss Julie,"Geraldine Somerville, Phil Daniels, Kathy Burke",1995,78 min,"Arts, Entertainment, and Culture, Drama, Young...",amazon
a882,Movie,Storytime with Mila and Morphle,Sabrina Glow,2019,38 min,"Animation, Kids",amazon
a5162,Movie,I Am Not Madame Bovary,"Fan Bingbing, Chengpeng Dong",2016,139 min,"Comedy, Drama",amazon
a6454,Movie,Painter,"Betsy Randle, Eric Ladin, Casey Deidrick",2020,100 min,"Drama, Suspense",amazon
a8516,Movie,Gang Warz,"Derek Barbosa, Coolio, Reni Santoni",2004,97 min,Drama,amazon
a7437,Movie,Thagaraaru,"Arulnithi, Poorna, Jayaprakash, Pawan",2013,128 min,"Action, Drama, Suspense",amazon
a2770,TV Show,Craig Ferguson Presents: Hobo Fabulous,"Craig Ferguson, Joe Bolter, Tomas Zakopal, Ron...",2019,1 Season,TV Shows,amazon
a6101,Movie,Awake,"Hayden Christensen, Jessica Alba, Terrence Howard",2007,84 min,"Drama, Suspense",amazon
a2530,TV Show,Expedition Overland,"Clay Croft, Rachelle Croft, Jeff Downer, Kurt ...",2018,3 Seasons,"Adventure, Documentary, Special Interest",amazon


### Exploración de datos en columnas
Ahora haremos un barrido de cada columna para determinar si encontramos datos extraños, o faltantes que deberían tenerse en cuenta.

El siguiente código busca valores únicos en las columnas especificadas. No tenemos todas en cuenta ya que sabemos que las que excluímos tienen demasiados datos únicos y sería irrelevante hacer este proceso. La idea es ver si hay algún dato extraño.
``` python
for p in plataformas:
    column = ['type', 'release_year', 'duration']
    for c in column:
        un = p[c].unique()
        un.sort()
        print(f'La plataforma {p.plataforma[0]} en la columna {c} tiene los siguientes datos únicos: \n {un}')
```

In [13]:
# Código comentado para que no ensucie visualmente el notebook
'''
for p in plataformas:
    column = ['type', 'release_year', 'duration']
    for c in column:
        un = p[c].unique()
        un.sort()
        print(f'La plataforma {p.plataforma[0]} en la columna {c} tiene los siguientes datos únicos: \n {un}')
'''

"\nfor p in plataformas:\n    column = ['type', 'release_year', 'duration']\n    for c in column:\n        un = p[c].unique()\n        un.sort()\n        print(f'La plataforma {p.plataforma[0]} en la columna {c} tiene los siguientes datos únicos: \n {un}')\n"

Para las columnas 'type' y 'release_year' parece no haber nada que tocar. 

Por otro lado, encontramos que la columna 'duration' tiene valores nulos en los df de hulu y netflix. 

También que para el caso de los 'TV Show', la duración de una temporada aparece como '1 Season', mientras que para más temporadas es "Seasons". Debemos normalizar para no tener problemas luego con las querys.

Adicionalmente, nos va a resultar conveniente separar los valores 'int' de los valores 'str' en 'duration'.

In [14]:
# Separamos valores 'int' de valores 'str' en dos columnas, y eliminamos la original
for p in plataformas:
    spt = p['duration'].str.split(' ', n=1, expand=True)
    p['duration_len'] = spt[0]
    p['duration_type'] = spt[1]
    p.drop(columns=['duration'], inplace=True)

In [15]:
# Reemplazamos 'Seasons' por 'Season'
for p in plataformas:
    p['duration_type'] = p['duration_type'].str.replace('Seasons', 'season')

Chequeamos si los nulos corresponden a 'Movie' o 'TV Show', ya que dependiendo de esto se le puede dar diferente tratamiento

In [16]:
# Le damos una mirada a nuestros valores nulos filtrados por type
movie_nulls = hulu[(hulu['type'] == 'Movie') & hulu['duration_len'].isnull()]
#tvshow_nulls = hulu[(hulu['type'] == 'TV Show') & hulu['duration_len'].isnull()]
#movie_nulls = netflix[(netflix['type'] == 'Movie') & netflix['duration_len'].isnull()]
#tvshow_nulls = netflix[(netflix['type'] == 'TV Show') & netflix['duration_len'].isnull()]

movie_nulls
#tvshow_nulls

Unnamed: 0_level_0,type,title,cast,release_year,listed_in,plataforma,duration_len,duration_type
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
h1,Movie,Ricky Velez: Here's Everything,,2021,"Comedy, Stand Up",hulu,,
h13,Movie,Out of the Shadows: The Man Behind the Steele ...,,2021,News,hulu,,
h16,Movie,Showtime Championship Boxing: Lopez vs. Salido...,,2011,Sports,hulu,,
h38,Movie,BELLATOR MMA: Kongo vs. Johnson 2,,2020,Sports,hulu,,
h41,Movie,In the Crease,,2020,Sports,hulu,,
...,...,...,...,...,...,...,...,...
h2952,Movie,All Saints (1998),,1998,"Drama, International",hulu,,
h2956,Movie,Getting On,,2009,"Comedy, International, Sitcom",hulu,,
h2959,Movie,(Sub) Ninja Scroll,,1993,"Action, Adult Animation, Adventure",hulu,,
h2960,Movie,Packed to the Rafters,,2008,"Comedy, Drama, International",hulu,,


Antes de darle un valor a los registros nulos, veremos si faltan datos en otras columnas. De esta forma ahorramos código posteriormente.

In [17]:
# Chequeamos por valores faltantes
for p in plataformas:
    column = ['type', 'title', 'cast', 'release_year', 'listed_in', 'duration_len', 'duration_type']
    for c in column:
        un = p[c].isnull().sum()
        print(f'La plataforma {p.plataforma[0]} en la columna {c} tiene {un} datos faltantes')

La plataforma amazon en la columna type tiene 0 datos faltantes
La plataforma amazon en la columna title tiene 0 datos faltantes
La plataforma amazon en la columna cast tiene 1233 datos faltantes
La plataforma amazon en la columna release_year tiene 0 datos faltantes
La plataforma amazon en la columna listed_in tiene 0 datos faltantes
La plataforma amazon en la columna duration_len tiene 0 datos faltantes
La plataforma amazon en la columna duration_type tiene 0 datos faltantes
La plataforma disney en la columna type tiene 0 datos faltantes
La plataforma disney en la columna title tiene 0 datos faltantes
La plataforma disney en la columna cast tiene 190 datos faltantes
La plataforma disney en la columna release_year tiene 0 datos faltantes
La plataforma disney en la columna listed_in tiene 0 datos faltantes
La plataforma disney en la columna duration_len tiene 0 datos faltantes
La plataforma disney en la columna duration_type tiene 0 datos faltantes
La plataforma hulu en la columna type

Ahora debemos darle tratamiento a todos los registros faltantes:
        * Para las columnas de 'duration_len' y 'duration_type': Como todos los valores nulos corresponden a 'Movie', le damos el valor de 0 (cero) a 'duration_len'. Se le asigna cero para que todos los valores de la columna sean númericos. Y le damos el valor de 'min' a 'duration_type'.
        * Para la columna cast, que tiene faltantes en todos los df, le asignamos el valor 'sin datos'.

In [18]:
# Llenamos los vacíos
for p in plataformas:
    p['duration_len'] = p['duration_len'].fillna(0).astype('int64')
    p['duration_type'] = p['duration_type'].fillna('min')
    p['cast'] = p['cast'].fillna('sin datos')

Concatenación de Dataframes y exportación en csv

In [19]:
# Concatenamos los 4 dataframes
plataforma_db = pd.concat(plataformas)

In [20]:
# Chequeamos cómo quedó el df final
plataforma_db.sample(20)

Unnamed: 0_level_0,type,title,cast,release_year,listed_in,plataforma,duration_len,duration_type
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
n5503,Movie,In the Shadow of Iris,"Romain Duris, Charlotte Le Bon, Jalil Lespert,...",2016,"Dramas, International Movies, Thrillers",netflix,99,min
a2727,Movie,Dangerous Obsession,"Janet Williams, Jay Deep, Simeon Henderson, Ja...",2014,Suspense,amazon,78,min
a5375,Movie,Gang,"Cha Ji-hyuk, Jo Sun-ki, Ock Yun-jung",2020,"Action, Comedy",amazon,94,min
n7287,Movie,Legion,"Paul Bettany, Lucas Black, Tyrese Gibson, Adri...",2010,"Action & Adventure, Horror Movies, Sci-Fi & Fa...",netflix,100,min
n3093,TV Show,Kevin Hart: Don’t F**k This Up,sin datos,2019,Docuseries,netflix,1,Season
a4718,TV Show,Roger,sin datos,2018,"Animation, Kids",amazon,1,Season
n809,Movie,Sniper: Legacy,"Tom Berenger, Chad Michael Collins, Doug Allen...",2014,Action & Adventure,netflix,98,min
a8198,Movie,Mr. Church,"Eddie Murphy, Britt Robertson, Natascha McElho...",2016,"Comedy, Drama",amazon,105,min
n4984,Movie,Jag älskar dig: En skilsmässokomedi,"Björn Kjellman, Christine Meltzer, Rodolfo Cor...",2016,"Comedies, Dramas, International Movies",netflix,91,min
a8092,Movie,Santa Who?,"Leslie Nielsen, Robyn Lively, Steven Eckholdt,...",2000,Comedy,amazon,92,min


In [21]:
# Exportamos a un archivo csv
plataforma_db.to_csv(r'./Datasets/plataforma_db.csv')

# Consultas
A continuación definiremos las funciones para realizar las posteriores consultas a la API

In [23]:
# Máxima duración según tipo de film (película/serie), por plataforma y por año: El request debe ser: get_max_duration(año, plataforma, [min o season])
def get_max_duration(anio, plataforma, duracion):
    plataforma = plataforma.lower().strip()
    duracion = duracion.lower().strip()
    db = pd.read_csv(r'./Datasets/plataforma_db.csv')
    query_1 = db[(db['plataforma'] == plataforma) & (db['release_year'] == anio) & (db['duration_type'] == duracion)]
    out = query_1.sort_values('duration_len', ascending=False, ignore_index=True)
    return (f'La producción "{out.title[0]}", con {out.duration_len[0]} {duracion}, fue la de mayor duración en la plataforma {plataforma}')

In [24]:
get_max_duration(2018,'hulu','min')

'La producción "The House That Jack Built", con 151 min, fue la de mayor duración en la plataforma hulu'

In [25]:
# Cantidad de películas y series (separado) por plataforma El request debe ser: get_count_plataform(plataforma)
def get_count_plataform(plataforma):
    plataforma = plataforma.lower().strip()
    db = pd.read_csv(r'./Datasets/plataforma_db.csv')
    query_2 = db[db['plataforma'] == plataforma]
    cant = query_2['type'].value_counts()
    return (f'En la plataforma {plataforma} hay un total de {cant[0]} películas y de {cant[1]} series')

In [26]:
get_count_plataform('netflix')

'En la plataforma netflix hay un total de 6131 películas y de 2676 series'

In [27]:
# Cantidad de veces que se repite un género y plataforma con mayor frecuencia del mismo. El request debe ser: get_listedin('genero')
# Como ejemplo de género pueden usar 'comedy', el cuál deberia devolverles un cunt de 2099 para la plataforma de amazon.
def get_listedin(genero):
    genero = genero.lower().strip()
    db = pd.read_csv(r'./Datasets/plataforma_db.csv')
    query_3 = db[db['listed_in'].str.contains(genero, case=False)]
    query_3 = query_3.groupby(['plataforma'])['plataforma'].count().sort_values(ascending=False)
    query_3 = query_3.to_dict()

    return (f'El genero "{genero}" se repite {list(query_3.values())[0]} veces para la plataforma {list(query_3)[0]}')
    

In [28]:
get_listedin('comedy')

'El genero "comedy" se repite 2099 veces para la plataforma amazon'

In [29]:
# Actor que más se repite según plataforma y año. El request debe ser: get_actor(plataforma, año)
def get_actor(plataforma, anio):
    plataforma = plataforma.lower().strip()
    db = pd.read_csv(r'./Datasets/plataforma_db.csv')
    db.drop(db[db['cast'] == 'sin datos'].index, inplace = True)
    query_4 = db.query(f'plataforma == "{plataforma}" & release_year == {anio}')
    cant = query_4['cast'].str.get_dummies(sep=', ').sum()
    cant = cant.sort_values(ascending=False).to_dict()
    
    return (f'El actor "{list(cant)[0]}" se repite {list(cant.values())[0]} veces para la plataforma {plataforma} en el año {anio}')

In [30]:
get_actor('netflix', 2018)

'El actor "Andrea Libman" se repite 8 veces para la plataforma netflix en el año 2018'