**Desarrollo de funciones para realizar las consultas.**

El cliente solicita que desde la API se puedan realizar cuatro consultas diferentes a nuestros datos. Las consultas son:
1. Película o serie con mayor duración según el año, la plataforma de streaming y su tipo de duración (min o seasons).
2. Cantidad de películas o series por plataforma con un puntaje mayor a X en un año determinado.
3. Cantidad de películas o series que se pueden encontrar según la plataforma.
4. Actor que más se repite en los elencos según la plataforma y el año de la producción cinematográfica.

En este apartado, se encontrarán las funciones que se realizaron para poder navegar dentro del DataFrame y obtener las respuestas a consultas que se mencionaron anteriormente.

In [2]:
# Antes de comenzar, importamos la librería a utilizar, llamada Pandas.
import pandas as pd

In [3]:
# Primero importamos el archivo para que podamos realizar las consultas necesarias.
plataformas_df = pd.read_csv(r'D:\1 EMPRESA 2\2-MARKeTING\DATA SCIENCE\1-clases\1_Labs\PI_ML_OPS-main\MLops_Streaming\datasets\streaming.csv')

In [4]:
prodpercounty = plataformas_df

In [5]:
type(prodpercounty)

pandas.core.frame.DataFrame

Se valida que se hayan cargado los datos correctamente.

In [6]:
plataformas_df.head(3)

Unnamed: 0,id,type,title,director,cast,country,date_added,release_year,rating,duration_int,duration_type,listed_in,description,userId,score,timestamp,mean_score
0,as1,movie,the grand seduction,don mckellar,"brendan gleeson, taylor kitsch, gordon pinsent",canada,2021-03-30,2014,g,113,min,"comedy, drama",a small fishing village must procure a local d...,543,5.0,1059596582,3.467131
1,as2,movie,take care good night,girish joshi,"mahesh manjrekar, abhay mahajan, sachin khedekar",india,2021-03-30,2018,13+,110,min,"drama, international",a metro family decides to fight a cyber crimin...,321,3.0,1181451581,3.548682
2,as3,movie,secrets of deception,josh webber,"tom sizemore, lorenzo lamas, robert lasardo, r...",united states,2021-03-30,2017,g,74,min,"action, drama, suspense",after a man discovers his wife is cheating on ...,582,5.0,1316843370,3.5


----------

Consulta N°1: Película o serie con mayor duración según el año, la plataforma de streaming y su tipo de duración (min o seasons).

In [7]:
'''
funcion que calcula mayor duracion segun el año
Args: 
campo numerico año, 
plataformas amazon, disney, hulu, netflix
duration_type min, seasons, 
Return:
string nombre de la pelicula con mayor duracion
'''
def get_max_duration(year, platform, duration_type):
    
    # Se realiza una copia de la base de datos para que, en el caso de que pase, no sufra modificaciones la base de datos original.
    getmaxduration = plataformas_df 
    
    # Se crean los filtros de  dependiendo la plataforma, el año y si es tipo 'min' o 'seasons'.
    if platform.lower() == 'amazon':
        if duration_type == 'min':
            getmaxduration = getmaxduration[(getmaxduration['type'] == 'movie') & (getmaxduration['release_year'] == year) & (getmaxduration['duration_type'] == duration_type) & (getmaxduration['id'].apply(lambda x: 'a' in x))]
        elif duration_type == 'seasons':
            getmaxduration = getmaxduration[(getmaxduration['type'] == 'tv show') & (getmaxduration['release_year'] == year) & (getmaxduration['duration_type'] == duration_type) & (getmaxduration['id'].apply(lambda x: 'a' in x))]
    
    elif platform.lower() == 'disney':
        if duration_type == 'min':
            getmaxduration = getmaxduration[(getmaxduration['type'] == 'movie') & (getmaxduration['release_year'] == year) & (getmaxduration['duration_type'] == duration_type) & (getmaxduration['id'].apply(lambda x: 'd' in x))]
        elif duration_type == 'seasons':
            getmaxduration = getmaxduration[(getmaxduration['type'] == 'tv show') & (getmaxduration['release_year'] == year) & (getmaxduration['duration_type'] == duration_type) & (getmaxduration['id'].apply(lambda x: 'd' in x))]
    
    elif platform.lower() == 'hulu':
        if duration_type == 'min':
            getmaxduration = getmaxduration[(getmaxduration['type'] == 'movie') & (getmaxduration['release_year'] == year) & (getmaxduration['duration_type'] == duration_type) & (getmaxduration['id'].apply(lambda x: 'h' in x))]
        elif duration_type == 'seasons':
            getmaxduration = getmaxduration[(getmaxduration['type'] == 'tv show') & (getmaxduration['release_year'] == year) & (getmaxduration['duration_type'] == duration_type) & (getmaxduration['id'].apply(lambda x: 'h' in x))] 
    
    elif platform.lower() == 'netflix':
        if duration_type == 'min':
            getmaxduration = getmaxduration[(getmaxduration['type'] == 'movie') & (getmaxduration['release_year'] == year) & (getmaxduration['duration_type'] == duration_type) & (getmaxduration['id'].apply(lambda x: 'n' in x))]
        elif duration_type == 'seasons':
            getmaxduration = getmaxduration[(getmaxduration['type'] == 'tv show') & (getmaxduration['release_year'] == year) & (getmaxduration['duration_type'] == duration_type) & (getmaxduration['id'].apply(lambda x: 'n' in x))]   
    
    # Retorno si se ingresa un valor plataforma diferente a verificar
    else: 
        print('No se encuentra la plataforma , por favor ingrese: amazon, disney, Hulu y Netflix')
        return None
    
    # Se crea el filtro para que se obtenga la fila de la película o serie que tiene más duración.
    gmd_p_copia = getmaxduration[getmaxduration['duration_int'] == (getmaxduration['duration_int'].max())]
    
    # Por último, imprime un mensaje donde contiene los resultados de la consulta.
    return f'En la plataforma {platform}, la pelicula con mayor duración del año {year} , con formato tiempo {duration_type} es: {gmd_p_copia.iloc[0,2]}'

Se verifica que la función devuelva la consulta correctamente. A modo de ejemplo, se utilizarán los valores: 2018, 'Hulu', 'min'.

In [8]:
get_max_duration(2018,'hulu','seasons')

'En la plataforma hulu, la pelicula con mayor duración del año 2018 , con formato tiempo seasons es: when sharks attack'

Consulta N°2: Cantidad de películas o series por plataforma con un puntaje mayor a X en un año determinado.

In [9]:
'''
se ingresa a la funcion como entrada 
plataformas amazon, disney, hulu, netflix
campo float scored, 
campo año, 
salida peliculas que tuvieron un mayor valor al scored ingreso en parametro
'''
def get_score_count(platform, scored, year):
   
    getscorec= plataformas_df
    
    # se filtra score mayor a ingresado por parametro
    getscorec = getscorec[(getscorec['mean_score'] >= scored) & (getscorec['release_year'] == year)]
    
     # se aplico filtro plataforma parametros 
     # apply () aplica función lambda a lo largo de un eje del DataFrame.
    if platform.lower() == 'amazon':
        getscorec = getscorec[getscorec['id'].apply(lambda x: 'a' in x)]

    elif platform.lower() == 'disney':
        getscorec = getscorec[getscorec['id'].apply(lambda x: 'd' in x)]
    
    elif platform.lower() == 'hulu':
        getscorec = getscorec[getscorec['id'].apply(lambda x: 'h' in x)]

    elif platform.lower() == 'netflix':
        getscorec = getscorec[getscorec['id'].apply(lambda x: 'n' in x)]

    # Retorno si se ingresa un valor plataforma diferente a verificar
    else:
        print('No se encuentra la plataforma , por favor ingrese: amazon, disney, Hulu y Netflix')
        return None
    
    # Por último, imprime un mensaje donde contiene los resultados de la consulta.
    return f'Las peliculas de {platform} con puntaje mayor o igual a {scored} del año {year} son: {getscorec.shape[0]}'



Se verifica que la función devuelva la consulta correctamente. A modo de ejemplo, se utilizarán los valores: 'Netflix', 3 , 2016.

In [10]:
get_score_count('amazon',3.3,2018)

'Las peliculas de amazon con puntaje mayor o igual a 3.3 del año 2018 son: 623'

Consulta N°3: Cantidad de películas o series que se pueden encontrar según la plataforma.

In [11]:
'''
se ingresa a la funcion como entrada 
plataformas amazon,disney, hulu, netflix
campo float scored, 
campo año, 
salida peliculas que tuvieron un mayor valor al scored ingreso en parametro
'''

def get_count_platform(platform):
    
    getcplataform = plataformas_df
    
    # se aplico filtro plataforma parametros 
     # apply () aplica función lambda a lo largo de un eje del DataFrame.
    if platform.lower() == 'amazon':
        getcplataform= getcplataform[getcplataform['id'].apply(lambda x: 'a' in x)]

    elif platform.lower() == 'disney':
        getcplataformc = getcplataform[getcplataform['id'].apply(lambda x: 'd' in x)]
    
    elif platform.lower() == 'hulu':
        getcplataformc = getcplataform[getcplataform['id'].apply(lambda x: 'h' in x)]

    elif platform.lower() == 'netflix':
        getcplataformc = getcplataform[getcplataform['id'].apply(lambda x: 'n' in x)]
    
    # Retorno si se ingresa un valor plataforma diferente a verificar
    else:
        print('No se encuentra la plataforma , por favor ingrese: Amazon, Disney, Hulu y Netflix')
        return None
    
    # Devuelve cantidad peliculas
    return f'En la plataforma {platform} existen {getcplataformc.shape[0]} peliculas'
    


Se verifica que la función devuelva la consulta correctamente. A modo de ejemplo, se utilizarán los valores: 'Disney Plus'.

In [12]:
get_count_platform('Disney')


'En la plataforma Disney existen 1450 peliculas'

Consulta N°4: Actor que más se repite según la plataforma y el año de la producción cinematográfica.

In [13]:
'''
se ingresa a la funcion como entrada 
plataformas amazon,disney, hulu, netflix
campo año, 
salida actor/actriz que mas se repite en la plataforma ingresada en parametro
'''

def get_actor(platform, year):
    ga_p = plataformas_df
    
    #se aplica filtro y valores columna cast se realiza value_counts() que devuelve una serie que contiene recuentos de valores únicos.
    if platform.lower() == 'amazon':
        ga_pc= ga_p[(ga_p['release_year'] == year) & (ga_p['id'].apply(lambda x: 'a' in x))]
        ga_pca= ga_pc['cast'].value_counts().idxmax()

    elif platform.lower() == 'disney':
        ga_pc = ga_p[(ga_p['release_year'] == year) & (ga_p['id'].apply(lambda x: 'd' in x))]
        ga_pca= ga_pc['cast'].value_counts().idxmax()
    
    elif platform.lower() == 'hulu':
        ga_pc = ga_p[(ga_p['release_year'] == year) & (ga_p['id'].apply(lambda x: 'h' in x))]
        ga_pca= ga_pc['cast'].value_counts().idxmax()

    elif platform.lower() == 'netflix':
        ga_pc = ga_p[(ga_p['release_year'] == year) & (ga_p['id'].apply(lambda x: 'n' in x))]
        ga_pca= ga_pc['cast'].value_counts().idxmax()
    
    # Retorno si se ingresa un valor plataforma diferente a verificar
    else:
        print('No se encuentra la plataforma , por favor ingrese: Amazon, Disney, Hulu y Netflix')
        return None
    
    # Por último, imprime un mensaje donde contiene los resultados de la consulta.
    return f' El actor/actriz que más se repite en la plataforma {platform} durante el año {year} es: {ga_pca}' 

Se verifica que la función devuelva la consulta correctamente. A modo de ejemplo, se utilizarán los valores: 'Amazon Prime', 2019.

In [14]:
get_actor('Amazon', 2017)

' El actor/actriz que más se repite en la plataforma Amazon durante el año 2017 es: maggie binkley'

Consulta 5 - La cantidad de contenidos/productos (todo lo disponible en streaming) que se publicó por país y año.

In [15]:
'''
esta funcion debe filtrar por tipo, pais y año de un dataframe 
devolviendo la cantidad de peliculas del tipo ingresado en el parametro

argumentos 
tipo, pais, año
return 
cantidad peliculas, año, pais
'''

#entrada
def prod_per_county(tipo, pais, anio):
    # Filtro para seleccionar solo las películas del año y país especificados
    filtro = (plataformas_df['release_year'] == anio) & (plataformas_df['country'] == pais)
    df_filtrado = plataformas_df[filtro]
    
    # Contar la cantidad de películas del tipo especificado
    cantidad_tipo_pelicula = len(df_filtrado[df_filtrado['type'] == tipo])
    
    # Salida
    return {'la cantidad de peliculas del pais': pais, 'en el año': anio, 'son': cantidad_tipo_pelicula}


In [16]:
#entrada
def prod_per_county(tipo, pais, anio):
    # Seleccionar solo las columnas necesarias para la función
    df = plataformas_df[['type', 'country', 'release_year']]
    
    # Aplicar la función lambda para filtrar por tipo, país y año
    df_filtrado = df[df.apply(lambda x: (x['type'] == tipo) and (x['country'] == pais) and (x['release_year'] == anio), axis=1)]
    
    # Contar la cantidad de películas del tipo especificado
    cantidad_tipo_pelicula = len(df_filtrado)
    
    # Salida
    return {'la cantidad de peliculas del pais': pais, 'en el año': anio, 'son': cantidad_tipo_pelicula}


prod_per_county('movie', 'Canada', 2014)


{'la cantidad de peliculas del pais': 'Canada', 'en el año': 2014, 'son': 0}

In [17]:
prod_per_county('movie', 'Canada', 2014)

{'la cantidad de peliculas del pais': 'Canada', 'en el año': 2014, 'son': 0}

consulta 6 , La cantidad total de contenidos/productos (todo lo disponible en streaming, series, documentales, peliculas, etc) según el rating de audiencia dado

In [18]:

def get_contents(rating):
    # Cargar los datos desde el archivo CSV
    # Filtrar los contenidos por rating de audiencia
    df_filtered = plataformas_df.loc[plataformas_df['rating'] == rating]

    # Devolver el número total de contenidos con el rating de audiencia dado
    return len(df_filtered)


In [19]:
get_contents('tv-ma')

3675