# **`Desarrollo API`**

Crearemos 6 funciones + el modelo de recomendación

+ Película (sólo película, no serie, ni documentales, etc) con mayor duración según año, plataforma y tipo de duración. La función debe llamarse get_max_duration(year, platform, duration_type) y debe devolver sólo el string del nombre de la película. -`OK`

+ Cantidad de películas (sólo películas, no series, ni documentales, etc) según plataforma, con un puntaje mayor a XX en determinado año. La función debe llamarse get_score_count(platform, scored, year) y debe devolver un int, con el total de películas que cumplen lo solicitado. -`OK`

+ Cantidad de películas (sólo películas, no series, ni documentales, etc) según plataforma. La función debe llamarse get_count_platform(platform) y debe devolver un int, con el número total de películas de esa plataforma. Las plataformas deben llamarse amazon, netflix, hulu, disney. -`OK`

+ Actor que más se repite según plataforma y año. La función debe llamarse get_actor(platform, year) y debe devolver sólo el string con el nombre del actor que más se repite según la plataforma y el año dado. -`OK`

+ La cantidad de contenidos/productos (todo lo disponible en streaming) que se publicó por país y año. La función debe llamarse prod_per_county(tipo,pais,anio) deberia devolver el tipo de contenido (pelicula,serie,documental) por pais y año en un diccionario con las variables llamadas 'pais' (nombre del pais), 'anio' (año), 'pelicula' (tipo de contenido). -`OK`

+ La cantidad total de contenidos/productos (todo lo disponible en streaming, series, documentales, peliculas, etc) según el rating de audiencia dado (para que publico fue clasificada la pelicula). La función debe llamarse get_contents(rating) y debe devolver el numero total de contenido con ese rating de audiencias. -`OK`

In [1]:
# Librerias a utilizar
import pandas as pd

In [2]:
# Importamos el data set "df_streaming"
df_streaming = pd.read_csv("Datasets/df_streaming.csv")

---

+ `Consulta 1`: Película (sólo película, no serie, ni documentales, etc) con mayor duración según año, plataforma y tipo de duración. La función debe llamarse get_max_duration(year, platform, duration_type) y debe devolver sólo el string del nombre de la película.

In [3]:
def get_max_duration(anio, plataforma, dtype):
    # Filtramos plataforma por letra del id, por ejemplo el id de disney es "dsXX"
    if plataforma == "amazon":
        df = df_streaming[df_streaming['id'].str.contains("a")]
    elif plataforma == "disney":
        df = df_streaming[df_streaming['id'].str.contains("d")]
    elif plataforma == "hulu":
        df = df_streaming[df_streaming['id'].str.contains("h")]
    elif plataforma == "netflix":
        df = df_streaming[df_streaming['id'].str.contains("n")]
    else:
        return print("error al introducir plataforma")
    
    # Filtramos el dataframe con los parametros solicitados
    df_filtrado = df.query("release_year == @anio & duration_type == @dtype")

    # Obtener el nombre de la película con mayor duración
    max_duration_movie = df_filtrado.loc[df_filtrado.duration_int.idxmax()]["title"]

    # Devolver el nombre de la película en un diccionario, como un string
    return {'pelicula': max_duration_movie}   

In [4]:
# Comprobamos la función
get_max_duration(2018,"amazon","min")

{'pelicula': 'soothing surf at del norte for sleep black screen'}

In [5]:
get_max_duration(2020,"netflix","min")

{'pelicula': 'unbreakable kimmy schmidt: kimmy vs. the reverend'}

---

+ `Consulta 2`: Cantidad de películas (sólo películas, no series, ni documentales, etc) según plataforma, con un puntaje mayor a XX en determinado año. La función debe llamarse get_score_count(platform, scored, year) y debe devolver un int, con el total de películas que cumplen lo solicitado.

In [6]:
def get_score_count(plataforma, scored, anio):
    # Filtramos plataforma por letra del id, por ejemplo el id de disney es "dsXX"
    if plataforma == "amazon":
        df = df_streaming[df_streaming['id'].str.contains("a")]
    elif plataforma == "disney":
        df = df_streaming[df_streaming['id'].str.contains("d")]
    elif plataforma == "hulu":
        df = df_streaming[df_streaming['id'].str.contains("h")]
    elif plataforma == "netflix":
        df = df_streaming[df_streaming['id'].str.contains("n")]
    else:
        return print("error al introducir plataforma")
    
    # Definimos que solo sea película
    type = "movie"

    # Filtramos
    df_filtrado = df.query("release_year == @anio & score > @scored  & type == @type")

    # Contamos la cantidad total de registros que cumplen estos parametros
    cantidad_total = len(df_filtrado)
    
    # Retornamos un diccionario con las respuestas
    return {
        'plataforma': plataforma,
        'cantidad': cantidad_total,
        'anio': anio,
        'score': scored
    }

In [7]:
# Comprobamos
get_score_count("disney",3,2020)

{'plataforma': 'disney', 'cantidad': 74, 'anio': 2020, 'score': 3}

---

+ `Consulta 3`: Cantidad de películas (sólo películas, no series, ni documentales, etc) según plataforma. La función debe llamarse get_count_platform(platform) y debe devolver un int, con el número total de películas de esa plataforma. Las plataformas deben llamarse amazon, netflix, hulu, disney.

In [8]:
def get_count_platform(plataforma) :
    # Filtramos plataforma por letra del id, por ejemplo el id de disney es "dsXX y agregamos variable con el nombre de la plataforma" 
    if plataforma == "amazon":
        df = df_streaming[df_streaming['id'].str.contains("a")]
    elif plataforma == "disney":
        df = df_streaming[df_streaming['id'].str.contains("d")]
    elif plataforma == "hulu":
        df = df_streaming[df_streaming['id'].str.contains("h")]
    elif plataforma == "netflix":
        df = df_streaming[df_streaming['id'].str.contains("n")]
    else:
        return print("error al introducir plataforma")
    
    # Filtramos
    df_filtrado = df.query("type == 'movie'")

    # Contamos cantidad de registros del df filtrado por plataforma
    cantidad_total = len(df_filtrado)

    # Retornamos un diccionario con el nombre de la plataforma y la cantidad de películas
    return {'plataforma': plataforma, 'peliculas': cantidad_total}

In [9]:
# Comprobamos
get_count_platform("amazon") 

{'plataforma': 'amazon', 'peliculas': 7814}

---

+ `Consulta 4` : Actor que más se repite según plataforma y año. La función debe llamarse get_actor(platform, year) y debe devolver sólo el string con el nombre del actor que más se repite según la plataforma y el año dado.

In [10]:
def get_actor(plataforma, anio):
    # Filtramos plataforma por letra del id, por ejemplo el id de disney es "dsXX"
    if plataforma == "amazon":
        df = df_streaming[df_streaming['id'].str.contains("a")]
    elif plataforma == "disney":
        df = df_streaming[df_streaming['id'].str.contains("d")]
    elif plataforma == "hulu":
        df = df_streaming[df_streaming['id'].str.contains("h")]
    elif plataforma == "netflix":
        df = df_streaming[df_streaming['id'].str.contains("n")]
    else:
        return print("error al introducir plataforma")
    
    # Filtramos
    df_filtrado = df.query("release_year == @anio")
    
    # Iteramos para saber que actor se repite mas y lo guardamos en un diccionario
    name_counts = {}
    for index, row in df_filtrado.iterrows():
        # Comprueba que sea de tipo de dato str
        if isinstance(row["cast"], str):
            # Separamos por la coma, ya que el "cast" cuenta con varios nombres separados por coma
            names = row["cast"].split(", ")
            for name in names:
                if name in name_counts:
                    name_counts[name] += 1
                else:
                    name_counts[name] = 1
    most_common_name = max(name_counts, key=name_counts.get)
    # Devuelve el actor que mas se repite en un diccionario
    return {
            'plataforma': plataforma,
            'anio': anio,
            'actor': most_common_name,
            'apariciones': name_counts[most_common_name]
        }



In [11]:
get_actor("disney", 2014)

{'plataforma': 'disney', 'anio': 2014, 'actor': 'tom kane', 'apariciones': 6}

---

+ `Consulta 5` : La cantidad de contenidos/productos (todo lo disponible en streaming) que se publicó por país y año. La función debe llamarse prod_per_county(tipo,pais,anio) deberia devolver el tipo de contenido (pelicula,serie,documental) por pais y año en un diccionario con las variables llamadas 'pais' (nombre del pais), 'anio' (año), 'pelicula' (tipo de contenido).

In [12]:
def prod_per_country(tipo, pais, anio):
    # Filtrar los datos para el país, año y tipo especificados
    df_filtrado = df_streaming.query(f"type == '{tipo}' & country == '{pais}' & release_year == {anio}")
    # Contar la cantidad de filas del contenido
    count = len(df_filtrado["id"])
    # Crear un diccionario con los resultados
    return {'pais': pais, 'anio': anio, 'peliculas': count}



In [13]:
prod_per_country("movie", "argentina", 2020)

{'pais': 'argentina', 'anio': 2020, 'peliculas': 7}

---

+ `Consulta 6` : La cantidad total de contenidos/productos (todo lo disponible en streaming, series, documentales, peliculas, etc) según el rating de audiencia dado (para que publico fue clasificada la pelicula). La función debe llamarse get_contents(rating) y debe devolver el numero total de contenido con ese rating de audiencias.

In [14]:
def get_contents(rating) :
    # Filtramos
    df_filtrado = df_streaming[df_streaming["rating"] == rating]
    # Contamos la cantidad de contenido
    count = len(df_filtrado["id"])
    # Mostramos resultado en un diccionario
    return {'rating': rating, 'contenido': count}

In [15]:
get_contents("13+")

{'rating': '13+', 'contenido': 2117}

---

+ `Modelo de recomendación` : Creamos el modelo de recomendación, que éste consiste en recomendar películas a los usuarios basándose en películas similares, se ordenarán según el score y devolverá una lista con 5 valores, cada uno siendo el string del nombre de las películas con mayor puntaje, en orden descendente.

In [16]:
df = pd.read_csv("df_modelo.csv")

In [17]:
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import StandardScaler

def get_recommendations_new(title, df=df, num_recommendations=5):
    features = df.drop(["title","description","id","duration_type"],axis=1).values
    scaler = StandardScaler()
    features = scaler.fit_transform(features)
    # Obtener las características de la película a recomendar
    df_filtrado = df[df['title'] == title]
    # Si la película no se encuentra en el conjunto de datos, se crea un vector de características
    caracteristicas = df_filtrado.drop(["title","description","id","duration_type"],axis=1).values
    
    features_filtrado = scaler.transform(caracteristicas)
    
    similarity_matrix_filtrado = cosine_similarity(features_filtrado, features)
    
    sim_scores = list(enumerate(similarity_matrix_filtrado[0]))

    # Ordenar las películas según su similitud
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Obtener los índices de las películas más similares
    movie_indices = [i[0] for i in sim_scores[1:num_recommendations+1]]

    peliculas = df[['title',"score"]].iloc[movie_indices].sort_values(by = "score",ascending=False)
    peliculas = list(peliculas["title"])
     # Devolver los títulos de las películas más similares
    return {'recomendacion': peliculas}

get_recommendations_new("toy story 2")

{'recomendacion': ['finding nemo',
  'the lion king 1 1/2',
  'tremors 3: back to perfection',
  'valiant',
  'hercules']}