# API programación y pruebas de funciones

### Librerias a trabajar 

In [8]:
import pandas as pd

In [59]:
# Se ingresa un idioma (como están escritos en el dataset, no hay que traducirlos!). Debe devolver la cantidad de películas producidas en ese idioma.
# Ejemplo de retorno: X cantidad de películas fueron estrenadas en idioma
def peliculas_idioma(idioma: str):
    # Validar si el parámetro es de tipo string
    if not isinstance(idioma, str):
        return "El parámetro 'idioma' debe ser un string."

    # Leer el archivo CSV
    df = pd.read_csv('3_datasets_api/spoken_data.csv')
    
    # Filtrar las películas que coincidan con el idioma
    peliculas_filtradas = df[df['iso_639_1'].str.lower() == idioma.lower()]
    
    # Obtener la cantidad de películas para ese idioma
    cantidad_peliculas = peliculas_filtradas['id_movie'].nunique()
    
    return  f"{cantidad_peliculas} numero de películas que fueron estrenadas en idioma: {idioma}"
 

In [60]:
print(peliculas_idioma('eS'))
print(peliculas_idioma('Es'))
print(peliculas_idioma('ES'))
print(peliculas_idioma('es'))
print(peliculas_idioma('eN'))
print(peliculas_idioma('En'))
print(peliculas_idioma('EN'))
print(peliculas_idioma('en'))
print(peliculas_idioma('x'))
print(peliculas_idioma(0))

2413 numero de películas que fueron estrenadas en idioma: eS
2413 numero de películas que fueron estrenadas en idioma: Es
2413 numero de películas que fueron estrenadas en idioma: ES
2413 numero de películas que fueron estrenadas en idioma: es
28729 numero de películas que fueron estrenadas en idioma: eN
28729 numero de películas que fueron estrenadas en idioma: En
28729 numero de películas que fueron estrenadas en idioma: EN
28729 numero de películas que fueron estrenadas en idioma: en
0 numero de películas que fueron estrenadas en idioma: x
El parámetro 'idioma' debe ser un string.


In [13]:
# Creo um nuevo dataframe solo con las columnas a trabajar en la función    
df = pd.read_csv('2_datasets_etl/movies_dataset_cleaned.csv')
df_peliculas_duracion = df [['id','title','runtime','release_year']]
df_peliculas_duracion.to_csv("3_datasets_api/peliculas_duracion.csv", index=False)

In [14]:
# Se ingresa una pelicula. Debe devolver la duracion y el año.
# Ejemplo de retorno: X . Duración: x. Año: xx
def peliculas_duracion(pelicula: str):
    # Validar si el parámetro es de tipo string
    if not isinstance(pelicula, str):
        return "El parámetro 'pelicula' debe ser un string."

    # Leer el archivo CSV que contiene la información de las películas
    df = pd.read_csv('3_datasets_api/peliculas_duracion.csv')

    # Buscar la película específica por su título en la columna 'title'
    pelicula_encontrada = df[df['title'].str.lower() == pelicula.lower()]

    if len(pelicula_encontrada) == 0:
        return f"No se encontró la película: {pelicula}"

    # Obtener la duración y el año de la película
    duracion = pelicula_encontrada['runtime'].iloc[0]
    año = pelicula_encontrada['release_year'].iloc[0]

    return f"{pelicula}. Duración: {duracion} minutos. Año: {año}"



In [15]:
# Ejemplo de uso:
print(peliculas_duracion('Avatar'))
print(peliculas_duracion('AVATAR'))
print(peliculas_duracion('HAVATAR'))
print(peliculas_duracion('X'))
print(peliculas_duracion(0))

Avatar. Duración: 162.0 minutos. Año: 2009
AVATAR. Duración: 162.0 minutos. Año: 2009
No se encontró la película: HAVATAR
X. Duración: 90.0 minutos. Año: 2010
El parámetro 'pelicula' debe ser un string.


In [17]:
movies_df = pd.read_csv('2_datasets_etl/movies_dataset_cleaned.csv')
collection_df = pd.read_csv('2_datasets_etl/collection_data.csv')

# Realizar el JOIN utilizando las columnas 'Id' de collection_df y 'id_movie' de movies_df
franquicia_df=pd.merge(movies_df, collection_df, left_on='id', right_on='id_movie', how='inner')
franquicia_df =  franquicia_df[['id','title','revenue','name_collection']]
franquicia_df.to_csv("3_datasets_api/franquicia.csv", index=False)


In [22]:
# def franquicia( Franquicia: str ): 
# Se ingresa la franquicia, retornando la cantidad de peliculas, ganancia total y promedio
# Ejemplo de retorno: La franquicia X posee X peliculas, una ganancia total de x y una ganancia promedio de xx

def franquicia(Franquicia: str) -> str:
    # Validar si el parámetro es de tipo string
    if not isinstance(Franquicia, str):
        return "El parámetro 'franquicia' debe ser un string."

    # Leer los archivos CSV en DataFrames
    franquicia_df= pd.read_csv('3_datasets_api/franquicia.csv')
    
    # Filtrar las películas de la franquicia
    franquicia_df = franquicia_df[franquicia_df['name_collection'].str.lower() == Franquicia.lower()]
    
    # Obtener la cantidad de películas
    cantidad_peliculas = franquicia_df.shape[0]
    
    # Obtener la ganancia total
    ganancia_total = franquicia_df['revenue'].sum()/1000000
    
    # Obtener la ganancia promedio
    ganancia_promedio = franquicia_df['revenue'].mean()/1000000
    
    # Formatear el resultado como un mensaje de retorno
    resultado = f"La franquicia {Franquicia} posee {cantidad_peliculas} películas, con una ganancia total de {ganancia_total:,.0f} millones y una ganancia promedio de {ganancia_promedio:,.0f} millones por cada una."
    
    return resultado


In [23]:
print(franquicia('Harry Potter Collection'))
print(franquicia('The Avengers Collection'))
print(franquicia('Toy Story Collection'))
print(franquicia('x'))
print(franquicia(0))


La franquicia Harry Potter Collection posee 8 películas, con una ganancia total de 7,707 millones y una ganancia promedio de 963 millones por cada una.
La franquicia The Avengers Collection posee 2 películas, con una ganancia total de 2,925 millones y una ganancia promedio de 1,462 millones por cada una.
La franquicia Toy Story Collection posee 3 películas, con una ganancia total de 1,938 millones y una ganancia promedio de 646 millones por cada una.
La franquicia x posee 0 películas, con una ganancia total de 0 millones y una ganancia promedio de nan millones por cada una.
El parámetro 'franquicia' debe ser un string.


In [30]:
# def peliculas_pais( Pais: str ): 
# Se ingresa un país (como están escritos en el dataset, no hay que traducirlos!), retornando la cantidad de peliculas producidas en el mismo.
# Ejemplo de retorno: Se produjeron X películas en el país X

def peliculas_pais(Pais: str) -> int:
    # Validar si el parámetro es de tipo string
    if not isinstance(Pais, str):
        return "El parámetro 'Pais' debe ser un string."

    # Leer el archivo CSV de películas y países
    countries_df = pd.read_csv('3_datasets_api/countries_data.csv')

    # Filtrar las películas que coincidan con el país ingresado
    peliculas_filtradas = countries_df[countries_df['iso_3166_1'].str.lower() == Pais.lower()]

    # Contar la cantidad de películas producidas en el país
    cantidad_peliculas = peliculas_filtradas.shape[0]
    if cantidad_peliculas>0 :
        pais_peliculas_filtradas = peliculas_filtradas.groupby('name_countries').first().index[0]
    else:
        pais_peliculas_filtradas = ''

    return f"Se produjeron {cantidad_peliculas} películas en el país {pais_peliculas_filtradas}"



In [31]:
# Ejemplo de uso
print(peliculas_pais('ES'))
print(peliculas_pais('US'))
print(peliculas_pais('ru'))
print(peliculas_pais('EN'))
print(peliculas_pais('XX'))
print(peliculas_pais(0))

Se produjeron 964 películas en el país Spain
Se produjeron 21155 películas en el país United States of America
Se produjeron 912 películas en el país Russia
Se produjeron 0 películas en el país 
Se produjeron 0 películas en el país 
El parámetro 'Pais' debe ser un string.


In [15]:
companies_df

Unnamed: 0,name,id,id_movie
0,Pixar Animation Studios,3,862
1,TriStar Pictures,559,8844
2,Teitler Film,2550,8844
3,Interscope Communications,10201,8844
4,Warner Bros.,6194,15602
...,...,...,...
70552,20th Century Fox Television,16323,30840
70553,CanWest Global Communications,38978,30840
70554,Sine Olivia,19653,111109
70555,American World Pictures,6165,67758


In [12]:
# Leer el archivo CSV de películas y productoras
movies_df = pd.read_csv('2_datasets_etl/movies_dataset_cleaned.csv')
companies_df = pd.read_csv('2_datasets_etl/companies_data.csv')

# Realizar el JOIN utilizando las columnas 'id_movie' de movies_df e 'id_movie' de companies_df
productoras_exitosas_df = pd.merge(movies_df, companies_df,  left_on='id', right_on='id_movie', how='inner')

# Solo usaremos las columnas necesarias para la función
productoras_exitosas_df =  productoras_exitosas_df[['id','title','revenue', 'id_movie', 'name_companies']]

# guardar CSV
productoras_exitosas_df.to_csv("3_datasets_api/productoras_exitosas.csv", index=False)

productoras_exitosas_df


FileNotFoundError: [Errno 2] No such file or directory: '2_datasets_etl/movies_dataset_cleaned.csv'

In [47]:
# def productoras_exitosas( Productora: str ): 
# Se ingresa la productora, entregandote el revunue total y la cantidad de peliculas que realizo.
# Ejemplo de retorno: La productora X ha tenido un revenue de x

def productoras_exitosas(Productora: str) -> str:
    # Validar si el parámetro es de tipo string
    if not isinstance(Productora, str):
        return "El parámetro 'Productora' debe ser un string."

    # Leer el archivo CSV de productora exitosa
    productoras_exitosas_df = pd.read_csv('3_datasets_api/productoras_exitosas.csv')

    # Filtrar las películas que coincidan con la productora ingresada
    productoras_exitosas_df = productoras_exitosas_df[productoras_exitosas_df['name_companies'].str.lower() == Productora.lower()]

    # Calcular el total de revenue y la cantidad de películas realizadas
    revenue_total = productoras_exitosas_df['revenue'].sum()/100000
    cantidad_peliculas = productoras_exitosas_df['id_movie'].nunique()

    return f"La productora {Productora} ha tenido un revenue total de {revenue_total:,.0f} millones y ha realizado {cantidad_peliculas} películas."



In [48]:
# Ejemplo de uso
print(productoras_exitosas('Warner Bros.'))	
print(productoras_exitosas('Pixar Animation Studios'))
print(productoras_exitosas('Universal Pictures'))
print(productoras_exitosas('x'))
print(productoras_exitosas(0))

La productora Warner Bros. ha tenido un revenue total de 635,252 millones y ha realizado 1250 películas.
La productora Pixar Animation Studios ha tenido un revenue total de 111,885 millones y ha realizado 52 películas.
La productora Universal Pictures ha tenido un revenue total de 552,592 millones y ha realizado 830 películas.
La productora x ha tenido un revenue total de 0 millones y ha realizado 0 películas.
El parámetro 'Productora' debe ser un string.


In [7]:
# Leer los archivos CSV con la información de películas y del equipo de producción
movies_df = pd.read_csv('2_datasets_etl/movies_dataset_cleaned.csv')
crew_df = pd.read_csv('2_datasets_etl/crew_data.csv')

# Realizar una unión (merge) entre los DataFrames usando la columna 'id_movie' como clave
director_movies_df = pd.merge(movies_df, crew_df,  left_on='id', right_on='id_movie', how='inner')
director_movies_df = director_movies_df[(director_movies_df['job'] == 'Director')]

# Solo usaremos las columnas necesarias para la función
director_movies_df =  director_movies_df[['id', 'title', 'revenue', 'budget', 'release_date', 'name_crew']]

# Guardar CSV
director_movies_df.to_csv("3_datasets_api/director_movies.csv", index=False)

director_movies_df.info()

FileNotFoundError: [Errno 2] No such file or directory: '2_datasets_etl/movies_dataset_cleaned.csv'

In [5]:
# def get_director( nombre_director ): 
# Se ingresa el nombre de un director que se encuentre dentro de un dataset debiendo devolver el éxito del mismo medido a través del retorno. 
# Además, deberá devolver el nombre de cada película con la fecha de lanzamiento, retorno individual, costo y ganancia de la misma, 
# en formato lista.

def get_director(nombre_director):
    # Validar si el parámetro es de tipo string
    if not isinstance(nombre_director, str):
        return "El parámetro 'nombre_director' debe ser un string."

    # Leer el archivo CSV de productora exitosa
    director_movies_df = pd.read_csv('3_datasets_api/director_movies.csv')

    # Filtrar las películas dirigidas por el director especificado
    director_movies_df = director_movies_df[(director_movies_df['name_crew'].str.lower() == nombre_director.lower())]

    if director_movies_df.empty:
        return "El director no se encuentra en el dataset o no ha dirigido películas."

    # Calcular el éxito del director (promedio de votos de sus películas)
    exito_director = director_movies_df['revenue'].sum()

    # Crear una lista para almacenar la información de cada película
    peliculas_info = []

    # Iterar sobre las filas del DataFrame para obtener la información requerida
    for index, row in director_movies_df.iterrows():
        pelicula_info = {
            'nombre': row['title'],
            'fecha_lanzamiento': row['release_date'],
            'retorno_individual': row['revenue'],
            'costo': row['budget'],
            'ganancia': row['revenue']-row['budget'] 
        }
        peliculas_info.append(pelicula_info)

    return exito_director, peliculas_info

In [6]:

# Ejemplo de uso de la función
nombre_director = 'Steven Spielberg'
exito_director, peliculas_info = get_director(nombre_director)

print(f"Éxito de {nombre_director}: {exito_director:,.0f} ")
print("Información de películas dirigidas:")
for pelicula in peliculas_info:
    print(f"Nombre: {pelicula['nombre']}, Fecha de lanzamiento: {pelicula['fecha_lanzamiento']}, Retorno individual: {pelicula['retorno_individual']:,.0f}, Costo: {pelicula['costo']:,.0f}, Ganancia: {pelicula['ganancia']:,.0f}")




Éxito de Steven Spielberg: 9,256,621,422 
Información de películas dirigidas:
Nombre: Jurassic Park, Fecha de lanzamiento: 1993-06-11, Retorno individual: 920,100,000, Costo: 63,000,000, Ganancia: 857,100,000
Nombre: Schindler's List, Fecha de lanzamiento: 1993-11-29, Retorno individual: 321,365,567, Costo: 22,000,000, Ganancia: 299,365,567
Nombre: E.T. the Extra-Terrestrial, Fecha de lanzamiento: 1982-04-03, Retorno individual: 792,965,326, Costo: 10,500,000, Ganancia: 782,465,326
Nombre: Raiders of the Lost Ark, Fecha de lanzamiento: 1981-06-12, Retorno individual: 389,925,971, Costo: 18,000,000, Ganancia: 371,925,971
Nombre: Indiana Jones and the Last Crusade, Fecha de lanzamiento: 1989-05-24, Retorno individual: 474,171,806, Costo: 48,000,000, Ganancia: 426,171,806
Nombre: Jaws, Fecha de lanzamiento: 1975-06-18, Retorno individual: 470,654,000, Costo: 7,000,000, Ganancia: 463,654,000
Nombre: The Lost World: Jurassic Park, Fecha de lanzamiento: 1997-05-23, Retorno individual: 229,07

In [58]:
# Ejemplo de uso
nombre_director = 'Christopher Nolan'
exito_director, peliculas_info = get_director(nombre_director)

print(f"Éxito de {nombre_director}: {exito_director:,.0f} ")
print("Información de películas dirigidas:")
for pelicula in peliculas_info:
    print(f"Nombre: {pelicula['nombre']}, Fecha de lanzamiento: {pelicula['fecha_lanzamiento']}, Retorno individual: {pelicula['retorno_individual']:,.0f}, Costo: {pelicula['costo']:,.0f}, Ganancia: {pelicula['ganancia']:,.0f}")


Éxito de Christopher Nolan: 4,747,408,665 
Información de películas dirigidas:
Nombre: Following, Fecha de lanzamiento: 1998-09-12, Retorno individual: 48,482, Costo: 6,000, Ganancia: 42,482
Nombre: Memento, Fecha de lanzamiento: 2000-10-11, Retorno individual: 39,723,096, Costo: 9,000,000, Ganancia: 30,723,096
Nombre: Insomnia, Fecha de lanzamiento: 2002-05-24, Retorno individual: 113,714,830, Costo: 46,000,000, Ganancia: 67,714,830
Nombre: Batman Begins, Fecha de lanzamiento: 2005-06-10, Retorno individual: 374,218,673, Costo: 150,000,000, Ganancia: 224,218,673
Nombre: The Prestige, Fecha de lanzamiento: 2006-10-19, Retorno individual: 109,676,311, Costo: 40,000,000, Ganancia: 69,676,311
Nombre: The Dark Knight, Fecha de lanzamiento: 2008-07-16, Retorno individual: 1,004,558,444, Costo: 185,000,000, Ganancia: 819,558,444
Nombre: Inception, Fecha de lanzamiento: 2010-07-14, Retorno individual: 825,532,764, Costo: 160,000,000, Ganancia: 665,532,764
Nombre: The Dark Knight Rises, Fecha 