# Funtions Testing for API:


**`Desarrollo API`**:   Propones disponibilizar los datos de la empresa usando el framework ***FastAPI***. Las consultas que propones son las siguientes:

Deben crear 6 funciones para los endpoints que se consumirán en la API, recuerden que deben tener un decorador por cada una (@app.get(‘/’)).
  
+ def **peliculas_idioma( *`Idioma`: str* )**:
    Se ingresa un idioma (como están escritos en el dataset, no hay que traducirlos!). Debe devolver la cantidad de películas producidas en ese idioma.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *`X` cantidad de películas fueron estrenadas en `idioma`*
         

+ def **peliculas_duracion( *`Pelicula`: str* )**:
    Se ingresa una pelicula. Debe devolver la duracion y el año.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *`X` . Duración: `x`. Año: `xx`*

+ def **franquicia( *`Franquicia`: str* )**:
    Se ingresa la franquicia, retornando la cantidad de peliculas, ganancia total y promedio
    
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *La franquicia `X` posee `X` peliculas, una ganancia total de `x` y una ganancia promedio de `xx`*

+ def **peliculas_pais( *`Pais`: str* )**:
    Se ingresa un país (como están escritos en el dataset, no hay que traducirlos!), retornando la cantidad de peliculas producidas en el mismo.
    
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *Se produjeron `X` películas en el país `X`*

+ def **productoras_exitosas( *`Productora`: str* )**:
    Se ingresa la productora, entregandote el revunue total y la cantidad de peliculas que realizo. 
    
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *La productora `X` ha tenido un revenue de `x`*

+ def **get_director( *`nombre_director`* )**:
    Se ingresa el nombre de un director que se encuentre dentro de un dataset debiendo devolver el éxito del mismo medido a través del retorno. Además, deberá devolver el nombre de cada película con la fecha de lanzamiento, retorno individual, costo y ganancia de la misma, en formato lista.



<br/>


> `Importante`<br>
El MVP _tiene_ que ser una API que pueda ser consumida segun los criterios de [API REST o RESTful](https://rockcontent.com/es/blog/api-rest/). Algunas herramientas como por ejemplo, Streamlit, si bien pueden brindar una interfaz de consulta, no cumplen con las condiciones para ser consideradas una API, sin workarounds.


**`Deployment`**: Conoces sobre [Render](https://render.com/docs/free#free-web-services) y tienes un [tutorial de Render](https://github.com/HX-FNegrete/render-fastapi-tutorial) que te hace la vida mas facil :smile: . Tambien podrias usar [Railway](https://railway.app/), o cualquier otro servicio que permita que la API pueda ser consumida desde la web.

<br/>

**`Análisis exploratorio de los datos`**: _(Exploratory Data Analysis-EDA)_

Ya los datos están limpios, ahora es tiempo de investigar las relaciones que hay entre las variables de los datasets, ver si hay outliers o anomalías (que no tienen que ser errores necesariamente :eyes: ), y ver si hay algún patrón interesante que valga la pena explorar en un análisis posterior. Las nubes de palabras dan una buena idea de cuáles palabras son más frecuentes en los títulos, ¡podría ayudar al sistema de recomendación! En esta ocasión vamos a pedirte que no uses librerías para hacer EDA automático ya que queremos que pongas en practica los conceptos y tareas involucrados en el mismo. Puedes leer un poco más sobre EDA en [este articulo](https://medium.com/swlh/introduction-to-exploratory-data-analysis-eda-d83424e47151)

**`Sistema de recomendación`**: 

Una vez que toda la data es consumible por la API, está lista para consumir por los departamentos de Analytics y Machine Learning, y nuestro EDA nos permite entender bien los datos a los que tenemos acceso, es hora de entrenar nuestro modelo de machine learning para armar un sistema de recomendación de películas. El EDA debería incluir gráficas interesantes para extraer datos, como por ejemplo una nube de palabras con las palabras más frecuentes en los títulos de las películas. Éste consiste en recomendar películas a los usuarios basándose en películas similares, por lo que se debe encontrar la similitud de puntuación entre esa película y el resto de películas, se ordenarán según el score de similaridad y devolverá una lista de Python con 5 valores, cada uno siendo el string del nombre de las películas con mayor puntaje, en orden descendente. Debe ser deployado como una función adicional de la API anterior y debe llamarse:


+ def **recomendacion( *`titulo`* )**:
    Se ingresa el nombre de una película y te recomienda las similares en una lista de 5 valores.

<br/>


## Import Libraries:

In [1]:
import pandas as pd

## Import Input Data:

### df_movies:

In [2]:
# Cargar el archivo pickle como DataFrame de pandas
df_movies = pd.read_pickle('../../Datasets Cleaned & light/df_movies.pkl')
df_movies.head(2)

Unnamed: 0,budget,id,original_language,overview,popularity,release_date,revenue,runtime,status,title,...,genre_ids,genre_names,production_companies_ids,production_companies_nombres,iso_codes,country_names,iso_language_codes,language_names,release_year,return
0,30000000,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,...,"[16, 35, 10751]","['Animation', 'Comedy', 'Family']",[3],['Pixar Animation Studios'],['US'],['United States of America'],['en'],['English'],1995,12.451801
1,30000000,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,...,"[16, 35, 10751]","['Animation', 'Comedy', 'Family']",[3],['Pixar Animation Studios'],['US'],['United States of America'],['en'],['English'],1995,12.451801


In [3]:
df_movies.shape

(163416, 23)

In [4]:
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 163416 entries, 0 to 163415
Data columns (total 23 columns):
 #   Column                        Non-Null Count   Dtype         
---  ------                        --------------   -----         
 0   budget                        163416 non-null  int32         
 1   id                            163416 non-null  int32         
 2   original_language             163416 non-null  object        
 3   overview                      163416 non-null  object        
 4   popularity                    163416 non-null  float64       
 5   release_date                  163110 non-null  datetime64[ns]
 6   revenue                       163416 non-null  int32         
 7   runtime                       163416 non-null  int32         
 8   status                        163416 non-null  object        
 9   title                         163416 non-null  object        
 10  vote_average                  163416 non-null  float64       
 11  vote_count   

### df_movies_directors:

In [5]:
# Cargar el archivo pickle como DataFrame de pandas
df_movies_directors = pd.read_pickle('../../Datasets Cleaned & light/df_movies_directors.pkl')
df_movies_directors.head(2)

Unnamed: 0,budget,movie_id,original_language,overview,popularity,release_date,revenue,runtime,status,title,...,production_companies_ids,production_companies_nombres,iso_codes,country_names,iso_language_codes,language_names,release_year,return,director_id,name
0,30000000,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,...,[3],['Pixar Animation Studios'],['US'],['United States of America'],['en'],['English'],1995,12.451801,7879,John Lasseter
3,65000000,8844,en,when siblings judy and peter discover an encha...,17.015539,1995-12-15,262797249,104,released,jumanji,...,"[559, 2550, 10201]","['TriStar Pictures', 'Teitler Film', 'Intersco...",['US'],['United States of America'],"['en', 'fr']","['English', 'Français']",1995,4.043035,4945,Joe Johnston


In [6]:
df_movies_directors.shape

(56889, 25)

In [7]:
df_movies_directors.info()

<class 'pandas.core.frame.DataFrame'>
Index: 56889 entries, 0 to 178848
Data columns (total 25 columns):
 #   Column                        Non-Null Count  Dtype         
---  ------                        --------------  -----         
 0   budget                        56889 non-null  int32         
 1   movie_id                      56889 non-null  int32         
 2   original_language             56889 non-null  object        
 3   overview                      56889 non-null  object        
 4   popularity                    56889 non-null  float64       
 5   release_date                  56889 non-null  datetime64[ns]
 6   revenue                       56889 non-null  int32         
 7   runtime                       56889 non-null  int32         
 8   status                        56889 non-null  object        
 9   title                         56889 non-null  object        
 10  vote_average                  56889 non-null  float64       
 11  vote_count                    56

### Complementari: iso_language_data
#### Fuente: https://datahub.io/core/language-codes

In [25]:

# URL del enlace de descarga del archivo CSV
url = "https://datahub.io/core/language-codes/r/language-codes.csv"

try:
    # Cargar el archivo CSV desde el enlace de descarga
    df = pd.read_csv(url)

    # Ahora tienes el contenido del archivo CSV en un DataFrame llamado 'df'
    # Puedes realizar operaciones o análisis con el DataFrame como desees.
    print(df.head())  # Imprimir las primeras filas del DataFrame

except Exception as e:
    print("Error al cargar el archivo CSV desde el enlace:", e)

  alpha2    English
0     aa       Afar
1     ab  Abkhazian
2     ae    Avestan
3     af  Afrikaans
4     ak       Akan


### + def **peliculas_idioma( *`Idioma`: str* )**:
    Se ingresa un idioma (como están escritos en el dataset, no hay que traducirlos!). Debe devolver la cantidad de películas producidas en ese idioma.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *`X` cantidad de películas fueron estrenadas en `idioma`*

In [8]:
df_movies.head(2)

Unnamed: 0,budget,id,original_language,overview,popularity,release_date,revenue,runtime,status,title,...,genre_ids,genre_names,production_companies_ids,production_companies_nombres,iso_codes,country_names,iso_language_codes,language_names,release_year,return
0,30000000,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,...,"[16, 35, 10751]","['Animation', 'Comedy', 'Family']",[3],['Pixar Animation Studios'],['US'],['United States of America'],['en'],['English'],1995,12.451801
1,30000000,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,...,"[16, 35, 10751]","['Animation', 'Comedy', 'Family']",[3],['Pixar Animation Studios'],['US'],['United States of America'],['en'],['English'],1995,12.451801


In [17]:
df_languages = df_movies.loc[:, ['iso_language_codes']]

In [18]:
df_languages.head(10)

Unnamed: 0,iso_language_codes
0,['en']
1,['en']
2,['en']
3,"['en', 'fr']"
4,['en']
5,['en']
6,['en']
7,['en']
8,['en']
9,['en']


In [19]:
df_languages.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 163416 entries, 0 to 163415
Data columns (total 1 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   iso_language_codes  163416 non-null  object
dtypes: object(1)
memory usage: 1.2+ MB


In [21]:
import pandas as pd

# Suponiendo que ya tienes el DataFrame df_movies con la columna 'iso_language_codes'

# Convertir los valores en la columna 'iso_language_codes' a listas
df_movies['iso_language_codes'] = df_movies['iso_language_codes'].apply(eval)

# Contar la cantidad de veces que aparece cada idioma
language_counts = df_movies['iso_language_codes'].explode().value_counts()

# Convertir el conteo en un nuevo DataFrame
df_language_counts = pd.DataFrame({'iso_language_code': language_counts.index, 'count': language_counts.values})

print(df_language_counts)



    iso_language_code   count
0                  en  105117
1                  fr   14634
2                  de    9693
3                  it    8667
4                  es    8487
..                ...     ...
128                ht       3
129                to       3
130                ty       3
131                kw       3
132                mh       3

[133 rows x 2 columns]


In [23]:
df_language_counts.tail(20)

Unnamed: 0,iso_language_code,count
113,uz,6
114,ig,3
115,tn,3
116,fo,3
117,ki,3
118,sn,3
119,ha,3
120,sm,3
121,bi,3
122,as,3


#### taria para completar com un listado de iso idiomas 