# Funtions Testing for API:


**`Desarrollo API`**:   Propones disponibilizar los datos de la empresa usando el framework ***FastAPI***. Las consultas que propones son las siguientes:

Deben crear 6 funciones para los endpoints que se consumirán en la API, recuerden que deben tener un decorador por cada una (@app.get(‘/’)).
  
+ def **peliculas_idioma( *`Idioma`: str* )**:
    Se ingresa un idioma (como están escritos en el dataset, no hay que traducirlos!). Debe devolver la cantidad de películas producidas en ese idioma.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *`X` cantidad de películas fueron estrenadas en `idioma`*
         

+ def **peliculas_duracion( *`Pelicula`: str* )**:
    Se ingresa una pelicula. Debe devolver la duracion y el año.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *`X` . Duración: `x`. Año: `xx`*

+ def **franquicia( *`Franquicia`: str* )**:
    Se ingresa la franquicia, retornando la cantidad de peliculas, ganancia total y promedio
    
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *La franquicia `X` posee `X` peliculas, una ganancia total de `x` y una ganancia promedio de `xx`*

+ def **peliculas_pais( *`Pais`: str* )**:
    Se ingresa un país (como están escritos en el dataset, no hay que traducirlos!), retornando la cantidad de peliculas producidas en el mismo.
    
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *Se produjeron `X` películas en el país `X`*

+ def **productoras_exitosas( *`Productora`: str* )**:
    Se ingresa la productora, entregandote el revunue total y la cantidad de peliculas que realizo. 
    
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *La productora `X` ha tenido un revenue de `x`*

+ def **get_director( *`nombre_director`* )**:
    Se ingresa el nombre de un director que se encuentre dentro de un dataset debiendo devolver el éxito del mismo medido a través del retorno. Además, deberá devolver el nombre de cada película con la fecha de lanzamiento, retorno individual, costo y ganancia de la misma, en formato lista.



<br/>


> `Importante`<br>
El MVP _tiene_ que ser una API que pueda ser consumida segun los criterios de [API REST o RESTful](https://rockcontent.com/es/blog/api-rest/). Algunas herramientas como por ejemplo, Streamlit, si bien pueden brindar una interfaz de consulta, no cumplen con las condiciones para ser consideradas una API, sin workarounds.


**`Deployment`**: Conoces sobre [Render](https://render.com/docs/free#free-web-services) y tienes un [tutorial de Render](https://github.com/HX-FNegrete/render-fastapi-tutorial) que te hace la vida mas facil :smile: . Tambien podrias usar [Railway](https://railway.app/), o cualquier otro servicio que permita que la API pueda ser consumida desde la web.

<br/>

**`Análisis exploratorio de los datos`**: _(Exploratory Data Analysis-EDA)_

Ya los datos están limpios, ahora es tiempo de investigar las relaciones que hay entre las variables de los datasets, ver si hay outliers o anomalías (que no tienen que ser errores necesariamente :eyes: ), y ver si hay algún patrón interesante que valga la pena explorar en un análisis posterior. Las nubes de palabras dan una buena idea de cuáles palabras son más frecuentes en los títulos, ¡podría ayudar al sistema de recomendación! En esta ocasión vamos a pedirte que no uses librerías para hacer EDA automático ya que queremos que pongas en practica los conceptos y tareas involucrados en el mismo. Puedes leer un poco más sobre EDA en [este articulo](https://medium.com/swlh/introduction-to-exploratory-data-analysis-eda-d83424e47151)

**`Sistema de recomendación`**: 

Una vez que toda la data es consumible por la API, está lista para consumir por los departamentos de Analytics y Machine Learning, y nuestro EDA nos permite entender bien los datos a los que tenemos acceso, es hora de entrenar nuestro modelo de machine learning para armar un sistema de recomendación de películas. El EDA debería incluir gráficas interesantes para extraer datos, como por ejemplo una nube de palabras con las palabras más frecuentes en los títulos de las películas. Éste consiste en recomendar películas a los usuarios basándose en películas similares, por lo que se debe encontrar la similitud de puntuación entre esa película y el resto de películas, se ordenarán según el score de similaridad y devolverá una lista de Python con 5 valores, cada uno siendo el string del nombre de las películas con mayor puntaje, en orden descendente. Debe ser deployado como una función adicional de la API anterior y debe llamarse:


+ def **recomendacion( *`titulo`* )**:
    Se ingresa el nombre de una película y te recomienda las similares en una lista de 5 valores.

<br/>


## Import Libraries:

In [1]:
import pandas as pd
import pickle

## Import Input Data:

### df_movies:

In [2]:
# Cargar el archivo pickle como DataFrame de pandas
df_movies = pd.read_pickle('../../Datasets Cleaned & light/df_movies.pkl')
df_movies.head(2)

Unnamed: 0,budget,id,original_language,overview,popularity,release_date,revenue,runtime,status,title,...,genre_names,production_companies_ids,production_companies_nombres,iso_codes,country_names,iso_language_codes,language_names,release_year,return,collection_name
0,30000000.0,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,...,"['animation', 'comedy', 'family']",[3],['pixar animation studios'],['us'],['united states of america'],['en'],['english'],1995,12.451801,toy story collection
1,65000000.0,8844,en,when siblings judy and peter discover an encha...,17.015539,1995-12-15,262797249,104,released,jumanji,...,"['adventure', 'fantasy', 'family']","[559, 2550, 10201]","['tristar pictures', 'teitler film', 'intersco...",['us'],['united states of america'],"['en', 'fr']","['english', 'français']",1995,4.043035,not part of a collection


In [3]:
df_movies.shape

(136398, 23)

In [4]:
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136398 entries, 0 to 136397
Data columns (total 23 columns):
 #   Column                        Non-Null Count   Dtype         
---  ------                        --------------   -----         
 0   budget                        136389 non-null  float64       
 1   id                            136398 non-null  int64         
 2   original_language             136398 non-null  object        
 3   overview                      136398 non-null  object        
 4   popularity                    136398 non-null  float64       
 5   release_date                  136128 non-null  datetime64[ns]
 6   revenue                       136398 non-null  int64         
 7   runtime                       136398 non-null  int64         
 8   status                        136398 non-null  object        
 9   title                         136398 non-null  object        
 10  vote_average                  136398 non-null  float64       
 11  vote_count   

### df_movies_directors:

In [5]:
# Cargar el archivo pickle como DataFrame de pandas
df_movies_directors = pd.read_pickle('../../Datasets Cleaned & light/df_movies_directors.pkl')
df_movies_directors.head(2)

Unnamed: 0,budget,movie_id,original_language,overview,popularity,release_date,revenue,runtime,status,title,...,production_companies_nombres,iso_codes,country_names,iso_language_codes,language_names,release_year,return,collection_name,director_id,name
0,30000000.0,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,...,['pixar animation studios'],['us'],['united states of america'],['en'],['english'],1995,12.451801,toy story collection,7879,John Lasseter
1,65000000.0,8844,en,when siblings judy and peter discover an encha...,17.015539,1995-12-15,262797249,104,released,jumanji,...,"['tristar pictures', 'teitler film', 'intersco...",['us'],['united states of america'],"['en', 'fr']","['english', 'français']",1995,4.043035,not part of a collection,4945,Joe Johnston


In [6]:
df_movies_directors.shape

(56806, 25)

In [7]:
df_movies_directors.info()

<class 'pandas.core.frame.DataFrame'>
Index: 56806 entries, 0 to 149129
Data columns (total 25 columns):
 #   Column                        Non-Null Count  Dtype         
---  ------                        --------------  -----         
 0   budget                        56806 non-null  float64       
 1   movie_id                      56806 non-null  int64         
 2   original_language             56806 non-null  object        
 3   overview                      56806 non-null  object        
 4   popularity                    56806 non-null  float64       
 5   release_date                  56806 non-null  datetime64[ns]
 6   revenue                       56806 non-null  int64         
 7   runtime                       56806 non-null  int64         
 8   status                        56806 non-null  object        
 9   title                         56806 non-null  object        
 10  vote_average                  56806 non-null  float64       
 11  vote_count                    56

### Dataset complementario: iso_language_data
#### Fuente: https://datahub.io/core/language-codes

In [8]:

# URL del enlace de descarga del archivo CSV
url = "https://datahub.io/core/language-codes/r/language-codes.csv"

try:
    # Cargar el archivo CSV desde el enlace de descarga
    iso_language_data = pd.read_csv(url)

    # Ahora tienes el contenido del archivo CSV en un DataFrame llamado 'df'
    # Puedes realizar operaciones o análisis con el DataFrame como desees.
    print(iso_language_data.head())  # Imprimir las primeras filas del DataFrame

except Exception as e:
    print("Error al cargar el archivo CSV desde el enlace:", e)

  alpha2    English
0     aa       Afar
1     ab  Abkhazian
2     ae    Avestan
3     af  Afrikaans
4     ak       Akan


In [9]:
iso_language_data.rename(columns={'alpha2': 'iso_language_code', 'English': 'language_name'}, inplace=True)

In [10]:
iso_language_data

Unnamed: 0,iso_language_code,language_name
0,aa,Afar
1,ab,Abkhazian
2,ae,Avestan
3,af,Afrikaans
4,ak,Akan
...,...,...
179,yi,Yiddish
180,yo,Yoruba
181,za,Zhuang; Chuang
182,zh,Chinese


### + def **peliculas_idioma( *`Idioma`: str* )**:
    Se ingresa un idioma (como están escritos en el dataset, no hay que traducirlos!). Debe devolver la cantidad de películas producidas en ese idioma.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *`X` cantidad de películas fueron estrenadas en `idioma`*

#### Algunos procedimientos antes de ETL para dejar listo dataframe para consultas de la F1

In [11]:
df_movies.head(2)

Unnamed: 0,budget,id,original_language,overview,popularity,release_date,revenue,runtime,status,title,...,genre_names,production_companies_ids,production_companies_nombres,iso_codes,country_names,iso_language_codes,language_names,release_year,return,collection_name
0,30000000.0,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,...,"['animation', 'comedy', 'family']",[3],['pixar animation studios'],['us'],['united states of america'],['en'],['english'],1995,12.451801,toy story collection
1,65000000.0,8844,en,when siblings judy and peter discover an encha...,17.015539,1995-12-15,262797249,104,released,jumanji,...,"['adventure', 'fantasy', 'family']","[559, 2550, 10201]","['tristar pictures', 'teitler film', 'intersco...",['us'],['united states of america'],"['en', 'fr']","['english', 'français']",1995,4.043035,not part of a collection


In [12]:
df_languages = df_movies.loc[:, ['iso_language_codes']]

In [13]:
df_languages.head(10)

Unnamed: 0,iso_language_codes
0,['en']
1,"['en', 'fr']"
2,['en']
3,['en']
4,['en']
5,"['en', 'es']"
6,"['fr', 'en']"
7,"['en', 'de']"
8,['en']
9,"['en', 'ru', 'es']"


In [14]:
df_languages.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136398 entries, 0 to 136397
Data columns (total 1 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   iso_language_codes  136398 non-null  object
dtypes: object(1)
memory usage: 1.0+ MB


In [15]:
import pandas as pd

# Suponiendo que ya tienes el DataFrame df_movies con la columna 'iso_language_codes'

# Convertir los valores en la columna 'iso_language_codes' a listas
df_movies['iso_language_codes'] = df_movies['iso_language_codes'].apply(eval)

# Contar la cantidad de veces que aparece cada idioma
language_counts = df_movies['iso_language_codes'].explode().value_counts()

# Convertir el conteo en un nuevo DataFrame
df_language_counts = pd.DataFrame({'iso_language_code': language_counts.index, 'count': language_counts.values})

print(df_language_counts)



    iso_language_code  count
0                  en  86235
1                  fr  12588
2                  de   7875
3                  es   7239
4                  it   7101
..                ...    ...
128                ht      3
129                to      3
130                ty      3
131                kw      3
132                mh      3

[133 rows x 2 columns]


In [16]:
df_language_counts

Unnamed: 0,iso_language_code,count
0,en,86235
1,fr,12588
2,de,7875
3,es,7239
4,it,7101
...,...,...
128,ht,3
129,to,3
130,ty,3
131,kw,3


#### Merge dataset complementario so idiomas 

In [17]:
df_f1_lang_movie_count = pd.merge(df_language_counts, iso_language_data , on='iso_language_code', how='left')

In [18]:
df_f1_lang_movie_count

Unnamed: 0,iso_language_code,count,language_name
0,en,86235,English
1,fr,12588,French
2,de,7875,German
3,es,7239,Spanish; Castilian
4,it,7101,Italian
...,...,...,...
128,ht,3,Haitian; Haitian Creole
129,to,3,Tonga (Tonga Islands)
130,ty,3,Tahitian
131,kw,3,Cornish


#### Guardo dataframe:

In [19]:
df_f1_lang_movie_count.to_pickle('../../Datasets Cleaned & light/df_f1_lang_movie_count.pkl')


#### Funcion 1:

In [20]:
def print_language_count(language_name):
    # Filtrar el DataFrame para obtener las filas que corresponden al language_name proporcionado
    filtered_df = df_f1_lang_movie_count[df_f1_lang_movie_count['language_name'] == language_name]
    
    if not filtered_df.empty:
        # Obtener los valores del iso_language_code y el conteo
        iso_language_code = filtered_df['iso_language_code'].values[0]
        count = filtered_df['count'].values[0]
        
        # Imprimir los resultados
        print(f"Nombre del lenguaje: {language_name}")
        print(f"ISO Language Code: {iso_language_code}")
        print(f"Movies count: {count}")
    else:
        print(f"No se encontró el lenguaje: {language_name}")

# Ejemplo de uso
language_name_to_find = "English"
print_language_count(language_name_to_find)

Nombre del lenguaje: English
ISO Language Code: en
Movies count: 86235


__________________________________________________________

### + def **peliculas_duracion( *`Pelicula`: str* )**:
    Se ingresa una pelicula. Debe devolver la duracion y el año.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *`X` . Duración: `x`. Año: `xx`*


#### df_movies calling..

In [21]:
df_runtime = df_movies[['title','runtime']]

In [22]:
df_runtime = df_runtime.drop_duplicates()

In [23]:
df_runtime

Unnamed: 0,title,runtime
0,toy story,81
1,jumanji,104
2,grumpier old men,101
3,waiting to exhale,127
4,father of the bride part ii,106
...,...,...
135990,true,10
136242,między nami dobrze jest,0
136244,"włatcy móch. ćmoki, czopki i mondzioły",94
136311,іван сила,80


#### Guardo dataframe:

In [24]:
df_runtime.to_pickle('../../Datasets Cleaned & light/df_f2_movies_runtime.pkl')


#### Funcion 2:

In [25]:

def print_movie_runtime(movie_name):
    # Filtrar el DataFrame para obtener la fila que corresponde al nombre de la película proporcionado
    filtered_df = df_runtime[df_runtime['title'] == movie_name]
    
    if not filtered_df.empty:
        # Obtener el valor del runtime
        runtime = filtered_df['runtime'].values[0]
        
        # Imprimir el resultado
        print(f"Nombre de la película: {movie_name}")
        print(f"Runtime: {runtime} minutos")
    else:
        print(f"No se encontró la película: {movie_name}")

# Ejemplo de uso
movie_name_to_find = "jumanji"
print_movie_runtime(movie_name_to_find)

Nombre de la película: jumanji
Runtime: 104 minutos


__________________________________________________

### + def **franquicia( *`Franquicia`: str* )**:
    Se ingresa la franquicia, retornando la cantidad de peliculas, ganancia total y promedio
    
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *La franquicia `X` posee `X` peliculas, una ganancia total de `x` y una ganancia promedio de `xx`*


#### Masking and making new df_f3:

In [26]:
df_f3_collection_name_returns = df_movies[['collection_name','id','title','return']]

In [27]:
# Agrupar por 'collection_name'
df_f3_collection_name_returns = df_f3_collection_name_returns.groupby('collection_name').agg({
    'id': list,
    'title': list,
    'return': ['sum', 'mean']
}).reset_index()

# Renombrar las columnas del DataFrame resultante
df_f3_collection_name_returns.columns = ['collection_name', 'id_list', 'title_list', 'return_sum', 'return_mean']

df_f3_collection_name_returns.head()

Unnamed: 0,collection_name,id_list,title_list,return_sum,return_mean
0,... has fallen collection,"[117263, 267860, 117263, 267860, 117263, 267860]","[olympus has fallen, london has fallen, olympu...",17.188821,2.864804
1,00 schneider filmreihe,"[1652, 1652, 1652]","[00 schneider - jagd auf nihil baxter, 00 schn...",7.960094,2.653365
2,08/15 collection,"[19430, 19430, 19430]","[08/15, 08/15, 08/15]",7.960094,2.653365
3,100 girls collection,"[10035, 20648, 10035, 20648, 10035, 20648]","[100 girls, 100 women, 100 girls, 100 women, 1...",15.920189,2.653365
4,101 dalmatians (animated) collection,"[12230, 13654, 12230, 13654, 12230, 13654]","[one hundred and one dalmatians, 101 dalmatian...",169.870105,28.311684


#### Guardo Dataframe:

In [28]:
df_f3_collection_name_returns.to_pickle('../../Datasets Cleaned & light/df_f3_collection_name_returns.pkl')

#### Funcion 3:

In [29]:
def franquicia(collection_name: str):
    # Filtrar los datos en función del valor de la columna 'collection_name'
    df_return = df_f3_collection_name_returns[df_f3_collection_name_returns['collection_name'] == collection_name]

    # Verificar si la colección fue encontrada
    if df_return.empty:
        print(f"No se encontró la colección '{collection_name}' en el dataframe.")
        return

    # Calcular la cantidad de películas
    cantidad_peliculas = df_return['id_list'].apply(len).sum()

    # Calcular la ganancia total
    ganancia_total = df_return['return_sum'].sum()

    # Calcular la ganancia promedio
    ganancia_promedio = df_return['return_mean'].mean()

    # Imprimir el resultado
    print(f"La franquicia {collection_name} posee {cantidad_peliculas} películas, una ganancia total de {ganancia_total:.2f} y una ganancia promedio de {ganancia_promedio:.2f}, aproximadamente...")

# Ejemplo de uso de la función con el dataframe proporcionado
franquicia('00 schneider filmreihe')


La franquicia 00 schneider filmreihe posee 3 películas, una ganancia total de 7.96 y una ganancia promedio de 2.65, aproximadamente...


### + def **peliculas_pais( *`Pais`: str* )**:
    Se ingresa un país (como están escritos en el dataset, no hay que traducirlos!), retornando la cantidad de peliculas producidas en el mismo.
    
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nb

#### creodataset para df_f4_production_countrys

In [30]:
df_f4_production_countrys = df_movies['country_names']

In [31]:
df_f4_production_countrys.head()

0    ['united states of america']
1    ['united states of america']
2    ['united states of america']
3    ['united states of america']
4    ['united states of america']
Name: country_names, dtype: object

#### Guardo df_f4_production_countrys:

In [32]:
df_f4_production_countrys.to_pickle('../../Datasets Cleaned & light/df_f4_production_countrys.pkl')

#### Funcion 4:

In [33]:
def peliculas_pais(Pais: str) -> int:

    # Contar las películas producidas en el país proporcionado (teniendo en cuenta las listas de valores)
    cantidad_peliculas = df_movies['country_names'].apply(lambda x: Pais.lower() in x).sum()
    
    return cantidad_peliculas

# Ejemplo de uso:
pais_ingresado = 'Argentina' 
cantidad_peliculas = peliculas_pais(pais_ingresado)
print(f"Se han producido {cantidad_peliculas} películas en {pais_ingresado}.")



Se han producido 762 películas en Argentina.


### + def **productoras_exitosas( *`Productora`: str* )**:
    Se ingresa la productora, entregandote el revunue total y la cantidad de peliculas que realizo. 
    
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Ejemplo de retorno: *La productora `X` ha tenido un revenue de `x`*

#### DATASET:

In [34]:
pd.set_option('display.max_columns', None)

In [35]:
df_movies.head(3)

Unnamed: 0,budget,id,original_language,overview,popularity,release_date,revenue,runtime,status,title,vote_average,vote_count,genre_ids,genre_names,production_companies_ids,production_companies_nombres,iso_codes,country_names,iso_language_codes,language_names,release_year,return,collection_name
0,30000000.0,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,7.7,5415,"[16, 35, 10751]","['animation', 'comedy', 'family']",[3],['pixar animation studios'],['us'],['united states of america'],[en],['english'],1995,12.451801,toy story collection
1,65000000.0,8844,en,when siblings judy and peter discover an encha...,17.015539,1995-12-15,262797249,104,released,jumanji,6.9,2413,"[12, 14, 10751]","['adventure', 'fantasy', 'family']","[559, 2550, 10201]","['tristar pictures', 'teitler film', 'intersco...",['us'],['united states of america'],"[en, fr]","['english', 'français']",1995,4.043035,not part of a collection
2,4224579.0,15602,en,a family wedding reignites the ancient feud be...,11.7129,1995-12-22,11209348,101,released,grumpier old men,6.5,92,"[10749, 35]","['romance', 'comedy']","[6194, 19464]","['warner bros.', 'lancaster gate']",['us'],['united states of america'],[en],['english'],1995,2.653365,grumpy old men collection


In [36]:

df_f5_production_companies_return = df_movies[['production_companies_ids','production_companies_nombres','id','title','budget','revenue','return']]


In [37]:
df_f5_production_companies_return

Unnamed: 0,production_companies_ids,production_companies_nombres,id,title,budget,revenue,return
0,[3],['pixar animation studios'],862,toy story,3.000000e+07,373554033,12.451801
1,"[559, 2550, 10201]","['tristar pictures', 'teitler film', 'intersco...",8844,jumanji,6.500000e+07,262797249,4.043035
2,"[6194, 19464]","['warner bros.', 'lancaster gate']",15602,grumpier old men,4.224579e+06,11209348,2.653365
3,[306],['twentieth century fox film corporation'],31357,waiting to exhale,1.600000e+07,81452156,5.090760
4,"[5842, 9195]","['sandollar productions', 'touchstone pictures']",11862,father of the bride part ii,4.224579e+06,76578911,18.126993
...,...,...,...,...,...,...,...
136393,[],[],439050,subdue,4.224579e+06,11209348,2.653365
136394,[19653],['sine olivia'],111109,century of birthing,4.224579e+06,11209348,2.653365
136395,[6165],['american world pictures'],67758,betrayal,4.224579e+06,11209348,2.653365
136396,[88753],['yermoliev'],227506,satan triumphant,4.224579e+06,11209348,2.653365


In [38]:
df_f5_production_companies_return.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136398 entries, 0 to 136397
Data columns (total 7 columns):
 #   Column                        Non-Null Count   Dtype  
---  ------                        --------------   -----  
 0   production_companies_ids      136398 non-null  object 
 1   production_companies_nombres  136398 non-null  object 
 2   id                            136398 non-null  int64  
 3   title                         136398 non-null  object 
 4   budget                        136389 non-null  float64
 5   revenue                       136398 non-null  int64  
 6   return                        136398 non-null  float64
dtypes: float64(2), int64(2), object(3)
memory usage: 7.3+ MB


In [39]:
import ast

In [40]:

# Aplicar literal_eval a la columna 'production_companies_nombres'
df_f5_production_companies_return.loc[:,'production_companies_nombres']= df_f5_production_companies_return['production_companies_nombres'].apply(ast.literal_eval)

In [41]:
df_f5_production_companies_return

Unnamed: 0,production_companies_ids,production_companies_nombres,id,title,budget,revenue,return
0,[3],[pixar animation studios],862,toy story,3.000000e+07,373554033,12.451801
1,"[559, 2550, 10201]","[tristar pictures, teitler film, interscope co...",8844,jumanji,6.500000e+07,262797249,4.043035
2,"[6194, 19464]","[warner bros., lancaster gate]",15602,grumpier old men,4.224579e+06,11209348,2.653365
3,[306],[twentieth century fox film corporation],31357,waiting to exhale,1.600000e+07,81452156,5.090760
4,"[5842, 9195]","[sandollar productions, touchstone pictures]",11862,father of the bride part ii,4.224579e+06,76578911,18.126993
...,...,...,...,...,...,...,...
136393,[],[],439050,subdue,4.224579e+06,11209348,2.653365
136394,[19653],[sine olivia],111109,century of birthing,4.224579e+06,11209348,2.653365
136395,[6165],[american world pictures],67758,betrayal,4.224579e+06,11209348,2.653365
136396,[88753],[yermoliev],227506,satan triumphant,4.224579e+06,11209348,2.653365


In [42]:
# Calculate the number of production companies in each row
df_f5_production_companies_return.loc[:,'participation_prod_comp'] = df_f5_production_companies_return['production_companies_nombres'].apply(len)

# Divide the last three columns by the number of production companies and use .loc for assignment
df_f5_production_companies_return.loc[:, 'budget_per_company'] = df_f5_production_companies_return['budget'] / df_f5_production_companies_return['participation_prod_comp']
df_f5_production_companies_return.loc[:, 'revenue_per_company'] = df_f5_production_companies_return['revenue'] / df_f5_production_companies_return['participation_prod_comp']
df_f5_production_companies_return.loc[:, 'return_per_company'] = df_f5_production_companies_return['return'] / df_f5_production_companies_return['participation_prod_comp']



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_f5_production_companies_return.loc[:,'participation_prod_comp'] = df_f5_production_companies_return['production_companies_nombres'].apply(len)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_f5_production_companies_return.loc[:, 'budget_per_company'] = df_f5_production_companies_return['budget'] / df_f5_production_companies_return['participation_prod_comp']
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the docum

In [43]:

# Explode de la columna de compañías de producción
df_f5_production_companies_return = df_f5_production_companies_return.explode("production_companies_nombres", ignore_index=True)

# Replazar el índice para mostrar solo los campos relevantes
df_f5_production_companies_return.reset_index(drop=True, inplace=True)


In [44]:
df_f5_production_companies_return.head(10)

Unnamed: 0,production_companies_ids,production_companies_nombres,id,title,budget,revenue,return,participation_prod_comp,budget_per_company,revenue_per_company,return_per_company
0,[3],pixar animation studios,862,toy story,30000000.0,373554033,12.451801,1,30000000.0,373554000.0,12.451801
1,"[559, 2550, 10201]",tristar pictures,8844,jumanji,65000000.0,262797249,4.043035,3,21666670.0,87599080.0,1.347678
2,"[559, 2550, 10201]",teitler film,8844,jumanji,65000000.0,262797249,4.043035,3,21666670.0,87599080.0,1.347678
3,"[559, 2550, 10201]",interscope communications,8844,jumanji,65000000.0,262797249,4.043035,3,21666670.0,87599080.0,1.347678
4,"[6194, 19464]",warner bros.,15602,grumpier old men,4224579.0,11209348,2.653365,2,2112289.0,5604674.0,1.326682
5,"[6194, 19464]",lancaster gate,15602,grumpier old men,4224579.0,11209348,2.653365,2,2112289.0,5604674.0,1.326682
6,[306],twentieth century fox film corporation,31357,waiting to exhale,16000000.0,81452156,5.09076,1,16000000.0,81452160.0,5.09076
7,"[5842, 9195]",sandollar productions,11862,father of the bride part ii,4224579.0,76578911,18.126993,2,2112289.0,38289460.0,9.063497
8,"[5842, 9195]",touchstone pictures,11862,father of the bride part ii,4224579.0,76578911,18.126993,2,2112289.0,38289460.0,9.063497
9,"[508, 675, 6194]",regency enterprises,949,heat,60000000.0,187436818,3.123947,3,20000000.0,62478940.0,1.041316


In [46]:

df_f5_production_companies_return = df_f5_production_companies_return.groupby('production_companies_nombres', as_index=False).agg({
    'budget_per_company': 'sum',
    'revenue_per_company': 'sum',
    'return_per_company': 'sum',
    'id': 'count'
})

In [47]:
# Assuming df_f5_production_companies_return is your DataFrame
df_f5_production_companies_return.rename(columns={'id': 'count_movies'}, inplace=True)



In [48]:
df_f5_production_companies_return

Unnamed: 0,production_companies_nombres,budget_per_company,revenue_per_company,return_per_company,count_movies
0,"""dia"" productions gmbh & co. kg",2.700000e+07,33263194.5,0.923978,3
1,# andrea sperling productions,3.750000e+06,16814022.0,6.725609,3
2,# lexyn productions,4.224579e+06,11209348.0,2.653365,3
3,'a' production committee,1.267374e+07,33628044.0,7.960094,3
4,(?)?????,1.000000e+07,22418696.0,4.483739,2
...,...,...,...,...,...
23525,영화사 집,4.224579e+06,11209348.0,2.653365,1
23526,이디오플랜,4.224579e+06,11209348.0,2.653365,1
23527,인벤트 디,4.224579e+06,11209348.0,2.653365,1
23528,타임스토리그룹,2.112289e+06,5604674.0,1.326682,1


#### Guardo pickle df_f5_production_companies_return:

In [49]:
df_f5_production_companies_return.to_pickle('../../Datasets Cleaned & light/df_f5_production_companies_return.pkl')

#### Funcion 5:

In [60]:
import pandas as pd

def productoras_exitosas(productora: str):

    # Filtrar el dataframe para obtener los datos de la productora deseada
    productora_data = df_f5_production_companies_return[df_f5_production_companies_return['production_companies_nombres'].str.contains(productora, case=False, na=False)]

    # Verificar si la productora existe en el dataframe
    if productora_data.empty:
        return f"La productora '{productora}' no fue encontrada en el dataframe."

    # Calcular el revenue total de la productora
    revenue_total = productora_data['return_per_company'].sum()
    cant_movies = productora_data['count_movies'].sum()
    return f"La productora '{productora}' ha tenido un return de {round(revenue_total, 2)} aproximadamente, es decir, que ha multiplicado sus budget_totales unas {round(revenue_total, 0)} veces haciendo peliculas y ha realizado {cant_movies} peliculas..."

# Ejemplo de uso:
productora_buscada = "pixar"
resultados_productora = productoras_exitosas(productora_buscada)
print(resultados_productora)




La productora 'pixar' ha tenido un return de 404.96 aproximadamente, es decir, que ha multiplicado sus budget_totales unas 405.0 veces haciendo peliculas y ha realizado 156 peliculas...


### + def **get_director( *`nombre_director`* )**:
    Se ingresa el nombre de un director que se encuentre dentro de un dataset debiendo devolver el éxito del mismo medido a través del retorno. Además, deberá devolver el nombre de cada película con la fecha de lanzamiento, retorno individual, costo y ganancia de la misma, en formato lista.




In [61]:
df_movies_directors

Unnamed: 0,budget,movie_id,original_language,overview,popularity,release_date,revenue,runtime,status,title,vote_average,vote_count,genre_ids,genre_names,production_companies_ids,production_companies_nombres,iso_codes,country_names,iso_language_codes,language_names,release_year,return,collection_name,director_id,name
0,3.000000e+07,862,en,"led by woody, andy's toys live happily in his ...",21.946943,1995-10-30,373554033,81,released,toy story,7.7,5415,"[16, 35, 10751]","['animation', 'comedy', 'family']",[3],['pixar animation studios'],['us'],['united states of america'],['en'],['english'],1995,12.451801,toy story collection,7879,John Lasseter
1,6.500000e+07,8844,en,when siblings judy and peter discover an encha...,17.015539,1995-12-15,262797249,104,released,jumanji,6.9,2413,"[12, 14, 10751]","['adventure', 'fantasy', 'family']","[559, 2550, 10201]","['tristar pictures', 'teitler film', 'intersco...",['us'],['united states of america'],"['en', 'fr']","['english', 'français']",1995,4.043035,not part of a collection,4945,Joe Johnston
2,4.224579e+06,15602,en,a family wedding reignites the ancient feud be...,11.712900,1995-12-22,11209348,101,released,grumpier old men,6.5,92,"[10749, 35]","['romance', 'comedy']","[6194, 19464]","['warner bros.', 'lancaster gate']",['us'],['united states of america'],['en'],['english'],1995,2.653365,grumpy old men collection,26502,Howard Deutch
3,1.600000e+07,31357,en,"cheated on, mistreated and stepped on, the wom...",3.859495,1995-12-22,81452156,127,released,waiting to exhale,6.1,34,"[35, 18, 10749]","['comedy', 'drama', 'romance']",[306],['twentieth century fox film corporation'],['us'],['united states of america'],['en'],['english'],1995,5.090760,not part of a collection,2178,Forest Whitaker
4,4.224579e+06,11862,en,just when george banks has recovered from his ...,8.387519,1995-02-10,76578911,106,released,father of the bride part ii,5.7,173,[35],['comedy'],"[5842, 9195]","['sandollar productions', 'touchstone pictures']",['us'],['united states of america'],['en'],['english'],1995,18.126993,father of the bride collection,56106,Charles Shyer
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
148960,4.224579e+06,435821,ko,"a taxi driver is found dead, and hyun-woo, the...",1.956476,2017-02-15,11209348,119,released,new trial,6.9,4,[18],['drama'],[86706],['이디오플랜'],['kr'],['south korea'],['ko'],['한국어/조선말'],2017,2.653365,not part of a collection,80009,John Ainslie
148976,4.224579e+06,262447,ru,a young man is forced to spend a few days with...,0.001393,1983-11-21,11209348,98,released,postscript,1.0,1,[18],['drama'],[5120],['mosfilm'],['ru'],['russia'],['ru'],['pусский'],1983,2.653365,not part of a collection,1212412,Larry Shaw
148977,4.224579e+06,324631,cs,the story is freely inspired by the life and w...,1.060042,2015-01-08,11209348,94,released,photographer,4.3,3,"[35, 18]","['comedy', 'drama']",[5928],['česká televize'],['cz'],['czech republic'],['cs'],['český'],2015,2.653365,not part of a collection,11523,Georges Méliès
148999,4.224579e+06,411717,ta,a loan recovery agent takes on a corrupt head ...,1.459459,2017-01-12,17000000,168,released,bairavaa,6.5,12,[28],['action'],[24240],['vijaya productions'],['in'],['india'],['ta'],['தமிழ்'],2017,4.024070,not part of a collection,1051381,Lav Diaz
