In [1]:
from fastapi import FastAPI
import uvicorn
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity, linear_kernel

In [2]:
df = pd.read_csv('Datasets/Peliculas_Limpias.csv')


### Función 1 Idioma

In [3]:
def peliculas_idioma(idioma:str):
    '''Se ingresa un idioma con su abreviatura en inglés y devuelve la cantidad de películas producidas en ese idioma.'''
    sacar_idioma = df[df['Idioma'] == idioma]
    total = len(sacar_idioma)
    return {'Respuesta': f"{total} peliculas se lanzaron en {idioma}"}

In [4]:
print(peliculas_idioma('en'))
print(peliculas_idioma('es'))
print(peliculas_idioma('fr'))

{'Respuesta': '32249 peliculas se lanzaron en en'}
{'Respuesta': '991 peliculas se lanzaron en es'}
{'Respuesta': '2442 peliculas se lanzaron en fr'}


# _________________________________________________________________
### Función 2 Duración y año de la película

In [5]:
def peliculas_duracion(Pelicula:str):
    '''Se ingresa una pelicula. Debe devolver la duracion y el año.'''
    peli = df[df['Titulo'] == Pelicula].iloc[0]
    duracion = peli['Duración']
    anio = peli['Año_Lanzamiento']
    return {'Respuesta': f"{Pelicula}. Duración: {duracion}. Año: {anio}"}

In [6]:
print(peliculas_duracion('Toy Story'))
print(peliculas_duracion('Jumanji'))
print(peliculas_duracion('Se7en'))

{'Respuesta': 'Toy Story. Duración: 81.0. Año: 1995'}
{'Respuesta': 'Jumanji. Duración: 104.0. Año: 1995'}
{'Respuesta': 'Se7en. Duración: 127.0. Año: 1995'}


# _________________________________________________________________
### Función 3 Franquicia 

In [9]:
def franquicia(Franquicia: str ): 
    '''Se ingresa la franquicia, retornando la cantidad de peliculas, ganancia total y promedio.'''
    valor_encontrado = df[df['Franquicia']==Franquicia]
    series = len(valor_encontrado)
    total = valor_encontrado['Ganancia'].sum()
    promedio = valor_encontrado['Ganancia'].mean()

    return {'Franquicia': Franquicia, 
            'Cantidad de Películas': series, 
            'Ganancias Totales': total, 
            'Promedio de las Ganancias': promedio}

In [11]:
print(franquicia('Toy Story Collection'))
print(franquicia('Grumpy Old Men Collection'))
print(franquicia('James Bond Collection'))

{'Franquicia': 'Toy Story Collection', 'Cantidad de Películas': 3, 'Ganancias Totales': 23.312948159444446, 'Promedio de las Ganancias': 7.770982719814815}
{'Franquicia': 'Grumpy Old Men Collection', 'Cantidad de Películas': 2, 'Ganancias Totales': 0.0, 'Promedio de las Ganancias': 0.0}
{'Franquicia': 'James Bond Collection', 'Cantidad de Películas': 26, 'Ganancias Totales': 342.14729864752445, 'Promedio de las Ganancias': 13.159511486443249}


# _________________________________________________________________
### Función 4 Películas producidas en el país

In [17]:
def peliculas_pais( Pais: str ):
    '''Se ingresa un país, retornando la cantidad de peliculas producidas en el mismo.'''
    film_por_pais = df[df['Pais_de_Produccion'].str.contains(Pais,na=False,case=False)]
    cant = len(film_por_pais)
    
    return {'Respuesta':f"Se produjeron {cant} películas en {Pais}"}

In [18]:
print(peliculas_pais('Canada'))
print(peliculas_pais('Colombia'))
print(peliculas_pais('Argentina'))

{'Respuesta': 'Se produjeron 1766 películas en Canada'}
{'Respuesta': 'Se produjeron 34 películas en Colombia'}
{'Respuesta': 'Se produjeron 254 películas en Argentina'}


# _________________________________________________________________
### Función 5 Productoras exitosas

In [12]:
def productoras_exitosas( Productora: str ):
    '''Se ingresa la productora, entregandote el revenue total y la cantidad de peliculas que realizo.'''
    variable_productora=df[['Productora','Ganancia']].dropna()
    variable_productora['Productora']=variable_productora['Productora'].map(str.lower)
    variable_productora=variable_productora[variable_productora.Productora.str.contains(Productora.lower(), regex=False)]
    cantidad=variable_productora.shape[0]
    ganancia=variable_productora['Ganancia'].sum()
    return {'La productora':Productora, 
            'obtuvo ganancias de':ganancia, 
            'y las películas que hizo fueron':cantidad}

In [14]:
print(productoras_exitosas('Warner Bros'))
print(productoras_exitosas('Pixar Animation Studios'))
print(productoras_exitosas('Walt Disney Pictures'))

{'La productora': 'Warner Bros', 'obtuvo ganancias de': 1913.519367769822, 'y las películas que hizo fueron': 1376}
{'La productora': 'Pixar Animation Studios', 'obtuvo ganancias de': 86.57765020237606, 'y las películas que hizo fueron': 52}
{'La productora': 'Walt Disney Pictures', 'obtuvo ganancias de': 551.264371898349, 'y las películas que hizo fueron': 263}


# _________________________________________________________________
### Función 6 Director

In [15]:
def get_director(Director):
    '''Se ingresa el nombre de un director y devuelve la información de cada película en la que trabajó'''
    resultado = []

    # En el ciclo For, usé "_" porque no es necesario trabajar con el índice
    # Esto evita la necesidad de trabajar con una tupla en cada iteración 
    # y podemos acceder directamente a los valores de la serie utilizando row['Director'], row['Titulo'],
    for _, row in df.iterrows():
        director = row['Director']
        if isinstance(director, str) and Director.lower() == director.lower():
            titulo = row['Titulo']
            fecha_lanzamiento = pd.to_datetime(row['Fecha_Lanzamiento']).date()
            ganancia = round(row['Ganancia'], 9)
            presupuesto = int(row['Presupuesto'])
            ingresos = int(row['Ingresos'])
            
            pelicula = {
                'Titulo': titulo,
                'Fecha de lanzamiento': fecha_lanzamiento,
                'Ganancia': ganancia,
                'Presupuesto': presupuesto,
                'Ingresos Totales': ingresos
            }
            
            resultado.append(pelicula)
    
    if not resultado:
        resultado = "No se encontró al director especificado."

    return resultado

In [16]:
print(get_director('James Cameron'))
print(get_director('Joe Johnston'))
print(get_director('Howard Deutch'))

[{'Titulo': 'True Lies', 'Fecha de lanzamiento': datetime.date(1994, 7, 14), 'Ganancia': 3.294629661, 'Presupuesto': 115000000, 'Ingresos Totales': 378882411}, {'Titulo': 'Terminator 2: Judgment Day', 'Fecha de lanzamiento': datetime.date(1991, 7, 1), 'Ganancia': 5.2, 'Presupuesto': 100000000, 'Ingresos Totales': 520000000}, {'Titulo': 'The Abyss', 'Fecha de lanzamiento': datetime.date(1989, 8, 9), 'Ganancia': 1.285715686, 'Presupuesto': 70000000, 'Ingresos Totales': 90000098}, {'Titulo': 'Aliens', 'Fecha de lanzamiento': datetime.date(1986, 7, 18), 'Ganancia': 9.908997568, 'Presupuesto': 18500000, 'Ingresos Totales': 183316455}, {'Titulo': 'The Terminator', 'Fecha de lanzamiento': datetime.date(1984, 10, 26), 'Ganancia': 12.2455, 'Presupuesto': 6400000, 'Ingresos Totales': 78371200}, {'Titulo': 'Titanic', 'Fecha de lanzamiento': datetime.date(1997, 11, 18), 'Ganancia': 9.22517094, 'Presupuesto': 200000000, 'Ingresos Totales': 1845034188}, {'Titulo': 'Piranha Part Two: The Spawning', '

# _________________________________________________________________
### Función 7 Recomendación

In [19]:
def recomendacion(Titulo: str):
    ''' Se ingresa el nombre de una película y te recomienda las similares en una lista de 5 valores.'''
    df = pd.read_csv('Datasets/Peliculas_ML.csv')

    # Verificar si el título existe en el DataFrame original
    if Titulo not in df['Titulo'].values:
        return {'Respuesta': 'El título no existe en el DataFrame'}

    # Reducción del tamaño del DataFrame con el título incluido
    datos_reducidos = df.sample(n=20000, random_state=42)

    # Verificar nuevamente si el título existe en la muestra reducida
    if Titulo not in datos_reducidos['Titulo'].values:
        return {'Respuesta': 'El título no existe en la muestra reducida'}

    tfidf = TfidfVectorizer(stop_words='english')
    datos_reducidos['Resumen'] = datos_reducidos['Resumen'].fillna('')

    tdfidf_matrix = tfidf.fit_transform(datos_reducidos['Resumen'])
    cosenoSimilaridad = linear_kernel(tdfidf_matrix, tdfidf_matrix)

    indices = datos_reducidos[datos_reducidos['Titulo'] == Titulo].index[0]

    peliculas_similares = list(enumerate(cosenoSimilaridad[indices]))
    peliculas_ordenadas = sorted(peliculas_similares, key=lambda tupla: tupla[1], reverse=True)
    extraer_indices = [i for i, _ in peliculas_ordenadas[1:6]]
    respuesta = datos_reducidos['Titulo'].iloc[extraer_indices].values.tolist()

    return {'Respuesta': respuesta}

In [22]:
print(recomendacion('Jumanji'))
print(recomendacion('Se7en'))
print(recomendacion('Toy Story'))

{'Respuesta': "['Reptilicus', 'Aurora', 'Free Radicals: A History of Experimental Film', 'Jurassic World', 'Team Thor']"}
{'Respuesta': "['The Odd Couple II', 'Licence to Kill', 'The Leading Man', 'Café au Lait', 'Slipstream']"}
{'Respuesta': "['The Chair', 'Blame It on Rio', 'The Matthew Shepard Story', 'The Gospel According to Matthew', 'Feed']"}
