In [2]:
import os
from langchain_openai import ChatOpenAI

os.environ["OPENAI_API_KEY"] = ""

gpt_4o = ChatOpenAI(model="gpt-4o", temperature=0)
gpt_4o_mini = ChatOpenAI(model="gpt-4o-mini", temperature=0)

api_key = os.environ["OPENAI_API_KEY"]

### PROCESAMOS LA DATA CON PANDAS

In [3]:
import pandas as pd

#Ponemos la ruta
path = "D:\Cursos\Curso-BOOTCAMP-IA-GENERATIVA-SOLUCIONES-CON-PYTHON\TMDB_movie_dataset_v11.csv"
#Leemos la ruta
df = pd.read_csv(path)

#Convertimos los generos a minúsculas
df['genres'] = df['genres'].str.lower()

#Filtramos
filtered_df = df[
    df['genres'].str.contains('action') &
    df['genres'].str.contains('fiction')
]

#Seleccionamos solo 1000 registros
df_1000 = filtered_df.sample(n=1000)

print(df_1000)

             id                               title  vote_average  vote_count  \
939174   885161                  Tao Li Yu Wang Dao         0.000           0   
3364      10336                               Spawn         5.381        1218   
648      320288                        Dark Phoenix         5.994        5941   
404198   981329                     Dinosaur Prison         0.000           0   
253795   530277    Space Sheriff Shaider: The Movie         6.000           1   
...         ...                                 ...           ...         ...   
96683     79722  Dark Rising 2: Summer Strikes Back         2.300           7   
647629  1201733                        Dream Hacker         0.000           0   
248194  1052724                         Dragon Blue        10.000           1   
140560    36857                           Bacterium         2.900           4   
42860    438561                          Spider-Man         6.300          25   

                 status rel

In [13]:
df_1000['data'] = df_1000.apply(
    lambda row: f"Titulo: {row['title']}, Estado: {row['status']}, Sinopsis: {row['overview']}, "
                f"Generos: {row['genres']}, Empresas_productoras: {row['production_companies']}, "
                f"Idiomas_hablados: {row['spoken_languages']}, palabras_clave: {row['keywords']}",
    axis=1
)
print(df_1000['data'])

126        Titulo: World War Z, Estado: Released, Sinopsi...
498        Titulo: The Meg, Estado: Released, Sinopsis: A...
676        Titulo: Resident Evil, Estado: Released, Sinop...
826        Titulo: Alien³, Estado: Released, Sinopsis: Af...
956        Titulo: Alien Resurrection, Estado: Released, ...
                                 ...                        
1039082    Titulo: Aurora, Estado: In Production, Sinopsi...
1046955    Titulo: Cabal, Estado: Released, Sinopsis: Tra...
1055916    Titulo: Anomaly, Estado: In Production, Sinops...
1058936    Titulo: Kamen Rider Ghost: Final Stage, Estado...
1067197    Titulo: Другое измерение, Estado: Released, Si...
Name: data, Length: 632, dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_1000['data'] = df_1000.apply(


In [15]:
ruta_salida = 'D:\Cursos\Curso-BOOTCAMP-IA-GENERATIVA-SOLUCIONES-CON-PYTHON/movies_dataset_oficial.csv'
df_1000.to_csv(ruta_salida, index=False)

## Load VectorDB

In [4]:
import pandas as pd

df = pd.read_csv('D:\Cursos\Curso-BOOTCAMP-IA-GENERATIVA-SOLUCIONES-CON-PYTHON/movies_dataset_oficial.csv')
# df = pd.read_csv('./movies_dataset_oficial.csv')

ids = df['id'].astype(str).tolist()
documents = df['data'].tolist()
metadatas = []

for adult, release_date in zip(df['adult'].tolist(), df['release_date'].tolist()):
    metadata = {
        'adult': adult,
        'release_date': release_date
    }
    metadatas.append(metadata)


In [38]:
print(f"ids: Type={type(ids[0])} Sample={ids[:5]}")
print(f"documents: Type={type(documents[0])} Sample={documents[:5]}")
print(f"metadatas: Type={type(metadatas[0])} Sample={metadatas[:5]}")

ids: Type=<class 'str'> Sample=['72190', '345940', '1576', '8077', '8078']
documents: Type=<class 'str'> Sample=['Titulo: World War Z, Estado: Released, Sinopsis: Life for former United Nations investigator Gerry Lane and his family seems content. Suddenly, the world is plagued by a mysterious infection turning whole human populations into rampaging mindless zombies. After barely escaping the chaos, Lane is persuaded to go on a mission to investigate this disease. What follows is a perilous trek around the world where Lane must brave horrific dangers and long odds to find answers before human civilization falls., Generos: action, drama, horror, science fiction, thriller, Empresas_productoras: GK Films, Paramount, Hemisphere Media Capital, 2DUX², Apparatus Productions, Latina Pictures, Skydance, Plan B Entertainment, Idiomas_hablados: English, palabras_clave: philadelphia, pennsylvania, new jersey, based on novel or book, dystopia, jerusalem, israel, apocalypse, zombie, epidemic, nuclea

### Base de datos Vectorial

In [5]:
import chromadb
from chromadb.utils import embedding_functions

chroma_client = chromadb.Client()

In [6]:
collection = chroma_client.create_collection(
    name="movies_collection",
    embedding_function=embedding_functions.OpenAIEmbeddingFunction(
        api_key=api_key,
        model_name="text-embedding-3-small"
        )
    )

In [42]:
chroma_client.delete_collection(name="movies_collection")

In [7]:
def calculate_indices(batch_index, batch_size, total_items):
    start_index = batch_index * batch_size
    end_index = min((batch_index + 1) * batch_size, total_items)
    return start_index, end_index


batch_size = 100

total_items = len(ids)
num_batches = (total_items + batch_size - 1) // batch_size

# Iterate over the batches
for batch_index in range(num_batches):
    start_index, end_index = calculate_indices(batch_index, batch_size, total_items)
    response = collection.add(
        ids=ids[start_index:end_index],
        documents=documents[start_index:end_index],
        metadatas=metadatas[start_index:end_index]
    )

In [94]:
results = collection.query(
    query_texts=["action movie from 2021", "romantic comedy", "science fiction thriller"],
    n_results=3
)

print(results)

{'ids': [['1062839', '55687', '11926'], ['21513', '1104805', '70583'], ['9348', '34791', '76403']], 'distances': [[1.2022323608398438, 1.2561694383621216, 1.2776108980178833], [1.358855128288269, 1.3660662174224854, 1.3665986061096191], [1.0150760412216187, 1.058259129524231, 1.078397274017334]], 'metadatas': [[{'adult': False, 'release_date': '2022-12-16'}, {'adult': False, 'release_date': '1996-11-29'}, {'adult': False, 'release_date': '2008-02-07'}], [{'adult': False, 'release_date': '2003-04-19'}, {'adult': False, 'release_date': '2023-03-11'}, {'adult': False, 'release_date': '2011-01-25'}], [{'adult': False, 'release_date': '1995-07-07'}, {'adult': False, 'release_date': '2001-02-28'}, {'adult': False, 'release_date': '1996-03-07'}]], 'embeddings': None, 'documents': [["Titulo: 2025 Armageddon, Estado: Released, Sinopsis: A militant alien race launches an attack on Earth using gigantic creatures and geological disasters all based on those found on The Asylum's Movie Channel signa

In [31]:
results['ids']

[['11926', '1062839', '936252']]

### TOOLS

In [8]:
import requests

API_KEI_TMDB = 'eyJhbGciOiJIUzI1NiJ9.eyJhdWQiOiIwNzhjNWNkZTJkMTMzYTdmODQ0YzRlOTBhZWJjNGMwMyIsIm5iZiI6MTcyNDEyMjg5Mi4yOTU0NzksInN1YiI6IjY2YzAxOWNmMTQyZWY0MmM2NTgxZDJkOSIsInNjb3BlcyI6WyJhcGlfcmVhZCJdLCJ2ZXJzaW9uIjoxfQ.xDwFer-BsMBxiWnwecxU0UpyjfCBOnZNKwlbXcgl4-E'
URL_TMBD = 'https://api.themoviedb.org/3/search/movie'


def search_movie(title: str):
    # Parámetros
    params = {
        'query': title,
        'language': 'en-US',
        'page': 1
    }  

    #Colocamos el código de autorización
    headers = {
        'Authorization': f'Bearer {API_KEI_TMDB}',
        'accept': 'application/json'
    }

    response = requests.get(URL_TMBD, headers=headers, params=params)

    if response.status_code == 200:
        return response.json()
    else:
        return {'Error': f"{response.status_code}"}

In [9]:
from langchain_core.tools import tool
from langchain.schema import SystemMessage, HumanMessage

WRITER_SYSTEM_MOVIE= """
You will receive the API request data, you will receive the title of the searched movie as “title” and the API content. 
title of the requested movie as “title” and the content of the API response as “content”. 
response as “content”. It is possible that within the content will be
movies that have nothing to do with the searched title. I want
only the relevant information of movies whose title is absolutely 
are absolutely the same as the one sent by the user. If the user made a 
spelling mistake in the title and you manage to recognize it, then tell him that he was 
tell him/her that he/she was confused and give you a suggestion as to what the 
title could have been. If he was not confused, you give him a good 
answer with the essential movie information you have found within the api and if necessary add 
some information but don't give movies yourself, all the movies you pull have to come out of the 
content you are sent, nothing else. If it is a franchise and you have more than one movie, you 
can also add them.
"""

@tool
def search_title(title: str):
    """Use this when the user requests information or asks about a 
    specific movie.
    """
    
    #Esta variable almacenará las películas encontradas con el title
    movies = search_movie(title)

    response = gpt_4o_mini.invoke(
        input=[
            SystemMessage(content=WRITER_SYSTEM_MOVIE),
            HumanMessage(content=f"Title: {title}, content: {movies}")

        ]
    ).content

    formated_response = f"# {title}\n\n{response}"

    return formated_response

    


    

@tool
def recommendation(texts: list[str], num_results: int = 3):
    """
    Use this if the user wants a recommendation, with this tool you will provide them with a movie recommendation based on their tastes and information that they give you.
    """
    
    results = collection.query(
        query_texts=texts,
        n_results=num_results
    )   

    return results


tools = [search_title, recommendation]

### AGENTE

In [10]:
from langgraph.prebuilt import create_react_agent
from langgraph.checkpoint.memory import MemorySaver
from langchain.schema import SystemMessage


INSTRUCTION = """
Eres un asistente de recomendación de películas y series para la gente que es aficionada o amante del contenido cinematográfico.
Solamente hablarás de temas referidos y responderas consultas a este tipo de contenido.

En caso el usuario comience la conversación con una consulta, pregunta, o solicitando una recomendación,
tu la respondes con normalidad pero si el usuario inicia la conversación saludando o
cuestionando cual es tu función, debes de responder ofreciendo tu ayuda en las funcionalidades
que tienes disponibles. Todo esto en español. 

Ejemplo:

¡Hola, cinéfilo!

¿Listo para descubrir tu próxima gran película o serie? Puedo recomendarte algo personalizado
basado en tus gustos, o si prefieres, podemos buscar por filtros o palabras clave. 
¿Qué te apetece hoy? 🎬🍿


Puedes utilizar o realizar variaciones de este ejemplo que te acabo de dar para poder iniciar
la conversación.

Por otro lado, vas poder utilizar 3 herramientas. En el caso que el usuario pida información
o quiera saber más sobre una película o serie en específico, debes de utilizar la herramienta
"search_title" para devolver el contenido esperado.

En segundo lugar, si el usuario pide películas de un año en específico, contenido para 
adultos, de una duración aproximada, descripción, etc. la herramienta "search_content_filter" 
servirá para devolver al usuario una lista de películas que correspondan al filtro o filtros
que se ha solicitado.

Por último, en caso el usuario pida una recomendación de una película o serie, tu debes de
realizar preguntas para adquirir información importante para la recomendación. Debes de 
preguntar sobre una descripción de lo que está buscando, que tipo de película fue la que
visualizó antes, que fue lo que más le gustó de la anterior película o que es lo que le 
gusta de las películas, que género es el que está buscando; realiza las preguntas una 
por una, no pongas todas de golpe. Luego de realizar mínimo 4 preguntas y recolectar 
esa información, usas la herramienta "recommendation" para poder realizar una recomendación 
impecable con los datos brindados por el usuario. Usa las recomendaciónes que te brinde la 
herramienta, no te inventes recomendaciones tú, puedes agregar alguna información de la 
película recomendada si es necesario. A la herramienta "recommendation" debes de mandarle
la información del usuario en inglés. Recuerda que no debes de poner todas las preguntas seguidas, 
espera que el usuario responda para preguntar la siguiente.

Todo es en español. Solamente los títulos de las películas pueden ser en ingles, pero
todas las respuestas que tu vas a brindar van a ser en español.
"""

memory = MemorySaver()

MovieAgent = create_react_agent(
    gpt_4o,
    tools=tools,
    state_modifier=SystemMessage(content=INSTRUCTION),
    checkpointer=memory
)


### RESPONSE

In [12]:
msg = """
Quiero saber sobre el señor de los anillos
"""

response = MovieAgent.invoke(
    input={"messages": msg},
    config={
        "configurable": {

            "thread_id": 9
        }
    }
)


for message in response["messages"]:
    print(f"{message.type.upper()}: {message.content}")
    print("")

HUMAN: 
Quiero que me digas cronologicamente la franquicia del señor de los anillos


AI: ¡Claro! La franquicia de "El Señor de los Anillos" y "El Hobbit" se puede ver en orden cronológico de la siguiente manera:

### Películas de "El Hobbit":
1. **El Hobbit: Un viaje inesperado** (2012)
2. **El Hobbit: La desolación de Smaug** (2013)
3. **El Hobbit: La batalla de los cinco ejércitos** (2014)

### Películas de "El Señor de los Anillos":
4. **El Señor de los Anillos: La Comunidad del Anillo** (2001)
5. **El Señor de los Anillos: Las dos torres** (2002)
6. **El Señor de los Anillos: El retorno del Rey** (2003)

Este orden sigue la cronología de los eventos en la Tierra Media, comenzando con la historia de Bilbo Bolsón en "El Hobbit" y continuando con la épica aventura de Frodo Bolsón en "El Señor de los Anillos". ¡Espero que disfrutes de la maratón! 🍿🎬

HUMAN: 
Quiero saber sobre el señor de los anillos


AI: 

TOOL: # The Lord of the Rings

Here is the relevant information for the movie

### Transición de CSV

In [None]:
import csv

#Aquí pondremos el archivo csv ya hecho
with open('') as file:
    lines = csv.reader(file)

    documents = []
    metadatas = []
    ids = []

    for i, line in enumerate(lines):
        if i == 0:
            continue
        
        #Aquí señalaremos que columna le pasaremos a documents
        documents.append(line[26])
        metadatas.append({"adult_content": line[8]})
        ids.append(str(line[0]))



In [17]:
peliculas = [
    {
       #"id": 27205,
       "title": "Inception", 
       "status": "Released", 
       #"runtime": 148,  
       #"adult": False,  
       "overview": "Cobb, a skilled thief who commits corporate espionage by infiltrating the subconscious of his targets is offered a chance to regain his old life as payment for a task considered to be impossible: \"inception\", the implantation of another person's idea into a target's subconscious.",  
       #"tagline": "Your mind is the scene of the crime.",  
       "genres": "Action, Science Fiction, Adventure",  
       "production_companys": "Legendary Pictures, Syncopy, Warner Bros. Pictures",  
       #"production_countries": "United Kingdom, United States of America",  
       "spoken_languages": "English, French, Japanese, Swahili",  
       "keywords": "rescue, mission, dream, airplane, paris, france, virtual reality, kidnapping, philosophy, spy",                                   
    }
]

document = peliculas[0].__str__()
print(document)

{'title': 'Inception', 'status': 'Released', 'overview': 'Cobb, a skilled thief who commits corporate espionage by infiltrating the subconscious of his targets is offered a chance to regain his old life as payment for a task considered to be impossible: "inception", the implantation of another person\'s idea into a target\'s subconscious.', 'genres': 'Action, Science Fiction, Adventure', 'production_companys': 'Legendary Pictures, Syncopy, Warner Bros. Pictures', 'spoken_languages': 'English, French, Japanese, Swahili', 'keywords': 'rescue, mission, dream, airplane, paris, france, virtual reality, kidnapping, philosophy, spy'}
