# Búsquedas semánticas con películas de Star Wars

## Entorno:

```shellscript
docker run -p 6333:6333 -p 6334:6334 -v $(pwd)/q_storage:/qdrant/storage:z qdrant/qdrant
```

```shellscript	
python -m venv .venv
source .venv/bin/activate
```

Dataset: https://www.kaggle.com/datasets/jrobischon/wikipedia-movie-plots


In [None]:
%pip install -r requirements.txt
#!jupyter nbextension enable --py widgetsnbextension


In [None]:
import pandas as pd
import numpy as np

# Load the data
df = pd.read_json('datasets/star_wars_plots.json')
print('Columns:', df.columns, ', Records:', df.shape[0])
df.head()
startwars_movies = df

### Creamos embeddings del argumento de las películas

In [None]:
import openai
import os
from dotenv import load_dotenv

load_dotenv()

openai.api_key = os.getenv("OPENAI_API_KEY")

client = openai.Client()
# New embeddings: https://openai.com/blog/new-embedding-models-and-api-updates
# Embedding guide: https://platform.openai.com/docs/guides/embeddings
# Pricing: https://openai.com/pricing#language-models
EMBEDDING_MODEL = "text-embedding-3-small"

text_sample = "Hace mucho tiempo en una galaxia muy, muy lejana ..."
response = client.embeddings.create(model=EMBEDDING_MODEL, input=text_sample)
vector = response.data[0].embedding
print('Dimension:', len(vector), vector[:2], '...', vector[-2:])



### Preparamos langchain para hacer búsquedas semánticas

In [None]:
# LangChain Doc: https://python.langchain.com/docs/get_started/introduction
from langchain.embeddings.openai import OpenAIEmbeddings

oai_embedding = OpenAIEmbeddings(
    model=EMBEDDING_MODEL,
    openai_api_key=os.getenv("OPENAI_API_KEY")
)

# Embedding texto: oaie.embed_query(text_sample)

r = oai_embedding.embed_documents([text_sample, text_sample], 16)
MODEL_DIMENSION = len(r[0])
print('Vectors:', len(r), 'Dimension:', MODEL_DIMENSION, r[0][:2], '...', r[0][-2:])




In [None]:
from langchain_community.docstore.document import Document
CHUNK_WORDS = 200 # OpenAI model soporta hasta 8000 tokens (aprox)

# Creamos chunks de texto de unas 200 palabras con un solape de 10 palabras
def chunk_text(text, chunk_size=CHUNK_WORDS, overlap=CHUNK_WORDS//20):
    chunks = []
    words = text.split()
    for i in range(0, len(words), chunk_size-overlap):
        chunks.append(' '.join(words[i:i+chunk_size]))
    return chunks

def create_docs_from_df(df, text_column='plot', chunk_size=CHUNK_WORDS):
    docs = []
    for i, row in df.iterrows():
        plot_chunks = chunk_text(row[text_column], chunk_size)
        for chunk in plot_chunks:
            metadata = dict(title=row['title'])
            metadata['plot_chunk'] = chunk
            doc = Document(page_content=chunk, metadata=metadata)
            docs.append(doc)

        print(i, row['title'], ' => chunks:', len(plot_chunks))

    print('\nTotal documents:', len(docs))
    for d in docs[:4]:
        print('🎞️ ➡️', d.metadata['title'], '📄 =>', d.page_content[:100])
    return docs

documents = create_docs_from_df(startwars_movies)


### Conectamos con Qdrant para crear una colección y alimentarla con los embeddings


In [None]:
from langchain.vectorstores import Qdrant
from qdrant_client import QdrantClient
from qdrant_client.models import VectorParams, Distance

MOVIES_COLLECTION = "movies_sw_openai"


client = QdrantClient(host="localhost", prefer_grpc=True)
client.recreate_collection(MOVIES_COLLECTION, VectorParams(size=MODEL_DIMENSION, distance=Distance.COSINE))

# Qdrant store: https://python.langchain.com/docs/integrations/vectorstores/qdrant
qdrant = Qdrant(
    client=client,
    collection_name=MOVIES_COLLECTION,
    embeddings=oai_embedding
)
print('Collections', qdrant.client.get_collections())



In [None]:
op = qdrant.add_documents(documents)

print('IDs:', op[:2], '...', op[-2:])
print('Collections:', client.get_collections().collections)
print('Collection:', MOVIES_COLLECTION, 'rows:', client.get_collection(MOVIES_COLLECTION))



### Realizamos búsquedas semánticas sobre la saga Star Wars

In [None]:
queries = [
    'Anakin gana una carrera cuando era un niño',
    'Los clones reciben la orden de ejecutar a los Jedi',
    'Han Solo gana el Halcón Milenario en una partida de cartas',
    #'Kylo Ren mata a su padre, Han Solo',
    #'Palpatine es derrotado definitivamente por Rey',
    # Less accurate queries
    'Luke descubre que Darth Vader es su padre',
    'Luke encuentra a Yoda y es entrenado como Jedi',
]

for q in queries:    
    results = qdrant.similarity_search_with_score(q, k=3)    
    print('Q:', q)
    for doc, score in results:
        print('     ', score, ' => ', doc.metadata['title'])
        print('     ', f'(id: {doc.metadata["_id"]})', doc.page_content)



### Creamos un Chat Agent experto en Star Wars con langchain

In [None]:
MY_MOVIE_COLL = "my_movie"
qdrant_chat = Qdrant(
    client=client,
    collection_name=MY_MOVIE_COLL,
    embeddings=oai_embedding
)
client.recreate_collection(MY_MOVIE_COLL, VectorParams(size=MODEL_DIMENSION, distance=Distance.COSINE))

my_movie = pd.read_json('datasets/rey_legacy_plot.json')
print('Columns:', my_movie.columns, ', Records:', my_movie.shape[0])
my_movie.head()

docs = create_docs_from_df(my_movie)
qdrant_chat.add_documents(docs)

# http://localhost:6333/dashboard/#/collections/my_movie
# http://localhost:6333/collections/my_movie

In [36]:
from langchain.chat_models import ChatOpenAI
from langchain.chains.conversation.memory import ConversationBufferWindowMemory
from langchain.chains import RetrievalQA

#OpenAI LLM
# OpenAI models: https://platform.openai.com/docs/models
# OpenAI pricing: https://openai.com/pricing#language-models
llm = ChatOpenAI(openai_api_key=os.getenv("OPENAI_API_KEY"),
                 #model_name="gpt-4-turbo-preview", 
                 model_name="gpt-3.5-turbo-0125", 
                 temperature=0.0)

# Conversation memory
#conv_mem = ConversationBufferWindowMemory(memory_key='history', k=5, return_messages=True)

qa = RetrievalQA.from_llm(
    llm=llm,
    retriever=qdrant_chat.as_retriever()
)
print(qa)

combine_documents_chain=StuffDocumentsChain(llm_chain=LLMChain(prompt=ChatPromptTemplate(input_variables=['context', 'question'], messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context'], template="Use the following pieces of context to answer the user's question. \nIf you don't know the answer, just say that you don't know, don't try to make up an answer.\n----------------\n{context}")), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['question'], template='{question}'))]), llm=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7f53a71b4d10>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x7f53a7372390>, model_name='gpt-4-turbo-preview', temperature=0.0, openai_api_key='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', openai_proxy='')), document_prompt=PromptTemplate(input_variables=['page_content'], template='Context:\n{page_content}'), document_variable_name='context') retrie

In [38]:
def print_qa(q):
    print('\nQ:', q)
    answer = qa.run(q)
    print('A:', answer)

print_qa("¿A qué se dedica Rey en Tatooine?")
print_qa("¿Quién avisa a Rey para que viaje a Mercuroon?")
print_qa("¿Qué se encuentra Rey al llegar a Mercuroon por primera vez?")
print_qa("¿Cómo se llama el lider de la nueva orden Sith?")
print_qa("¿Cómo se llama la nave de Darth Krayer?")
print_qa("¿A quién encuentra Rey en la nave 'Korriban Avenger'?")
print_qa("¿Cómo derrota Rey a Krayer, quién la ayuda?")
#print_qa("¿quién es Aron?")
#print_qa("¿cómo ayuda Aron en la nave de Krayer a Rey?")
print_qa("¿Qué decide hacer Rey en el templo de Mercuroon?")
print_qa("¿A quien pide ayuda Rey después de volver a Mercuroon?")

# Pregunta difícil
print_qa("¿Quién acompaña a Rey a Mercuroon?")



Q: ¿A qué se dedica Rey en Tatooine?
A: Rey vive como granjera en el planeta Tatooine, llevando una vida tranquila alejada de batallas interestelares junto a su inseparable BB-8.

Q: ¿Quién avisa a Rey para que viaje a Mercuroon?
A: Ahsoka Tano es quien envía la señal a través de la Fuerza para que Rey viaje a Mercuroon.

Q: ¿Qué se encuentra Rey al llegar a Mercuroon por primera vez?
A: Al llegar a Mercuroon por primera vez, Rey descubre que un grupo de seguidores del emperador Palpatine planea recuperar la orden Sith. Están secuestrando a jóvenes de toda la galaxia que tienen un vínculo con La Fuerza y, mediante un ritual de magia de sangre, pretenden convertirlos al lado oscuro. Este malvado grupo está liderado por un misterioso personaje que se hace llamar 'Darth Krayer', un antiguo Sith que se creía muerto. Su plan consiste en viajar a lo largo de la galaxia en busca de jóvenes sensibles a La Fuerza en una nave llamada 'Korriban Avenger', que es mucho más grande y poderosa que un

In [None]:

## Preguntas sin contexto
print_qa("¿quién es la madre de Aron?")
print_qa("¿donde están los padres de Aron Tano?")


In [None]:
my_plot = '''Aron descubre en la nave de Ahsoka que sus padres viven, su padre es Lando Tano y su madre Fenny Shuuka, 
pero están prisioneros de unas minas de cristales en el planeta Kreeltor. Aron decide ir a rescatarlos y Rey le acompaña.
'''
new_doc = Document(page_content=my_plot, metadata=dict(title="Ahsoka Legacy"))

qdrant_chat.add_documents([new_doc])

print_qa("¿quién es la madre de Aron?")
print_qa("¿dónde se encuentran los padres de Aron?")


