<h1 align="center"><font color="yellow">Pesquisa Sem√¢ntica para Iniciantes com <font color="red">qdrant</font></font></h1>

<font color="yellow">Data Scientist.: Dr.Eddy Giusepe Chirinos Isidro</font>

Links de estudos:

* [qdrant](https://qdrant.tech/documentation/tutorials/search-beginners/?source=post_page-----3c7e3b1e4976--------------------------------)

* [Retrieval Augmented Generation using Qdrant HuggingFace embeddings and Langchain and Evaluate the Response Generated using OpenAI](https://medium.aiplanet.com/retrieval-augmented-generation-using-qdrant-huggingface-embeddings-and-langchain-and-evaluate-the-3c7e3b1e4976)

![image.png](attachment:image.png)

<font color="orange"> `Qdrant` permite armazenar dados como `Embeddings`. Voc√™ tamb√©m pode usar o `Qdrant` para executar consultas de pesquisa nesses dados. Isso significa que voc√™ pode pedir ao mecanismo que forne√ßa respostas relevantes que v√£o muito al√©m da correspond√™ncia de `palavras-chave`.</font>

# Setup

In [9]:
!python --version

Python 3.10.12


In [None]:
#%pip install -U sentence-transformers

#%pip install qdrant-client

<font color="orange">Uma vez definidas as duas estruturas principais, voc√™ precisa especificar os modelos exatos que este mecanismo usar√°.</font>

In [13]:
from qdrant_client import models, QdrantClient
from sentence_transformers import SentenceTransformer # Cont√©m os Modelos de Embeddings.


encoder = SentenceTransformer('all-MiniLM-L6-v2') 

# Dataset

<font color="orange">`all-MiniLM-L6-v2` codificar√° (`Encode`) os dados que voc√™ fornecer. Aqui voc√™ listar√° todos os livros de fic√ß√£o cient√≠fica da sua biblioteca. Cada livro possui `metadados`: nome, autor, ano de publica√ß√£o e uma breve descri√ß√£o.</font>

In [14]:
documents = [
{ "name": "The Time Machine", "description": "Um homem viaja no tempo e testemunha a evolu√ß√£o da humanidade.", "author": "H.G. Wells", "year": 1895 },
{ "name": "Ender's Game", "description": "Um menino √© treinado para se tornar um l√≠der militar em uma guerra contra uma ra√ßa alien√≠gena.", "author": "Orson Scott Card", "year": 1985 },
{ "name": "Brave New World", "description": "Uma sociedade dist√≥pica onde as pessoas s√£o geneticamente modificadas e condicionadas para se conformarem a uma hierarquia social estrita.", "author": "Aldous Huxley", "year": 1932 },
{ "name": "The Hitchhiker's Guide to the Galaxy", "description": "Uma s√©rie c√¥mica de fic√ß√£o cient√≠fica que segue as desventuras de um humano involunt√°rio e seu amigo alien√≠gena.", "author": "Douglas Adams", "year": 1979 },
{ "name": "Dune", "description": "Um planeta deserto √© palco de intrigas pol√≠ticas e lutas pelo poder.", "author": "Frank Herbert", "year": 1965 },
{ "name": "Foundation", "description": "Um matem√°tico desenvolve uma ci√™ncia para prever o futuro da humanidade e trabalha para salvar a civiliza√ß√£o do colapso.", "author": "Isaac Asimov", "year": 1951 },
{ "name": "Snow Crash", "description": "Um mundo futurista onde a internet evoluiu para um metaverso de realidade virtual.", "author": "Neal Stephenson", "year": 1992 },
{ "name": "Neuromancer", "description": "Um hacker √© contratado para realizar um hack quase imposs√≠vel e √© puxado para uma teia de intrigas.", "author": "William Gibson", "year": 1984 },
{ "name": "The War of the Worlds", "description": "Uma invas√£o marciana da Terra lan√ßa a humanidade no caos.", "author": "H.G. Wells", "year": 1898 },
{ "name": "The Hunger Games", "description": "Uma sociedade dist√≥pica onde adolescentes s√£o for√ßados a lutar at√© a morte em um espet√°culo televisivo.", "author": "Suzanne Collins", "year": 2008 },
{ "name": "The Andromeda Strain", "description": "Um v√≠rus mortal vindo do espa√ßo sideral amea√ßa exterminar a humanidade.", "author": "Michael Crichton", "year": 1969 },
{ "name": "The Left Hand of Darkness", "description": "Um embaixador humano √© enviado a um planeta onde os habitantes n√£o t√™m g√©nero e podem mudar de g√©nero √† vontade.", "author": "Ursula K. Le Guin", "year": 1969 },
{ "name": "The Three-Body Problem", "description": "Os humanos encontram uma civiliza√ß√£o alien√≠gena que vive em um sistema moribundo.", "author": "Liu Cixin", "year": 2008 }
]

# Defina o local de armazenamento

<font color="orange">Voc√™ precisa informar ao `Qdrant` onde armazenar os `Embeddings`. Esta √© uma demonstra√ß√£o b√°sica, portanto seu computador local usar√° sua mem√≥ria como armazenamento tempor√°rio.</font>

In [15]:
qdrant = QdrantClient(":memory:") 

# Criamos uma cole√ß√£o

<font color="orange">Todos os dados no `Qdrant` s√£o organizados por `cole√ß√µes`. Nesse caso, voc√™ est√° armazenando livros, por isso chamamos isso de `Eddy_my_books`.</font>

In [17]:
qdrant.recreate_collection(collection_name="Eddy_my_books",
                           vectors_config=models.VectorParams(size=encoder.get_sentence_embedding_dimension(), # Tamanho do vetor √© definido pelo modelo
		                                                      distance=models.Distance.COSINE
	                                                         )
                          )



True

* Use `recreate_collection` se estiver experimentando e executando o script v√°rias vezes. Esta fun√ß√£o tentar√° primeiro remover uma cole√ß√£o existente com o mesmo nome.

* O par√¢metro `vector_size` define o tamanho dos vetores para uma cole√ß√£o espec√≠fica. Se o tamanho for diferente, √© imposs√≠vel calcular a dist√¢ncia entre eles. $384$ √© a dimensionalidade de sa√≠da do codificador (`Encoder`). Voc√™ tamb√©m pode usar `model.get_sentence_embedding_dimension()` para obter a dimensionalidade do modelo que est√° usando.

* O par√¢metro `distance` permite especificar a fun√ß√£o usada para medir a dist√¢ncia entre dois pontos.

# Upload dos Dados para a Collection

<font color="orange">Diga ao banco de dados para fazer upload documents para a cole√ß√£o `Eddy_my_books`. Isso dar√° a cada registro um `ID` e uma carga √∫til. A carga √∫til s√£o apenas os `metadados` do conjunto de dados.</font>

In [18]:
qdrant.upload_records(collection_name="Eddy_my_books",
                      records=[models.Record(id=idx,
                                             vector=encoder.encode(doc["description"]).tolist(),
                                             payload=doc) 
                                             
											 for idx, doc in enumerate(documents)
	                          ]
                     )


# Fa√ßa uma pergunta ao Motor (`Engine`)

<font color="orange">Agora que os dados est√£o armazenados no `Qdrant`, voc√™ pode fazer perguntas e receber resultados `semanticamente relevantes`.</font>

In [22]:
hits = qdrant.search(collection_name="Eddy_my_books",
					 query_vector=encoder.encode("invas√£o alien√≠gena").tolist(),
					 limit=3
                    )
for hit in hits:
    print(hit.payload, "score:", hit.score)
    

{'name': 'The War of the Worlds', 'description': 'Uma invas√£o marciana da Terra lan√ßa a humanidade no caos.', 'author': 'H.G. Wells', 'year': 1898} score: 0.5464040515306736
{'name': "The Hitchhiker's Guide to the Galaxy", 'description': 'Uma s√©rie c√¥mica de fic√ß√£o cient√≠fica que segue as desventuras de um humano involunt√°rio e seu amigo alien√≠gena.', 'author': 'Douglas Adams', 'year': 1979} score: 0.4524966427548881
{'name': 'The Three-Body Problem', 'description': 'Os humanos encontram uma civiliza√ß√£o alien√≠gena que vive em um sistema moribundo.', 'author': 'Liu Cixin', 'year': 2008} score: 0.43991679718293697


O mecanismo de busca mostra tr√™s das respostas mais prov√°veis ‚Äã‚Äãque t√™m a ver com a `invas√£o alien√≠gena`. Cada uma das respostas recebe uma pontua√ß√£o para mostrar o <font color="yellow">qu√£o pr√≥xima a resposta est√° da pergunta original</font>.

## Limite a consulta

<font color="orange">Que tal o livro mais recente do in√≠cio dos anos `2000`?</font>

In [26]:
hits = qdrant.search(collection_name="Eddy_my_books",
					 query_vector=encoder.encode("invas√£o alien√≠gena").tolist(),
					 query_filter=models.Filter(must=[models.FieldCondition(key="year",
															                range=models.Range(gte=2000)
			                                                               )
		                                             ]
	                                           ),
					 limit=1
                    )

for hit in hits:
	print(hit.payload, "score:", hit.score)


{'name': 'The Three-Body Problem', 'description': 'Os humanos encontram uma civiliza√ß√£o alien√≠gena que vive em um sistema moribundo.', 'author': 'Liu Cixin', 'year': 2008} score: 0.43991679718293697
