# VectorStores

Uma das maneiras mais comuns de armazenar e buscar dados não estruturados é realizando o embedding e armazenando os vetores resultantes e, em seguida, na hora da consulta, realizar o embedding da consulta e recuperar os vetores 'mais semelhantes'. Uma VectorStore faz o armazenamento dos vetores e a realização da busca de vetores para você.

## Chroma VectorStore

In [1]:
from dotenv import load_dotenv
load_dotenv()

from langchain.llms import OpenAI

llm = OpenAI(model='gpt-3.5-turbo-instruct')

  llm = OpenAI(model='gpt-3.5-turbo-instruct')


In [2]:
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

### Document Loading

In [3]:
path = 'assets/Explorando o Universo das IAs com Hugging Face.pdf'
loader = PyPDFLoader(path)
paginas = loader.load()

### Text Splitting

In [5]:
recur_split = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=['\n\n', '\n', '.', ' ', '']
)

documents = recur_split.split_documents(paginas)
len(documents)

266

### Criando a VectorStore

In [None]:
# pip install pysqlite3-binary

In [None]:
# __import__('pysqlite3)
# import sys
# sys.modules['sqlite3] = sys.modules.pop('pysqlite3')

In [9]:
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

embeddings_model = OpenAIEmbeddings()

diretorio = 'docs/chroma_vectorstore'

vectorstore = Chroma.from_documents(
    documents=documents,
    embedding=embeddings_model,
    persist_directory=diretorio
)

In [10]:
print(vectorstore._collection.count())

266


### Importando VectorStore do disco

In [11]:
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

embeddings_model = OpenAIEmbeddings()

diretorio = 'docs/chroma_vectorstore'

vectorstore = Chroma(
    embedding_function=embeddings_model,
    persist_directory=diretorio
)

  vectorstore = Chroma(


### Retrieval

In [13]:
pergunta = 'O que é o HuggingFace?'

In [14]:
docs = vectorstore.similarity_search(pergunta, k=5)
len(docs)

5

In [18]:
for doc in docs:
    print(f'{doc.page_content}\n')
    print(f'========== {doc.metadata}\n\n')

Explorando o Universo das IAs com Hugging Face
01. O que é Hugging Face?
Bem-vindos ao curso de Hugging Face da Asimov Academy!
Neste curso, vamos explorar as principais utilidades da plataforma de IAHugging Face. Aprenderemos
como utilizar a plataforma ao máximo, e como incorporar as bibliotecas de Python do Hugging Face
aos nossos scripts de Python.
Afinal, o que é Hugging Face?
A Hugging Face é uma empresa que iniciou em 2017 na França, com o desenvolvimento de Chatbots.



O Hugging Face cobra apenas se você quiser utilizar a infraestrutura deles para hospedar algum
projeto privado pessoal ou da sua empresa.
Como usaremos o Hugging Face?
Neste curso, vamos explorar todo o potencial que existe na plataforma do Hugging Face. Isso inclui
entender como acessar os modelos, conjuntos de dados, e aplicativos (os chamados “Spaces”) que
estão na plataforma. (Note que vamos usar bastante o termo “modelos” , que é um pouco mais técnico
que IAs.)



Explorando o Universo das IAs com Hugging Fa

### FAISS VectorStore

In [19]:
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

path = 'assets/Explorando o Universo das IAs com Hugging Face.pdf'
loader = PyPDFLoader(path)
paginas = loader.load()

recur_split = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=['\n\n', '\n', '.', ' ', '']
)

documents = recur_split.split_documents(paginas)

In [20]:
from langchain_openai import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings()

In [22]:
from langchain_community.vectorstores.faiss import FAISS

vectorstore = FAISS.from_documents(
    documents=documents,
    embedding=embeddings_model
)

In [23]:
pergunta = 'O que é o HuggingFace?'

docs = vectorstore.similarity_search(pergunta, k=5)
len(docs)

5

In [24]:
for doc in docs:
    print(f'{doc.page_content}\n')
    print(f'========== {doc.metadata}\n\n')

Explorando o Universo das IAs com Hugging Face
01. O que é Hugging Face?
Bem-vindos ao curso de Hugging Face da Asimov Academy!
Neste curso, vamos explorar as principais utilidades da plataforma de IAHugging Face. Aprenderemos
como utilizar a plataforma ao máximo, e como incorporar as bibliotecas de Python do Hugging Face
aos nossos scripts de Python.
Afinal, o que é Hugging Face?
A Hugging Face é uma empresa que iniciou em 2017 na França, com o desenvolvimento de Chatbots.



O Hugging Face cobra apenas se você quiser utilizar a infraestrutura deles para hospedar algum
projeto privado pessoal ou da sua empresa.
Como usaremos o Hugging Face?
Neste curso, vamos explorar todo o potencial que existe na plataforma do Hugging Face. Isso inclui
entender como acessar os modelos, conjuntos de dados, e aplicativos (os chamados “Spaces”) que
estão na plataforma. (Note que vamos usar bastante o termo “modelos” , que é um pouco mais técnico
que IAs.)



Explorando o Universo das IAs com Hugging Fa

### Salvando DB FAISS

In [25]:
vectorstore.save_local('docs/faiss_db')

### Importando DB FAISS

In [26]:
vectorstore = FAISS.load_local(
    'docs/faiss_db',
    embeddings=embeddings_model,
    allow_dangerous_deserialization=True
)