# Retrival

In [2]:
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [4]:
caminhos = [
    "arquivos/Explorando o Universo das IAs com Hugging Face.pdf",
    "arquivos/Explorando a API da OpenAI.pdf",
    "arquivos/Explorando a API da OpenAI.pdf"
]

paginas = []

for caminho in caminhos:
    loader = PyPDFLoader(caminho)
    paginas.extend(loader.load())

recur_split = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n", "\n", ".", " ", ""]
)

documents = recur_split.split_documents(paginas)

### Update Metadata

In [5]:
for i, doc in enumerate(documents):
    doc.metadata['source'] = doc.metadata['source'].replace('arquivos/', '')
    doc.metadata['doc_id'] = i

In [6]:
documents[0].metadata

{'source': 'Explorando o Universo das IAs com Hugging Face.pdf',
 'page': 0,
 'doc_id': 0}

In [7]:
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores.chroma import Chroma

embeddings_model = OpenAIEmbeddings()

# Create VectorStore

In [8]:
diretorio = 'tmp/chroma_retrieval'

vectordb = Chroma.from_documents(
    documents=documents,
    embedding=embeddings_model,
    persist_directory=diretorio
)

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given


### Semantic Search

In [9]:
pergunta = 'O que é a OpenAI?'

docs = vectordb.similarity_search(pergunta, k=3)

for doc in docs:
    print(doc.page_content)
    print(f'---------{doc.metadata}\n\n')

Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given


Explorando a API da OpenAI
01. Bem-vindos ao curso Explorando a API da OpenAI
Olá e bem-vindos ao nosso curso “Explorando a API da OpenAI”! Estou super animado por ter vocês
aqui e mal posso esperar para explorarmos juntos esse universo fascinante da programação e da
inteligência artificial.
Vocês já devem ter percebido que a IA está mudando o jogo em muitos campos, certo? É incrível como
ela está transformando a maneira como lidamos com informações e realiza tarefas que antes pareciam
---------{'doc_id': 283, 'page': 4, 'source': 'Explorando a API da OpenAI.pdf'}


Explorando a API da OpenAI
01. Bem-vindos ao curso Explorando a API da OpenAI
Olá e bem-vindos ao nosso curso “Explorando a API da OpenAI”! Estou super animado por ter vocês
aqui e mal posso esperar para explorarmos juntos esse universo fascinante da programação e da
inteligência artificial.
Vocês já devem ter percebido que a IA está mudando o jogo em muitos campos, certo? É incrível como
ela está transformando a maneira co

In [12]:
pergunta = 'O que a postila de Hugging Face fala sobre a OpenAI e o ChatGPT?'

docs = vectordb.similarity_search(pergunta, k=3)

for doc in docs:
    print(doc.page_content)
    print(f'---------{doc.metadata}\n\n')

Explorando o Universo das IAs com Hugging Face
06. Modelos de conversação e geração de texto (chatbots)
Vamos aprender agora a usar modelos de conversação, que funcionam de forma parecida com chatbots
como ChatGPT . Na realidade, estes modelos estão classificados na tarefa de geração de texto (text
generation) no Hugging Face:
Figure 16: Página principal da tarefatext-generation do Hugging Face.
Vamos utilizar o modelo Felladrin/Llama-68M-Chat-v1, disponível no link a seguir:
---------{'doc_id': 86, 'page': 29, 'source': 'Explorando o Universo das IAs com Hugging Face.pdf'}


Explorando a API da OpenAI
A OpenAI
Nosso objetivo é explorar a API da OpenAI, a maior desenvolvedora de ferramentas de inteligência
artificial do mundo na atualidade. O modelo ChatGPT é apenas um dos vários modelos criados pela
empresa nos últimos anos. A seguir, apresentamos alguns dos principais modelos e suas funções:
• GPT-4: Trata-se de um modelo de linguagem de grande escala (LLM) multimodal, que aceita
---

### MMR

In [13]:
pergunta = 'O que é a OpenAI?'

docs = vectordb.max_marginal_relevance_search(pergunta, k=3, fetch_k=10)

for doc in docs:
    print(doc.page_content)
    print(f'---------{doc.metadata}\n\n')

Explorando a API da OpenAI
01. Bem-vindos ao curso Explorando a API da OpenAI
Olá e bem-vindos ao nosso curso “Explorando a API da OpenAI”! Estou super animado por ter vocês
aqui e mal posso esperar para explorarmos juntos esse universo fascinante da programação e da
inteligência artificial.
Vocês já devem ter percebido que a IA está mudando o jogo em muitos campos, certo? É incrível como
ela está transformando a maneira como lidamos com informações e realiza tarefas que antes pareciam
---------{'doc_id': 283, 'page': 4, 'source': 'Explorando a API da OpenAI.pdf'}


Explorando a API da OpenAI
Guias
Também está disponível diversos guias de boas práticas recomendadas ao utilizar os modelos da
OpenAI.
Asimov Academy 9
---------{'doc_id': 299, 'page': 9, 'source': 'Explorando a API da OpenAI.pdf'}


Explorando a API da OpenAI
A OpenAI
Nosso objetivo é explorar a API da OpenAI, a maior desenvolvedora de ferramentas de inteligência
artificial do mundo na atualidade. O modelo ChatGPT é apenas

# Filter

In [16]:
pergunta = 'O que a postila de Hugging Face fala sobre a OpenAI e o ChatGPT?'

docs = vectordb.max_marginal_relevance_search(
    pergunta, 
    k=3, 
    filter={'source': 'Explorando o Universo das IAs com Hugging Face.pdf'}
)

for doc in docs:
    print(doc.page_content)
    print(f'---------{doc.metadata}\n\n')

Explorando o Universo das IAs com Hugging Face
06. Modelos de conversação e geração de texto (chatbots)
Vamos aprender agora a usar modelos de conversação, que funcionam de forma parecida com chatbots
como ChatGPT . Na realidade, estes modelos estão classificados na tarefa de geração de texto (text
generation) no Hugging Face:
Figure 16: Página principal da tarefatext-generation do Hugging Face.
Vamos utilizar o modelo Felladrin/Llama-68M-Chat-v1, disponível no link a seguir:
---------{'doc_id': 86, 'page': 29, 'source': 'Explorando o Universo das IAs com Hugging Face.pdf'}


Explorando o Universo das IAs com Hugging Face
Conteúdo
01. O que é Hugging Face? 5
Afinal, o que é Hugging Face? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
É tudo aberto mesmo? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
Como usaremos o Hugging Face? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
02. A plataforma Hugging Face 7
---------{'d

# LLM Aided Retrieval

In [17]:
from langchain_openai.llms import OpenAI
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chains.query_constructor.schema import AttributeInfo

In [20]:
metadata_info = [
    AttributeInfo(
        name='source',
        description='Nome da apostila de onde o texto orginal foi retirado. Deve ter o valor de : \
            Explorando o Universo das IAs com Hugging Face.pdf ou Explorando a API da OpenAI.pdf',
        type='string'
    ),
    AttributeInfo(
        name='page',
        description='A página da apostila de onde o texto se origina',
        type='integer'
    )
]

In [22]:
document_description = 'Apostilas de cursos'

llm = OpenAI()

retriver = SelfQueryRetriever.from_llm(
    llm,
    vectordb,
    document_description,
    metadata_info,
    verbose=True
)

In [24]:
pergunta = 'O que a postila de Hugging Face fala sobre a OpenAI e o ChatGPT?'

docs = retriver.get_relevant_documents(pergunta)

for doc in docs:
    print(doc.page_content)
    print(f'---------{doc.metadata}\n\n')

  docs = retriver.get_relevant_documents(pergunta)


Explorando o Universo das IAs com Hugging Face
06. Modelos de conversação e geração de texto (chatbots)
Vamos aprender agora a usar modelos de conversação, que funcionam de forma parecida com chatbots
como ChatGPT . Na realidade, estes modelos estão classificados na tarefa de geração de texto (text
generation) no Hugging Face:
Figure 16: Página principal da tarefatext-generation do Hugging Face.
Vamos utilizar o modelo Felladrin/Llama-68M-Chat-v1, disponível no link a seguir:
---------{'doc_id': 86, 'page': 29, 'source': 'Explorando o Universo das IAs com Hugging Face.pdf'}


from transformers import AutoTokenizer
chat = [
{"role": "user", "content": "Olá, qual o seu nome?"},
{"role": "assistant", "content": "Olá, eu sou um modelo de AI. Como posso ajudar?"},
{"role": "user", "content": "Gostaria de aprender Python. Você tem alguma dica?"},
]
tokenizer_mixtral = AutoTokenizer.from_pretrained( 'mistralai/Mixtral-8x7B-Instruct-v0.1')
template_mixtral = tokenizer_mixtral.apply_chat_templa