In [8]:
import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()

## Retrieval Augmented Generation (RAG)

### Carregando Documentos - Loading

In [4]:
# https://python.langchain.com/v0.2/docs/how_to/#document-loaders
# https://python.langchain.com/v0.2/docs/integrations/document_loaders/

import bs4
from langchain_community.document_loaders import WebBaseLoader

# Filtra o conte√∫do da p√°gina por uma classe espec√≠fica
bs4_strainer = bs4.SoupStrainer(class_=("container-wrapper"))

# Carrega o conte√∫do da p√°gina
loader = WebBaseLoader(
    web_paths=("https://cesar.breezy.hr/p/00f79174d8ad-pesquisador-em-inteligencia-artificial-e-sistemas-distribuidos",),
    bs_kwargs={"parse_only": bs4_strainer},
)

# Carrega o conte√∫do da p√°gina
docs = loader.load()

len(docs[0].page_content)

USER_AGENT environment variable not set, consider setting it to identify your requests.


4301

### Dividindo Documentos - Splitting/Chunking

In [5]:
# https://python.langchain.com/v0.2/docs/how_to/#text-splitters

from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=500, add_start_index=True
)
all_splits = text_splitter.split_documents(docs)

len(all_splits)

6

In [6]:
print(all_splits[3].page_content)

Requisitos e Qualifica√ß√µes:
Doutorado em √°reas correlatas;Compreenda e desenvolva modelos de machine learning e deep learning para resolver desafios complexos de ciberseguran√ßa;Conhecimento em frameworks de machine learning como TensorFlow, PyTorch ou scikit-learn para desenvolver modelos preditivos e de detec√ß√£o de anomalias aplicados √† ciberseguran√ßa;Entenda a arquitetura distribu√≠da dos sistemas e garanta a integra√ß√£o eficiente de solu√ß√µes de IA com aplica√ß√µes em cloud;Habilidade em manipula√ß√£o e visualiza√ß√£o de dados com Pandas, NumPy, Matplotlib e Seaborn para explorar grandes volumes de dados;Experi√™ncia com AWS, Google Cloud ou Azure para projetar e implementar infraestruturas escal√°veis e resilientes;Familiaridade com Kubernetes e Docker para garantir escalabilidade e resili√™ncia de sistemas distribu√≠dos;Experi√™ncia com controle de vers√£o (Git) e reposit√≥rios remotos como GitLab;Ingl√™s avan√ßado para leitura, escrita e comunica√ß√£o, facilitando a col

### Indexando - Store

In [10]:
# https://python.langchain.com/v0.2/docs/how_to/embed_text/

from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

vectorstore = FAISS.from_documents(all_splits, OpenAIEmbeddings())

In [11]:
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6})

retrieved_docs = retriever.invoke("precisa de doutorado para a vaga?")

len(retrieved_docs)

6

In [12]:
print(retrieved_docs[0].page_content)

Requisitos e Qualifica√ß√µes:
Doutorado em √°reas correlatas;Compreenda e desenvolva modelos de machine learning e deep learning para resolver desafios complexos de ciberseguran√ßa;Conhecimento em frameworks de machine learning como TensorFlow, PyTorch ou scikit-learn para desenvolver modelos preditivos e de detec√ß√£o de anomalias aplicados √† ciberseguran√ßa;Entenda a arquitetura distribu√≠da dos sistemas e garanta a integra√ß√£o eficiente de solu√ß√µes de IA com aplica√ß√µes em cloud;Habilidade em manipula√ß√£o e visualiza√ß√£o de dados com Pandas, NumPy, Matplotlib e Seaborn para explorar grandes volumes de dados;Experi√™ncia com AWS, Google Cloud ou Azure para projetar e implementar infraestruturas escal√°veis e resilientes;Familiaridade com Kubernetes e Docker para garantir escalabilidade e resili√™ncia de sistemas distribu√≠dos;Experi√™ncia com controle de vers√£o (Git) e reposit√≥rios remotos como GitLab;Ingl√™s avan√ßado para leitura, escrita e comunica√ß√£o, facilitando a col

### Buscando e Recuperando Informa√ß√µes - Retrieve

In [13]:
from langchain_core.prompts import ChatPromptTemplate

system_template = """Voc√™ √© um assistente para tarefas de perguntas e respostas. Use os seguintes trechos de contexto recuperados para responder √† pergunta. Se voc√™ n√£o souber a resposta, apenas diga que n√£o sabe. Use no m√°ximo duas frases e mantenha a resposta concisa e fale apenas o necess√°rio.

Pergunta: {question}

Contexto: {context}

Resposta:
"""

prompt_template = ChatPromptTemplate.from_template(system_template)

In [14]:
example_messages = prompt_template.invoke({
    "context": "algum contexto",
    "question": "alguma pergunta"
})

print(example_messages.to_messages())

[HumanMessage(content='Voc√™ √© um assistente para tarefas de perguntas e respostas. Use os seguintes trechos de contexto recuperados para responder √† pergunta. Se voc√™ n√£o souber a resposta, apenas diga que n√£o sabe. Use no m√°ximo duas frases e mantenha a resposta concisa e fale apenas o necess√°rio.\n\nPergunta: alguma pergunta\n\nContexto: algum contexto\n\nResposta:\n', additional_kwargs={}, response_metadata={})]


### Gerando Respostas - Generate

In [15]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")

In [16]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt_template
    | llm
    | StrOutputParser()
)

In [17]:
for chunk in rag_chain.stream("Tem plano de sa√∫de como benef√≠cio?"):
    print(chunk, end="", flush=True)

Sim, o CESAR oferece plano de sa√∫de como um dos benef√≠cios para os colaboradores. Al√©m disso, h√° tamb√©m plano odontol√≥gico e outros aux√≠lios.

## Exerc√≠cios

### Exerc√≠cio 1
Fa√ßa um RAG com um pequeno arquivo de texto, contendo informa√ß√µes que, certamente, a LLM n√£o conhe√ßa. Voc√™ dever√° construir o arquivo e enviar para o ambiente de execu√ß√£o. Escolha a forma de chunking apropriada para o seu documento.

In [27]:
import requests
from bs4 import BeautifulSoup
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.schema import Document

url = 'https://strateegia.digital'
response = requests.get(url)
html_content = response.text

soup = BeautifulSoup(html_content, 'html.parser')
data = [p.get_text() for p in soup.find_all('p')]

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=200, add_start_index=True
)
all_splits = text_splitter.split_documents([Document(page_content=str(data))])


vectorstore = FAISS.from_documents(all_splits, OpenAIEmbeddings())
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6})

system_template = """Voc√™ √© um bot de ajuda sobre a plataforma strateegia. Responda as perguntas do usu√°rio de maneira amig√°vel e se mantendo apenas sobre a plataforma..

Pergunta: {question}

Contexto: {context}

Resposta:
"""

prompt_template = ChatPromptTemplate.from_template(system_template)
llm = ChatOpenAI(model="gpt-4o-mini")
rag_chain = (
     {"context": retriever, "question": RunnablePassthrough()}
    | prompt_template
    | llm
    | StrOutputParser()
)
for chunk in rag_chain.stream("Quais s√£o as principais funcionalidades do Strateegia?"):
    print(chunk, end="", flush=True)


O Strateegia possui diversas funcionalidades que visam otimizar a tomada de decis√£o e a inova√ß√£o em comunidades colaborativas. Aqui est√£o algumas das principais:

1. **Debates com Agentes Inteligentes**: A plataforma permite que pessoas debatam com agentes inteligentes (IA), facilitando discuss√µes enriquecedoras e trazendo novas perspectivas.

2. **Assistentes Inteligentes**: Utilize assistentes executivos, mentores e especialistas de diferentes √°reas para obter insights valiosos e aplicar esses conhecimentos em seus projetos.

3. **Modo An√¥nimo Tempor√°rio**: Ative essa funcionalidade para que todos os participantes se sintam √† vontade para expressar opini√µes e discordar, promovendo uma cultura de inova√ß√£o.

4. **An√°lises Multidimensionais**: Os assistentes de IA analisam os debates, resumem conte√∫dos e destacam propostas-chave, ajudando a potencializar suas decis√µes com an√°lises precisas.

5. **Documentos Prontos para Publica√ß√£o**: Transforme os resultados dos debate