## Projeto: Implementação de Chatbot com GPT-4 e RAG no Itaú

### Resumo
No Itaú, desenvolvemos uma POC para implementação de chatbots utilizando integração com o GPT-4, com foco em Product Engineering. O objetivo foi explorar o potencial de modelos de *Large Language Models* (LLMs) e capacitar o Itaú em técnicas avançadas de engenharia de produto.

A solução foi baseada na técnica de *Retrieval-Augmented Generation* (RAG), que combina recuperação de informações com geração de texto. Criamos uma aplicação web que permitia a leitura de PDFs, extração de informações relevantes e resposta a perguntas específicas com contexto enriquecido.

![image.png](attachment:75d04523-251d-4cc6-ab27-22f587480e90.png)

### Abordagem Técnica
1. **Pipeline RAG (Retrieval-Augmented Generation):**
   - **Leitura e Processamento de PDFs:**
     - O conteúdo dos PDFs era dividido em *chunks* (parágrafos).
   - **Banco de Dados Vetorial:**
     - Transformamos os textos em vetores utilizando embeddings (*word embeddings*), que capturam relações semânticas entre palavras.
   - **Cálculo de Similaridade:**
     - Aplicamos métricas de distância (e.g., *cosine similarity*) para identificar os trechos mais relevantes com base na pergunta do usuário.
   - **Enriquecimento de Contexto:**
     - Realizamos *prompt engineering*, adicionando sinônimos e trechos relevantes ao prompt enviado ao GPT-4.
   - **Fine-Tuning:**
     - Fizemos o ajuste fino do GPT-4 utilizando os próprios documentos, aumentando a precisão das respostas.

2. **Tecnologias Utilizadas:**
   - **Linguagem:** Python
   - **Modelo de LLM:** GPT-4
   - **Frameworks e Bibliotecas:**
     - `FastAPI` para construção da API
     - `SentenceTransformers` para embeddings
     - `Pinecone` (ou similar) como banco vetorial
     - `NumPy` e `scikit-learn` para cálculos de similaridade
   - **Infraestrutura:**
     - AWS para hospedagem
     - Containerização com Docker
     - Orquestração de Deploy usando ECS (Amazon Elastic Container Service)

3. **Deploy da Solução:**
   - Criamos um container Docker contendo a aplicação FastAPI.
   - Subimos o container na AWS utilizando o ECS.
   - Configuramos *load balancing* e escalabilidade para suportar múltiplas requisições simultâneas.
   - Integramos com o GPT-4 via API para geração de respostas.

### Fluxo Geral da Solução
1. Usuário faz upload de um PDF ou fornece uma URL.
2. O PDF é processado e armazenado em um banco vetorial.
3. Usuário faz uma pergunta sobre o conteúdo do PDF.
4. O algoritmo RAG identifica os trechos mais relevantes no banco vetorial.
5. O GPT-4 recebe o contexto enriquecido e gera uma resposta.
6. A resposta é retornada ao usuário via API.

### Contribuições Pessoais
- Desenvolvi o pipeline RAG no *back-end*, desde a ingestão de PDFs até o cálculo de similaridade e geração de respostas.
- Implantei a aplicação na AWS, configurando o ambiente e garantindo a escalabilidade.
- Realizei ajustes no *prompt engineering* para melhorar a precisão do chatbot.
- Containerizei a aplicação usando Docker e implementei o deploy no ECS.

### Resultados
A POC demonstrou a viabilidade de utilizar LLMs em conjunto com bancos de dados vetoriais para responder a perguntas específicas com alto grau de precisão, fornecendo um framework escalável e adaptável para projetos futuros no Itaú.


### RAG

![image.png](attachment:b5c0935a-a6f1-474b-b347-b291fb3f5d6b.png)

### Fine-tuning

![image.png](attachment:8a010999-df63-427c-9de2-b0d6e3747d9f.png)