

### Arquitetura da Solução

**Componentes Principais:**
1. **Coleta de Dados (dataprep.py)**:
   - **API da Câmara dos Deputados**: Obtenção de dados via API pública.
   - **Arquivo .env**: Armazenamento da chave Gemini para autenticação.
   - **Processadores de Dados**: Sumarização de textos, análise de sentimentos, marcação de palavras-chave, e vetorização.

2. **Armazenamento de Dados**:
   - **Parquet Files**: Para dados tabulares processados.
   - **JSON Files**: Para sumários e metadados.
   - **FAISS Index**: Para buscas eficientes em grandes volumes de vetores de texto.
   - **YAML Files**: Para configurações e metadados do sistema.

3. **Dashboard (dashboard.py)**:
   - **Abas de Visualização**:
     - **Resumo das Proposições**: Exibe sumários e análises de sentimentos.
     - **Análise de Sentimentos**: Mostra gráficos e distribuições de sentimentos.
     - **Pesquisa Vetorial**: Interface para consulta aos índices FAISS.
   - **Funcionalidades Interativas**: Permite consultas textuais com respostas geradas por LLMs.

4. **Modelos de Linguagem de Larga Escala (LLMs)**:
   - **Sumarização**: Uso de LLMs para condensar informações detalhadas em textos mais concisos.
   - **Geração de Respostas**: Uso de LLMs para responder a consultas dos usuários de maneira inteligente e contextual.

### Descrição da Arquitetura

A solução é dividida em duas partes principais: **dataprep.py** para preparação dos dados e **dashboard.py** para visualização e interação. O fluxo começa com a coleta de dados da API da Câmara dos Deputados, passando por processos de sumarização, análise de sentimentos, e vetorização, com os dados sendo armazenados em formatos apropriados para acesso rápido e eficiente. O dashboard serve como a face interativa da solução, permitindo que os usuários visualizem e interajam com os dados processados, utilizando LLMs para geração de respostas e sumarizações adicionais.

### Funcionamento dos LLMs para Sumarização

LLMs, como GPT-3 ou modelos similares, são treinados em vastos conjuntos de dados textuais e são capazes de gerar, traduzir, resumir e personalizar textos de maneira coesa e coerente. Para sumarização, o modelo recebe um texto longo e, com base no seu treinamento, produz uma versão mais curta que mantém as informações principais do original. Isso é útil para condensar discursos longos, documentos e proposições em resumos informativos e fáceis de ler.


In [2]:
from fpdf import FPDF

# Criando uma instância da classe FPDF e definindo orientação, unidade e formato
pdf = FPDF(orientation='P', unit='mm', format='A4')

# Adicionando uma página ao PDF
pdf.add_page()

# Definindo uma fonte para o texto
pdf.set_font("Arial", size=12)

# Adicionando o título
pdf.cell(200, 10, txt="Arquitetura do Projeto de Processamento de Dados da Câmara dos Deputados", ln=True, align='C')

# Adicionando sub-títulos e descrições da arquitetura
pdf.cell(200, 10, ln=True)
pdf.cell(200, 10, txt="1. Coleta de Dados (dataprep.py)", ln=True)
pdf.cell(200, 10, txt="   - API da Câmara dos Deputados", ln=True)
pdf.cell(200, 10, txt="   - Arquivo .env para chave Gemini", ln=True)
pdf.cell(200, 10, txt="   - Processadores de dados: Sumarização, análise de sentimentos, marcação de palavras-chave", ln=True)
pdf.cell(200, 10, txt="   - Vetorização para bases de referência", ln=True)

pdf.cell(200, 10, txt="2. Armazenamento de Dados", ln=True)
pdf.cell(200, 10, txt="   - Parquet para dados tabulares", ln=True)
pdf.cell(200, 10, txt="   - JSON para sumários e metadados", ln=True)
pdf.cell(200, 10, txt="   - FAISS Index para buscas vetoriais", ln=True)
pdf.cell(200, 10, txt="   - YAML para configurações", ln=True)

pdf.cell(200, 10, txt="3. Dashboard (dashboard.py)", ln=True)
pdf.cell(200, 10, txt="   - Abas de Visualização: Resumos, Análise de Sentimentos, Pesquisa Vetorial", ln=True)
pdf.cell(200, 10, txt="   - Funcionalidades interativas e uso de LLMs", ln=True)

pdf.cell(200, 10, txt="4. Modelos de Linguagem de Larga Escala (LLMs)", ln=True)
pdf.cell(200, 10, txt="   - Sumarização e geração de respostas", ln=True)

# Salvando o PDF em um arquivo
file_path = "D:\Pastas\Infnet\Infnet - 2024.2\Engenharia de Prompts\AT\documentacao_arquitetura.pdf"
pdf.output(name=file_path, dest='F').encode('latin1')

file_path

'D:\\Pastas\\Infnet\\Infnet - 2024.2\\Engenharia de Prompts\\AT\\documentacao_arquitetura.pdf'