## AT - Engenharia de Prompts para Ciência de Dados [24E4_4]

**Rafael Soares de Oliveira**

Infnet - Ciência de Dados | Dezembro 2024

https://lms.infnet.edu.br/moodle/mod/assign/view.php?id=413838

> 💡 **Repositório GitHub:** https://github.com/RafaelOlivra/infnet-at-engenharia-de-prompts


---

### Exercício 1: Arquitetura da Solução

Desenvolva um prompt que utilize few-shot learning para classificar comentários como “Positivos”, “Neutros” ou “Negativos”. Inclua três exemplos de cada categoria no prompt e solicite ao LLM que classifique a frase "Este episódio é divertido, mas não tão bom quanto os antigos.". Interprete o resultado.

Desenhe a arquitetura da solução com o programa da sua escolha. A arquitetura deve indicar os pontos de processamento de informação, LLMs utilizados, bases de dados (parquets, jsons e faiss), arquivos de configuração (yaml), abas do dashboard e suas funcionalidades.

-   Exporte a arquitetura para o arquivo pdf importado no sistema.
-   Descreva a arquitetura, explicando seus pontos importantes.
-   Descreva o funcionamento de LLMs e como isso pode ser utilizado para atividades de sumarização.


![Diagrama](./images/exec1-diagrama-aplicacao.jpg)

> 📝 O dashboard utiliza dados extraídos da API da Câmara dos Deputados (https://dadosabertos.camara.leg.br/api/v2/). Esses dados são processados no arquivo dataprep.py, onde ocorre a geração, sumarização e indexação de conteúdo com o auxílio do LLM Gemini e do vetorizador FAISS. Após o processamento, os dados são exportados nos formatos .parquet e .json.
>
> No arquivo dashboard.py, foi desenvolvido um aplicativo Streamlit com três abas principais: Overview, Despesas e Proposições. Essas abas utilizam os dados previamente preparados para criar uma interface interativa que facilita a visualização das informações.
> 
> Na aba Proposições, há também uma interface de chat integrada com o LLM Gemini. Essa funcionalidade permite que o usuário faça perguntas e obtenha insights sobre os dados processados, utilizando um sistema RAG (Retrieval-Augmented Generation).

> 📝 Large Language Models (LLMs) são modelos de inteligência artificial treinados em grandes volumes de texto para entender e gerar linguagem natural. Eles utilizam mecanismos como atenção para identificar as partes mais relevantes de um texto, tornando-se ideais para tarefas como geração de conteúdo e sumarização.
>
> Na geração de texto, os LLMs podem criar conteúdos originais, como respostas em chats, artigos ou relatórios, adaptando-se ao contexto e até podendo gerar textos com base em um estilo desejado.
Na sumarização, os LLMs condensam textos extensos, destacando informações importantes ou ainda reformulando o conteúdo de forma mais clara. Isso é útil em aplicações como dashboards e chats, onde resumos e textos personalizados facilitam a análise, a comunicação e a tomada de decisões.

---

### Exercício 2: Criação de Textos com LLMs

Utilize a sua conta no “poe.com” para gerar um texto curto (2 parágrafos) que explique a Câmara dos Deputados. Execute o mesmo prompt com 3 LLMs diferentes (claude, gemini e chatgpt) e:

-   Explique as vantagens e desvantagens dos três LLMs escolhidos.
-   Argumente sobre a diferença entre a resposta dos 3 LLMs
-   Justifique a escolha da resposta final

-   Atualize o prompt do LLM final para gerar um arquivo data/config.yaml com a resposta final (chave: overview_summary).


**Claude**


![Claude](./images/exec2-a.png)


**Gemini**


![Gemini](./images/exec2-b.png)


**Chat GPT**


![ChatGPT](./images/exec2-c.png)


> 📝 O ChatGPT, desenvolvido pela OpenAI, é atualmente a principal escolha para tarefas cotidianas, como ajuda na redação de textos, correções e esclarecimento de dúvidas básicas. Ele possui um entendimento amplo sobre uma vasta gama de tópicos, gerando textos coerentes e com naturalidade impressionante. Baseado na arquitetura GPT-4, o ChatGPT é uma ferramenta poderosa. No entanto, apesar de todos esses avanços, ainda pode produzir respostas incorretas ou enviesadas dependendo do prompt utilizado. Além disso, seu custo é mais elevado em comparação com concorrentes.
>
> O Gemini, desenvolvido pela Google, destaca-se por produzir respostas concisas e seguras, contando com diversos filtros para bloquear conteúdos inadequados. Projetado para minimizar vieses em suas respostas, o Gemini também se diferencia por sua arquitetura multimodal, permitindo combinar texto, imagens e outros formatos de dados de maneira integrada. Uma desvantagem relevante é a forma como os dados fornecidos pelos usuários podem ser utilizados, já que a Google declara que essas informações podem ser usadas para melhorar seus produtos e serviços, o que, em alguns casos, levanta preocupações sobre invasão de privacidade.
>
> O Claude, criado pela Anthropic, é outro chatbot projetado com foco em segurança e princípios éticos incorporados. Ele se adapta bem a contextos mais específicos e, até o momento, oferece modelos com custos mais acessíveis (Dependendo do modelo), entregando um bom custo-benefício. No entanto, uma limitação do Claude é a menor presença de sua comunidade no conteúdo em português, o que pode representar uma desvantagem em soluções voltadas para o mercado local.

> 📝 A resposta do Claude foi um pouco mais breve do que o esperado, deixando a desejar em alguns aspectos. Já as respostas do Gemini e do ChatGPT foram bastante similares, tanto no formato quanto no conteúdo, que foi satisfatório em ambos os casos.

> 📝 Optei por seguir com a resposta do ChatGPT por considerá-la mais concisa.


![Geração de Yaml](./images/exec2-d.png)


---

### Exercício 3: Processamento dos dados de deputados

Implemente em dataprep.py uma função que faça a coleta das informações dos deputados atuais da câmara dos deputados:

-   Colete e salve os dados dos deputados atuais da câmara no arquivo data/deputados.parquet através da url: url_base+/deputados
-   Executar prompt para criar o código que gere um gráfico de pizza com o total e o percentual de deputados de cada partido, salvo em 'docs/distribuicao_deputados.png
-   Executar prompt utilizando os resultados da análise anterior (distribuição de deputados por partido) para gerar insights sobre a distribuição de partidos e como isso influencia a câmara. Utilize os elementos de prompts dados, persona e exemplos para instruir o LLM. Explique o objetivo de cada elemento, avalie a resposta e salve-a em data/insights_distribuicao_deputados.json.


> 📝 A resposta se encontra em `dataprep.py`


---

### Exercício 4: Processamento dos dados de despesas

Implemente em dataprep.py uma função que colete as informações das despesas dos deputados atuais da câmara dos deputados no período de referência da solução (use a url: url_base+/deputados/{id}/despesas).

-   Agrupe os dados de despesas por dia, deputado e tipo de despesa e salve num arquivo parquet (data/serie_despesas_diárias_deputados.parquet).
-   Utilizando a técnica de prompt-chaining, crie um prompt que instrua o LLM a gerar um código python que analise os dados das despesas dos deputados. Peça para o LLM até 3 análises. Indique ao LLM quais dados estão disponíveis e o respectivo arquivo (salvo em a)) e execute as análises.
-   Utilize os resultados das 3 análises para criar um prompt usando a técnica de Generated Knowledge para instruir o LLM a gerar insights. Salve o resultado como um JSON (data/insights_despesas_deputados.json).


> 📝 A resposta se encontra em `dataprep.py`


---

### Exercício 5: Processamento dos dados de proposições

Implemente em dataprep.py uma função que faça a coleta das informações das proposições que tramitam no período de referência (dataInicio e dataFim) e são do tema 'Economia', 'Educação' e 'Ciência, Tecnologia e Inovação' (códigos [40, 46, 62]).

-   Coletar um total de 10 proposiçoes por tema e salvar em data/proposicoes_deputados.parquet
-   Utilize a sumarização por chunks para resumir as proposições tramitadas no período de referência. Avalie a resposta e salve-a em data/sumarizacao_proposicoes.json


> 📝 A resposta se encontra em `dataprep.py`


---

### Exercício 6: Dashboards com Chain-of-thoughts

Utilize 3 etapas de Chain-of-Thought prompting para escrever o código inicial do dashboard, destacando as abas Overview, Despesas e Proposições. Explique o objetivo de cada prompt na evolução do código até o arquivo dashboard.py final:

-   A aba Overview deve possuir um título e descrição da solução de sua escolha.
-   O painel deve mostrar o texto sumarizado em config.yaml
-   O painel deve mostrar o gráfico de barras em docs/distribuicao_deputados.png
-   O painel deve mostrar os insights do LLM sobre a distribuição de deputados em data/insights_distribuicao_deputados.json


> 📝 Os códigos se encontram em `dataprep.py` e `dashboard.py`.
>
> No primeiro prompt, a ideia foi criar o arquivo inicial com um esqueleto geral de como tudo deveria ser organizado, já incluindo o título e o sumário gerado anteriormente.
>
> No segundo prompt, eu estava interessado apenas no código para exibir a imagem do gráfico, então informei ao LLM sobre a existência do dashboard anterior, para que o foco fosse exclusivamente na inclusão dessa imagem.
>
> O último prompt seguiu uma lógica semelhante à do anterior, mas com foco em exibir os insights salvos.


---

### Exercício 7: Dashboards com Batch-prompting

Utilize a técnica de Batch-prompting para escrever o código streamlit que preencha as abas Despesas e Proposições do código em dashboard.py. O prompt deve descrever com detalhes cada aba para geração de:

-   Aba Despesas deve mostrar os insights sobre as despesas dos deputados (data/insights_despesas_deputados.json)
-   Aba Despesas deve conter um st.selectbox para seleção do deputado.
-   Aba Despesas deve mostrar gráfico de barras com a série temporal de despesas do deputado selecionado (data/serie_despesas_diárias_deputados.parquet).
-   O painel deve mostrar uma tabela com os dados das proposições (data/proposicoes_deputados.parquet)
-   O painel deve mostrar o resumo das proposições em (data/sumarizacao_proposicoes.json)
-   Compare o resultado dos códigos gerados pelas técnicas de Chain-of-Thoughts e Batch-prompting.


> 📝 Os códigos se encontram em `dataprep.py` e `dashboard.py`.
>
> Acredito que essa técnica seja superior ao COT (pelo menos neste caso), pois considero que a LLM tenha mais contexto para gerar um código mais eficiente e que se conecte melhor. No COT, é necessário ficar relembrando a LLM sobre o que já foi feito e dar dicas do que não refazer, evitando processamento desnecessário. \
> No batch, fica mais fácil fazer ajustes finos no prompt final sem se preocupar que isso afete os prompts seguintes.
> Por outro lado, acredito que o batch prompting requeira mais processamento e possa exaurir a memória da LLM se feito de forma exagerada. \
> Em termos de funcionalidade, as duas técnicas geraram um código final que funcionou.


---

### Exercício 8: Dashboards com Batch-prompting

Adicione ao código da aba Proposições uma interface para chat com um assistente virtual especialista em câmara dos deputados. As informações coletadas dos deputados, despesas e proposições (e suas sumarizações) devem ser vetorizadas usando o modelo "neuralmind/bert-base-portuguese-cased" para armazenamento na base vetorial FAISS. O prompt do sistema para o assistente virtual deve ser feito com a técnica Self-Ask:

-   Explique como a técnica de self-ask pode ser utilizada nesse contexto.
-   Avalie o resultado do modelo para as seguintes perguntas:
    -   Qual é o partido político com mais deputados na câmara?
    -   Qual é o deputado com mais despesas na câmara?
    -   Qual é o tipo de despesa mais declarada pelos deputados da câmara?
    -   Quais são as informações mais relevantes sobre as proposições que falam de Economia?
    -   Quais são as informações mais relevantes sobre as proposições que falam de 'Ciência, Tecnologia e Inovação'?


> 📝 Os códigos se encontram em `dashboard.py`.


![Exec 8a](./images/exec8-a.png)

> 📝 A resposta está errada! Porém a conclusão do modelo bate com os dados que ele recebeu do RAG. O modelo acabou informando o usuário sobre esse limitação, o que achei interessante.


![Exec 8b](./images/exec8-b.png)

> 📝 De forma similar a resposta anterior, o modelo respondeu corretamente se considerado apenas o RAG. Porém não dá para ter certeza, visto que os dados que o modelo recebeu são limitados.


![Exec 8c](./images/exec8-c.png)

> 📝 Novamente acredito que o modelo se saiu bem, porém a quantidade de dados fornecida pelo RAG é limitada.


![Exec 8d](./images/exec8-d.png)

> 📝 Acredito que o modelo se saiu muito bem nessa questão, dando um resumo bem satisfatório.


![Exec 8e](./images/exec8-e.png)


> 📝 Gostei da reposta, o modelo utilizou muito bem os dados fornecidos pelo RAG e trouxe um resumo bem satisfatório.


---

### Exercício 9: Geração de Imagens com Prompts

Utilizando as informações sumarizadas das proposições dos deputados, vamos gerar prompts que possam fazer alusão aos temas e o que está sendo proposto. Use o google Colab para gerar imagens com o modelo "CompVis/stable-diffusion-v1-4" para duas proposições de sua escolha. Com essas informações, responda:

Descreva o funcionamento dos modelo de imagem, segundo suas arquiteturas, limitações e vantagens:
Stable Diffusion
DALL-e
MidJourney
Utilize diferentes técnicas de “Estilo Visual” e “Composição”, além de exemplos com negative prompting, para gerar 3 versões de imagem para cada proposição e avalie as diferenças entre os resultados (as imagens) e os prompts (as proposições).


> 📝 Link para o colab: https://colab.research.google.com/drive/1Fj5JJSbotnVDR1HgjE4uycv5vjUllZlT?usp=sharing


> 📝 Stable Diffusion é um modelo open-source baseado em difusão latente, eficiente em termos de computação e capaz de rodar em GPUs comuns. Ele suporta técnicas como inpainting e prompting negativo, mas geralmente apresenta qualidade inferior em comparação a modelos mais especializados.
>
> DALL-E utiliza uma arquitetura baseada em Transformers para gerar imagens a partir de descrições textuais. É um modelo bastante eficaz na interpretação de prompts, mas possui certa limitação quanto à personalização e requer um domínio de técnicas avançadas de composição. A qualidade das imagens pode variar bastante.
>
> MidJourney é desenvolvido pela MidJourney, Inc. Ele é otimizado para criar imagens estilizadas e com estética artística, e possui uma abordagem amigável, operando através de chats no Discord. Possui menor precisão para descrições técnicas e detalhadas. É um serviço pago e de código fechado, embora permita a criação de algumas imagens no free-tier.
