# INFNET
## Engenharia de Prompts para Ciência de Dados [24E4_4] - AT
### Rodrigo Avila - 22/12/2024

---

### Exercício 2: Criação de Textos com LLMs

Utilize a sua conta no “poe.com” para gerar um texto curto (2 parágrafos) que explique a Câmara dos Deputados. Execute o mesmo prompt com 3 LLMs diferentes (claude, gemini e chatgpt) e:

#### a) Explique as vantagens e desvantagens dos três LLMs escolhidos.

Claude:
- Vantagens:
    - Ética e segurança como foco central: Claude é projetado para minimizar respostas que possam ser prejudiciais ou tóxicas, priorizando interações seguras.
    - Foco em compliance: Útil para casos em que a conformidade com regulamentações e padrões éticos é essencial.
- Desvantagens:
    - Menor flexibilidade em tópicos técnicos: Pode não ser tão robusto quanto ChatGPT ou Gemini em tarefas altamente técnicas.
    - Menor capacidade multimodal 

Gemini:
- Vantagens:
    - Capacidade multimodal: Gemini pode lidar com entradas de texto e imagem, o que pode ser útil para tarefas que envolvem múltiplos modos de entrada.
    - Flexibilidade em tópicos técnicos: Pode ser mais robusto em termos de conhecimento técnico e especializado.
    - Indicado em encontrar eventos mais recentes
- Desvantagens:
    - Menor foco em compliance: Pode gerar respostas que não são adequadas para ambientes regulamentados ou sensíveis.
    - Em geral tem menos profundidade nas respostas ao se comparar com ChatGPT

ChatGPT:
- Vantagens:
    - Profundidade nas respostas: ChatGPT pode fornecer respostas mais detalhadas e completas em comparação com outros modelos.
    - Versatilidade: É um dos modelos mais amplamente usados, com excelente desempenho em tarefas criativas, técnicas e educacionais.
    - Costuma ser melhor na parte criativa
- Desvantagens:
    - Custos de uso: Em geral, pode ser mais caro de usar em comparação com outros modelos.
    - Menor foco em compliance: Pode gerar respostas que não são adequadas para ambientes regulamentados ou sensíveis.



#### b) Argumente sobre a diferença entre a resposta dos 3 LLMs

Claude: Foi o que teve a resposta mais "rasa" e menos detalhada, focando mais em aspectos gerais, sem entrar em muitos detalhes específicos.

Gemini: Apresentou uma resposta mais detalhada e com mais informações sobre a Câmara dos Deputados, incluindo aspectos como a composição, funções e processos.

ChatGPT: Fornecendo uma resposta mais abrangente e detalhada, com uma explicação mais completa sobre a Câmara dos Deputados, acredito que abordou todos os aspectos necessários e importantes.

#### c) Justifique a escolha da resposta final
Para o "use case" em questão, a melhor resposta foi a do Chat GPT, pois foi uma pergunta bem genérica "Explique a Câmara dos Deputados", e nesse caso, acredito que a profundidade da resposta e o detalhamento é o mais importante.

#### d) Atualize o prompt do LLM final para gerar um arquivo data/config.yaml com a resposta final (chave: overview_summary).
Obs: verificar arquivo /data/config.yaml

### Exercício 3: Processamento dos dados de deputados

#### a) Colete e salve os dados dos deputados atuais da câmara no arquivo data/deputados.parquet através da url: url_base+/deputados
Verificar src/dataprep.py

#### b) Executar prompt para criar o código que gere um gráfico de pizza com o total e o percentual de deputados de cada partido, salvo em 'docs/distribuicao_deputados.png
Verificar src/dataprep.py

#### c) Utilize os elementos de prompts dados, persona e exemplos para instruir o LLM. Explique o objetivo de cada elemento, avalie a resposta e salve-a em data/insights_distribuicao_deputados.json.

O objetivo de cada elemento é:

- Dados: Ao fornecer os dados sobre a distribuição de deputados por partido e estado, o LLM pode usar essas informações para gerar insights e análises mais precisas e relevantes.
- Persona: Ao utilizar um persona, a LLM trás uma resposta especializada, focada em um perfil específico, o que pode ser útil para obter insights mais específicos e detalhados, atendendo melhor a necessidade do usuário.
- Exemplos: Utilizado para informar a LLM como seriam os dados e também o formato que ela deveria responder a pergunta (json).

Com relação a resposta, acredito que foi bem precisa, dentro do padrão esperado, fornecendo informações relevantes sobre a distribuição de deputados por partido. Não notei nenhuma alucionação, a resposta foi um json válido e bem estruturado.

### Exercício 4: Processamento dos dados de deputados
Implemente em dataprep.py uma função que colete as informações das despesas dos deputados atuais da câmara dos deputados no período de referência da solução (use a url: url_base+/deputados/{id}/despesas)

#### a) Agrupe os dados de despesas por dia, deputado e tipo de despesa e salve num arquivo parquet (data/serie_despesas_diárias_deputados.parquet).
Verificar src/dataprep.py

#### b) Utilizando a técnica de prompt-chaining, crie um prompt que instrua o LLM a gerar um código python que analise os dados das despesas dos deputados. Peça para o LLM até 3 análises. Indique ao LLM quais dados estão disponíveis e o respectivo arquivo (salvo em a)) e execute as análises.
Verificar prints em images/ex4_prompt_chaining_*.png para visualizar os prompts.

Obs: O ChatGPT agora parece ter uma espécie de IDE integrada, bem interessante!

Abaixo, execução do código gerado pelo LLM para análise dos dados das despesas dos deputados:

In [5]:
import pandas as pd
import json

def analyze_expenses(file_path, output_json_path):
    # Read the parquet file into a pandas DataFrame
    dataframe = pd.read_parquet(file_path)

    # First: Find the expense with the biggest value
    biggest_expense = dataframe.loc[dataframe['valorDocumento'].idxmax()]

    # Second: Find the expense with the lowest value
    lowest_expense = dataframe.loc[dataframe['valorDocumento'].idxmin()]

    # Third: Find the most frequent expense type
    most_frequent_expense = dataframe['tipoDespesa'].mode()[0]

    # Prepare the analysis results with native Python types
    analysis = {
        "biggest_expense": {
            "tipoDespesa": str(biggest_expense['tipoDespesa']),
            "dataDocumento": str(biggest_expense['dataDocumento']),
            "valorDocumento": float(biggest_expense['valorDocumento']),
            "nomeFornecedor": str(biggest_expense['nomeFornecedor']),
            "id": int(biggest_expense['id']),
            "nome": str(biggest_expense['nome']),
            "siglaPartido": str(biggest_expense['siglaPartido'])
        },
        "lowest_expense": {
            "tipoDespesa": str(lowest_expense['tipoDespesa']),
            "dataDocumento": str(lowest_expense['dataDocumento']),
            "valorDocumento": float(lowest_expense['valorDocumento']),
            "nomeFornecedor": str(lowest_expense['nomeFornecedor']),
            "id": int(lowest_expense['id']),
            "nome": str(lowest_expense['nome']),
            "siglaPartido": str(lowest_expense['siglaPartido'])
        },
        "most_frequent_expense": str(most_frequent_expense)
    }

    # Write the analysis to a JSON file
    with open(output_json_path, 'w', encoding='utf-8') as json_file:
        json.dump(analysis, json_file, ensure_ascii=False, indent=4)

    return analysis

# Define the file paths
file_path = 'data/serie_despesas_diárias_deputados.parquet'
output_json_path = 'data/despesas_deputados.json'

# Perform the analysis
results = analyze_expenses(file_path, output_json_path)

# Print the analysis results
print(json.dumps(results, indent=4, ensure_ascii=False))


{
    "biggest_expense": {
        "tipoDespesa": "LOCAÇÃO OU FRETAMENTO DE AERONAVES",
        "dataDocumento": "2024-09-04T00:00:00",
        "valorDocumento": 85000.0,
        "nomeFornecedor": "R L FERREIRA - SERVIÇOS E AGENCIAMENTO LTDA",
        "id": 220675,
        "nome": "Antônio Doido",
        "siglaPartido": "MDB"
    },
    "lowest_expense": {
        "tipoDespesa": "PASSAGEM AÉREA - SIGEPA",
        "dataDocumento": "2024-08-09T12:00:00",
        "valorDocumento": -3113.17,
        "nomeFornecedor": "TAM",
        "id": 74253,
        "nome": "Julio Lopes",
        "siglaPartido": "PP"
    },
    "most_frequent_expense": "COMBUSTÍVEIS E LUBRIFICANTES."
}


#### c) Utilize os resultados das 3 análises para criar um prompt usando a técnica de Generated Knowledge para instruir o LLM a gerar insights. Salve o resultado como um JSON (data/insights_despesas_deputados.json).

Verificar a imagem ex4_generated_knowledge_1.png para visualizar o prompt.

Para a análise gerada, verificar o arquivo data/insights_despesas_deputados.json.

### Exercício 5) Processamento dos dados de proposições

#### a) Coletar um total de 10 proposiçoes por tema e salvar em data/proposicoes_deputados.parquet
Verificar src/dataprep.py

#### b) Utilize a sumarização por chunks para resumir as proposições tramitadas no período de referência. Avalie a resposta e salve-a em data/sumarizacao_proposicoes.json
Verificar src/dataprep.py