[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/tesouro/curso_basico_python/blob/main/Aula%206%20-%20Manipulação%20de%20planilhas.ipynb)

# Aula 6 - Manipulação de planilhas
<div class="alert alert-block alert-info" style="border-left: 5px solid #0056b3;">
    <h4>🎯 Objetivos de Aprendizagem da Aula</h4>
    <ul style="margin-left: 20px;">
    <li>O que é a biblioteca pandas e o DataFrame.</li>
    <li>Lendo arquivos com pd.read_csv() e pd.read_excel().</li>    
    <li>Explorando, selecionando e filtrando dados.</li>
    <li>Criando novas colunas a partir de dados existentes.</li>
    <li>Salvando os resultados com to_csv().</li>
    </ul>
</div>

<h3>1. Uma breve contextualização sobre o Pandas</h3>

<p>Nesta aula, vamos aprender o básico sobre como ingerir, manipular e salvar dados de planilhas. Uma dúvida pertinente, e talvez a mais importante de todas, é: <i>"Eu já sei usar o Excel e resolvo meus problemas com ele. Por que eu deveria usar Python para isso?"</i></p>

<p>A resposta curta é: <b>escala, automação e poder analítico</b>. O Excel é como um canivete suíço, excelente para muitas tarefas. O <code>pandas</code> é como uma oficina de ferramentas de precisão, feita para automatizar o trabalho com dados.</p>

<p>Vamos expandir os motivos:</p>

<div style="display: flex; justify-content: space-around; align-items: flex-start; gap: 20px;">
  
  <div style="flex: 1; text-align: center; background-color: #f8f9fa; border: 1px solid #dee2e6; border-radius: 8px; padding: 15px;">
    <h4 style="color:#0056b3;">⚙️ Escala e Performance</h4>
    <ul style="text-align: left; padding-left: 20px;">
        <li><b>Sem Limite de Linhas:</b> O Excel tem um limite físico de aproximadamente 1 milhão de linhas. Para um analista do Tesouro, esse limite é facilmente atingido. O <code>pandas</code>, por outro lado, processa arquivos com dezenas de milhões de linhas.</li>
        <br>
        <li><b>Desempenho com Arquivos Grandes:</b> O Excel se torna extremamente lento e instável com arquivos pesados. O <code>pandas</code> é otimizado para operações de alta performance em grandes volumes, realizando filtros e agregações em segundos.</li>
    </ul>
  </div>

  <div style="flex: 1; text-align: center; background-color: #f8f9fa; border: 1px solid #dee2e6; border-radius: 8px; padding: 15px;">
    <h4 style="color:#28a745;">🤖 Automação e Reprodutibilidade</h4>
    <ul style="text-align: left; padding-left: 20px;">
        <li><b>Automação de Tarefas Repetitivas:</b> Crie um "roteiro" (script) uma única vez e o execute para processar relatórios semanais ou mensais de forma instantânea. É o seu robô pessoal para as tarefas repetitivas, economizando horas de trabalho manual.</li>
        <br>
        <li><b>Reprodutibilidade e Auditoria:</b> Um script Python é uma "receita de bolo" transparente. Diferente de uma planilha com valores colados ou fórmulas complexas, um script é um registro <b>auditável e 100% transparente</b> de como um resultado foi gerado, garantindo a integridade da análise.</li>
    </ul>
  </div>

  <div style="flex: 1; text-align: center; background-color: #f8f9fa; border: 1px solid #dee2e6; border-radius: 8px; padding: 15px;">
    <h4 style="color:#6f42c1;">🔌 Poder Analítico e Flexibilidade</h4>
    <ul style="text-align: left; padding-left: 20px;">
        <li><b>Conexão com Múltiplas Fontes:</b> O <code>pandas</code> lê dados diretamente de bancos de dados (SQL), APIs da web (como a do BCB), arquivos JSON e até extrai tabelas de páginas da internet (web scraping), centralizando todo o seu fluxo de dados.</li>
        <br>
        <li><b>Capacidade Analítica Avançada:</b> Realize análises de séries temporais, cálculos estatísticos complexos e integre com bibliotecas de Machine Learning, tarefas que são extremamente difíceis ou impossíveis no Excel.</li>
         <br>
        <li><b>Integração Total com o Ecossistema Python:</b> Use seus dados para alimentar gráficos interativos (<code>Plotly</code>), criar dashboards (<code>Streamlit</code>) ou gerar relatórios automáticos em PDFo trabalho com dados em escala.</i></b></p>

Também é muito importante destacar: **você não precisa memorizar** os detalhes da sintaxe da biblioteca para utilizá-la. Nós vamos usar a IA generativa extensivamente para resolver problemas no dia a dia.

Minha intenção com esse material é:
- Apresentar a sintaxe básica (para ingerir, filtrar e exportar dados)
- Mostrar possibilidades de manipulações de dados 
- Dar exemplos que podem ser úteis no dia a dia

Se você deseja aprender Pandas proficientemente, recomendo o seguinte repositório com centenas de exercícios: https://github.com/guipsamora/pandas_exercises

## 1.1. Criando um arquivo de exemplo

Para os exercícios de hoje, vamos usar um arquivo de exemplo chamado relatorio_divida.csv. O código abaixo irá criar este arquivo no nosso ambiente de trabalho. Apenas execute esta célula uma vez.

In [None]:
# Célula de Setup: Apenas execute para criar o arquivo de exemplo.
import pandas as pd

# Dados de exemplo sobre a Dívida Pública
dados = {
    'Ano': [2022, 2022, 2023, 2023, 2024, 2024],
    'Mes': ['Dez', 'Dez', 'Jun', 'Jun', 'Jan', 'Jan'],
    'Tipo de Divida': ['Interna', 'Externa', 'Interna', 'Externa', 'Interna', 'Externa'],
    'Valor (R$ bi)': [6270, 250, 6450, 260, 6510, 265]
}

# Cria um DataFrame e salva como um arquivo CSV
df_exemplo = pd.DataFrame(dados)
df_exemplo.to_csv('relatorio_divida.csv', index=False)

print("Arquivo 'relatorio_divida.csv' criado com sucesso!")

## 1.2. Lendo um Arquivo
O primeiro passo é carregar os dados em um DataFrame, que nada mais é do que a representação de uma tabela ou planilha inteira na memória do computador.

In [None]:
# Importamos a biblioteca pandas e damos a ela o apelido 'pd' (uma convenção universal)
import pandas as pd

# Lemos nosso arquivo CSV e o carregamos em um DataFrame chamado 'df'
df = pd.read_csv('relatorio_divida.csv')

Explorando os Dados
Após carregar os dados, as primeiras coisas que fazemos são "espiar" a estrutura da tabela.

In [None]:
# 1. Ver as 5 primeiras linhas para entender as colunas e os dados
print("--- 5 primeiras linhas ---")
display(df.head())

# 2. Obter um resumo técnico das colunas, tipos de dados e valores não nulos
print("\n--- Informações do DataFrame ---")
df.info()

# 3. Obter estatísticas descritivas básicas das colunas numéricas
print("\n--- Estatísticas Descritivas ---")
display(df.describe())

## 1.3. Selecionando e Filtrando Dados
Esta é a parte mais poderosa: selecionar exatamente os dados que você precisa.

In [None]:
# 1. Selecionando uma única coluna
tipos_de_divida = df['Tipo de Divida']
print(tipos_de_divida)

In [None]:
# 2. Selecionando múltiplas colunas (note os colchetes duplos!)
df_parcial = df[['Ano', 'Valor (R$ bi)']]
display(df_parcial.head())

In [None]:
# 3. FILTRANDO LINHAS: selecionando linhas com base em uma condição
# Queremos apenas os dados do ano de 2023
df_2023 = df[df['Ano'] == 2023]
print("--- Apenas dados de 2023 ---")
display(df_2023)

In [None]:
# 4. Combinando múltiplas condições (& para 'E', | para 'OU')
# Queremos apenas os dados da Dívida INTERNA do ano de 2024
df_interna_2024 = df[(df['Tipo de Divida'] == 'Interna') & (df['Ano'] == 2024)]
print("\n--- Apenas Dívida Interna de 2024 ---")
display(df_interna_2024)

## 1.4. Exercícios de fixação

1. Selecione e exiba apenas as colunas 'Mes' e 'Tipo' do DataFrame 'df'.

2. Crie um novo DataFrame chamado 'df_externa' que contenha apenas os registros da dívida 'Externa'. Exiba o resultado.

3. Usando o DataFrame original 'df', calcule o valor médio da coluna 'Valor_em_Bilhoes'.

## 1.5. Criando Novas Colunas e Salvando Novos Arquivos

Assim como no Excel, podemos criar novas colunas baseadas em cálculos de outras.

In [None]:
# Criando uma nova coluna com o valor da dívida em trilhões
df['Valor (R$ tri)'] = df['Valor (R$ bi)'] / 1000

print("--- DataFrame com a nova coluna ---")
display(df.head())

# Salvando o DataFrame modificado em um novo arquivo CSV
# index=False evita que o pandas salve o índice da tabela como uma nova coluna
df.to_csv('relatorio_modificado.csv', index=False)
print("\nArquivo 'relatorio_modificado.csv' foi salvo!")

## 1.6. Outras possibilidades do Pandas
Como descrito anteriormente, a intenção dos seguintes exercícios não é memorizar a sintaxe do Pandas, mas, sim, mostrar o quanto ele pode ser útil. Apenas leia o código, entenda sua funcionalidade e, quando quiser fazer algo com seu próprio dataset, peça ajuda da IA generativa.

### 1.6.1. Importando um dataset real
Vamos puxar dados da API do SADIPEM do Tesouro:

In [None]:
import requests
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Define um estilo visual mais agradável para os gráficos
sns.set_theme(style="whitegrid")

# 1. Definir a URL base e os parâmetros da consulta
url_base = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl"
uf_escolhida = 'SP'  # Você pode trocar para qualquer outra UF
params = {'uf': uf_escolhida}

# 2. Fazer a requisição
print(f"Buscando pleitos para o estado: {uf_escolhida}...")
response = requests.get(url_base, params=params)

# 3. Verificar se a requisição foi bem-sucedida
if response.status_code == 200:
    # 4. Converter a resposta JSON em um DataFrame
    dados_json = response.json()
    df_pleitos_sp = pd.DataFrame(dados_json['items'])
    
    # 5. Exibir as 10 primeiras linhas
    print(f"\nExibindo os 10 primeiros pleitos encontrados para {uf_escolhida}:")
    display(df_pleitos_sp.head(10))
else:
    print(f"Erro ao fazer a requisição. Código de status: {response.status_code}")

### 1.6.2 Coleta de Dados de Múltiplos Estados
Objetivo: Praticar a coleta de dados de forma iterativa usando um laço for.

Passos:

Crie uma lista de UFs de seu interesse (ex: ['MG', 'RJ', 'BA']).

Use um laço for para fazer uma requisição à API para cada UF na lista.

Para cada estado, imprima o nome e exiba as 3 primeiras operações encontradas.

In [None]:
# --- Solução Exercício 1 ---

ufs_de_interesse = ['MG', 'RJ', 'BA']
url_base = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl"

for uf in ufs_de_interesse:
    print(f"--- Buscando pleitos para: {uf} ---")
    params = {'uf': uf}
    response = requests.get(url_base, params=params)
    
    if response.status_code == 200:
        dados_json = response.json()
        df_uf = pd.DataFrame(dados_json['items'])
        display(df_uf.head(3))
    else:
        print(f"Não foi possível buscar dados para {uf}. Status: {response.status_code}")
    print("\n" + "="*50 + "\n")

### 1.6.3. Análise de Status dos Pleitos (Nacional)
Objetivo: Realizar uma contagem de frequência para entender os status mais comuns dos pleitos em todo o Brasil.

Passos:

Faça uma requisição ao endpoint /pvl sem parâmetros para obter uma amostra nacional.

Use o método .value_counts() para contar a ocorrência de cada status.

Exiba os resultados.

In [None]:
# --- Solução Exercício 2 ---

url_base = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl"
response = requests.get(url_base)

if response.status_code == 200:
    df_nacional = pd.DataFrame(response.json()['items'])
    
    print("--- Contagem de Pleitos por Status (Nível Nacional) ---")
    contagem_status = df_nacional['status'].value_counts()
    print(contagem_status)
else:
    print(f"Erro na requisição. Status: {response.status_code}")

### 1.6.4. Identificando os Maiores Pleitos por Valor
Objetivo: Ordenar o DataFrame para encontrar as operações de maior valor.

Passos:

Utilize o df_nacional do exercício anterior.

Use o método .sort_values() na coluna valor em ordem decrescente.

Exiba os 5 maiores pleitos, mostrando as colunas interessado, uf e valor.

In [None]:
# --- Solução Exercício 3 ---

# Assumindo que 'df_nacional' já foi carregado no exercício anterior
df_ordenado_por_valor = df_nacional.sort_values(by='valor', ascending=False)

print("--- Top 5 Maiores Pleitos por Valor (em R$) ---")
display(df_ordenado_por_valor[['interessado', 'uf', 'valor']].head(5))

### 1.6.5. Valor Total por Tipo de Operação
Objetivo: Usar groupby para agregar valores e responder a uma pergunta de negócio.

Passos:

A partir do df_nacional, agrupe os dados pela coluna tipo_operacao.

Calcule a soma (sum) da coluna valor para cada grupo.

Exiba os resultados ordenados para ver qual tipo de operação movimenta o maior volume financeiro.

In [None]:
# --- Solução Exercício 4 ---

# Assumindo que 'df_nacional' já foi carregado
valor_por_tipo = df_nacional.groupby('tipo_operacao')['valor'].sum().sort_values(ascending=False)

print("--- Valor Total Consolidado por Tipo de Operação ---")
print(valor_por_tipo)

### 1.6.6. Análise de Operações por Credor
Objetivo: Criar uma visualização para entender a participação dos credores.

Passos:

A partir do df_nacional, agrupe os dados por credor.

Calcule a contagem (count) de operações para cada credor.

Crie um gráfico de barras com os 10 principais credores.

In [None]:
# --- Solução Exercício 5 ---

# Assumindo que 'df_nacional' já foi carregado
contagem_por_credor = df_nacional['credor'].value_counts().head(10)

plt.figure(figsize=(12, 8))
sns.barplot(x=contagem_por_credor.values, y=contagem_por_credor.index, palette='magma')
plt.title('Top 10 Credores por Número de Operações')
plt.xlabel('Quantidade de Operações')
plt.ylabel('Credor')
plt.show()

### 1.6.7. Identificar Pleitos em Moeda Estrangeira
Objetivo: Filtrar dados com base em uma negação e analisar o resultado.

Passos:

Filtre o df_nacional para encontrar todas as operações onde a moeda é diferente de "Real".

Exiba o DataFrame resultante, mostrando as colunas interessado, uf, credor, moeda e valor.

In [None]:
# --- Solução Exercício 7 ---

# Assumindo que 'df_nacional' já foi carregado
df_moeda_estrangeira = df_nacional[df_nacional['moeda'] != 'Real']

print(f"Encontradas {len(df_moeda_estrangeira)} operações em moeda estrangeira.")
print("\n--- Detalhes das Operações em Moeda Estrangeira ---")
display(df_moeda_estrangeira[['interessado', 'uf', 'credor', 'moeda', 'valor']])

### 1.6.8. Juntando Dados (Merge) - Cronogramas e PVLs
Objetivo: Combinar dados de dois endpoints diferentes para uma análise mais rica.

Passos:

Busque os dados do endpoint /pvl e armazene em df_pvl.

Busque os dados do endpoint /opc-cronograma-pagamentos e armazene em df_cronograma.

Use pd.merge() para juntar os dois DataFrames, usando id_pleito como a chave da junção.

Exiba o .head() do DataFrame combinado.



In [None]:
# --- Solução Exercício 8 ---

# 1. Buscar PVLs
url_pvl = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl"
response_pvl = requests.get(url_pvl)
df_pvl = pd.DataFrame(response_pvl.json()['items'])

# 2. Buscar Cronogramas
url_cronograma = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/opc-cronograma-pagamentos"
response_cronograma = requests.get(url_cronograma)
df_cronograma = pd.DataFrame(response_cronograma.json()['items'])

# 3. Juntar os DataFrames
df_combinado = pd.merge(
    df_cronograma,
    df_pvl[['id_pleito', 'uf', 'interessado', 'tipo_operacao']], # Seleciona colunas de interesse do df_pvl
    on='id_pleito',
    how='left' # 'left' join para manter todos os cronogramas
)

print("--- DataFrame Combinado (Pleitos + Cronogramas) ---")
display(df_combinado.head())

### 1.6.9. Análise de Pagamentos por Ano e UF
Objetivo: Usar o DataFrame combinado para uma análise agregada e visualização.

Passos:

Use o df_combinado do exercício anterior.

Agrupe os dados por uf e ano.

Calcule a soma do total_encargos para cada grupo.

Use .unstack() para transformar os anos em colunas e criar uma tabela mais legível.

In [None]:
# --- Solução Exercício 9 ---

# Assumindo que 'df_combinado' foi criado
encargos_por_uf_ano = df_combinado.groupby(['uf', 'ano'])['total_encargos'].sum()

# .unstack() pivota os dados, tornando-os mais fáceis de ler
tabela_encargos = encargos_por_uf_ano.unstack(fill_value=0) # fill_value=0 preenche anos sem dados

print("--- Total de Encargos (em R$) por UF e Ano ---")
display(tabela_encargos.head(10))

## 2. Exercícios

Exercício 1: Análise da Dívida Interna
Leia o arquivo relatorio_divida.csv.

Crie um novo DataFrame que contenha apenas os registros da "Interna".

Calcule e imprima o valor médio, máximo e mínimo da dívida interna no período. (Dica: use os métodos .mean(), .max(), .min() na coluna de valor).

In [None]:
import pandas as pd

# Carrega o DataFrame a partir do arquivo CSV
df = pd.read_csv('relatorio_divida.csv')

# Cria o novo DataFrame 'df_interna' aplicando um filtro.
# A linha df['Tipo de Divida'] == 'Interna' cria uma "máscara" booleana (True/False).
# Ao colocar essa máscara dentro de df[], selecionamos apenas as linhas onde a condição é True.
df_interna = df[df['Tipo de Divida'] == 'Interna']

print("--- Dados apenas da Dívida Interna ---")
print(df_interna)

# Calcula a média dos valores na coluna 'Valor (R$ bi)'
media_interna = df_interna['Valor (R$ bi)'].mean()

# Calcula o valor máximo
max_interna = df_interna['Valor (R$ bi)'].max()

# Calcula o valor mínimo
min_interna = df_interna['Valor (R$ bi)'].min()

print(f"\n--- Estatísticas da Dívida Interna ---")
print(f"Valor Médio: R$ {media_interna:.2f} bilhões")
print(f"Valor Máximo: R$ {max_interna:.2f} bilhões")
print(f"Valor Mínimo: R$ {min_interna:.2f} bilhões")

Crie uma nova coluna no DataFrame original chamada 'Nível de Alerta'.

Se o 'Valor (R$ bi)' for maior que 6500, o valor na nova coluna deve ser "Alto".

Caso contrário, o valor deve ser "Normal".

In [None]:
import numpy as np

# Usamos np.where(condição, valor_se_verdadeiro, valor_se_falso)
# É como uma função SE() do Excel, mas aplicada a toda a coluna de uma vez.
df['Nível de Alerta'] = np.where(df['Valor (R$ bi)'] > 6500, 'Alto', 'Normal')

print("\n--- DataFrame Original com a Nova Coluna 'Nível de Alerta' ---")
print(df)

## 3. Bug Hunt
Os códigos abaixo possuem algum tipo de problema. Leia o código e a mensagem de erro atentamente e tente solucionar o bug!
Descreva o erro e a solução com suas próprias palavras.

In [None]:
df_bug1 = pd.read_csv('relatorio_divida.csv')
dados_ano = df_bug1['ano']
print(dados_ano)

KeyError: 'ano'
- Tal coluna não existe no dataframe

In [None]:
df_bug2 = pd.read_csv('relatorio_divida.csv')
filtro_errado = df_bug2[(df_bug2['Ano'] > 2022) and (df_bug2['Mes'] == 'Jan')]
print(filtro_errado)

As condições (df_bug2['Ano'] > 2022) e (df_bug2['Mes'] == 'Jan') não retornam um único True ou False. Elas retornam uma Série (uma coluna) de valores True e False, um para cada linha do DataFrame. O operador and não sabe como comparar duas Séries inteiras, gerando o erro `ValueError: The truth value of a Series is ambiguous.`

## 4. Projetos para você fazer!

O projeto a seguir é bastante autoguiado! **Use a IA generativa** para ir gerando o código necessário para implementar as suas ideias!

Escolha uma base de dados de sua preferência (ou do seu trabalho ou da internet). Tente seguir os mesmos passos dos exercícios do SADIPEM para investigar os dados. Seguem algumas sugestões de fontes de dados:

- Portal de Dados Abertos do Governo Federal: https://dados.gov.br/

É a fonte mais rica para dados do setor público. Você encontrará de tudo: desde despesas detalhadas de ministérios até informações sobre servidores, licitações e programas sociais. A maioria dos datasets está em formato CSV.

- IPEAData: http://www.ipeadata.gov.br/

Excelente para séries temporais macroeconômicas: PIB, inflação, câmbio, emprego, etc. Ideal para análises de conjuntura.

- Kaggle Datasets: https://www.kaggle.com/datasets

Uma plataforma global com milhares de datasets limpos sobre os mais variados assuntos (de esportes a saúde, de finanças a cinema). Ótimo se você quiser explorar um tema diferente.

- Seu Próprio Trabalho: Existe alguma planilha que você usa repetidamente no seu dia a dia? Um relatório que você sempre precisa montar? Use uma versão anonimizada (sem dados sensíveis) desses dados. Esta é a forma mais poderosa de ver o impacto direto do Python no seu trabalho.

##### 📝 Checklist do Analista de Dados
Definição do Problema: Antes de escrever qualquer código, defina em uma célula de Markdown: Qual pergunta principal você quer responder com estes dados? (Ex: "Qual estado brasileiro mais realizou operações de crédito nos últimos anos?", "Existe uma correlação entre o gasto em infraestrutura e o crescimento do PIB de um município?").

Coleta e Carregamento: Use pd.read_csv(), pd.read_excel() ou a biblioteca requests para carregar seus dados em um DataFrame.

Exploração Inicial (Reconhecimento): Use .head(), .info(), .describe() e .isnull().sum() para "sentir" os dados. Quais são as colunas? Quais os tipos de dados? Existem valores ausentes?

Limpeza e Preparação: Se necessário, trate os valores ausentes (com .fillna()), corrija os tipos de dados (com .astype()) e renomeie colunas para facilitar a análise (com .rename()).

Análise e Manipulação: Esta é a parte principal. Use tudo o que aprendeu:
Filtre os dados para focar em subconjuntos de interesse.
Crie novas colunas com cálculos que ajudem a responder sua pergunta.
Ordene os dados com .sort_values() para encontrar os maiores ou menores valores.
Agrupe os dados com .groupby() para calcular estatísticas por categoria.

Visualização de Dados: Use o seaborn para criar gráficos que contem a história e respondam à sua pergunta inicial. Um bom gráfico vale mais que mil linhas de tabela.

Conclusão: Em uma célula de Markdown final, escreva um parágrafo resumindo suas principais descobertas. O que os dados lhe disseram? Sua pergunta inicial foi respondida?

#### Exemplos de Perguntas Interessantes a Serem Respondidas
Ainda não sabe o que perguntar aos seus dados? Use estas perguntas como inspiração. Elas podem ser aplicadas a quase qualquer dataset.

**Perguntas Descritivas e de Frequência (O "Quê?")**
- Qual a distribuição de uma variável numérica chave? (Ex: Qual a distribuição dos valores dos contratos?)
    - Ferramentas: .describe(), seaborn.histplot()

- Quais são as categorias mais comuns em uma coluna? (Ex: Quais os 3 tipos de finalidade mais frequentes?)
    - Ferramentas: .value_counts(), seaborn.countplot()

- Qual o período de tempo coberto pelos dados?
  - Ferramentas: .min() e .max() em uma coluna de data.

**Perguntas de Comparação e Ranking (O "Como se compara?" e "Quem é o maior?")**
- Como uma métrica numérica (ex: valor) se compara entre diferentes grupos (ex: por UF ou por Tipo de Credor)?
    - Ferramentas: .groupby(...).mean(), seaborn.barplot(), seaborn.boxplot()

- Quais são os "Top 10" itens com base em um critério? (Ex: os 10 municípios com o maior valor total de pleitos).
    - Ferramentas: .groupby(...).sum(), .sort_values(), .head(10)

**Perguntas de Relação e Correlação (O "Como se relacionam?")**
- Existe uma correlação entre duas variáveis numéricas? (Ex: O valor de um pleito tem relação com a taxa de juros aplicada?).
    - Ferramentas: seaborn.scatterplot(), .corr(), seaborn.heatmap()

- Como uma variável se comportou ao longo do tempo? (Ex: A quantidade de pleitos deferidos aumentou ou diminuiu nos últimos anos?).
    - Ferramentas: groupby() por ano/mês, seaborn.lineplot()

## 5. Perguntas para discussão em grupo

1) Qual a maior vantagem de usar pandas para automatizar um relatório mensal em vez de fazer o mesmo processo manualmente no Excel? Pensem em termos de tempo, reprodutibilidade (garantir que o resultado seja sempre o mesmo, sem erros manuais) e escala (fazer o mesmo para 1, 10 ou 100 arquivos com um único clique).

- Tempo e Automação: Um script em pandas é um ativo. Você o constrói uma vez e ele trabalha para você para sempre. Um relatório que leva 2 horas para ser feito manualmente no Excel pode ser executado em 2 segundos com um script. A economia de tempo em um ano é gigantesca.

- Reprodutibilidade e Confiabilidade: O processo manual no Excel é frágil e sujeito a erro humano. Um clique errado, uma fórmula arrastada incorretamente, um copiar-e-colar na célula errada podem comprometer todo o relatório sem que ninguém perceba. Um script é uma "receita de bolo" exata e auditável. Se o dado de entrada for o mesmo, a saída será sempre a mesma, garantindo consistência e zerando o risco de erro operacional.

- Escala: O Excel sofre (e muito) com arquivos grandes. Um script pandas processa 10 mil, 1 milhão ou 10 milhões de linhas com a mesma lógica e eficiência. Além disso, com um simples laço for, você pode aplicar o mesmo processo a 100 arquivos de uma só vez, uma tarefa que seria impensável de se fazer manualmente.

2) Pensem em uma planilha complexa que vocês recebem ou geram regularmente no Tesouro. Tentem idealizar um código que facilita a realização da tarefa (e.g. processar dados, fazer colunas calculadas e gerar um gráfico).

## 6. Sugestões de pesquisa

1) Agrupamento com .groupby(): O que é a operação "Split-Apply-Combine" e como o método .groupby() do pandas a implementa para calcular estatísticas por categoria (ex: a despesa total por ministério)?

"Split-Apply-Combine" é um paradigma que descreve um processo de três etapas:

Split (Dividir): O DataFrame é "quebrado" em grupos menores com base nos valores de uma ou mais colunas. Por exemplo, df.groupby('Ministério') divide o DataFrame em vários pedaços, um para cada ministério único.

Apply (Aplicar): Uma função de agregação é aplicada a cada um desses grupos independentemente. Pode ser uma soma (.sum()), uma média (.mean()), uma contagem (.count()), ou até uma função mais complexa que você mesmo define.

Combine (Combinar): Os resultados de cada grupo são coletados e combinados em uma nova estrutura de dados (um novo DataFrame ou uma Série), apresentando o resumo da análise.

- O método .groupby() do pandas é a implementação direta e poderosa dessa estratégia, permitindo sumarizações complexas com uma única linha de código.

2) Combinando Planilhas com .merge(): Como o método .merge() funciona para combinar dados de diferentes DataFrames, de forma similar ao PROCV (VLOOKUP) do Excel?

O pd.merge() é a versão do pandas para o que os bancos de dados chamam de JOIN. Ele combina linhas de dois DataFrames com base em uma ou mais colunas em comum (a "chave").

3) Trabalhando com Datas: Como o pandas lida com colunas de data? Pesquise sobre o tipo de dado datetime e a função pd.to_datetime().

A função pd.to_datetime() é a porta de entrada. Ela é inteligente e consegue converter diversos formatos de texto (como '25/09/2025', '2025-09-25', 'Sep 25, 2025') para o formato datetime64

4) Tabelas Dinâmicas com .pivot_table(): Como este método recria a funcionalidade de uma Tabela Dinâmica do Excel para resumir e reorganizar seus dados?

Você especifica três parâmetros principais:

- index: A coluna cujos valores únicos se tornarão as novas linhas da tabela.

- columns: A coluna cujos valores únicos se tornarão as novas colunas.

- values: A coluna cujos valores serão agregados no "cruzamento" do índice e das colunas.

- aggfunc: A função de agregação a ser usada (por padrão é a média, mean, mas pode ser sum, count, etc.).

É uma ferramenta incrivelmente útil para transformar dados em formato "longo" (muitas linhas, poucas colunas) em formato "largo" (mais colunas, representando um resumo), ideal para relatórios.