[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/tesouro/curso_basico_python/blob/main/Aula%206%20-%20Manipula√ß√£o%20de%20planilhas.ipynb)

# Aula 6 - Manipula√ß√£o de planilhas
<div class="alert alert-block alert-info" style="border-left: 5px solid #0056b3;">
    <h4>üéØ Objetivos de Aprendizagem da Aula</h4>
    <ul style="margin-left: 20px;">
    <li>O que √© a biblioteca pandas e o DataFrame.</li>
    <li>Lendo arquivos com pd.read_csv() e pd.read_excel().</li>    
    <li>Explorando, selecionando e filtrando dados.</li>
    <li>Criando novas colunas a partir de dados existentes.</li>
    <li>Salvando os resultados com to_csv().</li>
    </ul>
</div>

<h3>1. Uma breve contextualiza√ß√£o sobre o Pandas</h3>

<p>Nesta aula, vamos aprender o b√°sico sobre como ingerir, manipular e salvar dados de planilhas. Uma d√∫vida pertinente, e talvez a mais importante de todas, √©: <i>"Eu j√° sei usar o Excel e resolvo meus problemas com ele. Por que eu deveria usar Python para isso?"</i></p>

<p>A resposta curta √©: <b>escala, automa√ß√£o e poder anal√≠tico</b>. O Excel √© como um canivete su√≠√ßo, excelente para muitas tarefas. O <code>pandas</code> √© como uma oficina de ferramentas de precis√£o, feita para automatizar o trabalho com dados.</p>

<p>Vamos expandir os motivos:</p>

<div style="display: flex; justify-content: space-around; align-items: flex-start; gap: 20px;">
  
  <div style="flex: 1; text-align: center; background-color: #f8f9fa; border: 1px solid #dee2e6; border-radius: 8px; padding: 15px;">
    <h4 style="color:#0056b3;">‚öôÔ∏è Escala e Performance</h4>
    <ul style="text-align: left; padding-left: 20px;">
        <li><b>Sem Limite de Linhas:</b> O Excel tem um limite f√≠sico de aproximadamente 1 milh√£o de linhas. Para um analista do Tesouro, esse limite √© facilmente atingido. O <code>pandas</code>, por outro lado, processa arquivos com dezenas de milh√µes de linhas.</li>
        <br>
        <li><b>Desempenho com Arquivos Grandes:</b> O Excel se torna extremamente lento e inst√°vel com arquivos pesados. O <code>pandas</code> √© otimizado para opera√ß√µes de alta performance em grandes volumes, realizando filtros e agrega√ß√µes em segundos.</li>
    </ul>
  </div>

  <div style="flex: 1; text-align: center; background-color: #f8f9fa; border: 1px solid #dee2e6; border-radius: 8px; padding: 15px;">
    <h4 style="color:#28a745;">ü§ñ Automa√ß√£o e Reprodutibilidade</h4>
    <ul style="text-align: left; padding-left: 20px;">
        <li><b>Automa√ß√£o de Tarefas Repetitivas:</b> Crie um "roteiro" (script) uma √∫nica vez e o execute para processar relat√≥rios semanais ou mensais de forma instant√¢nea. √â o seu rob√¥ pessoal para as tarefas repetitivas, economizando horas de trabalho manual.</li>
        <br>
        <li><b>Reprodutibilidade e Auditoria:</b> Um script Python √© uma "receita de bolo" transparente. Diferente de uma planilha com valores colados ou f√≥rmulas complexas, um script √© um registro <b>audit√°vel e 100% transparente</b> de como um resultado foi gerado, garantindo a integridade da an√°lise.</li>
    </ul>
  </div>

  <div style="flex: 1; text-align: center; background-color: #f8f9fa; border: 1px solid #dee2e6; border-radius: 8px; padding: 15px;">
    <h4 style="color:#6f42c1;">üîå Poder Anal√≠tico e Flexibilidade</h4>
    <ul style="text-align: left; padding-left: 20px;">
        <li><b>Conex√£o com M√∫ltiplas Fontes:</b> O <code>pandas</code> l√™ dados diretamente de bancos de dados (SQL), APIs da web (como a do BCB), arquivos JSON e at√© extrai tabelas de p√°ginas da internet (web scraping), centralizando todo o seu fluxo de dados.</li>
        <br>
        <li><b>Capacidade Anal√≠tica Avan√ßada:</b> Realize an√°lises de s√©ries temporais, c√°lculos estat√≠sticos complexos e integre com bibliotecas de Machine Learning, tarefas que s√£o extremamente dif√≠ceis ou imposs√≠veis no Excel.</li>
         <br>
        <li><b>Integra√ß√£o Total com o Ecossistema Python:</b> Use seus dados para alimentar gr√°ficos interativos (<code>Plotly</code>), criar dashboards (<code>Streamlit</code>) ou gerar relat√≥rios autom√°ticos em PDFo trabalho com dados em escala.</i></b></p>

Tamb√©m √© muito importante destacar: **voc√™ n√£o precisa memorizar** os detalhes da sintaxe da biblioteca para utiliz√°-la. N√≥s vamos usar a IA generativa extensivamente para resolver problemas no dia a dia.

Minha inten√ß√£o com esse material √©:
- Apresentar a sintaxe b√°sica (para ingerir, filtrar e exportar dados)
- Mostrar possibilidades de manipula√ß√µes de dados 
- Dar exemplos que podem ser √∫teis no dia a dia

Se voc√™ deseja aprender Pandas proficientemente, recomendo o seguinte reposit√≥rio com centenas de exerc√≠cios: https://github.com/guipsamora/pandas_exercises

## 1.1. Criando um arquivo de exemplo

Para os exerc√≠cios de hoje, vamos usar um arquivo de exemplo chamado relatorio_divida.csv. O c√≥digo abaixo ir√° criar este arquivo no nosso ambiente de trabalho. Apenas execute esta c√©lula uma vez.

In [None]:
# C√©lula de Setup: Apenas execute para criar o arquivo de exemplo.
import pandas as pd

# Dados de exemplo sobre a D√≠vida P√∫blica
dados = {
    'Ano': [2022, 2022, 2023, 2023, 2024, 2024],
    'Mes': ['Dez', 'Dez', 'Jun', 'Jun', 'Jan', 'Jan'],
    'Tipo de Divida': ['Interna', 'Externa', 'Interna', 'Externa', 'Interna', 'Externa'],
    'Valor (R$ bi)': [6270, 250, 6450, 260, 6510, 265]
}

# Cria um DataFrame e salva como um arquivo CSV
df_exemplo = pd.DataFrame(dados)
df_exemplo.to_csv('relatorio_divida.csv', index=False)

print("Arquivo 'relatorio_divida.csv' criado com sucesso!")

## 1.2. Lendo um Arquivo
O primeiro passo √© carregar os dados em um DataFrame, que nada mais √© do que a representa√ß√£o de uma tabela ou planilha inteira na mem√≥ria do computador.

In [None]:
# Importamos a biblioteca pandas e damos a ela o apelido 'pd' (uma conven√ß√£o universal)
import pandas as pd

# Lemos nosso arquivo CSV e o carregamos em um DataFrame chamado 'df'
df = pd.read_csv('relatorio_divida.csv')

Explorando os Dados
Ap√≥s carregar os dados, as primeiras coisas que fazemos s√£o "espiar" a estrutura da tabela.

In [None]:
# 1. Ver as 5 primeiras linhas para entender as colunas e os dados
print("--- 5 primeiras linhas ---")
display(df.head())

# 2. Obter um resumo t√©cnico das colunas, tipos de dados e valores n√£o nulos
print("\n--- Informa√ß√µes do DataFrame ---")
df.info()

# 3. Obter estat√≠sticas descritivas b√°sicas das colunas num√©ricas
print("\n--- Estat√≠sticas Descritivas ---")
display(df.describe())

## 1.3. Selecionando e Filtrando Dados
Esta √© a parte mais poderosa: selecionar exatamente os dados que voc√™ precisa.

In [None]:
# 1. Selecionando uma √∫nica coluna
tipos_de_divida = df['Tipo de Divida']
print(tipos_de_divida)

In [None]:
# 2. Selecionando m√∫ltiplas colunas (note os colchetes duplos!)
df_parcial = df[['Ano', 'Valor (R$ bi)']]
display(df_parcial.head())

In [None]:
# 3. FILTRANDO LINHAS: selecionando linhas com base em uma condi√ß√£o
# Queremos apenas os dados do ano de 2023
df_2023 = df[df['Ano'] == 2023]
print("--- Apenas dados de 2023 ---")
display(df_2023)

In [None]:
# 4. Combinando m√∫ltiplas condi√ß√µes (& para 'E', | para 'OU')
# Queremos apenas os dados da D√≠vida INTERNA do ano de 2024
df_interna_2024 = df[(df['Tipo de Divida'] == 'Interna') & (df['Ano'] == 2024)]
print("\n--- Apenas D√≠vida Interna de 2024 ---")
display(df_interna_2024)

## 1.4. Exerc√≠cios de fixa√ß√£o

1. Selecione e exiba apenas as colunas 'Mes' e 'Tipo' do DataFrame 'df'.

2. Crie um novo DataFrame chamado 'df_externa' que contenha apenas os registros da d√≠vida 'Externa'. Exiba o resultado.

3. Usando o DataFrame original 'df', calcule o valor m√©dio da coluna 'Valor_em_Bilhoes'.

## 1.5. Criando Novas Colunas e Salvando Novos Arquivos

Assim como no Excel, podemos criar novas colunas baseadas em c√°lculos de outras.

In [None]:
# Criando uma nova coluna com o valor da d√≠vida em trilh√µes
df['Valor (R$ tri)'] = df['Valor (R$ bi)'] / 1000

print("--- DataFrame com a nova coluna ---")
display(df.head())

# Salvando o DataFrame modificado em um novo arquivo CSV
# index=False evita que o pandas salve o √≠ndice da tabela como uma nova coluna
df.to_csv('relatorio_modificado.csv', index=False)
print("\nArquivo 'relatorio_modificado.csv' foi salvo!")

## 1.6. Outras possibilidades do Pandas
Como descrito anteriormente, a inten√ß√£o dos seguintes exerc√≠cios n√£o √© memorizar a sintaxe do Pandas, mas, sim, mostrar o quanto ele pode ser √∫til. Apenas leia o c√≥digo, entenda sua funcionalidade e, quando quiser fazer algo com seu pr√≥prio dataset, pe√ßa ajuda da IA generativa.

### 1.6.1. Importando um dataset real
Vamos puxar dados da API do SADIPEM do Tesouro:

In [None]:
import requests
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Define um estilo visual mais agrad√°vel para os gr√°ficos
sns.set_theme(style="whitegrid")

# 1. Definir a URL base e os par√¢metros da consulta
url_base = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl"
uf_escolhida = 'SP'  # Voc√™ pode trocar para qualquer outra UF
params = {'uf': uf_escolhida}

# 2. Fazer a requisi√ß√£o
print(f"Buscando pleitos para o estado: {uf_escolhida}...")
response = requests.get(url_base, params=params)

# 3. Verificar se a requisi√ß√£o foi bem-sucedida
if response.status_code == 200:
    # 4. Converter a resposta JSON em um DataFrame
    dados_json = response.json()
    df_pleitos_sp = pd.DataFrame(dados_json['items'])
    
    # 5. Exibir as 10 primeiras linhas
    print(f"\nExibindo os 10 primeiros pleitos encontrados para {uf_escolhida}:")
    display(df_pleitos_sp.head(10))
else:
    print(f"Erro ao fazer a requisi√ß√£o. C√≥digo de status: {response.status_code}")

### 1.6.2 Coleta de Dados de M√∫ltiplos Estados
Objetivo: Praticar a coleta de dados de forma iterativa usando um la√ßo for.

Passos:

Crie uma lista de UFs de seu interesse (ex: ['MG', 'RJ', 'BA']).

Use um la√ßo for para fazer uma requisi√ß√£o √† API para cada UF na lista.

Para cada estado, imprima o nome e exiba as 3 primeiras opera√ß√µes encontradas.

In [None]:
# --- Solu√ß√£o Exerc√≠cio 1 ---

ufs_de_interesse = ['MG', 'RJ', 'BA']
url_base = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl"

for uf in ufs_de_interesse:
    print(f"--- Buscando pleitos para: {uf} ---")
    params = {'uf': uf}
    response = requests.get(url_base, params=params)
    
    if response.status_code == 200:
        dados_json = response.json()
        df_uf = pd.DataFrame(dados_json['items'])
        display(df_uf.head(3))
    else:
        print(f"N√£o foi poss√≠vel buscar dados para {uf}. Status: {response.status_code}")
    print("\n" + "="*50 + "\n")

### 1.6.3. An√°lise de Status dos Pleitos (Nacional)
Objetivo: Realizar uma contagem de frequ√™ncia para entender os status mais comuns dos pleitos em todo o Brasil.

Passos:

Fa√ßa uma requisi√ß√£o ao endpoint /pvl sem par√¢metros para obter uma amostra nacional.

Use o m√©todo .value_counts() para contar a ocorr√™ncia de cada status.

Exiba os resultados.

In [None]:
# --- Solu√ß√£o Exerc√≠cio 2 ---

url_base = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl"
response = requests.get(url_base)

if response.status_code == 200:
    df_nacional = pd.DataFrame(response.json()['items'])
    
    print("--- Contagem de Pleitos por Status (N√≠vel Nacional) ---")
    contagem_status = df_nacional['status'].value_counts()
    print(contagem_status)
else:
    print(f"Erro na requisi√ß√£o. Status: {response.status_code}")

### 1.6.4. Identificando os Maiores Pleitos por Valor
Objetivo: Ordenar o DataFrame para encontrar as opera√ß√µes de maior valor.

Passos:

Utilize o df_nacional do exerc√≠cio anterior.

Use o m√©todo .sort_values() na coluna valor em ordem decrescente.

Exiba os 5 maiores pleitos, mostrando as colunas interessado, uf e valor.

In [None]:
# --- Solu√ß√£o Exerc√≠cio 3 ---

# Assumindo que 'df_nacional' j√° foi carregado no exerc√≠cio anterior
df_ordenado_por_valor = df_nacional.sort_values(by='valor', ascending=False)

print("--- Top 5 Maiores Pleitos por Valor (em R$) ---")
display(df_ordenado_por_valor[['interessado', 'uf', 'valor']].head(5))

### 1.6.5. Valor Total por Tipo de Opera√ß√£o
Objetivo: Usar groupby para agregar valores e responder a uma pergunta de neg√≥cio.

Passos:

A partir do df_nacional, agrupe os dados pela coluna tipo_operacao.

Calcule a soma (sum) da coluna valor para cada grupo.

Exiba os resultados ordenados para ver qual tipo de opera√ß√£o movimenta o maior volume financeiro.

In [None]:
# --- Solu√ß√£o Exerc√≠cio 4 ---

# Assumindo que 'df_nacional' j√° foi carregado
valor_por_tipo = df_nacional.groupby('tipo_operacao')['valor'].sum().sort_values(ascending=False)

print("--- Valor Total Consolidado por Tipo de Opera√ß√£o ---")
print(valor_por_tipo)

### 1.6.6. An√°lise de Opera√ß√µes por Credor
Objetivo: Criar uma visualiza√ß√£o para entender a participa√ß√£o dos credores.

Passos:

A partir do df_nacional, agrupe os dados por credor.

Calcule a contagem (count) de opera√ß√µes para cada credor.

Crie um gr√°fico de barras com os 10 principais credores.

In [None]:
# --- Solu√ß√£o Exerc√≠cio 5 ---

# Assumindo que 'df_nacional' j√° foi carregado
contagem_por_credor = df_nacional['credor'].value_counts().head(10)

plt.figure(figsize=(12, 8))
sns.barplot(x=contagem_por_credor.values, y=contagem_por_credor.index, palette='magma')
plt.title('Top 10 Credores por N√∫mero de Opera√ß√µes')
plt.xlabel('Quantidade de Opera√ß√µes')
plt.ylabel('Credor')
plt.show()

### 1.6.7. Identificar Pleitos em Moeda Estrangeira
Objetivo: Filtrar dados com base em uma nega√ß√£o e analisar o resultado.

Passos:

Filtre o df_nacional para encontrar todas as opera√ß√µes onde a moeda √© diferente de "Real".

Exiba o DataFrame resultante, mostrando as colunas interessado, uf, credor, moeda e valor.

In [None]:
# --- Solu√ß√£o Exerc√≠cio 7 ---

# Assumindo que 'df_nacional' j√° foi carregado
df_moeda_estrangeira = df_nacional[df_nacional['moeda'] != 'Real']

print(f"Encontradas {len(df_moeda_estrangeira)} opera√ß√µes em moeda estrangeira.")
print("\n--- Detalhes das Opera√ß√µes em Moeda Estrangeira ---")
display(df_moeda_estrangeira[['interessado', 'uf', 'credor', 'moeda', 'valor']])

### 1.6.8. Juntando Dados (Merge) - Cronogramas e PVLs
Objetivo: Combinar dados de dois endpoints diferentes para uma an√°lise mais rica.

Passos:

Busque os dados do endpoint /pvl e armazene em df_pvl.

Busque os dados do endpoint /opc-cronograma-pagamentos e armazene em df_cronograma.

Use pd.merge() para juntar os dois DataFrames, usando id_pleito como a chave da jun√ß√£o.

Exiba o .head() do DataFrame combinado.



In [None]:
# --- Solu√ß√£o Exerc√≠cio 8 ---

# 1. Buscar PVLs
url_pvl = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl"
response_pvl = requests.get(url_pvl)
df_pvl = pd.DataFrame(response_pvl.json()['items'])

# 2. Buscar Cronogramas
url_cronograma = "https://apidatalake.tesouro.gov.br/ords/sadipem/tt/opc-cronograma-pagamentos"
response_cronograma = requests.get(url_cronograma)
df_cronograma = pd.DataFrame(response_cronograma.json()['items'])

# 3. Juntar os DataFrames
df_combinado = pd.merge(
    df_cronograma,
    df_pvl[['id_pleito', 'uf', 'interessado', 'tipo_operacao']], # Seleciona colunas de interesse do df_pvl
    on='id_pleito',
    how='left' # 'left' join para manter todos os cronogramas
)

print("--- DataFrame Combinado (Pleitos + Cronogramas) ---")
display(df_combinado.head())

### 1.6.9. An√°lise de Pagamentos por Ano e UF
Objetivo: Usar o DataFrame combinado para uma an√°lise agregada e visualiza√ß√£o.

Passos:

Use o df_combinado do exerc√≠cio anterior.

Agrupe os dados por uf e ano.

Calcule a soma do total_encargos para cada grupo.

Use .unstack() para transformar os anos em colunas e criar uma tabela mais leg√≠vel.

In [None]:
# --- Solu√ß√£o Exerc√≠cio 9 ---

# Assumindo que 'df_combinado' foi criado
encargos_por_uf_ano = df_combinado.groupby(['uf', 'ano'])['total_encargos'].sum()

# .unstack() pivota os dados, tornando-os mais f√°ceis de ler
tabela_encargos = encargos_por_uf_ano.unstack(fill_value=0) # fill_value=0 preenche anos sem dados

print("--- Total de Encargos (em R$) por UF e Ano ---")
display(tabela_encargos.head(10))

## 2. Exerc√≠cios

Exerc√≠cio 1: An√°lise da D√≠vida Interna
Leia o arquivo relatorio_divida.csv.

Crie um novo DataFrame que contenha apenas os registros da "Interna".

Calcule e imprima o valor m√©dio, m√°ximo e m√≠nimo da d√≠vida interna no per√≠odo. (Dica: use os m√©todos .mean(), .max(), .min() na coluna de valor).

In [None]:
import pandas as pd

# Carrega o DataFrame a partir do arquivo CSV
df = pd.read_csv('relatorio_divida.csv')

# Cria o novo DataFrame 'df_interna' aplicando um filtro.
# A linha df['Tipo de Divida'] == 'Interna' cria uma "m√°scara" booleana (True/False).
# Ao colocar essa m√°scara dentro de df[], selecionamos apenas as linhas onde a condi√ß√£o √© True.
df_interna = df[df['Tipo de Divida'] == 'Interna']

print("--- Dados apenas da D√≠vida Interna ---")
print(df_interna)

# Calcula a m√©dia dos valores na coluna 'Valor (R$ bi)'
media_interna = df_interna['Valor (R$ bi)'].mean()

# Calcula o valor m√°ximo
max_interna = df_interna['Valor (R$ bi)'].max()

# Calcula o valor m√≠nimo
min_interna = df_interna['Valor (R$ bi)'].min()

print(f"\n--- Estat√≠sticas da D√≠vida Interna ---")
print(f"Valor M√©dio: R$ {media_interna:.2f} bilh√µes")
print(f"Valor M√°ximo: R$ {max_interna:.2f} bilh√µes")
print(f"Valor M√≠nimo: R$ {min_interna:.2f} bilh√µes")

Crie uma nova coluna no DataFrame original chamada 'N√≠vel de Alerta'.

Se o 'Valor (R$ bi)' for maior que 6500, o valor na nova coluna deve ser "Alto".

Caso contr√°rio, o valor deve ser "Normal".

In [None]:
import numpy as np

# Usamos np.where(condi√ß√£o, valor_se_verdadeiro, valor_se_falso)
# √â como uma fun√ß√£o SE() do Excel, mas aplicada a toda a coluna de uma vez.
df['N√≠vel de Alerta'] = np.where(df['Valor (R$ bi)'] > 6500, 'Alto', 'Normal')

print("\n--- DataFrame Original com a Nova Coluna 'N√≠vel de Alerta' ---")
print(df)

## 3. Bug Hunt
Os c√≥digos abaixo possuem algum tipo de problema. Leia o c√≥digo e a mensagem de erro atentamente e tente solucionar o bug!
Descreva o erro e a solu√ß√£o com suas pr√≥prias palavras.

In [None]:
df_bug1 = pd.read_csv('relatorio_divida.csv')
dados_ano = df_bug1['ano']
print(dados_ano)

KeyError: 'ano'
- Tal coluna n√£o existe no dataframe

In [None]:
df_bug2 = pd.read_csv('relatorio_divida.csv')
filtro_errado = df_bug2[(df_bug2['Ano'] > 2022) and (df_bug2['Mes'] == 'Jan')]
print(filtro_errado)

As condi√ß√µes (df_bug2['Ano'] > 2022) e (df_bug2['Mes'] == 'Jan') n√£o retornam um √∫nico True ou False. Elas retornam uma S√©rie (uma coluna) de valores True e False, um para cada linha do DataFrame. O operador and n√£o sabe como comparar duas S√©ries inteiras, gerando o erro `ValueError: The truth value of a Series is ambiguous.`

## 4. Projetos para voc√™ fazer!

O projeto a seguir √© bastante autoguiado! **Use a IA generativa** para ir gerando o c√≥digo necess√°rio para implementar as suas ideias!

Escolha uma base de dados de sua prefer√™ncia (ou do seu trabalho ou da internet). Tente seguir os mesmos passos dos exerc√≠cios do SADIPEM para investigar os dados. Seguem algumas sugest√µes de fontes de dados:

- Portal de Dados Abertos do Governo Federal: https://dados.gov.br/

√â a fonte mais rica para dados do setor p√∫blico. Voc√™ encontrar√° de tudo: desde despesas detalhadas de minist√©rios at√© informa√ß√µes sobre servidores, licita√ß√µes e programas sociais. A maioria dos datasets est√° em formato CSV.

- IPEAData: http://www.ipeadata.gov.br/

Excelente para s√©ries temporais macroecon√¥micas: PIB, infla√ß√£o, c√¢mbio, emprego, etc. Ideal para an√°lises de conjuntura.

- Kaggle Datasets: https://www.kaggle.com/datasets

Uma plataforma global com milhares de datasets limpos sobre os mais variados assuntos (de esportes a sa√∫de, de finan√ßas a cinema). √ìtimo se voc√™ quiser explorar um tema diferente.

- Seu Pr√≥prio Trabalho: Existe alguma planilha que voc√™ usa repetidamente no seu dia a dia? Um relat√≥rio que voc√™ sempre precisa montar? Use uma vers√£o anonimizada (sem dados sens√≠veis) desses dados. Esta √© a forma mais poderosa de ver o impacto direto do Python no seu trabalho.

##### üìù Checklist do Analista de Dados
Defini√ß√£o do Problema: Antes de escrever qualquer c√≥digo, defina em uma c√©lula de Markdown: Qual pergunta principal voc√™ quer responder com estes dados? (Ex: "Qual estado brasileiro mais realizou opera√ß√µes de cr√©dito nos √∫ltimos anos?", "Existe uma correla√ß√£o entre o gasto em infraestrutura e o crescimento do PIB de um munic√≠pio?").

Coleta e Carregamento: Use pd.read_csv(), pd.read_excel() ou a biblioteca requests para carregar seus dados em um DataFrame.

Explora√ß√£o Inicial (Reconhecimento): Use .head(), .info(), .describe() e .isnull().sum() para "sentir" os dados. Quais s√£o as colunas? Quais os tipos de dados? Existem valores ausentes?

Limpeza e Prepara√ß√£o: Se necess√°rio, trate os valores ausentes (com .fillna()), corrija os tipos de dados (com .astype()) e renomeie colunas para facilitar a an√°lise (com .rename()).

An√°lise e Manipula√ß√£o: Esta √© a parte principal. Use tudo o que aprendeu:
Filtre os dados para focar em subconjuntos de interesse.
Crie novas colunas com c√°lculos que ajudem a responder sua pergunta.
Ordene os dados com .sort_values() para encontrar os maiores ou menores valores.
Agrupe os dados com .groupby() para calcular estat√≠sticas por categoria.

Visualiza√ß√£o de Dados: Use o seaborn para criar gr√°ficos que contem a hist√≥ria e respondam √† sua pergunta inicial. Um bom gr√°fico vale mais que mil linhas de tabela.

Conclus√£o: Em uma c√©lula de Markdown final, escreva um par√°grafo resumindo suas principais descobertas. O que os dados lhe disseram? Sua pergunta inicial foi respondida?

#### Exemplos de Perguntas Interessantes a Serem Respondidas
Ainda n√£o sabe o que perguntar aos seus dados? Use estas perguntas como inspira√ß√£o. Elas podem ser aplicadas a quase qualquer dataset.

**Perguntas Descritivas e de Frequ√™ncia (O "Qu√™?")**
- Qual a distribui√ß√£o de uma vari√°vel num√©rica chave? (Ex: Qual a distribui√ß√£o dos valores dos contratos?)
    - Ferramentas: .describe(), seaborn.histplot()

- Quais s√£o as categorias mais comuns em uma coluna? (Ex: Quais os 3 tipos de finalidade mais frequentes?)
    - Ferramentas: .value_counts(), seaborn.countplot()

- Qual o per√≠odo de tempo coberto pelos dados?
  - Ferramentas: .min() e .max() em uma coluna de data.

**Perguntas de Compara√ß√£o e Ranking (O "Como se compara?" e "Quem √© o maior?")**
- Como uma m√©trica num√©rica (ex: valor) se compara entre diferentes grupos (ex: por UF ou por Tipo de Credor)?
    - Ferramentas: .groupby(...).mean(), seaborn.barplot(), seaborn.boxplot()

- Quais s√£o os "Top 10" itens com base em um crit√©rio? (Ex: os 10 munic√≠pios com o maior valor total de pleitos).
    - Ferramentas: .groupby(...).sum(), .sort_values(), .head(10)

**Perguntas de Rela√ß√£o e Correla√ß√£o (O "Como se relacionam?")**
- Existe uma correla√ß√£o entre duas vari√°veis num√©ricas? (Ex: O valor de um pleito tem rela√ß√£o com a taxa de juros aplicada?).
    - Ferramentas: seaborn.scatterplot(), .corr(), seaborn.heatmap()

- Como uma vari√°vel se comportou ao longo do tempo? (Ex: A quantidade de pleitos deferidos aumentou ou diminuiu nos √∫ltimos anos?).
    - Ferramentas: groupby() por ano/m√™s, seaborn.lineplot()

## 5. Perguntas para discuss√£o em grupo

1) Qual a maior vantagem de usar pandas para automatizar um relat√≥rio mensal em vez de fazer o mesmo processo manualmente no Excel? Pensem em termos de tempo, reprodutibilidade (garantir que o resultado seja sempre o mesmo, sem erros manuais) e escala (fazer o mesmo para 1, 10 ou 100 arquivos com um √∫nico clique).

- Tempo e Automa√ß√£o: Um script em pandas √© um ativo. Voc√™ o constr√≥i uma vez e ele trabalha para voc√™ para sempre. Um relat√≥rio que leva 2 horas para ser feito manualmente no Excel pode ser executado em 2 segundos com um script. A economia de tempo em um ano √© gigantesca.

- Reprodutibilidade e Confiabilidade: O processo manual no Excel √© fr√°gil e sujeito a erro humano. Um clique errado, uma f√≥rmula arrastada incorretamente, um copiar-e-colar na c√©lula errada podem comprometer todo o relat√≥rio sem que ningu√©m perceba. Um script √© uma "receita de bolo" exata e audit√°vel. Se o dado de entrada for o mesmo, a sa√≠da ser√° sempre a mesma, garantindo consist√™ncia e zerando o risco de erro operacional.

- Escala: O Excel sofre (e muito) com arquivos grandes. Um script pandas processa 10 mil, 1 milh√£o ou 10 milh√µes de linhas com a mesma l√≥gica e efici√™ncia. Al√©m disso, com um simples la√ßo for, voc√™ pode aplicar o mesmo processo a 100 arquivos de uma s√≥ vez, uma tarefa que seria impens√°vel de se fazer manualmente.

2) Pensem em uma planilha complexa que voc√™s recebem ou geram regularmente no Tesouro. Tentem idealizar um c√≥digo que facilita a realiza√ß√£o da tarefa (e.g. processar dados, fazer colunas calculadas e gerar um gr√°fico).

## 6. Sugest√µes de pesquisa

1) Agrupamento com .groupby(): O que √© a opera√ß√£o "Split-Apply-Combine" e como o m√©todo .groupby() do pandas a implementa para calcular estat√≠sticas por categoria (ex: a despesa total por minist√©rio)?

"Split-Apply-Combine" √© um paradigma que descreve um processo de tr√™s etapas:

Split (Dividir): O DataFrame √© "quebrado" em grupos menores com base nos valores de uma ou mais colunas. Por exemplo, df.groupby('Minist√©rio') divide o DataFrame em v√°rios peda√ßos, um para cada minist√©rio √∫nico.

Apply (Aplicar): Uma fun√ß√£o de agrega√ß√£o √© aplicada a cada um desses grupos independentemente. Pode ser uma soma (.sum()), uma m√©dia (.mean()), uma contagem (.count()), ou at√© uma fun√ß√£o mais complexa que voc√™ mesmo define.

Combine (Combinar): Os resultados de cada grupo s√£o coletados e combinados em uma nova estrutura de dados (um novo DataFrame ou uma S√©rie), apresentando o resumo da an√°lise.

- O m√©todo .groupby() do pandas √© a implementa√ß√£o direta e poderosa dessa estrat√©gia, permitindo sumariza√ß√µes complexas com uma √∫nica linha de c√≥digo.

2) Combinando Planilhas com .merge(): Como o m√©todo .merge() funciona para combinar dados de diferentes DataFrames, de forma similar ao PROCV (VLOOKUP) do Excel?

O pd.merge() √© a vers√£o do pandas para o que os bancos de dados chamam de JOIN. Ele combina linhas de dois DataFrames com base em uma ou mais colunas em comum (a "chave").

3) Trabalhando com Datas: Como o pandas lida com colunas de data? Pesquise sobre o tipo de dado datetime e a fun√ß√£o pd.to_datetime().

A fun√ß√£o pd.to_datetime() √© a porta de entrada. Ela √© inteligente e consegue converter diversos formatos de texto (como '25/09/2025', '2025-09-25', 'Sep 25, 2025') para o formato datetime64

4) Tabelas Din√¢micas com .pivot_table(): Como este m√©todo recria a funcionalidade de uma Tabela Din√¢mica do Excel para resumir e reorganizar seus dados?

Voc√™ especifica tr√™s par√¢metros principais:

- index: A coluna cujos valores √∫nicos se tornar√£o as novas linhas da tabela.

- columns: A coluna cujos valores √∫nicos se tornar√£o as novas colunas.

- values: A coluna cujos valores ser√£o agregados no "cruzamento" do √≠ndice e das colunas.

- aggfunc: A fun√ß√£o de agrega√ß√£o a ser usada (por padr√£o √© a m√©dia, mean, mas pode ser sum, count, etc.).

√â uma ferramenta incrivelmente √∫til para transformar dados em formato "longo" (muitas linhas, poucas colunas) em formato "largo" (mais colunas, representando um resumo), ideal para relat√≥rios.