# üßπ 02_data_cleaning_FIXED ‚Äì Corre√ß√£o do merge IBGE x CEPEA

## Objetivo desta etapa

Nesta etapa vamos:
- Carregar os dados brutos do IBGE (PAM) e os dados de pre√ßos do CEPEA j√° pr√©-processados.
- Garantir que os caminhos e arquivos est√£o corretos antes de aplicar qualquer transforma√ß√£o.
- Inspecionar rapidamente a estrutura (colunas e n√∫mero de linhas) de cada fonte.

O foco aqui √© preparar o ambiente de limpeza que vai gerar o dataset integrado **sem merge cartesiano**, resultando em **48 registros esperados** (2 munic√≠pios √ó 12 anos √ó 2 produtos).


In [3]:
# C√âLULA 1: SETUP E CARREGAMENTO DOS DADOS

import os
import pandas as pd
import numpy as np
from google.colab import drive
from IPython.display import display

# Montar Google Drive
drive.mount("/content/drive")

# Definir diret√≥rios base
BASE_DIR = "/content/drive/MyDrive/projeto_produtividade"
RAW_DATA_DIR = os.path.join(BASE_DIR, "data", "raw")
PROCESSED_DATA_DIR = os.path.join(BASE_DIR, "data", "processed")

# Caminhos dos arquivos de entrada
path_ibge = os.path.join(RAW_DATA_DIR, "pam_permanente_vsf_raw.csv")
path_cepea = os.path.join(PROCESSED_DATA_DIR, "cepea_precos_medios_anuais.csv")

print("Caminhos definidos. Carregando arquivos...")

try:
    df_ibge_raw = pd.read_csv(path_ibge)
    df_precos = pd.read_csv(path_cepea)
    print("Arquivos CSV do IBGE e CEPEA carregados com sucesso!")
except FileNotFoundError as e:
    raise FileNotFoundError(f"Erro ao carregar arquivo. Verifique os caminhos. Erro: {e}")

# Amostras dos dados
print("\nAmostra IBGE (bruto):")
display(df_ibge_raw.head(5))

print("\nAmostra CEPEA (pre√ßos):")
display(df_precos.head(5))

# Shapes para confer√™ncia r√°pida
print("\nShapes dos dataframes:")
print(f"IBGE raw        : {df_ibge_raw.shape}")
print(f"Pre√ßos CEPEA    : {df_precos.shape}")

Mounted at /content/drive
Caminhos definidos. Carregando arquivos...
Arquivos CSV do IBGE e CEPEA carregados com sucesso!

Amostra IBGE (bruto):


Unnamed: 0,N√≠vel Territorial (C√≥digo),N√≠vel Territorial,Unidade de Medida (C√≥digo),Unidade de Medida,Valor,Munic√≠pio (C√≥digo),Munic√≠pio,Ano (C√≥digo),Ano,Vari√°vel (C√≥digo),Vari√°vel,Produto das lavouras permanentes (C√≥digo),Produto das lavouras permanentes
0,6,Munic√≠pio,1006,Hectares,4642,2611101,Petrolina (PE),2013,2013,216,√Årea colhida,2748,Uva
1,6,Munic√≠pio,1006,Hectares,7880,2611101,Petrolina (PE),2013,2013,216,√Årea colhida,2737,Manga
2,6,Munic√≠pio,1017,Toneladas,162448,2611101,Petrolina (PE),2013,2013,214,Quantidade produzida,2748,Uva
3,6,Munic√≠pio,1017,Toneladas,173360,2611101,Petrolina (PE),2013,2013,214,Quantidade produzida,2737,Manga
4,6,Munic√≠pio,33,Quilogramas por Hectare,34995,2611101,Petrolina (PE),2013,2013,112,Rendimento m√©dio da produ√ß√£o,2748,Uva



Amostra CEPEA (pre√ßos):


Unnamed: 0,ano,preco_r$_kg,produto
0,2024.0,13.71,Uva
1,2024.0,7.8,Uva
2,2024.0,15.42,Uva
3,2024.0,7.63,Uva
4,2024.0,11.84,Uva



Shapes dos dataframes:
IBGE raw        : (144, 13)
Pre√ßos CEPEA    : (153, 3)


## üßÆ Passo 2 ‚Äì Padronizar IBGE e agregar pre√ßos CEPEA

Neste passo vamos:

- Padronizar as colunas fundamentais do dataset do IBGE (`df_ibge_raw`), renomeando para um padr√£o mais simples (`municipio`, `ano`, `produto`, `variavel`, `valor`).
- Filtrar apenas as vari√°veis de interesse: **√Årea colhida**, **Quantidade produzida** e **Rendimento m√©dio da produ√ß√£o**.
- Filtrar apenas os produtos alvo: **Manga** e **Uva**.
- Agregar os pre√ßos do CEPEA (`df_precos`) por **ano + produto**, calculando:
  - mediana (mais robusta a outliers),
  - m√©dia,
  - desvio padr√£o,
  - n√∫mero de observa√ß√µes de pre√ßo.

No final, teremos:
- Um `df_ibge` j√° limpo e focado nas m√©tricas relevantes.
- Um `df_precos_agg` com **uma linha por ano-produto**, pronto para o merge sem multiplica√ß√£o cartesiana.


In [4]:
# C√âLULA 2: PADRONIZAR IBGE E AGREGAR PRE√áOS CEPEA

# 2.1 Padronizar colunas fundamentais do IBGE
df_ibge = df_ibge_raw.rename(columns={
    "Munic√≠pio": "municipio",
    "Ano": "ano",
    "Produto das lavouras permanentes": "produto",
    "Vari√°vel": "variavel",
    "Valor": "valor"
}).copy()

# Filtrar apenas vari√°veis de interesse
variaveis_alvo = [
    "√Årea colhida",
    "Quantidade produzida",
    "Rendimento m√©dio da produ√ß√£o"
]

df_ibge = df_ibge[df_ibge["variavel"].isin(variaveis_alvo)]

# Filtrar apenas produtos de interesse (Manga e Uva)
produtos_alvo = ["Manga", "Uva"]
df_ibge = df_ibge[df_ibge["produto"].isin(produtos_alvo)]

print("Resumo IBGE ap√≥s padroniza√ß√£o e filtro:")
display(df_ibge[["municipio", "ano", "produto", "variavel", "valor"]].head())

print("\nShape IBGE filtrado:", df_ibge.shape)

# 2.2 Agregar pre√ßos CEPEA por ano-produto (mediana, m√©dia, std, contagem)
agg_dict = {"preco_r$_kg": ["median", "mean", "std", "count"]}

df_precos_agg = df_precos.groupby(["ano", "produto"], as_index=False).agg(agg_dict)

# Ajustar nomes das colunas ap√≥s o groupby com m√∫ltiplas agrega√ß√µes
df_precos_agg.columns = [
    "ano",
    "produto",
    "preco_mediano_r$_kg",
    "preco_medio_r$_kg",
    "preco_std_r$_kg",
    "num_observacoes_preco"
]

print("\nResumo CEPEA ap√≥s agrega√ß√£o:")
display(df_precos_agg.head())

print("\nShape CEPEA agregado:", df_precos_agg.shape)

# Checagem r√°pida de consist√™ncia entre bases
print("\nAnos IBGE:", sorted(df_ibge["ano"].unique()))
print("Anos CEPEA agregados:", sorted(df_precos_agg["ano"].unique()))
print("Produtos IBGE:", df_ibge["produto"].unique())
print("Produtos CEPEA agregados:", df_precos_agg["produto"].unique())


Resumo IBGE ap√≥s padroniza√ß√£o e filtro:


Unnamed: 0,municipio,ano,produto,variavel,valor
0,Petrolina (PE),2013,Uva,√Årea colhida,4642
1,Petrolina (PE),2013,Manga,√Årea colhida,7880
2,Petrolina (PE),2013,Uva,Quantidade produzida,162448
3,Petrolina (PE),2013,Manga,Quantidade produzida,173360
4,Petrolina (PE),2013,Uva,Rendimento m√©dio da produ√ß√£o,34995



Shape IBGE filtrado: (144, 13)

Resumo CEPEA ap√≥s agrega√ß√£o:


Unnamed: 0,ano,produto,preco_mediano_r$_kg,preco_medio_r$_kg,preco_std_r$_kg,num_observacoes_preco
0,2013.0,Manga,1.365,1.365,0.417193,2
1,2013.0,Uva,4.3,4.443571,1.355959,14
2,2014.0,Manga,1.255,1.445,0.61071,4
3,2014.0,Uva,4.335,4.574167,1.493017,12
4,2015.0,Manga,1.59,1.706667,0.642988,3



Shape CEPEA agregado: (24, 6)

Anos IBGE: [np.int64(2013), np.int64(2014), np.int64(2015), np.int64(2016), np.int64(2017), np.int64(2018), np.int64(2019), np.int64(2020), np.int64(2021), np.int64(2022), np.int64(2023), np.int64(2024)]
Anos CEPEA agregados: [np.float64(2013.0), np.float64(2014.0), np.float64(2015.0), np.float64(2016.0), np.float64(2017.0), np.float64(2018.0), np.float64(2019.0), np.float64(2020.0), np.float64(2021.0), np.float64(2022.0), np.float64(2023.0), np.float64(2024.0)]
Produtos IBGE: ['Uva' 'Manga']
Produtos CEPEA agregados: ['Manga' 'Uva']


## üîÑ Passo 3 ‚Äì Pivot do IBGE e merge com pre√ßos (sem cartesiano)

Neste passo vamos:

- Transformar o dataframe do IBGE (`df_ibge`) de formato **longo** (uma linha por vari√°vel) para formato **wide** (uma linha por `municipio-ano-produto`), criando colunas espec√≠ficas para:
  - `area_colhida_ha`
  - `quantidade_produzida_t`
  - `rendimento_medio_kg_ha`
- Garantir que as chaves de merge s√£o **√∫nicas**:
  - `df_precos_agg`: uma linha por `ano-produto`.
  - `df_ibge_wide`: uma linha por `municipio-ano-produto`.
- Realizar o merge entre IBGE e CEPEA usando `merge(..., validate="m:1")` para impedir multiplica√ß√£o cartesiana.

No final, teremos um `df_merged` com o n√∫mero correto de linhas (combina√ß√µes de munic√≠pio √ó produto √ó ano) e colunas de √°rea, produ√ß√£o, rendimento e pre√ßos agregados, pronto para ser salvo como dataset integrado.


In [5]:
# C√âLULA 3: PIVOTAR IBGE PARA FORMATO WIDE E FAZER MERGE COM PRE√áOS

# 3.1 Mapear descri√ß√µes das vari√°veis do IBGE para nomes de colunas mais amig√°veis
pivot_map = {
    "√Årea colhida": "area_colhida_ha",
    "Quantidade produzida": "quantidade_produzida_t",
    "Rendimento m√©dio da produ√ß√£o": "rendimento_medio_kg_ha",
}

df_ibge["variavel_simplificada"] = df_ibge["variavel"].map(pivot_map)

# Checagem de seguran√ßa: ver se alguma vari√°vel ficou sem mapeamento
if df_ibge["variavel_simplificada"].isna().any():
    print("ATEN√á√ÉO: Existem vari√°veis do IBGE sem mapeamento em pivot_map:")
    display(
        df_ibge[df_ibge["variavel_simplificada"].isna()][["variavel"]]
        .drop_duplicates()
    )

# 3.2 Pivotar IBGE para uma linha por municipio-ano-produto
df_ibge_wide = (
    df_ibge
    .pivot_table(
        index=["municipio", "ano", "produto"],
        columns="variavel_simplificada",
        values="valor",
        aggfunc="first"  # n√£o deve haver duplicidade por chave
    )
    .reset_index()
)

# Organizar colunas (chaves primeiro)
cols_base = ["municipio", "ano", "produto"]
other_cols = [c for c in df_ibge_wide.columns if c not in cols_base]
df_ibge_wide = df_ibge_wide[cols_base + other_cols]

print("IBGE em formato wide (uma linha por municipio-ano-produto):")
display(df_ibge_wide.head())

print("\nShape IBGE wide:", df_ibge_wide.shape)

# 3.3 Checar unicidade das chaves antes do merge

print("\nChecando unicidade de chaves (ano, produto) em CEPEA agregado:")
dup_keys_precos = (
    df_precos_agg
    .groupby(["ano", "produto"])
    .size()
    .reset_index(name="n")
)
display(dup_keys_precos[dup_keys_precos["n"] > 1])

print("\nChecando unicidade de chaves (municipio, ano, produto) em IBGE wide:")
dup_keys_ibge = (
    df_ibge_wide
    .groupby(["municipio", "ano", "produto"])
    .size()
    .reset_index(name="n")
)
display(dup_keys_ibge[dup_keys_ibge["n"] > 1])

# 3.4 Merge seguro (sem multiplica√ß√£o cartesiana)
df_merged = pd.merge(
    df_ibge_wide,
    df_precos_agg,
    on=["ano", "produto"],
    how="left",
    validate="m:1"  # cada linha de IBGE casa com no m√°ximo 1 linha de pre√ßo
)

print("\nShape final ap√≥s merge:", df_merged.shape)
print("Preview do dataset integrado (IBGE + pre√ßos CEPEA):")
display(df_merged.head())

# 3.5 Checagem final de n√∫mero de linhas
print(
    "\nN√∫mero de linhas em IBGE wide (esperado para o dataset final):",
    df_ibge_wide.shape[0]
)

IBGE em formato wide (uma linha por municipio-ano-produto):


variavel_simplificada,municipio,ano,produto,area_colhida_ha,quantidade_produzida_t,rendimento_medio_kg_ha
0,Juazeiro (BA),2013,Manga,8086,210236,26000
1,Juazeiro (BA),2013,Uva,1270,27940,22000
2,Juazeiro (BA),2014,Manga,2130,55380,26000
3,Juazeiro (BA),2014,Uva,1576,39400,25000
4,Juazeiro (BA),2015,Manga,2130,44730,21000



Shape IBGE wide: (48, 6)

Checando unicidade de chaves (ano, produto) em CEPEA agregado:


Unnamed: 0,ano,produto,n



Checando unicidade de chaves (municipio, ano, produto) em IBGE wide:


Unnamed: 0,municipio,ano,produto,n



Shape final ap√≥s merge: (48, 10)
Preview do dataset integrado (IBGE + pre√ßos CEPEA):


Unnamed: 0,municipio,ano,produto,area_colhida_ha,quantidade_produzida_t,rendimento_medio_kg_ha,preco_mediano_r$_kg,preco_medio_r$_kg,preco_std_r$_kg,num_observacoes_preco
0,Juazeiro (BA),2013,Manga,8086,210236,26000,1.365,1.365,0.417193,2
1,Juazeiro (BA),2013,Uva,1270,27940,22000,4.3,4.443571,1.355959,14
2,Juazeiro (BA),2014,Manga,2130,55380,26000,1.255,1.445,0.61071,4
3,Juazeiro (BA),2014,Uva,1576,39400,25000,4.335,4.574167,1.493017,12
4,Juazeiro (BA),2015,Manga,2130,44730,21000,1.59,1.706667,0.642988,3



N√∫mero de linhas em IBGE wide (esperado para o dataset final): 48


## üíæ Passo 4 ‚Äì Valida√ß√£o final e salvamento do dataset integrado

Nesta etapa vamos:
- Verificar se o dataset integrado (`df_merged`) tem exatamente **48 registros**, conforme o plano (2 munic√≠pios √ó 12 anos √ó 2 produtos). [attached_file:1]
- Garantir que n√£o existam duplicatas na chave prim√°ria (`municipio`, `ano`, `produto`). [attached_file:1]
- Checar a estrutura b√°sica (n√∫mero de munic√≠pios, intervalo de anos e produtos). [attached_file:1]
- Salvar o dataset corrigido em `PROCESSED_DATA_DIR` com o nome `pam_censo_agro_integrado_v2.csv`, que ser√° o novo input do notebook `03_exploratory_data_analysis.ipynb`. [attached_file:1]


In [6]:
# C√âLULA 4: VALIDA√á√ÉO FINAL E SALVAMENTO DO DATASET INTEGRADO

# 4.1 Valida√ß√£o do n√∫mero de linhas
expected_rows = 2 * 12 * 2  # 2 munic√≠pios √ó 12 anos (2013-2024) √ó 2 produtos
n_rows = df_merged.shape[0]

print(f"Total de linhas em df_merged: {n_rows}")
assert n_rows == expected_rows, f"‚ùå Esperado {expected_rows}, obtido {n_rows}"

# 4.2 Verificar duplicatas na chave prim√°ria
duplicates = df_merged.duplicated(subset=["municipio", "ano", "produto"]).sum()
print(f"Total de duplicatas na chave [municipio, ano, produto]: {duplicates}")
assert duplicates == 0, f"‚ùå Encontradas {duplicates} duplicatas na chave!"

# 4.3 Estrutura b√°sica do dataset
print("\nüìä Estrutura final do dataset integrado:")
print(f"- Munic√≠pios: {df_merged['municipio'].nunique()}")
print(f"- Anos      : {df_merged['ano'].min()} - {df_merged['ano'].max()}")
print(f"- Produtos  : {df_merged['produto'].unique()}")
print(f"- Registros : {len(df_merged)}")

# 4.4 Salvar CSV no diret√≥rio processed
output_path = os.path.join(PROCESSED_DATA_DIR, "pam_censo_agro_integrado_v2.csv")
df_merged.to_csv(output_path, index=False, encoding="utf-8-sig")

print(f"\n‚úÖ Dataset salvo em: {output_path}")

Total de linhas em df_merged: 48
Total de duplicatas na chave [municipio, ano, produto]: 0

üìä Estrutura final do dataset integrado:
- Munic√≠pios: 2
- Anos      : 2013 - 2024
- Produtos  : ['Manga' 'Uva']
- Registros : 48

‚úÖ Dataset salvo em: /content/drive/MyDrive/projeto_produtividade/data/processed/pam_censo_agro_integrado_v2.csv
