# üí∞ Ingest√£o de Pre√ßos CEPEA ‚Äì Manga e Uva

## Objetivo

Este notebook consolida os **pre√ßos m√©dios anuais** de manga e uva do CEPEA para o **Vale do S√£o Francisco**, a partir dos arquivos Excel baixados do site do CEPEA.  

O resultado final √© um CSV padronizado (`cepea_precos_medios_anuais.csv`) com colunas:

- `ano`: ano de refer√™ncia do pre√ßo.  
- `preco_r$_kg`: pre√ßo m√©dio em R$/kg.  
- `produto`: fruta agregada (`Manga` ou `Uva`).  

Esse arquivo √© salvo em `data/processed` e √© usado pelo notebook `02_data_cleaning_FIXED.ipynb` para integrar pre√ßos CEPEA com produ√ß√£o IBGE.  

## Escopo dos Dados

- **Produtos originais (exemplos):**  
  - Uva: Crimson, Benitaka, uvas sem semente (embaladas ou n√£o), etc.  
  - Manga: Palmer, Tommy, atacado/produtor, etc.  
- **Regi√£o:** Vale do S√£o Francisco.  
- **Unidade:** R$/kg.  
- **Per√≠odo:** todos os anos dispon√≠veis nos arquivos Excel de manga e uva.  

## Papel deste Notebook no Projeto

1. Carregar os arquivos Excel de pre√ßos de **uva** e **manga** do CEPEA.  
2. Padronizar colunas, filtrar apenas a regi√£o/segmentos relevantes e criar a coluna `produto` consolidada.  
3. Exportar um CSV √∫nico (`cepea_precos_medios_anuais.csv`) pronto para ser agregado por ano-produto no notebook de limpeza.  


In [3]:
# ============================================================================
# C√âLULA 1: IMPORTS, MONTAGEM DO DRIVE E CARREGAMENTO DOS EXCEL DO CEPEA
# ============================================================================

import os
import logging

import pandas as pd
from google.colab import drive
from IPython.display import display

# --- Logging b√°sico ---
logging.basicConfig(
    level=logging.INFO,
    format="%(asctime)s - %(levelname)s - %(message)s",
)
logger = logging.getLogger(__name__)

logger.info("Inicializando notebook 01b_price_ingestion (CEPEA).")

# --- Montar Google Drive ---
drive.mount("/content/drive")

# Diret√≥rios base do projeto
BASE_DIR = "/content/drive/MyDrive/projeto_produtividade"
RAW_DATA_DIR = os.path.join(BASE_DIR, "data", "raw")
PROCESSED_DATA_DIR = os.path.join(BASE_DIR, "data", "processed")

os.makedirs(RAW_DATA_DIR, exist_ok=True)
os.makedirs(PROCESSED_DATA_DIR, exist_ok=True)

logger.info(f"Diret√≥rio RAW: {RAW_DATA_DIR}")
logger.info(f"Diret√≥rio PROCESSED: {PROCESSED_DATA_DIR}")

# --- Caminhos dos arquivos Excel de Uva e Manga ---
# Ajuste os nomes abaixo se necess√°rio, de acordo com os arquivos que voc√™ salvou.
path_uva = os.path.join(RAW_DATA_DIR, "precos-medios_uva.xlsx")
path_manga = os.path.join(RAW_DATA_DIR, "precos-medios_manga.xlsx")

logger.info(f"Caminho esperado (uva)  : {path_uva}")
logger.info(f"Caminho esperado (manga): {path_manga}")

# --- Carregar arquivos Excel ---

try:
    df_uva_raw = pd.read_excel(path_uva)
    df_manga_raw = pd.read_excel(path_manga)
    print("‚úÖ Arquivos Excel de uva e manga carregados com sucesso!\n")
except FileNotFoundError as e:
    print("‚ùå ERRO ao carregar os arquivos Excel do CEPEA.")
    print("Verifique se os arquivos existem na pasta RAW e se os nomes batem com o c√≥digo.")
    raise

print("Amostra Uva:")
display(df_uva_raw.head())

print("\nAmostra Manga:")
display(df_manga_raw.head())

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
‚úÖ Arquivos Excel de uva e manga carregados com sucesso!

Amostra Uva:


Unnamed: 0,Produto,Regi√£o,Ano,Moeda,Unidade,Pre√ßo
0,Crimson - produtor,Vale do S√£o Francisco,2024.0,R$,quilograma,13.71
1,Benitaka - produtor,Vale do S√£o Francisco,2024.0,R$,quilograma,7.8
2,Uva sem semente branca comprida embalada,Vale do S√£o Francisco,2024.0,R$,quilograma,15.42
3,Uva sem semente negra,Vale do S√£o Francisco,2024.0,R$,quilograma,7.63
4,Uva sem semente negra embalada,Vale do S√£o Francisco,2024.0,R$,quilograma,11.84



Amostra Manga:


Unnamed: 0,Produto,Regi√£o,Ano,Moeda,Unidade,Pre√ßo
0,Palmer - produtor,Vale do S√£o Francisco,2024.0,R$,quilograma,2.84
1,Tommy - produtor,Vale do S√£o Francisco,2024.0,R$,quilograma,2.96
2,Palmer - produtor,Vale do S√£o Francisco,2023.0,R$,quilograma,2.23
3,Tommy - produtor,Vale do S√£o Francisco,2023.0,R$,quilograma,2.22
4,Palmer - produtor,Vale do S√£o Francisco,2022.0,R$,quilograma,1.54


## üßÆ C√âLULA 2 ‚Äì Padroniza√ß√£o e consolida√ß√£o dos pre√ßos CEPEA

Nesta etapa vamos:

1. Padronizar as colunas dos dataframes brutos `df_uva_raw` e `df_manga_raw` para o formato:  
   - `ano` (num√©rico)  
   - `preco_r$_kg` (float)  
   - `produto` (categoria consolidada: `Uva` ou `Manga`)  
2. Filtrar apenas registros da regi√£o **"Vale do S√£o Francisco"**, na moeda **"R$"** e unidade **"quilograma"**, garantindo consist√™ncia.  
3. Concatenar os dois dataframes em um √∫nico `df_precos`.  
4. Salvar o CSV final `cepea_precos_medios_anuais.csv` na pasta `data/processed`, que ser√° utilizado pelo notebook `02_data_cleaning_FIXED.ipynb`.  

O objetivo aqui √© ter um dataset de pre√ßos simples, limpo e diretamente agreg√°vel por `ano` e `produto`.  


In [4]:
# ============================================================================
# C√âLULA 2: PADRONIZA√á√ÉO E CONSOLIDA√á√ÉO DOS PRE√áOS CEPEA
# ============================================================================

def preparar_df_preco(df_raw: pd.DataFrame, produto_label: str) -> pd.DataFrame:
    """
    Padroniza um dataframe bruto do CEPEA (uva ou manga) para o formato:
    - ano
    - preco_r$_kg
    - produto
    Filtrando apenas:
    - Regi√£o: Vale do S√£o Francisco
    - Moeda: R$
    - Unidade: quilograma
    """
    col_map = {
        "Ano": "ano",
        "Pre√ßo": "preco_r$_kg",
    }

    # Filtro por regi√£o, moeda e unidade
    df = df_raw.copy()

    if "Regi√£o" in df.columns:
        df = df[df["Regi√£o"].astype(str).str.contains("Vale do S√£o Francisco", case=False, na=False)]

    if "Moeda" in df.columns:
        df = df[df["Moeda"].astype(str).str.contains("R", na=False)]

    if "Unidade" in df.columns:
        df = df[df["Unidade"].astype(str).str.contains("quilograma", case=False, na=False)]

    # Renomear colunas principais
    df = df.rename(columns=col_map)

    # Manter apenas colunas essenciais
    colunas_essenciais = ["ano", "preco_r$_kg"]
    df = df[colunas_essenciais].copy()

    # Tipos consistentes
    df["ano"] = df["ano"].astype(float)
    df["preco_r$_kg"] = df["preco_r$_kg"].astype(float)

    # Adicionar coluna de produto consolidado
    df["produto"] = produto_label

    return df


# Preparar dataframes de Uva e Manga
df_uva = preparar_df_preco(df_uva_raw, produto_label="Uva")
df_manga = preparar_df_preco(df_manga_raw, produto_label="Manga")

print("Amostra Uva (padronizada):")
display(df_uva.head())

print("\nAmostra Manga (padronizada):")
display(df_manga.head())

# Concatenar em um √∫nico dataframe de pre√ßos
df_precos = pd.concat([df_uva, df_manga], ignore_index=True)

print("\nShape consolidado df_precos:", df_precos.shape)
print("Anos √∫nicos:", sorted(df_precos['ano'].unique()))
print("Produtos √∫nicos:", df_precos['produto'].unique())

display(df_precos.head())


Amostra Uva (padronizada):


Unnamed: 0,ano,preco_r$_kg,produto
0,2024.0,13.71,Uva
1,2024.0,7.8,Uva
2,2024.0,15.42,Uva
3,2024.0,7.63,Uva
4,2024.0,11.84,Uva



Amostra Manga (padronizada):


Unnamed: 0,ano,preco_r$_kg,produto
0,2024.0,2.84,Manga
1,2024.0,2.96,Manga
2,2023.0,2.23,Manga
3,2023.0,2.22,Manga
4,2022.0,1.54,Manga



Shape consolidado df_precos: (153, 3)
Anos √∫nicos: [np.float64(2013.0), np.float64(2014.0), np.float64(2015.0), np.float64(2016.0), np.float64(2017.0), np.float64(2018.0), np.float64(2019.0), np.float64(2020.0), np.float64(2021.0), np.float64(2022.0), np.float64(2023.0), np.float64(2024.0)]
Produtos √∫nicos: ['Uva' 'Manga']


Unnamed: 0,ano,preco_r$_kg,produto
0,2024.0,13.71,Uva
1,2024.0,7.8,Uva
2,2024.0,15.42,Uva
3,2024.0,7.63,Uva
4,2024.0,11.84,Uva


## üíæ C√âLULA 3 ‚Äì Salvando `cepea_precos_medios_anuais.csv`

Com os dados de pre√ßos de **uva** e **manga** j√° padronizados e consolidados em `df_precos`, vamos:

- Validar rapidamente a consist√™ncia (contagem de linhas por ano e por produto).  
- Salvar o arquivo `cepea_precos_medios_anuais.csv` na pasta `data/processed`.  

Esse CSV √© consumido diretamente pelo notebook `02_data_cleaning_FIXED.ipynb`, que faz a agrega√ß√£o por ano-produto e integra os pre√ßos CEPEA com a produ√ß√£o do IBGE.  


In [5]:
# ============================================================================
# C√âLULA 3: VALIDA√á√ÉO R√ÅPIDA E SALVAMENTO DO CSV DE PRE√áOS
# ============================================================================

print("üìä Vis√£o geral do df_precos antes de salvar:\n")

print("Shape df_precos:", df_precos.shape)
print("\nContagem por produto:")
print(df_precos["produto"].value_counts())

print("\nContagem de registros por ano e produto (top 10 linhas):")
display(
    df_precos
    .groupby(["ano", "produto"])
    .size()
    .reset_index(name="n_observacoes")
    .head(10)
)

# Caminho de sa√≠da (pasta processed j√° definida na C√âLULA 1)
output_path_precos = os.path.join(PROCESSED_DATA_DIR, "cepea_precos_medios_anuais.csv")

# Salvar CSV
df_precos.to_csv(output_path_precos, index=False, encoding="utf-8-sig")

print("\n‚úÖ Arquivo de pre√ßos CEPEA salvo com sucesso!")
print(f"Caminho: {output_path_precos}")


üìä Vis√£o geral do df_precos antes de salvar:

Shape df_precos: (153, 3)

Contagem por produto:
produto
Uva      123
Manga     30
Name: count, dtype: int64

Contagem de registros por ano e produto (top 10 linhas):


Unnamed: 0,ano,produto,n_observacoes
0,2013.0,Manga,2
1,2013.0,Uva,14
2,2014.0,Manga,4
3,2014.0,Uva,12
4,2015.0,Manga,3
5,2015.0,Uva,14
6,2016.0,Manga,2
7,2016.0,Uva,13
8,2017.0,Manga,3
9,2017.0,Uva,10



‚úÖ Arquivo de pre√ßos CEPEA salvo com sucesso!
Caminho: /content/drive/MyDrive/projeto_produtividade/data/processed/cepea_precos_medios_anuais.csv
