# üìä Download de Dados de Combust√≠veis da ANP

<div style="background-color: #1a237e; color: #e8eaf6; padding: 15px; border-radius: 8px; border-left: 5px solid #5c6bc0; margin: 10px 0; box-shadow: 0 2px 4px rgba(0,0,0,0.1);">
    <p>Este notebook automatiza o download dos dados hist√≥ricos de pre√ßos de combust√≠veis fornecidos pela <strong style="color: #8c9eff;">Ag√™ncia Nacional do Petr√≥leo, G√°s Natural e Biocombust√≠veis (ANP)</strong>.</p>
</div>

## üéØ Objetivo
Baixar e organizar os dados de pre√ßos de combust√≠veis para an√°lise posterior, garantindo que os arquivos estejam sempre atualizados e √≠ntegros.

## ‚öôÔ∏è Funcionalidades

### üîÑ Download Autom√°tico
- Baixa arquivos de 2004 at√© o ano atual (2025)
- Suporta diferentes formatos (CSV direto e arquivos ZIP)
- Atualiza√ß√£o semestral dos dados

### üõ°Ô∏è Controle de Qualidade
- Verifica√ß√£o de arquivos existentes
- Valida√ß√£o de integridade dos downloads
- Sistema de retentativa para falhas
- Remo√ß√£o autom√°tica de arquivos corrompidos

### üìÅ Estrutura de Arquivos
```
dados_anp_ca/
‚îú‚îÄ‚îÄ ca-2004-01.csv
‚îú‚îÄ‚îÄ ca-2004-02.csv
‚îú‚îÄ‚îÄ ...
‚îî‚îÄ‚îÄ ca-2025-01.csv
```

## üöÄ Como Usar
1. **Execute todas as c√©lulas** do notebook
2. Os arquivos ser√£o baixados automaticamente para a pasta `dados_anp_ca/`
3. Arquivos existentes ser√£o pulados (n√£o ser√£o baixados novamente)
4. O progresso ser√° mostrado para cada arquivo

## üìù Notas Importantes
- Os dados s√£o atualizados semestralmente pela ANP
- A estrutura dos arquivos pode variar conforme o per√≠odo
- Recomenda-se executar este notebook periodicamente para manter os dados atualizados

<div style="background-color: #1b5e20; color: #c8e6c9; padding: 15px; border-radius: 8px; border-left: 5px solid #4caf50; margin: 10px 0; box-shadow: 0 2px 4px rgba(0,0,0,0.1);">
    <p>üí° <strong style="color: #a5d6a7;">Dica:</strong> Verifique sempre se h√° atualiza√ß√µes na documenta√ß√£o da ANP para eventuais mudan√ßas na estrutura dos dados.</p>
</div>

In [1]:
import requests
import os
import time
import zipfile
import shutil
from datetime import datetime
import gc

# Diret√≥rio para salvar os arquivos
output_dir = 'dados_anp_ca'
os.makedirs(output_dir, exist_ok=True)

# Base URL
base_url = 'https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsas/ca/'

# Anos de 2004 a 2025
anos = range(2004, 2026)  # At√© 2025 inclusive

# Semestres: apenas 01 (1¬∫ semestre) e 02 (2¬∫ semestre)
semestres = ['01', '02']

def download_file(url, filepath, chunk_size=8192, max_retries=5, timeout=60):
    """
    Baixa o arquivo em chunks com retry em caso de falha para economizar mem√≥ria e persistir no download.
    """
    for attempt in range(max_retries):
        try:
            # Remove arquivo parcial se existir de tentativas anteriores
            if os.path.exists(filepath):
                os.remove(filepath)
            
            print(f"Tentativa {attempt + 1}/{max_retries} para {url}")
            
            response = requests.get(url, stream=True, timeout=timeout)
            response.raise_for_status()  # Levanta exce√ß√£o para erros HTTP
            
            total_size = int(response.headers.get('content-length', 0))
            downloaded_size = 0
            
            with open(filepath, 'wb') as f:
                for chunk in response.iter_content(chunk_size=chunk_size):
                    if chunk:
                        f.write(chunk)
                        downloaded_size += len(chunk)
                        # Opcional: progresso se quiser, mas mant√©m simples
                        if total_size > 0:
                            progress = (downloaded_size / total_size) * 100
                            print(f"\rProgresso: {progress:.1f}%", end='', flush=True)
            
            # Verifica se o arquivo foi baixado completamente (tamanho > 0)
            if os.path.getsize(filepath) > 0:
                print(f"\nDownload conclu√≠do: {os.path.basename(filepath)} (tamanho: {os.path.getsize(filepath)} bytes)")
                return True
            else:
                print(f"\nArquivo vazio ap√≥s download: {filepath}. Tentando novamente...")
                os.remove(filepath)
                continue
                
        except requests.exceptions.RequestException as e:
            print(f"\nTentativa {attempt + 1} falhou: {e}")
            if os.path.exists(filepath):
                os.remove(filepath)
            if attempt < max_retries - 1:
                wait_time = (2 ** attempt) + 1  # Backoff exponencial: 3s, 5s, 9s, etc.
                print(f"Aguardando {wait_time}s antes da pr√≥xima tentativa...")
                time.sleep(wait_time)
            else:
                print(f"Falha ap√≥s {max_retries} tentativas para {url}")
                return False
        except Exception as e:
            print(f"\nErro inesperado na tentativa {attempt + 1}: {e}")
            if os.path.exists(filepath):
                os.remove(filepath)
            if attempt < max_retries - 1:
                time.sleep(2)
            else:
                return False
    
    return False

# Loop principal
sucessos = 0
falhas = 0

for ano in anos:
    for semestre in semestres:
        # Para 2025, s√≥ tenta at√© 01 (como mencionado), pula 02 se for o caso
        if ano == 2025 and semestre == '02':
            print(f"Pulando 2025-02 (ainda n√£o dispon√≠vel).")
            continue
        
        # Construir URL baseado no ano
        if ano < 2022:
            # Arquivos antigos: CSV direto
            url = f"{base_url}ca-{ano}-{semestre}.csv"
            is_zip = False
        elif ano == 2022 and semestre == '01':
            # Especial: ZIP com nome diferente
            url = f"{base_url}precos-semestrais-ca.zip"
            is_zip = True
        else:
            # Recentes: ZIP
            url = f"{base_url}ca-{ano}-{semestre}.zip"
            is_zip = True
        
        filename_csv = f"ca-{ano}-{semestre}.csv"
        filepath_csv = os.path.join(output_dir, filename_csv)
        
        if os.path.exists(filepath_csv) and os.path.getsize(filepath_csv) > 0:
            print(f"Arquivo j√° existe e √© v√°lido: {filepath_csv}. Pulando.")
            sucessos += 1
            continue
        
        temp_path = None
        if is_zip:
            temp_filename = f"temp_ca-{ano}-{semestre}.zip"
            temp_path = os.path.join(output_dir, temp_filename)
            print(f"Baixando ZIP: {url}")
            success = download_file(url, temp_path)
            
            if success:
                try:
                    # Diret√≥rio tempor√°rio para extra√ß√£o
                    extract_dir = os.path.join(output_dir, f'temp_extract_{ano}_{semestre}')
                    os.makedirs(extract_dir, exist_ok=True)
                    
                    with zipfile.ZipFile(temp_path, 'r') as zip_ref:
                        zip_ref.extractall(extract_dir)
                    
                    # Encontrar o arquivo CSV extra√≠do
                    csv_found = None
                    for root, dirs, files in os.walk(extract_dir):
                        for file in files:
                            if file.endswith('.csv'):
                                csv_found = os.path.join(root, file)
                                break
                        if csv_found:
                            break
                    
                    if csv_found and os.path.getsize(csv_found) > 0:
                        # Copiar e renomear para o padr√£o
                        shutil.copy2(csv_found, filepath_csv)
                        print(f"Extra√≠do e renomeado com sucesso: {filepath_csv}")
                        success = True
                    else:
                        print(f"Nenhum CSV v√°lido encontrado no ZIP para {ano}-{semestre}")
                        success = False
                    
                    # Limpar tempor√°rios
                    shutil.rmtree(extract_dir)
                    os.remove(temp_path)
                    
                except zipfile.BadZipFile:
                    print(f"Arquivo ZIP inv√°lido: {temp_path}")
                    success = False
                    if os.path.exists(temp_path):
                        os.remove(temp_path)
                except Exception as e:
                    print(f"Erro ao extrair ZIP para {ano}-{semestre}: {e}")
                    success = False
                    if os.path.exists(temp_path):
                        os.remove(temp_path)
        else:
            # Download direto para CSV
            print(f"Baixando CSV: {url}")
            success = download_file(url, filepath_csv)
        
        if success:
            sucessos += 1
            # Limpa mem√≥ria ap√≥s cada download/extrair
            gc.collect()
        else:
            falhas += 1
            print(f"Falha final em {ano}-{semestre}. Arquivo n√£o foi baixado/extra√≠do.")

print(f"\nDownload e extra√ß√£o conclu√≠dos! Sucessos: {sucessos}, Falhas: {falhas}")

Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2004-01.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2004-02.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2005-01.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2005-02.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2006-01.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2006-02.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2007-01.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2007-02.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2008-01.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2008-02.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2009-01.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2009-02.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2010-01.csv. Pulando.
Arquivo j√° existe e √© v√°lido: dados_anp_ca\ca-2010-02.csv. Pulando.
Arquiv