In [None]:

import json
from pathlib import Path
from datetime import datetime

# Criar estrutura de diret√≥rios para reposit√≥rio de dados
def criar_repositorio_dados(caminho_raiz: str = "./repositorio_dados") -> dict:
   """
   Cria estrutura padr√£o de reposit√≥rio para engenharia de dados
   com qualidade e organiza√ß√£o corporativa.
   """
   
   estrutura = {
      "raiz": caminho_raiz,
      "diretorios": {
         "raw": "Dados brutos, sem processamento",
         "processed": "Dados processados e validados",
         "staging": "Dados em transi√ß√£o para warehouse",
         "scripts": "Scripts Python para ETL/ELT",
         "notebooks": "Jupyter notebooks de an√°lise",
         "config": "Arquivos de configura√ß√£o",
         "logs": "Registros de execu√ß√£o",
         "tests": "Testes unit√°rios e integra√ß√£o",
         "docs": "Documenta√ß√£o do projeto",
         "models": "Modelos e artefatos ML",
         "output": "Resultados e exports"
      }
   }
   
   # Criar diret√≥rios
   for subdir in estrutura["diretorios"].keys():
      caminho = Path(caminho_raiz) / subdir
      caminho.mkdir(parents=True, exist_ok=True)
      
      # Criar .gitkeep para manter pastas vazias
      (caminho / ".gitkeep").touch()
   
   # Criar arquivo de metadados
   metadados = {
      "projeto": "Reposit√≥rio de Dados Corporativo",
      "criado_em": datetime.now().isoformat(),
      "organizacao": "Petrobras",
      "versao": "1.0",
      "descricao": "Estrutura padr√£o para projetos de engenharia de dados"
   }
   
   with open(Path(caminho_raiz) / "metadata.json", "w") as f:
      json.dump(metadados, f, indent=2, ensure_ascii=False)
   
   # Criar .gitignore padr√£o
   gitignore_conteudo = """
# Dados sens√≠veis
raw/
*.csv
*.xlsx
*.parquet
*.db

# Ambientes
.env
.venv
venv/
__pycache__/
*.pyc

# IDEs
.vscode/
.idea/
*.swp

# Logs
logs/
*.log

# Outputs tempor√°rios
output/temp/
"""
   
   with open(Path(caminho_raiz) / ".gitignore", "w") as f:
      f.write(gitignore_conteudo)
   
   print(f"‚úì Reposit√≥rio criado em: {caminho_raiz}")
   print(f"\nEstrutura de diret√≥rios:")
   for dir_nome, descricao in estrutura["diretorios"].items():
      print(f"  ‚îú‚îÄ‚îÄ {dir_nome:15} - {descricao}")
   
   return estrutura

# Executar cria√ß√£o
repositorio = criar_repositorio_dados("./repositorio_dados_petrobras")

‚úì Reposit√≥rio criado em: ./repositorio_dados_petrobras

Estrutura de diret√≥rios:
  ‚îú‚îÄ‚îÄ raw             - Dados brutos, sem processamento
  ‚îú‚îÄ‚îÄ processed       - Dados processados e validados
  ‚îú‚îÄ‚îÄ staging         - Dados em transi√ß√£o para warehouse
  ‚îú‚îÄ‚îÄ scripts         - Scripts Python para ETL/ELT
  ‚îú‚îÄ‚îÄ notebooks       - Jupyter notebooks de an√°lise
  ‚îú‚îÄ‚îÄ config          - Arquivos de configura√ß√£o
  ‚îú‚îÄ‚îÄ logs            - Registros de execu√ß√£o
  ‚îú‚îÄ‚îÄ tests           - Testes unit√°rios e integra√ß√£o
  ‚îú‚îÄ‚îÄ docs            - Documenta√ß√£o do projeto
  ‚îú‚îÄ‚îÄ models          - Modelos e artefatos ML
  ‚îú‚îÄ‚îÄ output          - Resultados e exports


In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Gerar dados de exemplo para o reposit√≥rio
np.random.seed(42)

# 1. Dados brutos - Produ√ß√£o de petr√≥leo
datas = pd.date_range(start='2023-01-01', end='2024-01-01', freq='D')
producao_raw = pd.DataFrame({
   'data': datas,
   'plataforma': np.random.choice(['P-01', 'P-02', 'P-03', 'P-04'], len(datas)),
   'producao_barris': np.random.uniform(1000, 5000, len(datas)),
   'pressao_psi': np.random.uniform(2000, 3500, len(datas)),
   'temperatura_celsius': np.random.uniform(40, 80, len(datas)),
   'qualidade_api': np.random.uniform(25, 35, len(datas))
})

# Salvar em raw
producao_raw.to_csv('./repositorio_dados_petrobras/raw/producao_bruta.csv', index=False)

# 2. Dados processados - Agrega√ß√£o di√°ria
producao_processada = producao_raw.groupby('data').agg({
   'producao_barris': 'mean',
   'pressao_psi': 'mean',
   'temperatura_celsius': 'mean',
   'qualidade_api': 'mean'
}).reset_index()

producao_processada.to_csv('./repositorio_dados_petrobras/processed/producao_diaria.csv', index=False)

# 3. Dados de staging - Agrega√ß√£o mensal
producao_processada['ano_mes'] = producao_processada['data'].dt.to_period('M')
producao_staging = producao_processada.groupby('ano_mes').agg({
   'producao_barris': 'sum',
   'pressao_psi': 'mean',
   'temperatura_celsius': 'mean',
   'qualidade_api': 'mean'
}).reset_index()

producao_staging.to_csv('./repositorio_dados_petrobras/staging/producao_mensal.csv', index=False)

print("‚úì Dados gerados com sucesso!")
print(f"\nüìä Amostra dos dados brutos (primeiras 5 linhas):")
print(producao_raw.head())
print(f"\nüìä Amostra dos dados processados (primeiras 5 linhas):")
print(producao_processada.head())
print(f"\nüìä Dados de staging:")
print(producao_staging)

‚úì Dados gerados com sucesso!

üìä Amostra dos dados brutos (primeiras 5 linhas):
        data plataforma  producao_barris  pressao_psi  temperatura_celsius  \
0 2023-01-01       P-03      4509.357414  3158.477588            57.445061   
1 2023-01-02       P-04      2031.766511  2780.245252            51.778630   
2 2023-01-03       P-01      3639.936184  3278.272250            77.938132   
3 2023-01-04       P-03      4268.888801  2827.860258            70.544232   
4 2023-01-05       P-03      3220.803246  2841.406957            45.604527   

   qualidade_api  
0      32.024650  
1      30.596487  
2      25.097708  
3      28.264613  
4      30.177116  

üìä Amostra dos dados processados (primeiras 5 linhas):
        data  producao_barris  pressao_psi  temperatura_celsius  \
0 2023-01-01      4509.357414  3158.477588            57.445061   
1 2023-01-02      2031.766511  2780.245252            51.778630   
2 2023-01-03      3639.936184  3278.272250            77.938132   
3 2023-