# üìã GERADOR DE DATA-SCHEMAS - ARGOS SETORES

Este notebook gera automaticamente os arquivos de data-schema para todas as tabelas do projeto.

**O que ser√° gerado:**
- `DESCRIBE FORMATTED` para cada tabela
- `SELECT * FROM ... LIMIT 10` para cada tabela
- Arquivos markdown organizados em `./data-schema/`

**Tabelas processadas:**
- 3 tabelas originais (ODS)
- 9 tabelas intermedi√°rias (NIAT)
- 4 views auxiliares (opcional)

---

## üîß PASSO 1: Configurar Sess√£o Spark

Execute esta c√©lula primeiro para configurar a sess√£o Spark.

In [None]:
import sys
sys.path.append("/home/tsevero/notebooks/SAT_BIG_DATA/data-pipeline/batch/poc")
sys.path.append("/home/tsevero/notebooks/SAT_BIG_DATA/data-pipeline/batch/plugins")
sys.path.append("/home/tsevero/notebooks/SAT_BIG_DATA/data-pipeline/batch/dags")

from pyspark.sql.types import *
from pyspark.sql.functions import *
from datetime import date

from utils import spark_utils_session as utils
from hooks.hdfs.hdfs_helper import HdfsHelper
from jobs.job_base_config import BaseETLJobClass

import poc_helper
poc_helper.load_env("PROD")

def get_session(profile: str, dynamic_allocation_enabled: bool = True) -> utils.DBASparkAppSession:
    """Generates DBASparkAppSession."""
    app_name = "tsevero_data_schema_generator"
    
    spark_builder = (utils.DBASparkAppSession
                     .builder
                     .setAppName(app_name)
                     .usingProcessProfile(profile)
                    )
    
    if dynamic_allocation_enabled:
        spark_builder.autoResourceManagement()

    return spark_builder.build()

session = get_session(profile='efd_t2')
spark = session.sparkSession

print("‚úÖ Sess√£o Spark configurada com sucesso!")
print(f"App Name: {spark.sparkContext.appName}")

## üì¶ PASSO 2: Carregar Script Gerador

Carrega as fun√ß√µes do gerador de data-schemas.

In [None]:
import os
from datetime import datetime
from pathlib import Path
import pandas as pd

# =============================================================================
# CONFIGURA√á√ÉO
# =============================================================================

TABELAS_ORIGINAIS = [
    "usr_sat_ods.vw_ods_decl_dime",
    "usr_sat_ods.vw_ods_contrib",
    "usr_sat_ods.vw_ods_pagamento"
]

TABELAS_INTERMEDIARIAS = [
    "niat.argos_benchmark_setorial",
    "niat.argos_benchmark_setorial_porte",
    "niat.argos_empresas",
    "niat.argos_pagamentos_empresa",
    "niat.argos_empresa_vs_benchmark",
    "niat.argos_evolucao_temporal_setor",
    "niat.argos_evolucao_temporal_empresa",
    "niat.argos_anomalias_setoriais",
    "niat.argos_alertas_empresas"
]

VIEWS_AUXILIARES = [
    "niat.vw_dashboard_setores",
    "niat.vw_dashboard_empresas",
    "niat.vw_analise_volatilidade",
    "niat.vw_relacao_icms_pagamentos"
]

OUTPUT_DIR = "./data-schema"

# =============================================================================
# FUN√á√ïES
# =============================================================================

def criar_diretorio_output(base_dir):
    """Cria estrutura de diret√≥rios para os data-schemas."""
    Path(base_dir).mkdir(parents=True, exist_ok=True)
    Path(f"{base_dir}/originais").mkdir(exist_ok=True)
    Path(f"{base_dir}/intermediarias").mkdir(exist_ok=True)
    Path(f"{base_dir}/views").mkdir(exist_ok=True)
    print(f"‚úÖ Diret√≥rios criados em: {base_dir}")


def formatar_nome_arquivo(tabela_completa):
    """Converte nome da tabela para nome de arquivo."""
    nome_tabela = tabela_completa.split('.')[-1]
    return f"{nome_tabela}.md"


def executar_describe_formatted(spark, tabela):
    """Executa DESCRIBE FORMATTED e retorna resultado como Pandas DataFrame."""
    try:
        print(f"  üìã Executando DESCRIBE FORMATTED {tabela}...")
        df = spark.sql(f"DESCRIBE FORMATTED {tabela}")
        return df.toPandas()
    except Exception as e:
        print(f"  ‚ùå ERRO ao descrever {tabela}: {e}")
        return None


def executar_select_sample(spark, tabela, limit=10):
    """Executa SELECT * LIMIT e retorna resultado como Pandas DataFrame."""
    try:
        print(f"  üìä Executando SELECT * FROM {tabela} LIMIT {limit}...")
        df = spark.sql(f"SELECT * FROM {tabela} LIMIT {limit}")
        return df.toPandas()
    except Exception as e:
        print(f"  ‚ùå ERRO ao fazer SELECT de {tabela}: {e}")
        return None


def gerar_markdown_dataschema(tabela, df_describe, df_sample):
    """Gera conte√∫do markdown do data-schema."""

    nome_tabela = tabela.split('.')[-1]
    schema_nome = tabela.split('.')[0]

    md = f"""# Data Schema: {tabela}

**Gerado em:** {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}

---

## üìã DESCRIBE FORMATTED

```sql
DESCRIBE FORMATTED {tabela};
```

### Resultado:

"""

    if df_describe is not None and not df_describe.empty:
        md += "```\n"
        md += df_describe.to_string(index=False, max_colwidth=100)
        md += "\n```\n"
    else:
        md += "_Nenhum resultado dispon√≠vel_\n"

    md += f"""

---

## üìä SAMPLE DATA (LIMIT 10)

```sql
SELECT * FROM {tabela} LIMIT 10;
```

### Resultado:

"""

    if df_sample is not None and not df_sample.empty:
        md += "```\n"
        md += df_sample.to_string(index=False, max_colwidth=50)
        md += "\n```\n"

        md += f"""

### Informa√ß√µes Adicionais:

- **Total de colunas:** {len(df_sample.columns)}
- **Colunas:** {', '.join(df_sample.columns.tolist())}
- **Registros retornados:** {len(df_sample)}

"""
    else:
        md += "_Nenhum resultado dispon√≠vel_\n"

    md += """
---

## üìù Notas

- Este arquivo foi gerado automaticamente
- Utilize este schema como refer√™ncia para an√°lises e desenvolvimento

"""

    return md


def salvar_arquivo(conteudo, caminho):
    """Salva conte√∫do em arquivo."""
    try:
        with open(caminho, 'w', encoding='utf-8') as f:
            f.write(conteudo)
        print(f"  ‚úÖ Salvo: {caminho}")
        return True
    except Exception as e:
        print(f"  ‚ùå ERRO ao salvar {caminho}: {e}")
        return False


print("‚úÖ Fun√ß√µes carregadas com sucesso!")

## üöÄ PASSO 3: Executar Gera√ß√£o

### Op√ß√µes:

**Op√ß√£o A:** Gerar apenas tabelas originais e intermedi√°rias (recomendado)

**Op√ß√£o B:** Gerar incluindo views auxiliares

Execute a c√©lula correspondente √† op√ß√£o desejada:

In [None]:
# =============================================================================
# OP√á√ÉO A: SEM VIEWS (RECOMENDADO)
# =============================================================================

print("=" * 80)
print("GERADOR DE DATA-SCHEMAS - ARGOS SETORES")
print("=" * 80)
print(f"Iniciado em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")

criar_diretorio_output(OUTPUT_DIR)

total = 0
sucesso = 0
erros = 0

# Processar tabelas originais
print("\n" + "=" * 80)
print("PROCESSANDO TABELAS ORIGINAIS (ODS)")
print("=" * 80)

for tabela in TABELAS_ORIGINAIS:
    total += 1
    print(f"\n[{total}] Processando: {tabela}")
    
    df_desc = executar_describe_formatted(spark, tabela)
    df_sample = executar_select_sample(spark, tabela, limit=10)
    
    if df_desc is not None or df_sample is not None:
        md_content = gerar_markdown_dataschema(tabela, df_desc, df_sample)
        nome_arquivo = formatar_nome_arquivo(tabela)
        caminho = f"{OUTPUT_DIR}/originais/{nome_arquivo}"
        
        if salvar_arquivo(md_content, caminho):
            sucesso += 1
        else:
            erros += 1
    else:
        erros += 1
        print(f"  ‚ö†Ô∏è Pulando {tabela} (sem dados)")

# Processar tabelas intermedi√°rias
print("\n" + "=" * 80)
print("PROCESSANDO TABELAS INTERMEDI√ÅRIAS (NIAT)")
print("=" * 80)

for tabela in TABELAS_INTERMEDIARIAS:
    total += 1
    print(f"\n[{total}] Processando: {tabela}")
    
    df_desc = executar_describe_formatted(spark, tabela)
    df_sample = executar_select_sample(spark, tabela, limit=10)
    
    if df_desc is not None or df_sample is not None:
        md_content = gerar_markdown_dataschema(tabela, df_desc, df_sample)
        nome_arquivo = formatar_nome_arquivo(tabela)
        caminho = f"{OUTPUT_DIR}/intermediarias/{nome_arquivo}"
        
        if salvar_arquivo(md_content, caminho):
            sucesso += 1
        else:
            erros += 1
    else:
        erros += 1
        print(f"  ‚ö†Ô∏è Pulando {tabela} (sem dados)")

# Relat√≥rio final
print("\n" + "=" * 80)
print("RELAT√ìRIO FINAL")
print("=" * 80)
print(f"Total de tabelas processadas: {total}")
print(f"‚úÖ Sucesso: {sucesso}")
print(f"‚ùå Erros: {erros}")
print(f"\nüìÅ Arquivos salvos em: {OUTPUT_DIR}")
print("\n" + "=" * 80)
print("‚úÖ GERA√á√ÉO CONCLU√çDA!")
print("=" * 80)

In [None]:
# =============================================================================
# OP√á√ÉO B: COM VIEWS AUXILIARES
# =============================================================================
# Descomente e execute esta c√©lula se quiser incluir as views auxiliares

# print("\n" + "=" * 80)
# print("PROCESSANDO VIEWS AUXILIARES")
# print("=" * 80)

# for tabela in VIEWS_AUXILIARES:
#     total += 1
#     print(f"\n[{total}] Processando: {tabela}")
    
#     df_desc = executar_describe_formatted(spark, tabela)
#     df_sample = executar_select_sample(spark, tabela, limit=10)
    
#     if df_desc is not None or df_sample is not None:
#         md_content = gerar_markdown_dataschema(tabela, df_desc, df_sample)
#         nome_arquivo = formatar_nome_arquivo(tabela)
#         caminho = f"{OUTPUT_DIR}/views/{nome_arquivo}"
        
#         if salvar_arquivo(md_content, caminho):
#             sucesso += 1
#         else:
#             erros += 1
#     else:
#         erros += 1
#         print(f"  ‚ö†Ô∏è Pulando {tabela} (sem dados)")

## üìä PASSO 4: Verificar Resultados

Liste os arquivos gerados:

In [None]:
import os

print("üìÅ ARQUIVOS GERADOS:")
print("=" * 80)

for root, dirs, files in os.walk(OUTPUT_DIR):
    level = root.replace(OUTPUT_DIR, '').count(os.sep)
    indent = ' ' * 2 * level
    print(f"{indent}{os.path.basename(root)}/")
    subindent = ' ' * 2 * (level + 1)
    for file in files:
        print(f"{subindent}üìÑ {file}")

---

## ‚úÖ Conclu√≠do!

Os arquivos de data-schema foram gerados em:

```
./data-schema/
‚îú‚îÄ‚îÄ originais/          # Tabelas ODS (usr_sat_ods.*)
‚îú‚îÄ‚îÄ intermediarias/     # Tabelas NIAT (niat.argos_*)
‚îî‚îÄ‚îÄ views/              # Views auxiliares (niat.vw_*)
```

Cada arquivo cont√©m:
- DESCRIBE FORMATTED completo
- SELECT com 10 registros de exemplo
- Informa√ß√µes sobre colunas e tipos

---