# ARGOS - Gerador Autom√°tico de Data Schemas

Este notebook gera automaticamente os arquivos de schema para todas as tabelas do projeto ARGOS.

## O que ser√° gerado:

Para cada tabela:
- `DESCRIBE FORMATTED` - estrutura completa da tabela
- `SELECT * FROM ... LIMIT 10` - amostra de dados

## Tabelas processadas:

### Originais (4 tabelas)
- nfce.nfce
- niat.argos_cnpj
- niat.tabela_niat
- usr_sat_ods.vw_ods_contrib

### Intermedi√°rias (4 tabelas)
- niat.argos_nfce_base_extraida
- niat.argos_nfce_periodo_base
- niat.argos_medias_historicas_produto
- niat.argos_mudanca_comportamento

### Views (1 tabela)
- niat.argos_vw_evolucao_nfce ‚≠ê (mais importante - usada em todo o Streamlit)

---

## 1. Importar Bibliotecas

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
import pandas as pd
from datetime import datetime
import os

print("‚úÖ Bibliotecas importadas com sucesso")
print(f"üìÖ Data/Hora: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

## 2. Configurar Lista de Tabelas

In [None]:
# Lista completa de tabelas a serem documentadas
TABELAS = {
    'ORIGINAIS': [
        'nfce.nfce',
        'niat.argos_cnpj',
        'niat.tabela_niat',
        'usr_sat_ods.vw_ods_contrib'
    ],
    'INTERMEDIARIAS': [
        'niat.argos_nfce_base_extraida',
        'niat.argos_nfce_periodo_base',
        'niat.argos_medias_historicas_produto',
        'niat.argos_mudanca_comportamento'
    ],
    'VIEWS': [
        'niat.argos_vw_evolucao_nfce'
    ]
}

# Diret√≥rio de sa√≠da
OUTPUT_DIR = './data-schemas'

# Contagem total
total = sum(len(v) for v in TABELAS.values())
print(f"üìä Total de tabelas configuradas: {total}")
for categoria, lista in TABELAS.items():
    print(f"   - {categoria}: {len(lista)} tabelas")

## 3. Criar Diret√≥rio de Sa√≠da

In [None]:
# Criar diret√≥rio se n√£o existir
if not os.path.exists(OUTPUT_DIR):
    os.makedirs(OUTPUT_DIR)
    print(f"‚úÖ Diret√≥rio criado: {OUTPUT_DIR}")
else:
    print(f"‚ÑπÔ∏è  Diret√≥rio j√° existe: {OUTPUT_DIR}")

## 4. Fun√ß√µes Auxiliares

In [None]:
def obter_nome_arquivo(tabela_completa):
    """Converte nome da tabela em nome de arquivo"""
    nome = tabela_completa.split('.')[-1]
    return f"{nome}_schema.txt"

def formatar_header(titulo, char='='):
    """Formata header para os arquivos"""
    linha = char * 80
    return f"\n{linha}\n{titulo.center(80)}\n{linha}\n"

def salvar_schema(tabela, describe_df, sample_df, categoria):
    """Salva schema completo em arquivo"""
    nome_arquivo = obter_nome_arquivo(tabela)
    caminho_completo = os.path.join(OUTPUT_DIR, nome_arquivo)

    with open(caminho_completo, 'w', encoding='utf-8') as f:
        # Header do arquivo
        f.write(formatar_header(f'DATA SCHEMA - {tabela}'))
        f.write(f"\nCategoria: {categoria}\n")
        f.write(f"Gerado em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
        f.write(f"Tabela: {tabela}\n")

        # DESCRIBE FORMATTED
        f.write(formatar_header('DESCRIBE FORMATTED', '-'))
        f.write("\n```sql\n")
        f.write(f"DESCRIBE FORMATTED {tabela};\n")
        f.write("```\n\n")
        
        describe_str = describe_df.toPandas().to_string(index=False, max_rows=None)
        f.write(describe_str)
        f.write("\n")

        # SELECT LIMIT 10
        f.write(formatar_header('SELECT * FROM ... LIMIT 10', '-'))
        f.write("\n```sql\n")
        f.write(f"SELECT * FROM {tabela} LIMIT 10;\n")
        f.write("```\n\n")
        
        sample_str = sample_df.toPandas().to_string(index=False, max_rows=None)
        f.write(sample_str)
        f.write("\n")

        # Footer
        f.write(formatar_header('FIM DO SCHEMA', '='))

    return caminho_completo

print("‚úÖ Fun√ß√µes auxiliares definidas")

## 5. Fun√ß√£o de Extra√ß√£o de Schema

In [None]:
def extrair_schema_tabela(tabela, categoria):
    """
    Extrai schema e dados de exemplo de uma tabela
    
    Args:
        tabela: Nome completo da tabela (schema.tabela)
        categoria: Categoria da tabela
        
    Returns:
        True se sucesso, False se erro
    """
    print(f"\n{'='*80}")
    print(f"Processando: {tabela} ({categoria})")
    print(f"{'='*80}")

    try:
        # 1. DESCRIBE FORMATTED
        print(f"‚è≥ Executando DESCRIBE FORMATTED {tabela}...")
        describe_query = f"DESCRIBE FORMATTED {tabela}"
        describe_df = spark.sql(describe_query)
        num_linhas = describe_df.count()
        print(f"‚úÖ DESCRIBE obtido - {num_linhas} linhas")

        # 2. SELECT LIMIT 10
        print(f"‚è≥ Executando SELECT * FROM {tabela} LIMIT 10...")
        sample_query = f"SELECT * FROM {tabela} LIMIT 10"
        sample_df = spark.sql(sample_query)
        num_colunas = len(sample_df.columns)
        num_registros = sample_df.count()
        print(f"‚úÖ Sample obtido - {num_colunas} colunas, {num_registros} registros")

        # 3. Salvar em arquivo
        print(f"üíæ Salvando schema em arquivo...")
        caminho = salvar_schema(tabela, describe_df, sample_df, categoria)
        print(f"‚úÖ Schema salvo: {caminho}")
        
        # 4. Exibir preview
        print(f"\nüìã Preview da estrutura:")
        sample_df.printSchema()
        
        print(f"\nüìä Preview dos dados (primeiras 3 linhas):")
        sample_df.show(3, truncate=True, vertical=False)

        return True

    except Exception as e:
        print(f"‚ùå ERRO ao processar {tabela}: {str(e)}")
        
        # Salvar erro em arquivo
        nome_arquivo = obter_nome_arquivo(tabela)
        caminho_erro = os.path.join(OUTPUT_DIR, f"ERRO_{nome_arquivo}")
        
        with open(caminho_erro, 'w', encoding='utf-8') as f:
            f.write(formatar_header(f'ERRO - {tabela}'))
            f.write(f"\nCategoria: {categoria}\n")
            f.write(f"Erro em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
            f.write(f"\nMensagem de erro:\n{str(e)}\n")
        
        print(f"‚ö†Ô∏è  Erro salvo em: {caminho_erro}")
        return False

print("‚úÖ Fun√ß√£o de extra√ß√£o definida")

---

## 6. üöÄ EXECUTAR GERA√á√ÉO DE SCHEMAS

‚ö†Ô∏è **ATEN√á√ÉO**: Execute a c√©lula abaixo para processar TODAS as tabelas de uma vez.

Ou execute as c√©lulas seguintes para processar por categoria.

In [None]:
# OP√á√ÉO 1: EXECUTAR TODAS AS TABELAS DE UMA VEZ

print("\n" + "="*80)
print("ARGOS - GERADOR AUTOM√ÅTICO DE DATA SCHEMAS".center(80))
print("="*80)

# Contadores
total_tabelas = sum(len(tabelas) for tabelas in TABELAS.values())
processadas = 0
sucesso = 0
falhas = 0

# Processar cada categoria
for categoria, lista_tabelas in TABELAS.items():
    print(f"\n{'#'*80}")
    print(f"CATEGORIA: {categoria}".center(80))
    print(f"{'#'*80}")
    
    for tabela in lista_tabelas:
        processadas += 1
        resultado = extrair_schema_tabela(tabela, categoria)
        
        if resultado:
            sucesso += 1
        else:
            falhas += 1
        
        print(f"\nüìä Progresso: {processadas}/{total_tabelas} tabelas processadas")

# Resumo final
print("\n" + "="*80)
print("RESUMO FINAL".center(80))
print("="*80)
print(f"‚úÖ Total de tabelas: {total_tabelas}")
print(f"‚úÖ Processadas com sucesso: {sucesso}")
print(f"‚ùå Falhas: {falhas}")
print(f"üìÅ Arquivos salvos em: {OUTPUT_DIR}")
print("="*80 + "\n")

---

## 7. OP√á√ÉO 2: Executar por Categoria (Opcional)

Se preferir processar uma categoria por vez, execute as c√©lulas abaixo individualmente.

In [None]:
# Processar apenas TABELAS ORIGINAIS
print("\n" + "#"*80)
print("PROCESSANDO: TABELAS ORIGINAIS".center(80))
print("#"*80)

for tabela in TABELAS['ORIGINAIS']:
    extrair_schema_tabela(tabela, 'ORIGINAIS')

In [None]:
# Processar apenas TABELAS INTERMEDI√ÅRIAS
print("\n" + "#"*80)
print("PROCESSANDO: TABELAS INTERMEDI√ÅRIAS".center(80))
print("#"*80)

for tabela in TABELAS['INTERMEDIARIAS']:
    extrair_schema_tabela(tabela, 'INTERMEDIARIAS')

In [None]:
# Processar apenas VIEWS
print("\n" + "#"*80)
print("PROCESSANDO: VIEWS".center(80))
print("#"*80)

for tabela in TABELAS['VIEWS']:
    extrair_schema_tabela(tabela, 'VIEWS')

---

## 8. OP√á√ÉO 3: Processar Tabela Individual (Opcional)

Para processar uma tabela espec√≠fica:

In [None]:
# Processar apenas uma tabela espec√≠fica
# Altere o nome da tabela conforme necess√°rio

tabela_especifica = 'niat.argos_vw_evolucao_nfce'
categoria_especifica = 'VIEWS'

extrair_schema_tabela(tabela_especifica, categoria_especifica)

---

## 9. Gerar √çndice README

In [None]:
# Gerar arquivo README.md com √≠ndice de todos os schemas

indice_path = os.path.join(OUTPUT_DIR, 'README.md')

with open(indice_path, 'w', encoding='utf-8') as f:
    f.write("# ARGOS - Data Schemas\n\n")
    f.write(f"Gerado em: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n\n")
    f.write("---\n\n")

    f.write("## Estrutura de Dados\n\n")
    f.write("Este diret√≥rio cont√©m os schemas completos de todas as tabelas utilizadas no projeto ARGOS.\n\n")

    # Listar por categoria
    for categoria, lista_tabelas in TABELAS.items():
        f.write(f"### {categoria}\n\n")
        
        for tabela in lista_tabelas:
            nome_arquivo = obter_nome_arquivo(tabela)
            f.write(f"- **{tabela}** ‚Üí [`{nome_arquivo}`](./{nome_arquivo})\n")
        
        f.write("\n")

    # Informa√ß√µes adicionais
    f.write("---\n\n")
    f.write("## Formato dos Arquivos\n\n")
    f.write("Cada arquivo cont√©m:\n\n")
    f.write("1. **DESCRIBE FORMATTED** - Estrutura completa da tabela\n")
    f.write("2. **SELECT LIMIT 10** - Amostra de 10 registros\n\n")

    f.write("## Como Regenerar\n\n")
    f.write("Para regenerar todos os schemas, execute o notebook:\n\n")
    f.write("`Gerar_Data_Schemas.ipynb`\n")

print(f"‚úÖ √çndice gerado: {indice_path}")
print(f"üìÅ Arquivos dispon√≠veis em: {OUTPUT_DIR}")

---

## 10. Listar Arquivos Gerados

In [None]:
# Listar todos os arquivos gerados no diret√≥rio de sa√≠da

import os

arquivos = sorted(os.listdir(OUTPUT_DIR))

print(f"\nüìÅ Arquivos em {OUTPUT_DIR}:")
print("="*80)

schemas = [f for f in arquivos if f.endswith('_schema.txt')]
erros = [f for f in arquivos if f.startswith('ERRO_')]
outros = [f for f in arquivos if f not in schemas and f not in erros]

print(f"\n‚úÖ Schemas gerados ({len(schemas)}):")
for arquivo in schemas:
    tamanho = os.path.getsize(os.path.join(OUTPUT_DIR, arquivo))
    print(f"   - {arquivo} ({tamanho:,} bytes)")

if erros:
    print(f"\n‚ùå Arquivos de erro ({len(erros)}):")
    for arquivo in erros:
        print(f"   - {arquivo}")

if outros:
    print(f"\n‚ÑπÔ∏è  Outros arquivos ({len(outros)}):")
    for arquivo in outros:
        print(f"   - {arquivo}")

print("\n" + "="*80)

---

## ‚úÖ Conclu√≠do!

Os schemas foram gerados com sucesso no diret√≥rio `./data-schemas/`.

### Pr√≥ximos passos:

1. Revise os arquivos gerados em `./data-schemas/`
2. Verifique se h√° arquivos de erro e investigue as causas
3. Use os schemas para documenta√ß√£o do projeto

### Estrutura gerada:

```
data-schemas/
‚îú‚îÄ‚îÄ README.md                                    # √çndice de todos os schemas
‚îú‚îÄ‚îÄ nfce_schema.txt                             # Schema da tabela nfce.nfce
‚îú‚îÄ‚îÄ argos_cnpj_schema.txt                       # Schema da tabela niat.argos_cnpj
‚îú‚îÄ‚îÄ tabela_niat_schema.txt                      # Schema da tabela niat.tabela_niat
‚îú‚îÄ‚îÄ vw_ods_contrib_schema.txt                   # Schema da view usr_sat_ods.vw_ods_contrib
‚îú‚îÄ‚îÄ argos_nfce_base_extraida_schema.txt         # Schema da tabela intermedi√°ria
‚îú‚îÄ‚îÄ argos_nfce_periodo_base_schema.txt          # Schema da tabela intermedi√°ria
‚îú‚îÄ‚îÄ argos_medias_historicas_produto_schema.txt  # Schema da tabela intermedi√°ria
‚îú‚îÄ‚îÄ argos_mudanca_comportamento_schema.txt      # Schema da tabela intermedi√°ria
‚îî‚îÄ‚îÄ argos_vw_evolucao_nfce_schema.txt          # Schema da view principal ‚≠ê
```