# Lab: Catalogando PostgreSQL no Apache Atlas

## A Import√¢ncia do Cat√°logo de Dados

### Por que Catalogar Dados?

Em organiza√ß√µes modernas, os dados est√£o espalhados por m√∫ltiplos sistemas, formatos e localiza√ß√µes. Um **cat√°logo de dados** √© essencial para:

- **Descoberta**: Encontrar rapidamente datasets relevantes
- **Compreens√£o**: Entender estrutura, significado e qualidade dos dados
- **Linhagem**: Rastrear origem e transforma√ß√µes dos dados
- **Governan√ßa**: Aplicar pol√≠ticas de seguran√ßa e compliance
- **Colabora√ß√£o**: Facilitar compartilhamento entre equipes
- **Produtividade**: Reduzir tempo de an√°lise e desenvolvimento

### Metadados: O DNA dos Dados

Os **metadados** s√£o informa√ß√µes sobre os dados que incluem:

- **Estruturais**: Esquemas, tipos, relacionamentos
- **Descritivos**: Nomes, descri√ß√µes, tags, gloss√°rios
- **Operacionais**: Frequ√™ncia de uso, performance, qualidade
- **Administrativos**: Propriet√°rios, permiss√µes, pol√≠ticas

## Apache Atlas: Hist√≥ria e Evolu√ß√£o

### Origens (2015-2017)

O **Apache Atlas** nasceu da necessidade da Hortonworks de gerenciar metadados no ecossistema Hadoop:

- **2015**: Projeto iniciado pela Hortonworks
- **2016**: Doa√ß√£o para Apache Software Foundation
- **2017**: Primeira vers√£o est√°vel (0.8)

### Caracter√≠sticas Principais

- **Governan√ßa Unificada**: Cat√°logo centralizado para Big Data
- **Linhagem Autom√°tica**: Rastreamento de transforma√ß√µes
- **Classifica√ß√£o**: Tags e tipos personalizados
- **Busca Avan√ßada**: Interface web intuitiva
- **Integra√ß√£o**: Conectores para Hive, HBase, Kafka, etc.

### Arquitetura

- **Core**: Motor de metadados baseado em grafos
- **Storage**: HBase para persist√™ncia
- **Search**: Apache Solr para indexa√ß√£o
- **Messaging**: Apache Kafka para eventos
- **Security**: Integra√ß√£o com Ranger e Kerberos

### Casos de Uso

- **Data Lakes**: Cataloga√ß√£o de datasets em HDFS
- **Data Warehouses**: Metadados de tabelas e views
- **ETL Pipelines**: Linhagem de transforma√ß√µes
- **Compliance**: Auditoria e classifica√ß√£o de dados sens√≠veis

## Objetivo do Lab

Neste laborat√≥rio, vamos:

1. **Conectar** ao banco PostgreSQL Northwind
2. **Extrair** metadados de tabelas e colunas
3. **Catalogar** no Apache Atlas via API REST
4. **Visualizar** o cat√°logo na interface web

**Resultado**: Cat√°logo completo com 14 tabelas e suas colunas integradas ao Atlas.


## Passo 1: Configura√ß√£o e Importa√ß√µes

Esta c√©lula configura todas as depend√™ncias e par√¢metros necess√°rios para conectar ao PostgreSQL e Apache Atlas.

**O que faz:**
- Importa bibliotecas para HTTP, banco de dados e manipula√ß√£o de dados
- Define URLs e credenciais de conex√£o
- Configura autentica√ß√£o HTTP Basic para Atlas

In [3]:
# Importa√ß√£o das bibliotecas necess√°rias
import requests                    # Para fazer requisi√ß√µes HTTP ao Atlas
from requests.auth import HTTPBasicAuth  # Para autentica√ß√£o HTTP Basic
import psycopg2                   # Driver para conectar ao PostgreSQL
import pandas as pd               # Para manipula√ß√£o de dados em DataFrames
import json                       # Para trabalhar com dados JSON

# Configura√ß√µes do Apache Atlas
ATLAS_URL = "http://atlas:21000"  # URL do servidor Atlas (container Docker)
ATLAS_USER = "admin"              # Usu√°rio padr√£o do Atlas
ATLAS_PASSWORD = "admin"          # Senha padr√£o do Atlas

# Configura√ß√µes do PostgreSQL
POSTGRES_CONFIG = {
    "host": "postgres_erp",        # Nome do container PostgreSQL
    "port": 5432,                  # Porta padr√£o do PostgreSQL
    "database": "northwind",       # Nome do banco de dados
    "user": "postgres",            # Usu√°rio do banco
    "password": "postgres"         # Senha do banco
}

# Configurar autentica√ß√£o HTTP Basic para Atlas
auth = HTTPBasicAuth(ATLAS_USER, ATLAS_PASSWORD)
print("‚úÖ Configurado")

‚úÖ Configurado


## Passo 2: Extra√ß√£o de Metadados do PostgreSQL

Esta c√©lula conecta ao PostgreSQL e extrai metadados estruturais de todas as tabelas.

**O que faz:**
- Conecta ao banco PostgreSQL Northwind
- Consulta o `information_schema` para obter lista de tabelas
- Para cada tabela, extrai informa√ß√µes das colunas (nome, tipo, nullable)
- Organiza os metadados em um dicion√°rio Python

In [12]:
def get_postgres_metadata():
    """Extrai metadados estruturais do PostgreSQL"""
    # Estabelece conex√£o com o PostgreSQL usando as configura√ß√µes definidas
    conn = psycopg2.connect(**POSTGRES_CONFIG)
    
    # Query SQL para buscar todas as tabelas do schema 'public'
    tables_df = pd.read_sql("""
        SELECT table_name 
        FROM information_schema.tables 
        WHERE table_schema = 'public'  -- Apenas tabelas do schema p√∫blico
        ORDER BY table_name            -- Ordena alfabeticamente
    """, conn)
    
    # Dicion√°rio para armazenar metadados de todas as tabelas
    metadata = {}
    
    # Itera sobre cada tabela encontrada
    for _, row in tables_df.iterrows():
        table_name = row['table_name']  # Nome da tabela atual
        
        # Query SQL para buscar colunas da tabela espec√≠fica
        columns_df = pd.read_sql("""
            SELECT column_name, data_type, is_nullable
            FROM information_schema.columns 
            WHERE table_name = %s AND table_schema = 'public'
            ORDER BY ordinal_position  -- Ordena pela posi√ß√£o original da coluna
        """, conn, params=[table_name])  # Usa par√¢metro para evitar SQL injection
        
        # Converte DataFrame para lista de dicion√°rios e armazena
        metadata[table_name] = columns_df.to_dict('records')
    
    # Fecha a conex√£o com o banco
    conn.close()
    return metadata

# Executa a extra√ß√£o de metadados
postgres_metadata = get_postgres_metadata()
print(f"üìã {len(postgres_metadata)} tabelas encontradas")
print(f"Exemplo: {list(postgres_metadata.keys())[:3]}")

  tables_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""
  columns_df = pd.read_sql("""


üìã 14 tabelas encontradas
Exemplo: ['categories', 'customer_customer_demo', 'customer_demographics']


## üóÑÔ∏è Passo 3: Cria√ß√£o do Database no Atlas

Esta c√©lula cria ou localiza o database no Apache Atlas que representar√° nosso PostgreSQL.

**O que faz:**
- Tenta criar um novo database no Atlas usando a API REST
- Se j√° existir, busca o GUID do database existente
- Retorna o identificador √∫nico (GUID) do database para usar nas pr√≥ximas etapas

In [14]:
def create_database_in_atlas():
    """Cria ou localiza database no Atlas"""
    # Payload JSON para criar entidade do tipo 'hive_db' no Atlas
    db_payload = {
        "entities": [{
            "typeName": "hive_db",                    # Tipo de entidade (database)
            "attributes": {
                "name": "northwind_postgres",          # Nome do database
                "qualifiedName": "northwind_postgres@cluster1",  # Nome √∫nico global
                "clusterName": "cluster1"              # Nome do cluster
            },
            "guid": -1                                 # GUID tempor√°rio (ser√° gerado pelo Atlas)
        }]
    }
    
    # Tenta criar o database via API REST do Atlas
    response = requests.post(f"{ATLAS_URL}/api/atlas/v2/entity/bulk", 
                            json=db_payload, auth=auth)
    
    # Se cria√ß√£o foi bem-sucedida, retorna o GUID gerado
    if response.status_code in [200, 201]:
        result = response.json()
        if 'mutatedEntities' in result and 'CREATE' in result['mutatedEntities']:
            return result['mutatedEntities']['CREATE'][0]['guid']
    
    # Se n√£o conseguiu criar, busca database existente
    search_response = requests.get(f"{ATLAS_URL}/api/atlas/v2/search/basic", 
                                 params={"query": "northwind_postgres"}, auth=auth)
    
    # Processa resultado da busca
    if search_response.status_code == 200:
        entities = search_response.json().get('entities', [])
        # Filtra apenas entidades do tipo 'hive_db'
        db_entities = [e for e in entities if e.get('typeName') == 'hive_db']
        if db_entities:
            return db_entities[0]['guid']  # Retorna GUID do primeiro database encontrado
    
    return None  # Retorna None se n√£o conseguiu criar nem encontrar

# Executa cria√ß√£o/busca do database
db_guid = create_database_in_atlas()
print(f"‚úÖ Database GUID: {db_guid}")

KeyboardInterrupt: 

## Passo 4: Cataloga√ß√£o Completa de Tabelas e Colunas

Esta c√©lula implementa a cataloga√ß√£o integrada de tabelas com suas colunas no Atlas.

**O que faz:**
- Remove tabelas existentes para evitar duplicatas
- Cria tabelas e colunas em uma √∫nica opera√ß√£o
- Usa GUIDs negativos para referenciar tabelas nas colunas
- Garante que as colunas apare√ßam no schema das tabelas no Atlas

In [16]:
def catalog_data(table_name, columns, db_guid):
    """Recria tabela com colunas integradas no Atlas"""
    
    # Primeiro, remove tabela existente se houver
    search_response = requests.get(f"{ATLAS_URL}/api/atlas/v2/search/basic", 
                                  params={"query": table_name}, auth=auth)
    
    # Se encontrou entidades, deleta as tabelas existentes
    if search_response.status_code == 200:
        entities = search_response.json().get('entities', [])
        for entity in entities:
            # Verifica se √© uma tabela com o nome exato
            if entity.get('typeName') == 'hive_table' and entity.get('displayText') == table_name:
                # Deleta a entidade usando seu GUID
                requests.delete(f"{ATLAS_URL}/api/atlas/v2/entity/guid/{entity['guid']}", auth=auth)
                print(f"  üóëÔ∏è Deletada tabela existente: {table_name}")
    
    # Lista para armazenar todas as entidades (tabela + colunas)
    entities = []
    
    # Cria entidade da tabela
    table_entity = {
        "typeName": "hive_table",                    # Tipo de entidade (tabela)
        "attributes": {
            "name": table_name,                       # Nome da tabela
            "qualifiedName": f"northwind_postgres.{table_name}@cluster1",  # Nome √∫nico
            "db": {"guid": db_guid},                  # Refer√™ncia ao database pai
            "owner": "postgres"                       # Propriet√°rio da tabela
        },
        "guid": -1                                    # GUID tempor√°rio negativo
    }
    entities.append(table_entity)
    
    # Cria entidades das colunas
    for i, col in enumerate(columns, 1):              # Enumera come√ßando do 1
        column_entity = {
            "typeName": "hive_column",                # Tipo de entidade (coluna)
            "attributes": {
                "name": col['column_name'],            # Nome da coluna
                "qualifiedName": f"northwind_postgres.{table_name}.{col['column_name']}@cluster1",
                "table": {"guid": -1},                 # Refer√™ncia √† tabela (GUID -1)
                "type": col['data_type'],              # Tipo de dados da coluna
                "position": i                          # Posi√ß√£o da coluna na tabela
            },
            "guid": -(i+1)                             # GUID tempor√°rio negativo √∫nico
        }
        entities.append(column_entity)
    
    # Envia todas as entidades (tabela + colunas) em uma √∫nica requisi√ß√£o
    payload = {"entities": entities}
    response = requests.post(f"{ATLAS_URL}/api/atlas/v2/entity/bulk", 
                           json=payload, auth=auth)
    
    # Verifica se a cria√ß√£o foi bem-sucedida
    if response.status_code in [200, 201]:
        result = response.json()
        created = result.get('mutatedEntities', {}).get('CREATE', [])
        print(f"  ‚úÖ {table_name}: {len(created)} entidades criadas")
        return True
    else:
        print(f"  ‚ùå Erro {table_name}: {response.status_code}")
        return False

# Executa cataloga√ß√£o de todas as tabelas
if db_guid:
    print(f"üîÑ Recriando {len(postgres_metadata)} tabelas com colunas integradas...")
    success_count = 0
    
    # Processa cada tabela individualmente
    for table_name, columns in postgres_metadata.items():
        print(f"\nüìã Processando: {table_name}")
        success = catalog_data(table_name, columns, db_guid)
        if success:
            success_count += 1
    
    print(f"\n‚úÖ {success_count}/{len(postgres_metadata)} tabelas recriadas com sucesso!")
    print("   Verifique no Atlas: todas as colunas devem aparecer no schema das tabelas")
else:
    print("‚ùå Database n√£o dispon√≠vel")

üîÑ Recriando 14 tabelas com colunas integradas...

üìã Processando: categories


KeyboardInterrupt: 

## Passo 5: Verifica√ß√£o Final do Cat√°logo

Esta c√©lula verifica o resultado final da cataloga√ß√£o no Apache Atlas.

**O que faz:**
- Busca todas as entidades relacionadas ao nosso projeto
- Conta databases, tabelas e colunas catalogadas
- Exibe estat√≠sticas finais e link para acesso ao Atlas
- Confirma que a cataloga√ß√£o foi bem-sucedida

In [17]:
# Busca todas as entidades relacionadas ao projeto northwind_postgres
search_response = requests.get(f"{ATLAS_URL}/api/atlas/v2/search/basic", 
                              params={"query": "*", "limit": 200}, auth=auth)

# Processa e exibe resultados da cataloga√ß√£o
if search_response.status_code == 200:
    entities = search_response.json().get('entities', [])
    
    # Filtra entidades por tipo e status ativo
    databases = [e for e in entities if e.get('typeName') == 'hive_db' and e.get('status') == 'ACTIVE']
    tables = [e for e in entities if e.get('typeName') == 'hive_table' and e.get('status') == 'ACTIVE']
    columns = [e for e in entities if e.get('typeName') == 'hive_column' and e.get('status') == 'ACTIVE']
    
    # Exibe estat√≠sticas finais
    print("üìä Resultado Final do Cat√°logo:")
    print(f"  üóÑÔ∏è Databases: {len(databases)}")
    print(f"  üìã Tabelas: {len(tables)}")
    print(f"  üìù Colunas: {len(columns)}")
    
    # Mostra algumas tabelas como exemplo
    if tables:
        print("\nüìã Tabelas catalogadas (primeiras 5):")
        for i, table in enumerate(tables[:5], 1):
            print(f"  {i}. {table.get('displayText')}")
    
    # Informa√ß√µes de acesso ao Atlas
    print(f"\nüéâ Acesse o Atlas: http://localhost:21000")
    print(f"   Usu√°rio: admin | Senha: admin")
    print(f"\nüí° Dica: Navegue at√© 'Search' e busque por 'northwind_postgres' para ver o cat√°logo completo")
else:
    print(f"‚ùå Erro na verifica√ß√£o: {search_response.status_code}")

‚ùå Erro na verifica√ß√£o: 500


## Conclus√£o

### O que Conseguimos

- **Extra√ß√£o Autom√°tica**: Metadados do PostgreSQL via `information_schema`  
- **Cataloga√ß√£o Completa**: 14 tabelas + colunas no Apache Atlas  
- **Integra√ß√£o Perfeita**: Colunas vis√≠veis no schema das tabelas  
- **API REST**: Automa√ß√£o via APIs do Atlas  

### Pr√≥ximos Passos

- **Classifica√ß√µes**: Adicionar tags e classifica√ß√µes aos dados
- **Linhagem**: Mapear transforma√ß√µes e fluxos de dados
- **Gloss√°rio**: Criar defini√ß√µes de neg√≥cio para termos
- **Automa√ß√£o**: Integrar com pipelines de CI/CD

### Benef√≠cios Alcan√ßados

- **Descoberta**: Dados facilmente encontr√°veis  
- **Documenta√ß√£o**: Metadados estruturados e acess√≠veis  
- **Governan√ßa**: Base para pol√≠ticas de dados  
- **Produtividade**: Redu√ß√£o do tempo de an√°lise  

**Parab√©ns! Voc√™ criou seu primeiro cat√°logo de dados com Apache Atlas!**