# AWS GLUE ETL - Observability

- A observabilidade no AWS Glue vai muito além de verificar se o job finalizou com sucesso. 
- Ela permite entender como os recursos foram usados, identificar gargalos de perfomace, reduzir custos desnecessários e aumentar a eficiência das pipelines de dados.

- Cada métrica é uma lente sobre um aspecto do job, desde movimentação de dados até consumo de CPU e memória, ajudando engenheirosa 
ajustar parâmetros de Spark, Glue e Cluster para obter cargas de trabalho mais rápidas e econômicas.

## 1. ETL Data Movement (bytes)


### O que é:

- Volume de dados lidos, transformados e gravados durante o job.

### Por que é importante:

- Indica se o job está movimentando mais dados do que deveria.

- Ajuda a identificar casos de falta de particionamento, filtros ineficientes ou joins desnecessários.

- Jobs com alto movimento de dados tendem a gerar alto custo e lentidão.}

## 2. Data Shuffle Across Executors (bytes)

### O que é:

- Quantidade de dados redistribuídos entre executores durante operações de shuffle (joins, groupBy, aggregations).

### Por que é importante:

- Shuffle é uma das operações mais caras no Spark.

- Alto shuffle indica joins mal otimizados, skew de dados ou particionamento inadequado.

- Monitorar essa métrica ajuda a minimizar custos de rede e disco.

## 3. Memory Profile: Drivers and Executors (%)

### O que é:

- Uso de memória pelos drivers e executores.

### Por que é importante:

- Jobs que estoram memória causam falhas e reinícios. 

- Ajuda a definir o tamanho ideal de executores (--conf spark.executor.memory).

- Permite balancear custo x performance sem alocar memória em excesso.

## 4. CPU Load (%)


### O que é:

- Consumo de CPU dos executores e drivers.

### Por que é importante:

- CPU constantemente alta: Indica trabalho intensivo de processamento.
- CPU constantemente baixa: Pode indicar subutilização de recursos.

Ajuda a ajustar o número de workers (DPU allocation) e melhorar o paralelismo.

## 5. Job Execution: Active Executors, Completed Stegaes & Maximum Needed Executors

### O que é:

- Acompanha a execução de stages, quantos executores estão ativos e se foi necessário escalar mais.

### Por que é importante:

- Ajuda a entender o ciclo de vida do job.

- Mostra se a configuração inicial de executores é suficiente ou se há under/over-provisiong.

- Otimiza o tempo total de execução.

## 6. Worker Utilization (%)

### O que é:

- Porcentagem de tempo em que os workers estavam realmente ocupados.

### Por que é importante:

> - Worker com baixa utilização: Cluster superdimensionado.
>
> - Worker no limite: Risco de falhas ou gargalos.

Dá insigths sobre dimemsionamento ideal de DPUs.


## 7. Data Skewness by job (%)


### O que é:

- Mede a desproporção de dados entre partições.

### Por que é importante:

- Skew causa executores sobrecarregados e stages lentos.

- Pode gerar tempo de execução.

- Monitorar essa métrica ajuda a aplicartécnicas como salting e reparticionamento inteligente.

## Custom Metrics

### Row Coount per Step

- Quantidade de Registros em cada step de ETL.

### Step Execution Time

- Tempo Médio em cada step de ETL.

### Compression Ratio

- Taxa de compressão dos dados.

### Conclusão 

> Métricas de observabilidade no AWS Glue não servem apenas para "monitorar", mas para guiar decisões de arquitetura, performance e custo.
>
> Elas ajudam engenheiros a:

- Reduzir desperdício de recursos;
- Antecipar probleemas de qualidade de dados;
- Melhorar SLAs de pipelines críticas;
- Trazer visibilidade técnica e de negócio.

Alerts Monitoring