# 🔧 AWS Glue

## 📋 Definição
Se trata de um serviço **serverless** da AWS que nos oferece modos de performar **ETL**.

## 🛠️ Formas de ETL
Ele disponibiliza diferentes formas para isso:

### 📓 Jupyter Notebooks
+ Diz respeito um jupyter notebook que podemos escrever ou importar para realizar nosso ETL
+ Pode usar **Spark SQL, PySpark ou Scala**

### 🐍 Python Shell
+ Análogo a um **arquivo .py** no caso de Python
+ Podemos usar **bibliotecas nativas** do Glue (variam de versão para versão do Glue)

### 🎨 Visual ETL
+ Uma ferramenta **low-code** onde podemos criar nosso ETL de modo análogo à criação de StepFunctions via console

## 🌐 Ecossistema Completo
No entanto, **Glue não se resume à somente ferramenta de ETL**, dentro de seu ecossistema encontramos também:

### 📚 Glue Catalog
Com o Glue Catalog podemos **catalogar** nossos dados em:
+ Buckets **S3**
+ Tabelas do Amazon **RDS**
+ Amazon **DynamoDB**
+ Amazon **Redshift**
+ Fontes de dados externas, como um database **JDBC**

### 🕷️ Glue Crawlers
+ Permitem ao Glue Catalog, de modo automatizado (ou não) e personalizado, rastrear schemas em um local de armazenamento de dados e **armazenar seus metadados**
+ Glue Crawlers **sugere** também **transformações** quanto ao tipo do dado bruto a serem feitas
+ Estas sugestões de transformações podem ser editadas usando Spark e Python
+ Seu comportamento personalizado tange áreas como:
  + **frequência** de rastreio dos objetos
  + como se dará o **comportamento frente a novas colunas ou tipos de dados**
  + **quais objetos deverão ser ou não ser considerados** em um dado local de armazenamento desses dados
  + dentre outras peculiaridades

### 🗄️ Glue Databases
+ Se tratam de **contâiners lógicos** que serão criadas para **organizar as tabelas** cujos schema (provenientes dos metadados rastreados, por exemplo, via Glue Crawlers) foram catalogados
+ Essas mesmas databases são as que, quando queremos observar no **Athena, EMR, Redshift Spectrum**, se possuir permissão via LakeFormation e/ou IAM, podemos performar queries

### 📋 Glue Tables
+ Se tratam das **representações dos metadados** catalogados (**schema, localização, formato, partições, etc.**) de estruturas de dados físicos
+ Essas tabelas catalogadas **podem ser consultadas** em ferramentas como **Athena, EMR, Redshift Spectrum**, desde que se possua as devidas permissões via LakeFormation e/ou IAM
+ **Os dados físicos permanecem em suas localizações originais (S3, RDS, etc.) - as Glue Tables são apenas o "mapa" para acessá-los**

### 🔗 Glue Connections
São configurações que permitem ao Glue se **conectar de forma segura** a **fontes de dados** que requerem:
+ **autenticação**
+ **configurações de rede específicas**
+ **drivers personalizados**

### 🔄 Workflows
+ Por meio de Workflows podemos **orquestrar** o funcionamento de Glue Jobs e todas as ferramentas dentro do ecossistema do Glue
+ A **orquestração** pode ser feita mediante a **horários ou** ainda num formato **eventos**

### ⚡ Triggers
+ Se tratam dos **gatilhos** que serão usados para execução do Workflow
+ Podemos ter 3 tipos:
  + **on-demand** - são disparados imediatamente após a criação
  + **schedule** - são disparados mediante a um cron
  + **job or crawler event** - são disparados mediante a ação de um Glue Job ou Glue Crawler

### 🏷️ Data Classification Tools
+ São ferramentas do que permitem **descobrir, classificar, perfilar e monitorar a qualidade dos dados automaticamente**, identificando dados sensíveis, padrões, anomalias e métricas de qualidade
+ Aqui entra o **Glue Data Brew**

### 💻 Interactive Sessions
+ Permite **executar código Spark** de forma interativa através de notebooks (Jupyter, Zeppelin, SageMaker Studio, etc.) **sem precisar provisionar um cluster** Glue dedicado
+ Ideal para **desenvolvimento, prototipagem e análise exploratória de dados**