# Extract, Transform, Load (ETL)

No mundo do gerenciamento de dados, o processo **Extrair, Transformar, Carregar (ETL)** é uma etapa fundamental na coleta, processamento e preparação de dados para análise. ETL envolve extrair dados de diversas fontes, transformá-los em um formato estruturado e carregá-los em um destino onde possam ser analisados. Este processo é crucial para manter a qualidade e a consistência dos dados.

## 1. Extração (E)



A primeira etapa do ETL é a **extração**, onde os dados são coletados de diferentes fontes. Essas fontes podem incluir bancos de dados, planilhas, APIs, logs e muito mais. Aqui estão alguns exemplos:

- Extraindo dados de um banco de dados:

```sql
SELECT * FROM sales_data;
```

- Extraindo dados de uma API REST:

```python
import requests

response = requests.get("https://api.example.com/data")
data = response.json()
```

## 2. Transformação (T)



Após a extração dos dados, a próxima etapa é a **transformação**. Durante esta fase, os dados são limpos, enriquecidos e transformados em um formato consistente. A transformação pode envolver:

- Removendo duplicatas
- Tratamento de valores ausentes
- Agregando dados
- Alteração de tipos de dados
- Normalizando dados

Por exemplo, transformando um formato de data de `MM/DD/AAAA` para `AAAA-MM-DD`:

```python
import pandas as pd

df['date'] = pd.to_datetime(df['date'], format='%m/%d/%Y').dt.strftime('%Y-%m-%d')
```

## 3. Carga (L)



A etapa final do ETL é **carregar** os dados transformados em um destino, normalmente um data warehouse, banco de dados ou data lake. Aqui estão alguns exemplos de carregamento:

- Carregando dados em um banco de dados SQL:

```sql
INSERT INTO target_table
SELECT * FROM transformed_data;
```

- Carregar dados em um data warehouse na nuvem como o Amazon Redshift:

```python
import psycopg2

# Conectando ao redshift
conn = psycopg2.connect(database="mydb", user="user", password="password", host="redshift-cluster-url")

# Inserindo dados na tabela
cur = conn.cursor()
cur.execute("COPY target_table FROM 's3://data-bucket/transformed_data.csv' CSV;")
conn.commit()
```




# ETL vs. ELT: Extrair, Transformar, Carregar vs. Extrair, Carregar, Transformar

No campo da integração de dados, existem duas abordagens principais: **ETL** (Extrair, Transformar, Carregar) e **ELT** (Extrair, Carregar, Transformar). Estas metodologias diferem em suas sequências de processamento de dados e apresentam diferentes vantagens e casos de uso.

## Comparação entre ETL e ELT

- **Ordem das Etapas**:
  - **ETL**: Extrair → Transformar → Carregar
  - **ELT**: Extrair → Carregar → Transformar

## Quando usar ETL:

Quando precisamos garantir que os dados estão limpos e transformados antes de carregá-los no destino.
Útil se o destino não tem capacidade de processamento suficiente para grandes transformações.
## Quando usar ELT:

Quando queremos carregar os dados rapidamente e realizar as transformações no próprio destino.
Útil para grandes volumes de dados, aproveitando o poder de processamento do sistema de destino.

## Principais Diferenças

**ETL (Extrair, Transformar, Carregar):**
- **Transformação Antes do Carregamento:** Os dados são limpos e transformados antes do carregamento no sistema de destino.
- **Dados Estruturados:** Mais adequado para dados estruturados.
- **Data Warehousing:** Frequentemente usado em sistemas de DW.
- **Consistência:** A transformação ocorre antes do armazenamento, garantindo consistência.

**ELT (Extrair, Carregar, Transformar):**
- **Transformação Após o Carregamento:** Os dados são carregados no sistema de destino em seu estado bruto e transformados posteriormente.
- **Dados Brutos e Não Estruturados:** Ideal para dados brutos e não estruturados.
- **Data Lakes:** Comum em arquiteturas de data lake.
- **Flexibilidade:** A transformação ocorre após o armazenamento, permitindo maior flexibilidade na análise.

## Exemplo de ETL (Extrair, Transformar, Carregar)

### Cenário:
Temos um arquivo CSV com dados de vendas que precisa ser limpo e transformado antes de ser salvo em outro arquivo CSV.

### Código:

```python
import pandas as pd

# Extração
data = pd.read_csv('sales_data.csv')

# Transformação
data['date'] = pd.to_datetime(data['date'], format='%Y-%m-%d')
data.drop_duplicates(inplace=True)

# Carregamento
data.to_csv('cleaned_sales_data.csv', index=False)
```

## Exemplo de ELT (Extrair, Carregar, Transformar)

### Cenário:
Temos um arquivo CSV com dados de log de eventos que precisa ser carregado em um arquivo CSV bruto e depois transformado para análise.

### Código:

```python
import pandas as pd

# Extração e Carga
data = pd.read_csv('event_logs.csv')
data.to_csv('raw_event_logs.csv', index=False)

# Transformação
transformed_data = data.groupby('user_id').agg(
    event_count=('event_type', 'count'),
    first_event=('event_timestamp', 'min'),
    last_event=('event_timestamp', 'max')
).reset_index()

# Salvando os dados transformados
transformed_data.to_csv('transformed_event_logs.csv', index=False)
```