# SQL para Engenharia de Dados e Ciência de Dados - Aula 3: Análise e Manipulação de Dados com SQL

## 1. Criando e Inserindo Dados

### 1.1. Estrutura da Tabela

Vamos trabalhar com uma tabela chamada `transacoes`, criada com a seguinte estrutura:

```sql
CREATE TABLE transacoes (
  id_cliente INT, 
  id_transacao INT,
  data_compra DATE,
  valor FLOAT, 
  id_loja VARCHAR(25)
);
```

- **`id_cliente`:** Identifica o cliente que realizou a transação.
- **`id_transacao`:** Identifica unicamente a transação.
- **`data_compra`:** Data em que a compra foi realizada.
- **`valor`:** Valor da transação.
- **`id_loja`:** Nome ou identificador da loja onde a compra foi feita.

### 1.2. Dados Inseridos

Os seguintes dados foram inseridos na tabela `transacoes`:

```sql
INSERT INTO transacoes VALUES (1, 768805383, '2021-06-10', 50.74, 'magalu');
INSERT INTO transacoes VALUES (2, 768805399, '2021-06-13', 30.90, 'giraffas');
INSERT INTO transacoes VALUES (3, 818770008, '2021-06-05', 110.00, 'postoshell');
INSERT INTO transacoes VALUES (1, 76856563, '2021-07-10', 2000.90, 'magalu');
INSERT INTO transacoes VALUES (1, 767573759, '2021-06-20', 15.70, 'subway');
INSERT INTO transacoes VALUES (3, 818575758, '2021-06-25', 2.99, 'seveneleven');
INSERT INTO transacoes VALUES (4, 764545534, '2021-07-11', 50.74, 'extra');
INSERT INTO transacoes VALUES (5, 76766789, '2021-08-02', 10.00, 'subway');
INSERT INTO transacoes VALUES (3, 8154567758, '2021-08-15', 1100.00, 'shopee');
```

### Estrutura da Tabela com Exemplos

| id_cliente | id_transacao | data_compra | valor  | id_loja     |
|------------|--------------|-------------|--------|-------------|
| 1          | 768805383    | 2021-06-10  | 50.74  | magalu      |
| 2          | 768805399    | 2021-06-13  | 30.90  | giraffas    |
| 3          | 818770008    | 2021-06-05  | 110.00 | postoshell  |

---

## 2. Selecionando Dados

### 2.1. Selecionando Todas as Colunas
Para exibir todas as colunas de uma tabela, usamos o comando `SELECT *`:

```sql
SELECT * FROM transacoes;
```

**O que acontece?**
- Todas as colunas e todas as linhas da tabela são exibidas no resultado.

### 2.2. Selecionando Colunas Específicas
Podemos restringir a seleção apenas às colunas de interesse.

**Exemplo:** Selecionando apenas as colunas `id_transacao` e `valor`.
```sql
SELECT id_transacao, valor 
FROM transacoes;
```

**Resultado:**
| id_transacao | valor  |
|--------------|--------|
| 768805383    | 50.74  |
| 768805399    | 30.90  |
| 818770008    | 110.00 |

---

## 3. Ordenando Dados

### 3.1. Ordenação Crescente
Para ordenar os dados em ordem crescente, utilizamos o comando `ORDER BY` seguido do nome da coluna.

**Exemplo:** Ordenar os valores de transações em ordem crescente.
```sql
SELECT id_transacao, valor 
FROM transacoes
ORDER BY valor ASC;
```

**O que acontece?**
- Os resultados serão exibidos do menor para o maior valor.

### 3.2. Ordenação Decrescente
Para ordenar os dados em ordem decrescente, usamos `DESC`.

**Exemplo:** Ordenar os valores de transações em ordem decrescente.
```sql
SELECT id_transacao, valor 
FROM transacoes
ORDER BY valor DESC;
```

**O que acontece?**
- Os resultados serão exibidos do maior para o menor valor.

---

## 4. Limitando Resultados

### 4.1. Exibindo Apenas N Linhas
Podemos limitar o número de linhas retornadas com o comando `LIMIT`.

**Exemplo:** Exibir apenas as 3 primeiras linhas da tabela.
```sql
SELECT * 
FROM transacoes
LIMIT 3;
```

**O que acontece?**
- Apenas as 3 primeiras linhas serão exibidas, independentemente do total de registros.

---

## 5. Exercícios

### Exercício 1: Selecionando Colunas Específicas
Exiba apenas os campos `id_cliente` e `valor` da tabela `transacoes`.

**Query:**
```sql
SELECT id_cliente, valor 
FROM transacoes;
```

### Exercício 2: Ordenando Dados
Liste todas as transações da tabela, ordenadas pela coluna `data_compra` em ordem decrescente.

**Query:**
```sql
SELECT * 
FROM transacoes
ORDER BY data_compra DESC;
```

### Exercício 3: Limitando Resultados
Exiba apenas os 5 maiores valores de transações (coluna `valor`).

**Query:**
```sql
SELECT valor 
FROM transacoes
ORDER BY valor DESC
LIMIT 5;
```


## 6. Trabalhando com Restrições e Chaves

### 6.1. Prática 1: Criando e Trabalhando com Tabelas
Nesta prática, criaremos e manipularemos tabelas com restrições. Recomenda-se utilizar o site [SQLite Online](https://sqliteonline.com/) para praticar as queries abaixo:

**Criando a Tabela de Clientes:**
```sql
CREATE TABLE clientes (
    id_cliente INT PRIMARY KEY
);
```

**Inserindo Dados na Tabela de Clientes:**
```sql
INSERT INTO clientes VALUES (1);
INSERT INTO clientes VALUES (2);
INSERT INTO clientes VALUES (3);
INSERT INTO clientes VALUES (4);
INSERT INTO clientes VALUES (5);
```

**Visualizando os Dados da Tabela de Clientes:**
```sql
SELECT * FROM clientes;
```

**Criando a Tabela de Transações com Restrições:**
```sql
CREATE TABLE transacoes (
  id_cliente INT,   
  id_transacao INT PRIMARY KEY,
  data_compra DATE UNIQUE,
  valor FLOAT NOT NULL, 
  id_loja VARCHAR(25),
  FOREIGN KEY (id_cliente) REFERENCES clientes(id_cliente),
  CHECK (valor > 0) 
);
```

**Inserindo Dados na Tabela de Transações:**
```sql
INSERT INTO transacoes VALUES (1, 768805383, '2021-06-10', 50.74, 'magalu');
INSERT INTO transacoes VALUES (2, 768805399, '2021-06-13', 30.90, 'giraffas');
INSERT INTO transacoes VALUES (3, 818770008, '2021-06-05', 110.00, 'postoshell');
```

**Visualizando os Dados da Tabela de Transações:**
```sql
SELECT * FROM transacoes;
```

---

## 7. Trabalhando com Consultas no AWS Athena

### 7.1. Criando a Tabela no Athena

No **AWS Athena**, execute o seguinte comando para criar a tabela `transacoes`:
```sql
CREATE EXTERNAL TABLE transacoes (
  id_cliente BIGINT, 
  id_transacao BIGINT,
  valor FLOAT,
  id_loja STRING
) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
  'separatorChar' = ',', 
  'quoteChar' = '"', 
  'escapeChar' = '\\'
)
STORED AS TEXTFILE
LOCATION 's3://bucket-transacoes/';
```

### 7.2. Query 1: Visualizando os Dados

```sql
SELECT * FROM transacoes;
```
**Resultado:**
| id_cliente | id_transacao | valor  | id_loja     |
|------------|--------------|--------|-------------|
| 1          | 768805383    | 50.74  | magalu      |
| 2          | 768805399    | 30.90  | giraffas    |
| 3          | 818770008    | 110.00 | postoshell  |
| 1          | 76856563     | 2000.90| magalu      |
| 1          | 767573759    | 15.70  | subway      |
| 3          | 818575758    | 2.99   | seveneleven |
| 4          | 764545534    | 50.74  | extra       |
| 5          | 76766789     | 10.00  | subway      |
| 3          | 8154567758   | 1100.00| shopee      |

### 7.3. Query 2: Utilizando Alias

```sql
SELECT id_cliente, valor, id_loja AS nome_loja FROM transacoes;
```
**Resultado:**
| id_cliente | valor   | nome_loja   |
|------------|---------|-------------|
| 1          | 50.74   | magalu      |
| 2          | 30.90   | giraffas    |
| 3          | 110.00  | postoshell  |
| 1          | 2000.90 | magalu      |
| 1          | 15.70   | subway      |
| 3          | 2.99    | seveneleven |
| 4          | 50.74   | extra       |
| 5          | 10.00   | subway      |
| 3          | 1100.00 | shopee      |


### 7.4. Query 3: Valores Distintos

```sql
SELECT DISTINCT id_loja AS nome_loja FROM transacoes;
```
**Resultado:**
| nome_loja    |
|--------------|
| seveneleven  |
| postoshell   |
| subway       |
| giraffas     |
| shopee       |
| magalu       |
| extra        |


### 7.5. Query 4: Ordenando e Limitando

```sql
SELECT id_cliente, valor FROM transacoes ORDER BY valor DESC LIMIT 2;
```
**Resultado:**
| id_cliente | valor   |
|------------|---------|
| 1          | 2000.9  |
| 3          | 1100.0  |

---

## Conclusão

Neste módulo, aprendemos:
- Como criar tabelas com restrições, como chave primária, chave estrangeira e CHECK.
- Praticamos consultas no SQL para selecionar, ordenar e limitar resultados.
- Exploramos o uso do AWS Athena para criar tabelas externas e realizar consultas eficientes em dados armazenados no S3.