# Lab 02 - Extração de Dados: Bancos de Dados SQL
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos aprender a conectar o Python a um Banco de Dados Relacional (SQLite), executar consultas SQL básicas e carregar os resultados diretamente para um DataFrame do Pandas.

## 1. Setup e Conexão
Para interagir com bancos SQL, o Pandas geralmente utiliza o **SQLAlchemy** como 'motor' (engine) de conexão.

Vamos usar o banco de dados de exemplo **Chinook**, que simula uma loja de música digital.
Certifique-se de que o arquivo `chinook.db` esteja na mesma pasta deste notebook. Se não estiver, o código abaixo fará o download.

In [None]:
import pandas as pd
from sqlalchemy import create_engine
import os
import urllib.request

# Download do chinook.db se não existir
if not os.path.exists('chinook.db'):
    url = 'https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite'
    urllib.request.urlretrieve(url, 'chinook.db')
    print('Banco de dados baixado com sucesso!')

# Criando a conexão (Engine)
# Em bancos reais (Postgres, MySQL), a string seria: postgresql://usuario:senha@host:porta/banco
engine = create_engine('sqlite:///chinook.db')
print('Conexão estabelecida!')

## 2. Explorando o Banco de Dados
Antes de sair fazendo consultas, precisamos saber quais tabelas existem no banco.
Podemos usar uma query específica do SQLite para listar as tabelas.

In [None]:
# Listando todas as tabelas do banco


## 3. O Comando SELECT (Leitura Básica)
O comando mais básico é o `SELECT`. Vamos ler toda a tabela de **Artists** (Artistas).

> **Dica:** Evite fazer `SELECT *` em tabelas muito grandes sem um `LIMIT`.

In [None]:
# Lendo a tabela Artists completa


## 4. Filtrando Dados com WHERE
Geralmente não queremos o banco todo. Vamos filtrar dados específicos.
**Missão:** Selecione apenas as faixas (Tracks) que custam mais de $0.99.

In [None]:
# Escreva sua query aqui


### Exercício 4.1
Selecione todas as músicas que possuem a palavra 'Love' no nome.
**Dica:** Use o operador `LIKE '%Love%'`.

In [None]:
# Seu código aqui


## 5. Ordenação (ORDER BY) e Limites (LIMIT)
Vamos descobrir quais são as músicas mais longas da loja.

## 6. Agrupamento (GROUP BY)
Uma das grandes forças do SQL é a capacidade de agregar dados.
Vamos contar quantos álbuns cada artista possui.

## 7. JOINs: Cruzando Tabelas
Os dados do exercício anterior mostram apenas o `ArtistId`, o que não é muito útil para humanos.
Precisamos cruzar a tabela `albums` com a tabela `artists` para pegar o nome do artista.

**Sintaxe:**
```sql
SELECT t1.coluna, t2.coluna
FROM tabela1 t1
JOIN tabela2 t2 ON t1.id = t2.id
```

## 8. DESAFIO FINAL
**Cenário:** O gerente de marketing quer saber quais são os **5 Gêneros Musicais (Genres)** mais vendidos na loja.

Para isso, você precisará conectar as tabelas:
`invoice_items` (vendas) -> `tracks` (musicas) -> `genres` (generos).

1. Faça a query SQL.
2. Carregue no Pandas.
3. Salve o resultado em um arquivo CSV chamado `top_generos.csv` para enviar ao gerente.

In [None]:
# Seu código aqui

# query_desafio = "..."
# df_desafio = pd.read_sql(...)
# df_desafio.to_csv(...)