# Lab 02 - Extração de Dados: Bancos de Dados SQL
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos aprender a conectar o Python a um Banco de Dados Relacional (SQLite), executar consultas SQL básicas e carregar os resultados diretamente para um DataFrame do Pandas.

## 1. Setup e Conexão
Para interagir com bancos SQL, o Pandas geralmente utiliza o **SQLAlchemy** como 'motor' (engine) de conexão.

Vamos usar o banco de dados de exemplo **Chinook**, que simula uma loja de música digital.
Certifique-se de que o arquivo `chinook.db` esteja na mesma pasta deste notebook. Se não estiver, o código abaixo fará o download.

In [1]:
import pandas as pd
from sqlalchemy import create_engine
import os
import urllib.request

# Download do chinook.db se não existir
if not os.path.exists('chinook.db'):
    url = 'https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite'
    urllib.request.urlretrieve(url, 'chinook.db')
    print('Banco de dados baixado com sucesso!')

# Criando a conexão (Engine)
# Em bancos reais (Postgres, MySQL), a string seria: postgresql://usuario:senha@host:porta/banco
engine = create_engine('sqlite:///chinook.db')
print('Conexão estabelecida!')

Banco de dados baixado com sucesso!
Conexão estabelecida!


## 2. Explorando o Banco de Dados
Antes de sair fazendo consultas, precisamos saber quais tabelas existem no banco.
Podemos usar uma query específica do SQLite para listar as tabelas.

In [18]:
# Listando todas as tabelas do banco
query_tabelas = """
SELECT name FROM sqlite_master WHERE type = 'table'
"""
df_tabelas = pd.read_sql(query_tabelas, engine)
df_tabelas


Unnamed: 0,name
0,Album
1,Artist
2,Customer
3,Employee
4,Genre
5,Invoice
6,InvoiceLine
7,MediaType
8,Playlist
9,PlaylistTrack


## 3. O Comando SELECT (Leitura Básica)
O comando mais básico é o `SELECT`. Vamos ler toda a tabela de **Artists** (Artistas).

> **Dica:** Evite fazer `SELECT *` em tabelas muito grandes sem um `LIMIT`.

In [10]:
# Lendo a tabela Artists completa
query_artist = """
SELECT * FROM Artist
"""
df_artist = pd.read_sql(query_artist, engine)
df_artist

Unnamed: 0,ArtistId,Name
0,1,AC/DC
1,2,Accept
2,3,Aerosmith
3,4,Alanis Morissette
4,5,Alice In Chains
...,...,...
270,271,"Mela Tenenbaum, Pro Musica Prague & Richard Kapp"
271,272,Emerson String Quartet
272,273,"C. Monteverdi, Nigel Rogers - Chiaroscuro; Lon..."
273,274,Nash Ensemble


## 4. Filtrando Dados com WHERE
Geralmente não queremos o banco todo. Vamos filtrar dados específicos.
**Missão:** Selecione apenas as faixas (Tracks) que custam mais de $0.99.

In [16]:
# Escreva sua query aqui
query_price = """SELECT * FROM Track WHERE UnitPrice > 0.99"""
df_track = pd.read_sql(query_price, engine)
df_track


Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,2819,Battlestar Galactica: The Story So Far,226,3,18,,2622250,490750393,1.99
1,2820,Occupation / Precipice,227,3,19,,5286953,1054423946,1.99
2,2821,"Exodus, Pt. 1",227,3,19,,2621708,475079441,1.99
3,2822,"Exodus, Pt. 2",227,3,19,,2618000,466820021,1.99
4,2823,Collaborators,227,3,19,,2626626,483484911,1.99
...,...,...,...,...,...,...,...,...,...
208,3362,"There's No Place Like Home, Pt. 1",261,3,21,,2609526,522919189,1.99
209,3363,"There's No Place Like Home, Pt. 2",261,3,21,,2497956,523748920,1.99
210,3364,"There's No Place Like Home, Pt. 3",261,3,21,,2582957,486161766,1.99
211,3428,Branch Closing,251,3,22,,1814855,360331351,1.99


### Exercício 4.1
Selecione todas as músicas que possuem a palavra 'Love' no nome.
**Dica:** Use o operador `LIKE '%Love%'`.

In [None]:
# Seu código aqui
query_love = """SELECT * FROM Track 
WHERE Name LIKE '%Love%'"""
df_track_love = pd.read_sql(query_love, engine)
df_track_love

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,24,Love In An Elevator,5,1,1,"Steven Tyler, Joe Perry",321828,10552051,0.99
1,56,"Love, Hate, Love",7,1,1,"Jerry Cantrell, Layne Staley",387134,12575396,0.99
2,195,Let Me Love You Baby,20,1,6,Willie Dixon,175386,5716994,0.99
3,335,My Love,29,1,9,Jauperi/Zeu Góes,203493,6772813,0.99
4,341,The Girl I Love She Got Long Black Wavy Hair,30,1,1,Jimmy Page/John Bonham/John Estes/John Paul Jo...,183327,5995686,0.99
...,...,...,...,...,...,...,...,...,...
109,3355,Love Comes,265,5,1,"Darius ""Take One"" Minwalla/Jon Auer/Ken String...",199923,3240609,0.99
110,3377,Arms Around Your Love,270,2,23,Chris Cornell,214016,3516224,0.99
111,3460,Love Is a Losing Game,321,2,14,,154386,2509409,0.99
112,3470,I Heard Love Is Blind,322,2,9,,129666,2190831,0.99


## 5. Ordenação (ORDER BY) e Limites (LIMIT)
Vamos descobrir quais são as músicas mais longas da loja.

In [21]:
query_size = """
SELECT * FROM Track 
ORDER BY Milliseconds DESC"""
df_track_size = pd.read_sql(query_size, engine)
df_track_size

Unnamed: 0,TrackId,Name,AlbumId,MediaTypeId,GenreId,Composer,Milliseconds,Bytes,UnitPrice
0,2820,Occupation / Precipice,227,3,19,,5286953,1054423946,1.99
1,3224,Through a Looking Glass,229,3,21,,5088838,1059546140,1.99
2,3244,"Greetings from Earth, Pt. 1",253,3,20,,2960293,536824558,1.99
3,3242,The Man With Nine Lives,253,3,20,,2956998,577829804,1.99
4,3227,"Battlestar Galactica, Pt. 2",253,3,20,,2956081,521387924,1.99
...,...,...,...,...,...,...,...,...,...
3498,3304,Commercial 1,258,1,17,L. Muggerud,7941,319888,0.99
3499,178,Oprah,18,1,4,,6635,224313,0.99
3500,170,A Statistic,18,1,4,,6373,211997,0.99
3501,168,Now Sports,18,1,4,,4884,161266,0.99


## 6. Agrupamento (GROUP BY)
Uma das grandes forças do SQL é a capacidade de agregar dados.
Vamos contar quantos álbuns cada artista possui.

In [None]:
query_size = """
SELECT * FROM Track 
GROUP BY Album
"""
df_track_size = pd.read_sql(query_size, engine)
df_track_size

## 7. JOINs: Cruzando Tabelas
Os dados do exercício anterior mostram apenas o `ArtistId`, o que não é muito útil para humanos.
Precisamos cruzar a tabela `albums` com a tabela `artists` para pegar o nome do artista.

**Sintaxe:**
```sql
SELECT t1.coluna, t2.coluna
FROM tabela1 t1
JOIN tabela2 t2 ON t1.id = t2.id
```

## 8. DESAFIO FINAL
**Cenário:** O gerente de marketing quer saber quais são os **5 Gêneros Musicais (Genres)** mais vendidos na loja.

Para isso, você precisará conectar as tabelas:
`invoice_items` (vendas) -> `tracks` (musicas) -> `genres` (generos).

1. Faça a query SQL.
2. Carregue no Pandas.
3. Salve o resultado em um arquivo CSV chamado `top_generos.csv` para enviar ao gerente.

In [None]:
# Seu código aqui

# query_desafio = "..."
# df_desafio = pd.read_sql(...)
# df_desafio.to_csv(...)