# Lab 02 - Extração de Dados: Bancos de Dados SQL
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos aprender a conectar o Python a um Banco de Dados Relacional (SQLite), executar consultas SQL básicas e carregar os resultados diretamente para um DataFrame do Pandas.

## 1. Setup e Conexão
Para interagir com bancos SQL, o Pandas geralmente utiliza o **SQLAlchemy** como 'motor' (engine) de conexão.

Vamos usar o banco de dados de exemplo **Chinook**, que simula uma loja de música digital.
Certifique-se de que o arquivo `chinook.db` esteja na mesma pasta deste notebook. Se não estiver, o código abaixo fará o download.

In [3]:
import pandas as pd
from sqlalchemy import create_engine
import os
import urllib.request

# Download do chinook.db se não existir
if not os.path.exists('chinook.db'):
    url = 'https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite'
    urllib.request.urlretrieve(url, 'chinook.db')
    print('Banco de dados baixado com sucesso!')

# Criando a conexão (Engine)
# Em bancos reais (Postgres, MySQL), a string seria: postgresql://usuario:senha@host:porta/banco
engine = create_engine('sqlite:///chinook.db')
print('Conexão estabelecida!')

Conexão estabelecida!


## 2. Explorando o Banco de Dados
Antes de sair fazendo consultas, precisamos saber quais tabelas existem no banco.
Podemos usar uma query específica do SQLite para listar as tabelas.

In [4]:
query = "SELECT name FROM sqlite_master WHERE type='table';"

tabelas = pd.read_sql(query, engine)
print(tabelas)


             name
0           Album
1          Artist
2        Customer
3        Employee
4           Genre
5         Invoice
6     InvoiceLine
7       MediaType
8        Playlist
9   PlaylistTrack
10          Track


## 3. O Comando SELECT (Leitura Básica)
O comando mais básico é o `SELECT`. Vamos ler toda a tabela de **Artists** (Artistas).

> **Dica:** Evite fazer `SELECT *` em tabelas muito grandes sem um `LIMIT`.

In [5]:
query = "select * from Artist LIMIT 10"

df_artistas = pd.read_sql(query, engine)

print(df_artistas)

   ArtistId                  Name
0         1                 AC/DC
1         2                Accept
2         3             Aerosmith
3         4     Alanis Morissette
4         5       Alice In Chains
5         6  Antônio Carlos Jobim
6         7          Apocalyptica
7         8            Audioslave
8         9              BackBeat
9        10          Billy Cobham


## 4. Filtrando Dados com WHERE
Geralmente não queremos o banco todo. Vamos filtrar dados específicos.
**Missão:** Selecione apenas as faixas (Tracks) que custam mais de $0.99.

In [6]:
query = "SELECT * FROM Track WHERE UnitPrice > 0.99"

df_tracks = pd.read_sql(query, engine)

df_tracks = df_tracks[['Name', 'UnitPrice']]

print(df_tracks)

                                       Name  UnitPrice
0    Battlestar Galactica: The Story So Far       1.99
1                    Occupation / Precipice       1.99
2                             Exodus, Pt. 1       1.99
3                             Exodus, Pt. 2       1.99
4                             Collaborators       1.99
..                                      ...        ...
208       There's No Place Like Home, Pt. 1       1.99
209       There's No Place Like Home, Pt. 2       1.99
210       There's No Place Like Home, Pt. 3       1.99
211                          Branch Closing       1.99
212                              The Return       1.99

[213 rows x 2 columns]


### Exercício 4.1
Selecione todas as músicas que possuem a palavra 'Love' no nome.
**Dica:** Use o operador `LIKE '%Love%'`.

In [7]:
query = "SELECT * FROM track WHERE Name LIKE '%Love%'"
df_love = pd.read_sql(query, engine)

df_love = df_love[['TrackId', 'Name', 'Composer']]

print(df_love)


     TrackId                                          Name  \
0         24                           Love In An Elevator   
1         56                              Love, Hate, Love   
2        195                          Let Me Love You Baby   
3        335                                       My Love   
4        341  The Girl I Love She Got Long Black Wavy Hair   
..       ...                                           ...   
109     3355                                    Love Comes   
110     3377                         Arms Around Your Love   
111     3460                         Love Is a Losing Game   
112     3470                         I Heard Love Is Blind   
113     3471        (There Is) No Greater Love (Teo Licks)   

                                              Composer  
0                              Steven Tyler, Joe Perry  
1                         Jerry Cantrell, Layne Staley  
2                                         Willie Dixon  
3                          

## 5. Ordenação (ORDER BY) e Limites (LIMIT)
Vamos descobrir quais são as músicas mais longas da loja.

In [8]:
query = """
SELECT Name, Milliseconds 
FROM track 
ORDER BY Milliseconds DESC 
LIMIT 10
"""

df_longas = pd.read_sql(query, engine)


print(df_longas)

                          Name  Milliseconds
0       Occupation / Precipice       5286953
1      Through a Looking Glass       5088838
2  Greetings from Earth, Pt. 1       2960293
3      The Man With Nine Lives       2956998
4  Battlestar Galactica, Pt. 2       2956081
5  Battlestar Galactica, Pt. 1       2952702
6    Murder On the Rising Star       2935894
7  Battlestar Galactica, Pt. 3       2927802
8            Take the Celestra       2927677
9                Fire In Space       2926593


## 6. Agrupamento (GROUP BY)
Uma das grandes forças do SQL é a capacidade de agregar dados.
Vamos contar quantos álbuns cada artista possui.

In [9]:
query = "SELECT ArtistId, COUNT(*) FROM album GROUP BY ArtistId"

df_contagem = pd.read_sql(query, engine)

print(df_contagem)

     ArtistId  COUNT(*)
0           1         2
1           2         2
2           3         1
3           4         1
4           5         1
..        ...       ...
199       271         1
200       272         1
201       273         1
202       274         1
203       275         1

[204 rows x 2 columns]


## 7. JOINs: Cruzando Tabelas
Os dados do exercício anterior mostram apenas o `ArtistId`, o que não é muito útil para humanos.
Precisamos cruzar a tabela `albums` com a tabela `artists` para pegar o nome do artista.

**Sintaxe:**
```sql
SELECT t1.coluna, t2.coluna
FROM tabela1 t1
JOIN tabela2 t2 ON t1.id = t2.id
```

In [None]:
query = """
SELECT t1.Name, COUNT(t2.AlbumId) AS TotalAlbuns
FROM Artist t1
JOIN Album t2 ON t1.ArtistId = t2.ArtistId
GROUP BY t1.Name
ORDER BY TotalAlbuns DESC
LIMIT 10
"""

df_final = pd.read_sql(query, engine)
print(df_final)

              Name  TotalAlbuns
0      Iron Maiden           21
1     Led Zeppelin           14
2      Deep Purple           11
3               U2           10
4        Metallica           10
5    Ozzy Osbourne            6
6        Pearl Jam            5
7  Various Artists            4
8        Van Halen            4
9             Lost            4


## 8. DESAFIO FINAL
**Cenário:** O gerente de marketing quer saber quais são os **5 Gêneros Musicais (Genres)** mais vendidos na loja.

Para isso, você precisará conectar as tabelas:
`invoice_items` (vendas) -> `tracks` (musicas) -> `genres` (generos).

1. Faça a query SQL.
2. Carregue no Pandas.
3. Salve o resultado em um arquivo CSV chamado `top_generos.csv` para enviar ao gerente.

In [18]:
import pandas as pd

query = """
SELECT t3.Name AS Genero, COUNT(t1.InvoiceLineId) AS Vendas
FROM InvoiceLine t1
JOIN Track t2 ON t1.TrackId = t2.TrackId
JOIN Genre t3 ON t2.GenreId = t3.GenreId
GROUP BY t3.Name
ORDER BY Vendas DESC
LIMIT 5
"""

# 2. Carregar no Pandas
df_top_generos = pd.read_sql(query, engine)

# 3. Salvar o resultado em CSV
df_top_generos.to_csv('top_generos.csv', index=False)

print("Arquivo 'top_generos.csv' gerado com sucesso!")
display(df_top_generos)

Arquivo 'top_generos.csv' gerado com sucesso!


Unnamed: 0,Genero,Vendas
0,Rock,835
1,Latin,386
2,Metal,264
3,Alternative & Punk,244
4,Jazz,80
