# Lab 02 - Extração de Dados: Bancos de Dados SQL
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos aprender a conectar o Python a um Banco de Dados Relacional (SQLite), executar consultas SQL básicas e carregar os resultados diretamente para um DataFrame do Pandas.

## 1. Setup e Conexão
Para interagir com bancos SQL, o Pandas geralmente utiliza o **SQLAlchemy** como 'motor' (engine) de conexão.

Vamos usar o banco de dados de exemplo **Chinook**, que simula uma loja de música digital.
Certifique-se de que o arquivo `chinook.db` esteja na mesma pasta deste notebook. Se não estiver, o código abaixo fará o download.

In [3]:
import pandas as pd
from sqlalchemy import create_engine
import os
import urllib.request

# # Download do chinook.db se não existir
# if not os.path.exists('chinook.db'):
#     url = 'https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite'
#     urllib.request.urlretrieve(url, 'chinook.db')
#     print('Banco de dados baixado com sucesso!')

# Criando a conexão (Engine)
# Em bancos reais (Postgres, MySQL), a string seria: postgresql://usuario:senha@host:porta/banco
engine = create_engine('sqlite:///chinook.db')
print('Conexão estabelecida!')

Conexão estabelecida!


## 2. Explorando o Banco de Dados
Antes de sair fazendo consultas, precisamos saber quais tabelas existem no banco.
Podemos usar uma query específica do SQLite para listar as tabelas.

In [4]:
# Listando todas as tabelas do banco
import pandas as pd 

query = "SELECT name FROM sqlite_master WHERE type='table';" 
tables = pd.read_sql(query, engine)
print(tables)

             name
0           Album
1          Artist
2        Customer
3        Employee
4           Genre
5         Invoice
6     InvoiceLine
7       MediaType
8        Playlist
9   PlaylistTrack
10          Track


## 3. O Comando SELECT (Leitura Básica)
O comando mais básico é o `SELECT`. Vamos ler toda a tabela de **Artists** (Artistas).

> **Dica:** Evite fazer `SELECT *` em tabelas muito grandes sem um `LIMIT`.

In [6]:
# Lendo a tabela Artists completa
import pandas as pd

query = "SELECT * FROM Artist;"
df_artists = pd.read_sql(query, engine)
print(df_artists) 


     ArtistId                                               Name
0           1                                              AC/DC
1           2                                             Accept
2           3                                          Aerosmith
3           4                                  Alanis Morissette
4           5                                    Alice In Chains
..        ...                                                ...
270       271   Mela Tenenbaum, Pro Musica Prague & Richard Kapp
271       272                             Emerson String Quartet
272       273  C. Monteverdi, Nigel Rogers - Chiaroscuro; Lon...
273       274                                      Nash Ensemble
274       275                              Philip Glass Ensemble

[275 rows x 2 columns]


## 4. Filtrando Dados com WHERE
Geralmente não queremos o banco todo. Vamos filtrar dados específicos.
**Missão:** Selecione apenas as faixas (Tracks) que custam mais de $0.99.

In [8]:
# Escreva sua query aqui
import pandas as pd

query = "SELECT TrackId, Name, UnitPrice FROM Track WHERE UnitPrice > 0.99;"
df_tracks = pd.read_sql(query, engine)
print(df_tracks)  


     TrackId                                    Name  UnitPrice
0       2819  Battlestar Galactica: The Story So Far       1.99
1       2820                  Occupation / Precipice       1.99
2       2821                           Exodus, Pt. 1       1.99
3       2822                           Exodus, Pt. 2       1.99
4       2823                           Collaborators       1.99
..       ...                                     ...        ...
208     3362       There's No Place Like Home, Pt. 1       1.99
209     3363       There's No Place Like Home, Pt. 2       1.99
210     3364       There's No Place Like Home, Pt. 3       1.99
211     3428                          Branch Closing       1.99
212     3429                              The Return       1.99

[213 rows x 3 columns]


### Exercício 4.1
Selecione todas as músicas que possuem a palavra 'Love' no nome.
**Dica:** Use o operador `LIKE '%Love%'`.

In [9]:
# Seu código aqui
import pandas as pd

query = "SELECT TrackId, Name FROM Track WHERE Name LIKE '%Love%';"
df_love_tracks = pd.read_sql(query, engine)
print(df_love_tracks) 


     TrackId                                          Name
0         24                           Love In An Elevator
1         56                              Love, Hate, Love
2        195                          Let Me Love You Baby
3        335                                       My Love
4        341  The Girl I Love She Got Long Black Wavy Hair
..       ...                                           ...
109     3355                                    Love Comes
110     3377                         Arms Around Your Love
111     3460                         Love Is a Losing Game
112     3470                         I Heard Love Is Blind
113     3471        (There Is) No Greater Love (Teo Licks)

[114 rows x 2 columns]


## 5. Ordenação (ORDER BY) e Limites (LIMIT)
Vamos descobrir quais são as músicas mais longas da loja.

In [11]:
import pandas as pd

query = """
SELECT TrackId, Name, Milliseconds
FROM Track
ORDER BY Milliseconds DESC;
"""
df_longest_tracks = pd.read_sql(query, engine)
print(df_longest_tracks)


      TrackId                         Name  Milliseconds
0        2820       Occupation / Precipice       5286953
1        3224      Through a Looking Glass       5088838
2        3244  Greetings from Earth, Pt. 1       2960293
3        3242      The Man With Nine Lives       2956998
4        3227  Battlestar Galactica, Pt. 2       2956081
...       ...                          ...           ...
3498     3304                 Commercial 1          7941
3499      178                        Oprah          6635
3500      170                  A Statistic          6373
3501      168                   Now Sports          4884
3502     2461     É Uma Partida De Futebol          1071

[3503 rows x 3 columns]


## 6. Agrupamento (GROUP BY)
Uma das grandes forças do SQL é a capacidade de agregar dados.
Vamos contar quantos álbuns cada artista possui.

In [13]:
import pandas as pd

query = """
SELECT ar.Name AS ArtistName, COUNT(al.AlbumId) AS TotalAlbums
FROM Album al
JOIN Artist ar ON al.ArtistId = ar.ArtistId
GROUP BY ar.Name
ORDER BY TotalAlbums DESC;
"""
df_albums_per_artist = pd.read_sql(query, engine)
print(df_albums_per_artist)  


                                            ArtistName  TotalAlbums
0                                          Iron Maiden           21
1                                         Led Zeppelin           14
2                                          Deep Purple           11
3                                                   U2           10
4                                            Metallica           10
..                                                 ...          ...
199  Academy of St. Martin in the Fields, John Birc...            1
200  Academy of St. Martin in the Fields Chamber En...            1
201  Academy of St. Martin in the Fields & Sir Nevi...            1
202                                     Aaron Goldberg            1
203          Aaron Copland & London Symphony Orchestra            1

[204 rows x 2 columns]


## 7. JOINs: Cruzando Tabelas
Os dados do exercício anterior mostram apenas o `ArtistId`, o que não é muito útil para humanos.
Precisamos cruzar a tabela `albums` com a tabela `artists` para pegar o nome do artista.

**Sintaxe:**
```sql
SELECT t1.coluna, t2.coluna
FROM tabela1 t1
JOIN tabela2 t2 ON t1.id = t2.id
```

In [15]:
import pandas as pd

query = """
SELECT ar.Name AS ArtistName, al.Title AS AlbumTitle
FROM Album al
JOIN Artist ar ON al.ArtistId = ar.ArtistId
ORDER BY ar.Name;
"""
df_albums_artists = pd.read_sql(query, engine)
print(df_albums_artists)  

                                            ArtistName  \
0                                                AC/DC   
1                                                AC/DC   
2            Aaron Copland & London Symphony Orchestra   
3                                       Aaron Goldberg   
4    Academy of St. Martin in the Fields & Sir Nevi...   
..                                                 ...   
342                                 Vinícius De Moraes   
343                                     Wilhelm Kempff   
344                                     Yehudi Menuhin   
345                                           Yo-Yo Ma   
346                                     Zeca Pagodinho   

                                AlbumTitle  
0    For Those About To Rock We Salute You  
1                        Let There Be Rock  
2            A Copland Celebration, Vol. I  
3                                   Worlds  
4        The World of Classical Favourites  
..                               

## 8. DESAFIO FINAL
**Cenário:** O gerente de marketing quer saber quais são os **5 Gêneros Musicais (Genres)** mais vendidos na loja.

Para isso, você precisará conectar as tabelas:
`invoice_items` (vendas) -> `tracks` (musicas) -> `genres` (generos).

1. Faça a query SQL.
2. Carregue no Pandas.
3. Salve o resultado em um arquivo CSV chamado `top_generos.csv` para enviar ao gerente.

In [16]:
# Seu código aqui

# query_desafio = "..."
# df_desafio = pd.read_sql(...)
# df_desafio.to_csv(...)
import pandas as pd

query_desafio = """
SELECT g.Name AS GenreName, COUNT(ii.InvoiceLineId) AS TotalSold
FROM InvoiceLine ii
JOIN Track t ON ii.TrackId = t.TrackId
JOIN Genre g ON t.GenreId = g.GenreId
GROUP BY g.Name
ORDER BY TotalSold DESC
LIMIT 5;
"""
df_desafio = pd.read_sql(query_desafio, engine)
df_desafio.to_csv("top_generos.csv", index=False)
print("Top 5:",df_desafio)


Top 5:             GenreName  TotalSold
0                Rock        835
1               Latin        386
2               Metal        264
3  Alternative & Punk        244
4                Jazz         80
