# Lab 02 - Extração de Dados: Bancos de Dados SQL
**Disciplina:** Extração e Preparação de Dados | **Professor:** Luis Aramis

Neste laboratório, vamos aprender a conectar o Python a um Banco de Dados Relacional (SQLite), executar consultas SQL básicas e carregar os resultados diretamente para um DataFrame do Pandas.

## 1. Setup e Conexão
Para interagir com bancos SQL, o Pandas geralmente utiliza o **SQLAlchemy** como 'motor' (engine) de conexão.

Vamos usar o banco de dados de exemplo **Chinook**, que simula uma loja de música digital.
Certifique-se de que o arquivo `chinook.db` esteja na mesma pasta deste notebook. Se não estiver, o código abaixo fará o download.

In [1]:
import pandas as pd
from sqlalchemy import create_engine
import os
import urllib.request

# Download do chinook.db se não existir
if not os.path.exists('chinook.db'):
    url = 'https://github.com/lerocha/chinook-database/raw/master/ChinookDatabase/DataSources/Chinook_Sqlite.sqlite'
    urllib.request.urlretrieve(url, 'chinook.db')
    print('Banco de dados baixado com sucesso!')

# Criando a conexão (Engine)
# Em bancos reais (Postgres, MySQL), a string seria: postgresql://usuario:senha@host:porta/banco
engine = create_engine('sqlite:///chinook.db')
print('Conexão estabelecida!')

Banco de dados baixado com sucesso!
Conexão estabelecida!


## 2. Explorando o Banco de Dados
Antes de sair fazendo consultas, precisamos saber quais tabelas existem no banco.
Podemos usar uma query específica do SQLite para listar as tabelas.

In [8]:
# Listando todas as tabelas do banco
query = """
        SELECT name
        FROM sqlite_master
        WHERE type = 'table';
        """
df_tabelas = pd.read_sql(query, engine)
df_tabelas


Unnamed: 0,name
0,Album
1,Artist
2,Customer
3,Employee
4,Genre
5,Invoice
6,InvoiceLine
7,MediaType
8,Playlist
9,PlaylistTrack


## 3. O Comando SELECT (Leitura Básica)
O comando mais básico é o `SELECT`. Vamos ler toda a tabela de **Artists** (Artistas).

> **Dica:** Evite fazer `SELECT *` em tabelas muito grandes sem um `LIMIT`.

In [None]:
# Lendo a tabela Artists completa
query_artist = """
        SELECT * FROM Artist
        LIMIT 10
        """
df_artist = pd.read_sql(query_artist, engine)
df_artist

Unnamed: 0,ArtistId,Name
0,1,AC/DC
1,2,Accept
2,3,Aerosmith
3,4,Alanis Morissette
4,5,Alice In Chains
5,6,Antônio Carlos Jobim
6,7,Apocalyptica
7,8,Audioslave
8,9,BackBeat
9,10,Billy Cobham


## 4. Filtrando Dados com WHERE
Geralmente não queremos o banco todo. Vamos filtrar dados específicos.
**Missão:** Selecione apenas as faixas (Tracks) que custam mais de $0.99.

In [11]:
# Escreva sua query aqui
query_tracks = """  
                select Name from Track
                where UnitPrice > 0.99
               """
df_track = pd.read_sql(query_tracks, engine)
df_track

Unnamed: 0,Name
0,Battlestar Galactica: The Story So Far
1,Occupation / Precipice
2,"Exodus, Pt. 1"
3,"Exodus, Pt. 2"
4,Collaborators
...,...
208,"There's No Place Like Home, Pt. 1"
209,"There's No Place Like Home, Pt. 2"
210,"There's No Place Like Home, Pt. 3"
211,Branch Closing


### Exercício 4.1
Selecione todas as músicas que possuem a palavra 'Love' no nome.
**Dica:** Use o operador `LIKE '%Love%'`.

In [15]:
# Seu código aqui
query_love = """  
                select Name, Composer from Track
                where Name like '%Love%';

               """
df_love = pd.read_sql(query_love, engine)
df_love

Unnamed: 0,Name,Composer
0,Love In An Elevator,"Steven Tyler, Joe Perry"
1,"Love, Hate, Love","Jerry Cantrell, Layne Staley"
2,Let Me Love You Baby,Willie Dixon
3,My Love,Jauperi/Zeu Góes
4,The Girl I Love She Got Long Black Wavy Hair,Jimmy Page/John Bonham/John Estes/John Paul Jo...
...,...,...
109,Love Comes,"Darius ""Take One"" Minwalla/Jon Auer/Ken String..."
110,Arms Around Your Love,Chris Cornell
111,Love Is a Losing Game,
112,I Heard Love Is Blind,


## 5. Ordenação (ORDER BY) e Limites (LIMIT)
Vamos descobrir quais são as músicas mais longas da loja.

In [19]:
query_time = """
            select Name, Milliseconds from Track
            order by Milliseconds desc
            limit 10
            """
df_time = pd.read_sql(query_time, engine)
df_time

Unnamed: 0,Name,Milliseconds
0,Occupation / Precipice,5286953
1,Through a Looking Glass,5088838
2,"Greetings from Earth, Pt. 1",2960293
3,The Man With Nine Lives,2956998
4,"Battlestar Galactica, Pt. 2",2956081
5,"Battlestar Galactica, Pt. 1",2952702
6,Murder On the Rising Star,2935894
7,"Battlestar Galactica, Pt. 3",2927802
8,Take the Celestra,2927677
9,Fire In Space,2926593


## 6. Agrupamento (GROUP BY)
Uma das grandes forças do SQL é a capacidade de agregar dados.
Vamos contar quantos álbuns cada artista possui.

In [None]:
query_teste = """
SELECT ArtistId, COUNT(AlbumId) AS TotalAlbuns
FROM Album
GROUP BY ArtistId
"""
df_teste = pd.read_sql(query_teste, engine)
df_teste

Unnamed: 0,ArtistId,TotalAlbuns
0,1,2
1,2,2
2,3,1
3,4,1
4,5,1
...,...,...
199,271,1
200,272,1
201,273,1
202,274,1


## 7. JOINs: Cruzando Tabelas
Os dados do exercício anterior mostram apenas o `ArtistId`, o que não é muito útil para humanos.
Precisamos cruzar a tabela `albums` com a tabela `artists` para pegar o nome do artista.

**Sintaxe:**
```sql
SELECT t1.coluna, t2.coluna
FROM tabela1 t1
JOIN tabela2 t2 ON t1.id = t2.id
```

In [None]:
query_join = """
        select Name.Artist,       
"""

## 8. DESAFIO FINAL
**Cenário:** O gerente de marketing quer saber quais são os **5 Gêneros Musicais (Genres)** mais vendidos na loja.

Para isso, você precisará conectar as tabelas:
`invoice_items` (vendas) -> `tracks` (musicas) -> `genres` (generos).

1. Faça a query SQL.
2. Carregue no Pandas.
3. Salve o resultado em um arquivo CSV chamado `top_generos.csv` para enviar ao gerente.

In [2]:
# Seu código aqui

# 1. Query SQL: junta InvoiceLine (vendas) -> Track (música) -> Genre (gênero)
#    Agrupa por gênero, soma a quantidade vendida, ordena do maior para menor e pega o top 5
query_desafio = """
    SELECT g.Name AS Genero, SUM(il.Quantity) AS TotalVendas
    FROM InvoiceLine il
    JOIN Track t ON il.TrackId = t.TrackId
    JOIN Genre g ON t.GenreId = g.GenreId
    GROUP BY g.GenreId, g.Name
    ORDER BY TotalVendas DESC
    LIMIT 5
"""

# 2. Carrega o resultado no Pandas
df_desafio = pd.read_sql(query_desafio, engine)
df_desafio

# 3. Salva em CSV para o gerente
df_desafio.to_csv('top_generos.csv', index=False)
print("Arquivo 'top_generos.csv' salvo com sucesso!")

Arquivo 'top_generos.csv' salvo com sucesso!
