
# üìò Fundamentos de SQL no Databricks

Este notebook traz uma introdu√ß√£o pr√°tica aos principais comandos SQL, com foco em quem est√° come√ßando. A ideia aqui √© entender o papel de cada cl√°usula e saber como us√°-las no dia a dia, consultando dados de forma eficiente e clara dentro do Databricks.

‚úÖ O que voc√™ vai aprender:

- Como selecionar colunas e linhas com SELECT e WHERE
- Como agrupar dados com GROUP BY e filtrar agrega√ß√µes com HAVING
- Como ordenar resultados com ORDER BY
- Como unir e combinar tabelas usando JOINS e UNION

Todos os exemplos s√£o simples, objetivos e pensados para facilitar o aprendizado de SQL no contexto do Spark SQL.

Links √∫teis:

- SQL language reference: https://docs.databricks.com/aws/en/sql/language-manual/

_____________________________________________________________

# SELECT

A cl√°usula SELECT no SQL √© usada para consultar dados de uma ou mais tabelas. Ela define quais colunas voc√™ quer visualizar.

Quando estiver come√ßando, preste aten√ß√£o em tr√™s coisas:

- Ordem importa: primeiro SELECT, depois FROM, depois filtros (WHERE, GROUP BY, etc.).
- Evite SELECT *: sempre que poss√≠vel, selecione s√≥ as colunas que precisa.
- Alias ajudam: use AS para renomear colunas e deixar o resultado mais leg√≠vel.

In [0]:
-- Seleciona todas as colunas da tabela de pok√©mons
SELECT * FROM workspace.pokemons.pokemon

In [0]:
-- Seleciona colunas espec√≠ficas da tabela de pok√©mons
SELECT 
  `#`, 
  Name, 
  `Type 1`, 
  `Type 2`, 
  HP, 
  Generation, 
  Legendary 
FROM workspace.pokemons.pokemon

In [0]:
-- Seleciona e renomeia colunas espec√≠ficas da tabela de pok√©mons
SELECT 
  `#` AS pokedex_number, 
  Name AS pkmn_name, 
  `Type 1` AS pkmn_type_primary, 
  `Type 2` AS pkmn_type_secondary, 
  HP AS pkmn_hp, 
  Generation AS pkmn_generation, 
  Legendary AS pkmn_legendary
FROM workspace.pokemons.pokemon

In [0]:
-- Seleciona e renomeia colunas espec√≠ficas da tabela de pok√©mons
SELECT 
  pkmn.`#` AS pokedex_number, 
  pkmn.Name AS pkmn_name, 
  pkmn.`Type 1` AS pkmn_type_primary, 
  pkmn.`Type 2` AS pkmn_type_secondary, 
  pkmn.HP AS pkmn_hp, 
  pkmn.Generation AS pkmn_generation, 
  pkmn.Legendary AS pkmn_legendary
FROM workspace.pokemons.pokemon pkmn

In [0]:
-- Seleciona todos os tipos prim√°rios distintos dos pok√©mons
SELECT DISTINCT `Type 1` FROM workspace.pokemons.pokemon

In [0]:
-- Retorna o tipo prim√°rio dos pok√©mons traduzido para portugu√™s, agrupando em 'Grama', 'Fogo', '√Ågua' ou 'outros tipos'
SELECT
  DISTINCT  
  CASE 
    WHEN pkmn.`Type 1` = 'Grass' THEN 'Grama'
    WHEN pkmn.`Type 1` = 'Fire' THEN 'Fogo'
    WHEN pkmn.`Type 1` = 'Water' THEN '√Ågua'
    ELSE 'outros tipos' 
  END AS pkmn_type
FROM workspace.pokemons.pokemon pkmn

# WHERE 

A cl√°usula WHERE serve para filtrar os dados retornados pela consulta. Ela define quais linhas da tabela devem aparecer no resultado.

Quando estiver come√ßando, fique atento a:

- Condi√ß√µes l√≥gicas: use =, >, <, <=, >=, <> para comparar valores.
- Texto precisa de aspas: strings devem estar entre aspas simples ('Jo√£o').
- Combine filtros com AND, OR e NOT.

In [0]:
-- Seleciona todos os pok√©mons cujo tipo prim√°rio √© 'Grass'
SELECT * FROM workspace.pokemons.pokemon
WHERE `Type 1` = 'Grass'

In [0]:
-- Seleciona todos os pok√©mons cujo tipo prim√°rio n√£o √© 'Grass'
SELECT * FROM workspace.pokemons.pokemon
WHERE `Type 1` <> 'Grass'

In [0]:
-- Seleciona todos os pok√©mons com HP maior que 100
SELECT * FROM workspace.pokemons.pokemon
WHERE HP > 100

In [0]:
-- Seleciona todos os pok√©mons com HP menor ou igual a 100
SELECT * FROM workspace.pokemons.pokemon
WHERE HP <= 100

In [0]:
-- Seleciona todos os pok√©mons cujo nome come√ßa com a letra 'P'
SELECT * FROM workspace.pokemons.pokemon
WHERE Name LIKE 'P%'

In [0]:
-- Seleciona todos os pok√©mons cujo nome termina com a letra 'a'
SELECT * FROM workspace.pokemons.pokemon
WHERE Name LIKE '%a'

In [0]:
-- Seleciona todos os pok√©mons cujo nome cont√©m a letra 'k'
SELECT * FROM workspace.pokemons.pokemon
WHERE Name LIKE '%k%'

In [0]:
-- Seleciona todos os pok√©mons cujo 'Type 1' √© 'Grass', 'Fire' ou 'Water'
SELECT * FROM workspace.pokemons.pokemon
WHERE `Type 1` IN ('Grass','Fire','Water')

In [0]:
-- Seleciona todos os pok√©mons cujo HP est√° entre 190 e 250
SELECT * FROM workspace.pokemons.pokemon
WHERE HP BETWEEN 190 AND 250

In [0]:
-- Seleciona todos os pok√©mons cujo tipo prim√°rio √© 'Grass' e tipo secund√°rio √© 'Psychic'
SELECT * FROM workspace.pokemons.pokemon
WHERE `Type 1` = 'Grass' AND `Type 2` = 'Psychic'

In [0]:
-- Seleciona todos os pok√©mons cujo tipo prim√°rio √© 'Grass' ou tipo secund√°rio √© 'Psychic'
SELECT * FROM workspace.pokemons.pokemon
WHERE `Type 1` = 'Grass' OR `Type 2` = 'Psychic'

In [0]:
-- Seleciona todos os pok√©mons cujo tipo prim√°rio √© 'Grass' ou cujo tipo secund√°rio n√£o √© 'Psychic'
SELECT * FROM workspace.pokemons.pokemon
WHERE `Type 1` = 'Grass' OR NOT `Type 2` = 'Psychic'

# GROUP BY

Usado para agrupar linhas com valores iguais em uma ou mais colunas. Geralmente vem junto com fun√ß√µes agregadas como COUNT(), SUM(), AVG(), etc.

`‚ö†Ô∏è Aten√ß√£o: toda coluna no SELECT que n√£o est√° dentro de uma fun√ß√£o agregada precisa estar no GROUP BY.`

In [0]:
-- Conta a quantidade de pok√©mons por gera√ß√£o
SELECT
  Generation, 
  COUNT(1) AS qtd_pokemons
FROM workspace.pokemons.pokemon
GROUP BY 
  Generation

In [0]:
-- Conta a quantidade de pok√©mons por gera√ß√£o e combina√ß√£o de tipos prim√°rio e secund√°rio
SELECT
  Generation,
  `Type 1` AS pkmn_type_primary,
  `Type 2` AS pkmn_type_secondary, 
  COUNT(1) AS qtd_pokemons
FROM workspace.pokemons.pokemon
GROUP BY 
  Generation, `Type 1`, `Type 2`

# ORDER BY

Serve para ordenar os resultados da consulta, de forma crescente (ASC) ou decrescente (DESC).

`‚ö†Ô∏è Pode ordenar por colunas que est√£o no SELECT, por posi√ß√£o (ex: ORDER BY 1), ou por alias.`

In [0]:
-- Agrupa e conta a quantidade de pok√©mons por gera√ß√£o e tipos prim√°rio e secund√°rio, ordenando pelo total de pok√©mons
SELECT
  Generation,
  `Type 1` AS pkmn_type_primary,
  `Type 2` AS pkmn_type_secondary, 
  COUNT(1) AS qtd_pokemons
FROM workspace.pokemons.pokemon
GROUP BY 
  Generation, `Type 1`, `Type 2`
ORDER BY 
  qtd_pokemons

In [0]:
-- Agrupa e conta a quantidade de pok√©mons por gera√ß√£o e tipos prim√°rio e secund√°rio, ordenando pelo total de pok√©mons em ordem crescente
SELECT
  Generation,
  `Type 1` AS pkmn_type_primary,
  `Type 2` AS pkmn_type_secondary, 
  COUNT(1) AS qtd_pokemons
FROM workspace.pokemons.pokemon
GROUP BY 
  Generation, `Type 1`, `Type 2`
ORDER BY 
  qtd_pokemons

In [0]:
-- Agrupa e conta a quantidade de pok√©mons por gera√ß√£o e tipos prim√°rio e secund√°rio, ordenando pelo total de pok√©mons e gera√ß√£o
SELECT
  Generation,
  `Type 1` AS pkmn_type_primary,
  `Type 2` AS pkmn_type_secondary, 
  COUNT(1) AS qtd_pokemons
FROM workspace.pokemons.pokemon
GROUP BY 
  Generation, `Type 1`, `Type 2`
ORDER BY 
  qtd_pokemons, Generation

In [0]:
-- Agrupa e conta a quantidade de pok√©mons por gera√ß√£o e tipos prim√°rio e secund√°rio, ordenando pelo total de pok√©mons (decrescente) e gera√ß√£o (decrescente)
SELECT
  Generation,
  `Type 1` AS pkmn_type_primary,
  `Type 2` AS pkmn_type_secondary, 
  COUNT(1) AS qtd_pokemons
FROM workspace.pokemons.pokemon
GROUP BY 
  Generation, `Type 1`, `Type 2`
ORDER BY 
  qtd_pokemons DESC, Generation DESC

# JOIN

Permite combinar dados de duas ou mais tabelas com base em uma coluna em comum.

Tipos principais:

- **INNER JOIN:** retorna s√≥ os registros que batem nas duas tabelas
- **LEFT JOIN:** tudo da tabela da esquerda, mesmo sem correspond√™ncia na direita
- **RIGHT JOIN:** o contr√°rio do LEFT
- **FULL JOIN:** tudo que est√° de ambos os lados
- **OUTER JOIN:** tudo que est√° de ambos os lados, quando houver correspond√™ncia

![1_Gz6WOE2SAYkpnFmWrV5tVQ.png](./img/1_Gz6WOE2SAYkpnFmWrV5tVQ.png "1_Gz6WOE2SAYkpnFmWrV5tVQ.png")

In [0]:
-- Faz um INNER JOIN entre as tabelas de pok√©mons e detalhes dos pok√©mons, trazendo informa√ß√µes combinadas de ambos
SELECT 
  pkmn.`#` AS pkmn_id,
  pkmn.Name AS pkmn_name,
  pkmn.`Type 1` AS pkmn_type_primary,
  pkmn.`Type 2` AS pkmn_type_secondary,
  pkmnd.Classification AS pkmn_classification,
  pkmnd.`Height (m)` AS pkmn_height,
  pkmnd.`Weight (kg)` AS pkmn_weight,
  pkmnd.Abilities AS pkmn_abilities
FROM 
  workspace.pokemons.pokemon pkmn
JOIN 
  workspace.pokemons.pokemon_details pkmnd ON pkmn.`#` = pkmnd.`Pokedex Number`

In [0]:
-- Retorna todos os registros da tabela de detalhes dos pok√©mons, junto com os dados correspondentes da tabela principal de pok√©mons (RIGHT JOIN)
SELECT 
  pkmn.`#` AS pkmn_id,
  pkmn.Name AS pkmn_name,
  pkmn.`Type 1` AS pkmn_type_primary,
  pkmn.`Type 2` AS pkmn_type_secondary,
  pkmnd.Classification AS pkmn_classification,
  pkmnd.`Height (m)` AS pkmn_height,
  pkmnd.`Weight (kg)` AS pkmn_weight,
  pkmnd.Abilities AS pkmn_abilities
FROM 
  workspace.pokemons.pokemon pkmn
RIGHT JOIN 
  workspace.pokemons.pokemon_details pkmnd ON pkmn.`#` = pkmnd.`Pokedex Number`

In [0]:
-- Retorna todos os registros da tabela principal de pok√©mons, junto com os dados correspondentes da tabela de detalhes dos pok√©mons (LEFT JOIN)
SELECT 
  pkmn.`#` AS pkmn_id,
  pkmn.Name AS pkmn_name,
  pkmn.`Type 1` AS pkmn_type_primary,
  pkmn.`Type 2` AS pkmn_type_secondary,
  pkmnd.Classification AS pkmn_classification,
  pkmnd.`Height (m)` AS pkmn_height,
  pkmnd.`Weight (kg)` AS pkmn_weight,
  pkmnd.Abilities AS pkmn_abilities
FROM 
  workspace.pokemons.pokemon pkmn
LEFT JOIN 
  workspace.pokemons.pokemon_details pkmnd ON pkmn.`#` = pkmnd.`Pokedex Number`

In [0]:
-- Retorna todos os registros das duas tabelas (pokemon e pokemon_details)
  pkmn.`#` AS pkmn_id,
  pkmn.Name AS pkmn_name,
  pkmn.`Type 1` AS pkmn_type_primary,
  pkmn.`Type 2` AS pkmn_type_secondary,
  pkmnd.Classification AS pkmn_classification,
  pkmnd.`Height (m)` AS pkmn_height,
  pkmnd.`Weight (kg)` AS pkmn_weight,
  pkmnd.Abilities AS pkmn_abilities
FROM 
  workspace.pokemons.pokemon pkmn
FULL JOIN 
  workspace.pokemons.pokemon_details pkmnd ON pkmn.`#` = pkmnd.`Pokedex Number`

In [0]:
-- Retorna todos os registros das duas tabelas (pokemon e pokemon_details), combinando onde houver correspond√™ncia (FULL OUTER JOIN)
SELECT 
  pkmn.`#` AS pkmn_id,
  pkmn.Name AS pkmn_name,
  pkmn.`Type 1` AS pkmn_type_primary,
  pkmn.`Type 2` AS pkmn_type_secondary,
  pkmnd.Classification AS pkmn_classification,
  pkmnd.`Height (m)` AS pkmn_height,
  pkmnd.`Weight (kg)` AS pkmn_weight,
  pkmnd.Abilities AS pkmn_abilities
FROM 
  workspace.pokemons.pokemon pkmn
OUTER JOIN 
  workspace.pokemons.pokemon_details pkmnd ON pkmn.`#` = pkmnd.`Pokedex Number`

# UNION

Serve para juntar os resultados de duas consultas, desde que tenham mesmo n√∫mero de colunas e tipos compat√≠veis.

- UNION: elimina duplicados
- UNION ALL: mant√©m tudo, inclusive duplicados

In [0]:
-- Retorna todos os pok√©mons do tipo "Grass" e todos os pok√©mons classificados como "Bug" (usando UNION)
SELECT 
  pkmn.`#` AS pkmn_id,
  pkmn.Name AS pkmn_name,
  pkmn.Legendary AS pkmn_legendary
FROM 
  workspace.pokemons.pokemon pkmn
WHERE 
  pkmn.`Type 1` = "Grass"

UNION

SELECT 
  pkmnd.`Pokedex Number` AS pkmn_id,
  pkmnd.Name AS pkmn_name,
  pkmnd.`Legendary Status` AS pkmn_legendary
FROM 
  workspace.pokemons.pokemon_details pkmnd
WHERE 
  pkmnd.Classification LIKE '%Bug%'

In [0]:
-- Retorna todos os pok√©mons do tipo "Grass" e todos os pok√©mons classificados como "Bug" (usando UNION)
SELECT 
  pkmn.`#` AS pkmn_id,
  pkmn.Name AS pkmn_name,
  pkmn.Legendary AS pkmn_legendary
FROM 
  workspace.pokemons.pokemon pkmn
WHERE 
  pkmn.`Type 1` = "Grass"

UNION ALL

SELECT 
  pkmnd.`Pokedex Number` AS pkmn_id,
  pkmnd.Name AS pkmn_name,
  pkmnd.`Legendary Status` AS pkmn_legendary
FROM 
  workspace.pokemons.pokemon_details pkmnd
WHERE 
  pkmnd.Classification LIKE '%Bug%'

# HAVING

Usado para filtrar os resultados ap√≥s o GROUP BY. √â como um WHERE, mas aplicado em dados agregados.

`‚ö†Ô∏è WHERE filtra antes do agrupamento, HAVING filtra depois.`

In [0]:
-- Retorna os tipos de pok√©mons com mais de 50 ocorr√™ncias, ordenados pela quantidade decrescente
SELECT 
  pkmn.`Type 1` AS pkmn_type,
  COUNT(*) AS pkmn_qtd
FROM workspace.pokemons.pokemon pkmn
GROUP BY pkmn.`Type 1`
HAVING COUNT(*) > 50
ORDER BY pkmn_qtd DESC