### Introdução
O Databricks oferece um ambiente robusto para análise de dados, integrando SQL e Apache Spark para uma variedade de operações de manipulação de dados. Este notebook ilustra como realizar consultas SQL diretamente, além de como usar as APIs de DataFrame do Spark para realizar tarefas analíticas complexas como filtragem, agregação e ordenação de dados. Utilizamos um conjunto de dados fictício de carros para mostrar como essas operações podem ser aplicadas para extrair insights significativos.

### Consultas SQL Simples e Filtragem de Dados

In [None]:
%sql
SELECT * FROM carros

In [None]:
%sql
SELECT * FROM CARROS WHERE  Cilindros = 4

Essas consultas SQL buscam dados da tabela carros, a primeira retorna todos os registros, enquanto a segunda filtra os carros com 4 cilindros. São exemplos de como realizar seleções e filtragens simples diretamente com SQL no Databricks.

### Agregação e Ordenação com SQL

In [None]:
%sql
SELECT TipoMotor, AVG(Peso) AS PesoMedio, COUNT(*) AS Quantidade
FROM carros
WHERE Cilindros = 6
GROUP BY TipoMotor
HAVING AVG(Peso) > 100
ORDER BY Quantidade DESC

Esta consulta mais complexa realiza uma agregação para calcular o peso médio e a quantidade de carros por tipo de motor, filtrando apenas aqueles com 6 cilindros e onde o peso médio supera 100. A cláusula GROUP BY agrupa os resultados por tipo de motor, HAVING filtra grupos baseados em condições agregadas, e ORDER BY ordena os resultados pela quantidade de forma descendente.

### Filtragem com Spark DataFrame

In [None]:
%python
df_carros = spark.table("carros")
# Filtrar os carros com cilindros igual a 6
df_carros_filtrados = df_carros.filter(df_carros["cilindros"] == 6)
# Exibir o resultado
df_carros_filtrados.show()

Aqui, carregamos a tabela carros como um DataFrame e aplicamos um filtro para selecionar apenas os carros com 6 cilindros. Utilizamos o método show() para exibir os resultados filtrados.

### Uso de SQL em DataFrame

In [None]:
%python
# Executar o comando SQL para filtrar os carros com cilindros igual a 6
df_carros_filtrados = spark.sql("SELECT * FROM carros WHERE cilindros = 6")
# Exibir o resultado
df_carros_filtrados.show()

Neste exemplo, executamos uma consulta SQL diretamente através da função sql do Spark para obter carros com 6 cilindros, demonstrando como as operações SQL podem ser integradas dentro do contexto dos DataFrames.

### Agregações Complexas com DataFrame

In [None]:
%python
df_resultado = spark.sql("""
    SELECT TipoMotor, AVG(Peso) AS PesoMedio, COUNT(*) AS Quantidade
    FROM carros
    WHERE Cilindros = 6
    GROUP BY TipoMotor
    HAVING AVG(Peso) > 100
    ORDER BY Quantidade DESC
""")
df_resultado.show()

In [None]:
%python
from pyspark.sql.functions import avg, count, desc
df_resultado = (
    spark.table("carros")
    .filter("Cilindros = 6")
    .groupBy("TipoMotor")
    .agg(avg("Peso").alias("PesoMedio"), count("*").alias("Quantidade"))
    .filter("PesoMedio > 100")
    .orderBy(desc("Quantidade"))
)
df_resultado.show()

Esses blocos de código realizam a mesma agregação e filtragem tanto via SQL quanto usando operações de DataFrame do Spark. Demonstramos como calcular médias, contar registros e ordenar resultados usando duas abordagens distintas, ilustrando a flexibilidade do Spark em manipular dados de formas diferentes mas equivalentes.

Este notebook oferece uma visão clara de como realizar operações de seleção, filtragem, agregação e ordenação usando tanto SQL puro quanto DataFrames