# Databricks: Usando Diferentes Linguagens (PySpark, SQL e Scala)

Este notebook demonstra como usar diferentes linguagens dentro do Databricks para manipulação e análise de dados. Exploraremos PySpark, SQL e Scala, passando por exemplos práticos e mostrando como combinar essas linguagens em um mesmo fluxo de trabalho.

## 1. Introdução

O Databricks oferece suporte a múltiplas linguagens dentro de um mesmo notebook, como PySpark (Python), SQL e Scala. Cada uma dessas linguagens tem suas vantagens e pode ser utilizada dependendo do contexto da operação que você deseja realizar.

### PySpark:
- Python é amplamente utilizado e tem uma curva de aprendizado mais baixa.
- Recomendado para transformações e análises exploratórias rápidas.

### SQL:
- Linguagem declarativa ideal para consultas estruturadas e análises em grandes conjuntos de dados.
- Útil para profissionais que já têm experiência com SQL.

### Scala:
- Linguagem nativa do Apache Spark. Oferece melhor performance para grandes volumes de dados e operações mais complexas.
- Ideal para pipelines exigentes em termos de performance.

Vamos ver exemplos de uso para cada uma dessas linguagens.



%md
## 2. PySpark: Operações em Dados

### 2.1 Carregando Dados com PySpark

In [0]:
from sklearn.datasets import load_iris
import pandas as pd
from pyspark.sql import SparkSession

# Carregar o conjunto de dados Iris como um DataFrame Pandas
iris = load_iris(as_frame=True)
iris_df = iris.frame

# Converter o DataFrame Pandas para um DataFrame Spark
spark_df = spark.createDataFrame(iris_df)
spark_df

## 2.2 Filtrando e Agregando Dados em PySpark

In [0]:
# Filtrando registros onde a coluna 'sepal width' é maior que 5.0
df_filtered = spark_df.filter(spark_df["sepal width (cm)"] > 1.5)

# Agregando dados: calculando a média de 'sepal width' para cada valor alvo
df_grouped = df_filtered.groupBy("target").agg({"sepal width (cm)": "mean"})

# Exibindo o resultado
df_grouped.show()

## 3. SQL: Consultas em Dados

### 3.1 Criando uma Tabela Temporária e Realizando Consultas

In [0]:
# Criando uma tabela temporária a partir do DataFrame PySpark
spark_df.createOrReplaceTempView("tabela_iris")

In [0]:
%sql
SELECT 
    target, 
    AVG(`sepal width (cm)`) AS avg_sepal_width
FROM tabela_iris
WHERE `sepal width (cm)` > 1.5
GROUP BY target


> O SQL permite fazer consultas de maneira declarativa. No exemplo acima, criamos uma tabela temporária a partir de um DataFrame PySpark e executamos uma consulta para filtrar dados.

## 4. Scala

### 4.1 Consultando Dados com SQL em Scala

In [0]:
%scala
// Lendo os dados do DataFrame no Scala (convertendo da tabela temporária criada no PySpark)
val df = spark.sql("SELECT * FROM tabela_iris")

// Filtrando os registros onde 'sepal width (cm)' > 1.5
val dfFiltered = df.filter($"`sepal width (cm)`" > 1.5)

// Agrupando por 'target' e calculando a média de 'sepal width (cm)'
import org.apache.spark.sql.functions._
val dfGrouped = dfFiltered.groupBy("target")
  .agg(avg("sepal width (cm)").alias("avg_sepal_width"))

// Exibindo o resultado
dfGrouped.show()

> Você pode combinar SQL com Scala no Databricks. Isso permite fazer consultas estruturadas e depois manipular os resultados em Scala para otimizações adicionais.


-----