
# Uso de SQL diretamente com spark.sql()

- `spark.sql()` √© uma fun√ß√£o da API do PySpark que permite executar comandos SQL diretamente no engine distribu√≠do do Spark.

| Fonte                                | Como acessar                            |
| ------------------------------------ | --------------------------------------- |
| **Tabelas Delta**                    | `"SELECT * FROM bronze.clientes"`       |
| **Views tempor√°rias**                | Criadas com `createOrReplaceTempView()` |
| **Tabelas externas (Unity Catalog)** | `catalog.schema.tabela`                 |
| **Arquivos CSV/Parquet**             | Registrando como tabela ou view         |

Criando views para uso com SQL:

```python
df = spark.read.parquet("/mnt/silver/clientes")
df.createOrReplaceTempView("clientes_silver")
```


In [0]:

query = """
SELECT 
  * 
FROM 
  clientes 
WHERE 
  score > 700
"""

spark.sql(query)

# Registro de views tempor√°rias e permanentes

## üü¢ 1. View Tempor√°ria


Uma view tempor√°ria existe apenas na sess√£o atual do Spark. Ela √© √∫til quando voc√™ quer acessar um DataFrame via spark.sql() sem salv√°-lo em disco. Para cri√°lo basta usar `df.createOrReplaceTempView()`

- N√£o persiste em disco.
- S√≥ existe enquanto a SparkSession estiver ativa.
- Pode ser substitu√≠da com createOrReplaceTempView.

## üü° 2. View Global Tempor√°ria

Uma global temp view √© vis√≠vel em todas as sess√µes do Spark enquanto o aplicativo estiver ativo e pode ser criada com `df.createOrReplaceGlobalTempView()`

- Namespace fixo: global_temp.
- √ötil quando se compartilha dados entre diferentes notebooks no mesmo app.
- Tamb√©m n√£o persiste ap√≥s o encerramento da aplica√ß√£o.

## üî¥ 3. View Permanente (Tabela)

Se quiser persistir os dados em disco (e acessar depois da sess√£o encerrar), voc√™ deve salvar como tabela, utilizando `df.write.saveAsTable()`

- Armazenada em disco (geralmente em formato Delta ou Parquet).
- Persiste entre sess√µes.
- Registrada no metastore (geralmente Hive ou Unity Catalog).

In [0]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
df_iris = spark.createDataFrame(iris_df)
display(df_iris.limit(3))

In [0]:
df_iris.createOrReplaceTempView("global_temp_iris")
# df_iris.createOrReplaceGlobalTempView("global_temp_iris") <- view global, pode ser acessada usando global_temp 

query_iris = """
SELECT 
  * 
FROM 
  global_temp_iris 
WHERE 
  target = 1
"""

display(spark.sql(query_iris).limit(5))