In [0]:
spark.conf.set("spark.databricks.io.cache.enabled", False)
# Esse comando desabilita o cache de leitura de dados gerenciado automaticamente pela plataforma Databricks.

## O que é o cache no Databricks?
O Databricks oferece uma funcionalidade chamada **Disk IO Cache**, que é usada para melhorar o desempenho da leitura de dados. Ele funciona armazenando em disco (e, em alguns casos, na memória) os dados mais frequentemente acessados de arquivos, como Parquet ou Delta. Isso reduz o tempo necessário para ler os dados do armazenamento original (como o Amazon S3 ou o Azure Data Lake).

Quando o cache está **habilitado** (True):

- Os dados acessados por operações de leitura são armazenados no cache.
- Leituras subsequentes desses dados são mais rápidas porque evitam acessar o armazenamento remoto.

Quando o cache está **desabilitad**o (False):

- Todas as leituras de dados são feitas diretamente no armazenamento original, sem usar o cache.

### Por que desabilitar o cache?

1. **Economizar recursos:** O cache pode consumir espaço em disco e memória no cluster. Se não houver necessidade de melhorar o desempenho das leituras ou se os dados já são pequenos e rápidos de ler, o cache pode ser desabilitado.
2. **Cenários de dados dinâmicos:** Se os dados mudam frequentemente, o cache pode ficar desatualizado, causando leituras inconsistentes ou desperdício de recursos.
3. **Evitar comportamento inesperado:** Em alguns casos, como em ambientes de teste, você pode querer desabilitar o cache para garantir que os dados sejam sempre lidos diretamente do armazenamento original.

### O que acontece com esse comando?
**spark.config.set**("spark.databricks.io.cache.enabled", False

1. Instrução **spark.config.set**: Define uma configuração para a sessão Spark atual.
2. **"spark.databricks.io.cache.enabled"**: É a chave que controla se o cache do Databricks está habilitado (True) ou desabilitado (False).
3. **False:** Desabilita o cache.


### Impacto

- **Desempenho:** Leituras podem ser mais lentas porque os dados não serão armazenados localmente para acesso rápido.
- **Consistência:** Garante que as leituras sempre reflitam os dados mais recentes no armazenamento original.
- **Recursos:** Libera espaço em disco e memória no cluster, o que pode ser útil para workloads com dados grandes ou dinâmicos.

Se você tem certeza de que o cache não é necessário no seu cenário, desabilitar pode simplificar a operação e economizar recursos no cluster.


### Dados de exemplo


### Queremos entender o tamanho desse dataset

In [0]:
total_size = 0

for x in dbutils.fs.ls("/databricks-datasets/nyctaxi/tripdata/yellow/"):
    print(x.name, "-", round(x.size / (1024 * 1024), 2), "MB")
    total_size += x.size

print("Total size:", round(total_size / (1024 * 1024), 2), "MB")

### Dados de 2009


In [0]:
spark\
    .read\
    .csv("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2009*")\
    .count()

Vamos investigar o Spark UI

Tem várias maneiras de chegarmos aqui.

### Dados de 2009 e 2010

In [0]:
spark\
    .read\
    .csv("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_{2009,2010}*")\
    .count()
     

### Lendo somente 1 arquivo

In [0]:

spark\
    .read\
    .csv("/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-12.csv.gz")\
    .count()