## Data Quality com PySpark 
### 1. Inicializa√ß√£o do Spark e Cria√ß√£o da SparkSession
- Este c√≥digo deve ser o primeiro bloco a ser executado no Jupyter Notebook ou Databricks. Ele configura a sess√£o do Spark.

In [None]:
# Importa o Spark e outras bibliotecas necess√°rias
import pyspark # O m√≥dulo principal
from pyspark.sql import SparkSession
from pyspark.sql import functions as F # O alias 'F' MAI√öSCULO √© usado para todas as fun√ß√µes (F.col, F.when, etc.)
from pyspark.sql.window import Window
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType, DateType

# Cria ou obt√©m uma SparkSession
# Master: 'local[*]' indica que o Spark deve usar todos os n√∫cleos dispon√≠veis na m√°quina
# appName: Nome da aplica√ß√£o (importante para monitoramento)
spark = (SparkSession.builder
    .master("local[*]")
    .appName("AulaPraticaPySpark_DataQuality")
    .config("spark.executor.memory", "4g") # Opcional: Configura√ß√µes de mem√≥ria
    .config("spark.driver.memory", "4g")  # Opcional: Configura√ß√µes de mem√≥ria
    .getOrCreate()
)

# Imprime o status da sess√£o para confirma√ß√£o
print("SparkSession inicializada com sucesso!")
print(f"Vers√£o do Spark: {spark.version}")
print(f"Aplica√ß√£o: {spark.sparkContext.appName}")

**Explicando c√≥digo com mais detalhes**
- **SparkSession:** √â o principal ponto de entrada para interagir com o cluster Spark. √â como ligar o motor do carro para come√ßar a processar dados distribu√≠dos.

- **.master("local[*]"):** Para o ambiente de aula, usamos o modo local. O * diz ao Spark para usar todos os n√∫cleos de CPU dispon√≠veis, simulando um processamento paralelo em um √∫nico n√≥. Em produ√ß√£o, isso seria o endere√ßo do seu gerenciador de cluster (ex: YARN, Mesos ou K8s).

- **.config(...):** Permite configurar recursos como mem√≥ria. Em Big Data, √© crucial saber balancear mem√≥ria (executor.memory) e n√∫cleos (num-executors) para otimizar a performance.

### 2. Snippet de Carregamento de Dados (Raw Layer)<br>
- Para demonstrar as t√©cnicas de Data Quality, usaremos um arquivo chamado vendas_brutas.csv com dados brutos, incluindo nulos e tipos incorretos e definiremos seu schema antes do carregamento.

*DEFINI√á√ÉO DO SCHEMA (CRUCIAL PARA DATA QUALITY E PERFORMANCE)*
- **Conex√£o com a Teoria:** Evita o inferSchema, que requer uma leitura completa do arquivo.
- Definir o schema antecipadamente garante que os tipos de dados sejam os esperados, prevenindo erros e otimizando a leitura.

In [None]:

schema_vendas = StructType([
    StructField("ID_VENDA", IntegerType(), nullable=False),
    StructField("DATA_REGISTRO_RAW", StringType(), nullable=True), # O tipo original √© String, pois o formato √© inconsistente ('2024-03-20' vs '2024/03/20')
    StructField("VALOR_BRUTO_RAW", StringType(), nullable=True),  # O tipo original √© String, pois pode vir com v√≠rgula (250,99) ou nulo
    StructField("PRODUTO", StringType(), nullable=True),
    StructField("STATUS_VENDA", StringType(), nullable=True)
])



- CARREGAMENTO DO DATAFRAME
    - Use um caminho real para o arquivo, ou simule-o usando a API createDataFrame

In [None]:
caminho_arquivo = "vendas_brutas.csv" 
df_vendas_raw = (
    spark.read
    .csv(
        caminho_arquivo,
        header=True,
        schema=schema_vendas,
        sep=",",
        # O PySpark l√™ a primeira linha como cabe√ßalho
        # e garante que os dados sigam o schema definido (Data Quality!)
    )
)

- INSPE√á√ÉO INICIAL

In [None]:
print("\n--- Schema Original (Raw) ---")
df_vendas_raw.printSchema()

print("\n--- Primeiros Registros ---")
df_vendas_raw.show(truncate=False)

### 3. **Limpeza (Cleaning):** Tratamento de Valores Nulos
- **Teoria:** Lidar com missing values (null, None, ou NaN) √© o primeiro passo para garantir a Integridade dos dados. 
- **Pr√°tica (PySpark):** Usamos .fillna() ou fun√ß√µes condicionais com when/otherwise.

In [None]:
# A√ß√£o 1: Limpar/Preencher o campo STATUS_VENDA
# Se o status for nulo, vamos preencher com 'EM_PROCESSAMENTO' (regra de neg√≥cio)
df_limpeza = df_vendas_raw.withColumn(
    "STATUS_VENDA",
    F.coalesce(F.col("STATUS_VENDA"), F.lit("EM_PROCESSAMENTO")) # Coalesce pega o primeiro valor n√£o nulo
)

# A√ß√£o 2: Tratamento de nulos em VALOR_BRUTO_RAW
# Se o valor for nulo, vamos preencher com 0 (regra de neg√≥cio para vendas n√£o registradas)
df_limpeza = df_limpeza.na.fill(value="0.0", subset=['VALOR_BRUTO_RAW'])

print("\n--- 1. Limpeza (Cleaning): Nulos Tratados ---")
df_limpeza.show(truncate=False)

### 4. Transforma√ß√£o (Transformation): Padroniza√ß√£o e Casting de Tipos
**Teoria:** Garantir a Consist√™ncia dos dados, convertendo para formatos e tipos padronizados (e.g., String para Date, remo√ß√£o de caracteres inv√°lidos). 
**Pr√°tica (PySpark):** Uso de fun√ß√µes como regexp_replace, to_date, cast, upper.

In [None]:
df_transformacao = (
    df_limpeza
    # Transforma√ß√£o 1: Padronizar STATUS_VENDA para caixa alta (CONSIST√äNCIA)
    .withColumn("STATUS_VENDA", F.upper(F.col("STATUS_VENDA")))

    # Transforma√ß√£o 2: Limpar e Converter VALOR_BRUTO_RAW para Decimal (TIPAGEM CORRETA)
    # 1. Substitui v√≠rgulas (',') por ponto ('.')
    # 2. Converte o resultado para tipo Double
    .withColumn(
        "VALOR_VENDA",
        F.regexp_replace(F.col("VALOR_BRUTO_RAW"), ",", ".").cast(DoubleType())
    )

    # Transforma√ß√£o 3: Converter DATA_REGISTRO_RAW para Tipo Date (FORMATO CORRETO)
    # Tenta inferir o formato de data (yyyy-MM-dd, yyyy/MM/dd, etc.) - PySpark √© flex√≠vel
    .withColumn(
        "DATA_VENDA",
        F.to_date(F.col("DATA_REGISTRO_RAW"), "yyyy-MM-dd") # Tenta formato padr√£o, o PySpark pode inferir varia√ß√µes simples
    )
    .withColumn("DATA_VENDA", F.coalesce(F.col("DATA_VENDA"), F.to_date(F.col("DATA_REGISTRO_RAW"), "yyyy/MM/dd"))) # Tenta o formato com barra, caso o anterior falhe
    .drop("DATA_REGISTRO_RAW", "VALOR_BRUTO_RAW") # Remove as colunas RAW
)

print("\n--- 2. Transforma√ß√£o: Padroniza√ß√£o e Casting ---")
df_transformacao.printSchema()
df_transformacao.show(truncate=False)

### 5. Enriquecimento (Enrichment): Adi√ß√£o de Colunas de Neg√≥cio
**Teoria:** Adicionar valor ao dataset derivando novos campos de dados existentes, criando features √∫teis para an√°lise.

**Pr√°tica (PySpark):** Uso de withColumn com express√µes l√≥gicas (when/otherwise).

In [None]:
# A√ß√£o: Criar uma nova coluna indicando se a venda √© considerada de "Alto Valor" (> 200)
df_enriquecimento = df_transformacao.withColumn(
    "FLAG_ALTO_VALOR",
    F.when(F.col("VALOR_VENDA") >= 200, F.lit(True)).otherwise(F.lit(False))
)

print("\n--- 3. Enriquecimento: Nova Feature Adicionada ---")
df_enriquecimento.show(truncate=False)

### 6. Normaliza√ß√£o (Normalization): Padroniza√ß√£o de Categorias
**Teoria:** Reduzir a vari√¢ncia de valores categ√≥ricos para garantir que a mesma entidade tenha sempre a mesma representa√ß√£o.

**Pr√°tica (PySpark):** Aplicar lookups ou regras de substitui√ß√£o em campos como PRODUTO.

In [None]:
# A√ß√£o: Padronizar o nome do produto (ex: 'LAPTOP' pode vir como 'NoteBook', 'Laptop')
# Vamos usar o PRODUTO para garantir que todos sejam capitalizados
df_normalizacao = df_enriquecimento.withColumn(
    "PRODUTO_PADRAO",
    F.when(F.upper(F.col("PRODUTO")).like("%LAPTOP%"), F.lit("NOTEBOOK/LAPTOP"))
    .when(F.upper(F.col("PRODUTO")).like("%MOUSE%"), F.lit("PERIFERICO_SIMPLES"))
    .otherwise(F.upper(F.col("PRODUTO")))
).drop("PRODUTO").withColumnRenamed("PRODUTO_PADRAO", "PRODUTO") # Substitui a coluna original

print("\n--- 4. Normaliza√ß√£o: Categorias Padronizadas ---")
df_normalizacao.show(truncate=False)

### 7. Desduplica√ß√£o (Deduplication): Remo√ß√£o de Registros Redundantes
**Teoria:** Garantir que cada evento/entidade √∫nica seja representada apenas uma vez no dataset final (fundamental para Precis√£o).

**Pr√°tica (PySpark):** Usar .dropDuplicates() ou Window Functions para cen√°rios avan√ßados (como manter o registro mais recente).
No nosso exemplo, as linhas 1004 e 1005 s√£o duplicatas.

In [None]:
# Usamos apenas as colunas que definem a unicidade do registro (chave prim√°ria natural)
colunas_chave = ["ID_VENDA"]

# A√ß√£o: Remover duplicatas estritas
df_curated = df_normalizacao.dropDuplicates(subset=colunas_chave)

# Demonstra√ß√£o de Desduplica√ß√£o Avan√ßada (Teoria: Manter o Mais Recente)
# Isso √© √∫til quando ID_VENDA pudesse se repetir com vers√µes diferentes.
# w = Window.partitionBy("ID_VENDA").orderBy(F.col("DATA_VENDA").desc())
# df_curated_avancado = (df_normalizacao
#     .withColumn("row_number", F.row_number().over(w))
#     .filter(F.col("row_number") == 1)
#     .drop("row_number")
# )

print(f"\n--- 5. Desduplica√ß√£o: Registros √önicos ({df_normalizacao.count()} vs {df_curated.count()}) ---")
df_curated.show(truncate=False)
df_curated.printSchema()

### 8. Armazenamento Otimizado (Parquet & ORC)
1. Escrita no Formato Parquet (Otimiza√ß√£o Colunar)
- **Conex√£o com a Teoria:**
Parquet: √â o formato padr√£o da ind√∫stria, otimizado para consultas anal√≠ticas (OLAP). O armazenamento colunar permite que o Spark (e o SerDe do Parquet) leia apenas as colunas que a query solicita, ignorando o resto.

- **Particionamento:** Usar partitionBy() organiza os dados fisicamente no disco/storage (e.g., por ano/m√™s ou por STATUS_VENDA). Isso permite ao Spark ignorar diret√≥rios inteiros (Predicate Pushdown).

- **Compacta√ß√£o:** Usaremos a compacta√ß√£o Snappy (o padr√£o para Parquet), que oferece um bom equil√≠brio entre taxa de compress√£o e velocidade de descompacta√ß√£o.

In [None]:
# Definindo o caminho de sa√≠da (simula√ß√£o de um Data Lake)
caminho_parquet = "data/curated/vendas_parquet"

# A√ß√£o: Salvar o DataFrame tratado (df_curated) em Parquet
(
    df_curated.write
    .mode("overwrite") # Sobrescreve se o diret√≥rio j√° existir
    .partitionBy("STATUS_VENDA") # Particionamento f√≠sico: otimiza queries que filtram por status
    .option("compression", "snappy") # Snappy √© o padr√£o (bom trade-off)
    .parquet(caminho_parquet)
)

print(f"\n--- 1. Escrita em Parquet conclu√≠da ---")
print(f"Dados salvos e particionados em: {caminho_parquet}")

2. Escrita no Formato ORC (Alternativa Colunar)
üíæ Conex√£o com a Teoria:
ORC (Optimized Row Columnar): Outro formato colunar robusto, popular no ecossistema Hive. Possui recursos avan√ßados como indexa√ß√£o de dados e Bloom Filters, que podem ser mais eficientes em certos cen√°rios de leitura seletiva.

In [None]:
# Definindo o caminho de sa√≠da
caminho_orc = "data/curated/vendas_orc"

# A√ß√£o: Salvar o mesmo DataFrame em ORC
(
    df_curated.write
    .mode("overwrite")
    .partitionBy("STATUS_VENDA")
    .orc(caminho_orc)
)

print(f"\n--- 2. Escrita em ORC conclu√≠da ---")
print(f"Dados salvos e particionados em: {caminho_orc}")

### 9.An√°lise da Otimiza√ß√£o (O Ponto Alto da Aula)
- Agora vamos provar a teoria do Predicate Pushdown e do SerDe na pr√°tica.

1. Pr√°tica do Predicate Pushdown (Ignorando Arquivos)
**Teoria:** Ao particionarmos por STATUS_VENDA, se pedirmos apenas vendas 'CANCELADO', o Spark ignora os diret√≥rios 'CONCLUIDO' e 'EM_PROCESSAMENTO'.

In [None]:
# Leitura Otimizada - Filtro na parti√ß√£o
# Apenas os diret√≥rios (parti√ß√µes) que cont√™m 'CANCELADO' ser√£o lidos
df_leitura_filtrada = spark.read.parquet(caminho_parquet).filter(F.col("STATUS_VENDA") == "CANCELADO")

print("\n--- 3.1. Predicate Pushdown: Filtro no Disco ---")
print(f"Total de Registros lidos: {df_leitura_filtrada.count()}")
df_leitura_filtrada.show()


2. Pr√°tica do SerDe (Deserializando Apenas o Necess√°rio)
Teoria: O SerDe (Serializer/Deserializer) do Parquet s√≥ desserializa as colunas que voc√™ projeta na sua query. Se lermos apenas ID_VENDA, o Spark n√£o carrega os bytes das colunas VALOR_VENDA ou PRODUTO para a mem√≥ria.

In [None]:
# Leitura Otimizada - Sele√ß√£o de Colunas (Proje√ß√£o)
# O Spark carrega apenas os bytes da coluna 'ID_VENDA' e 'VALOR_VENDA'
df_projecao = spark.read.parquet(caminho_parquet).select("ID_VENDA", "VALOR_VENDA")

print("\n--- 3.2. SerDe: Deserializa√ß√£o Seletiva (Proje√ß√£o) ---")
print(f"Colunas carregadas: {df_projecao.columns}")
df_projecao.printSchema()

# Ponto de Discuss√£o:
# Compara√ß√£o 1: Se este fosse um arquivo CSV, o SerDe leria a linha inteira para depois descartar as colunas n√£o pedidas.
# Compara√ß√£o 2: No Parquet, o Spark/SerDe acessa apenas a 'faixa' vertical da coluna no arquivo f√≠sico.

# üöÄ Conclus√£o: PySpark - Da Teoria √† Produ√ß√£o

Parab√©ns! 

Voc√™s completaram com sucesso a jornada pr√°tica de 4 horas, aplicando os fundamentos de Big Data em um pipeline PySpark funcional.

## üìù Resumo do Aprendizado Essencial

Onde a Teoria e a Pr√°tica se Encontraram:

| Teoria (Aulas) | Pr√°tica (C√≥digo PySpark) | Conceito Refor√ßado |
| :--- | :--- | :--- |
| **Data Pipeline: Processing** | Inicializa√ß√£o da `SparkSession` | PySpark √© o motor de **refino** do dado bruto (`Raw Layer`). |
| **Data Quality (5 T√©cnicas)** | `F.coalesce()`, `to_date()`, `dropDuplicates()` | A disciplina de **qualidade** (Limpeza, Transforma√ß√£o, Desduplica√ß√£o) √© implementada com fun√ß√µes *built-in* do Spark. |
| **Formatos Colunares** | `.write.parquet()`, `.write.orc()` | **Parquet** e **ORC** s√£o os formatos de armazenamento otimizado para economia de I/O e *analytics*. |
| **SerDe & Otimiza√ß√£o** | `.read.parquet().select("col")` | O Spark/SerDe acessa apenas as colunas necess√°rias (**Proje√ß√£o**) e ignora diret√≥rios (**Predicate Pushdown**). |

---

## üß≠ Pr√≥ximos Passos e Conex√£o com o Projeto Final

Para que voc√™s transformem este conhecimento pr√°tico em uma solu√ß√£o de Engenharia de Dados de n√≠vel profissional, o foco deve ser na moderniza√ß√£o e automa√ß√£o da arquitetura:

### 1. Data Lakehouse: Confiabilidade sobre o Storage

O `df_curated` salvo em Parquet √© a nossa base. O pr√≥ximo passo √© garantir **Transa√ß√µes ACID** e **versionamento** sobre ele.

* **Pr√≥ximo T√≥pico:** Formatos de Tabela Aberta como **Delta Lake** (ou Apache Iceberg).
* **Motivo:** Permitem funcionalidades cruciais de um Data Warehouse, como `UPSERT` (atualiza√ß√£o/inser√ß√£o) e `DELETE` direto no Data Lake.

### 2. Orquestra√ß√£o e Automa√ß√£o do Pipeline

Um *pipeline* de dados precisa ser executado de forma autom√°tica e monitorada.

* **Pr√≥ximo T√≥pico:** **Apache Airflow**.
* **Objetivo:** Agendar o c√≥digo PySpark desenvolvido hoje (as transforma√ß√µes e a escrita em Parquet) em um *workflow* (DAG) gerenciado, garantindo automa√ß√£o e observabilidade.

### 3. Prepara√ß√£o para o Projeto Final

Utilizem o `df_curated` e a l√≥gica de Data Quality implementada hoje como o *core* da fase **Processing** do seu projeto. A pr√≥xima etapa √© integrar o Delta Lake e construir a automa√ß√£o no Airflow.