In [0]:
from pyspark.sql import functions as F
from functools import reduce

# DiretÃ³rio base contendo todos os arquivos Parquet consolidados (2020â€“2025)
base_dir = "/Volumes/workspace/nyc_taxi/raw/full"

# Schema alvo
target_schema = {
    "vendorid": "long",                 # ID do fornecedor/tÃ¡xi (numÃ©rico inteiro)
    "tpep_pickup_datetime": "timestamp",# Data/hora do embarque
    "tpep_dropoff_datetime": "timestamp",# Data/hora do desembarque
    "passenger_count": "integer",       # Quantidade de passageiros (inteiro)
    "trip_distance": "double",          # DistÃ¢ncia da viagem (milhas)
    "ratecodeid": "long",               # CÃ³digo da tarifa aplicada
    "store_and_fwd_flag": "string",     # Flag de armazenamento/transmissÃ£o do dado (Y/N)
    "pulocationid": "long",             # ID da localizaÃ§Ã£o de embarque
    "dolocationid": "long",             # ID da localizaÃ§Ã£o de desembarque
    "payment_type": "long",             # Tipo de pagamento (1=Dinheiro, 2=CartÃ£o, etc.)
    "fare_amount": "double",            # Valor da corrida sem taxas adicionais
    "extra": "double",                  # Valor de extras (ex.: taxa noturna)
    "mta_tax": "double",                # Taxa da MTA
    "tip_amount": "double",             # Valor de gorjeta
    "tolls_amount": "double",           # Valor de pedÃ¡gios
    "improvement_surcharge": "double",  # Taxa de melhoria
    "total_amount": "double",           # Valor total da corrida
    "congestion_surcharge": "double",   # Taxa de congestionamento
    "airport_fee": "double",            # Taxa de aeroporto (quando aplicÃ¡vel)
}

target_cols = list(target_schema.keys())

# ðŸ“‚ Lista todos os arquivos Parquet encontrados no diretÃ³rio base
files = [f.path for f in dbutils.fs.ls(base_dir) if f.path.endswith(".parquet")]
assert files, f"Nenhum parquet encontrado em {base_dir}"
print(f"ðŸ”Ž Encontrados {len(files)} arquivos")

def normalize_one(path: str):
    """
    FunÃ§Ã£o responsÃ¡vel por:
    - Ler o arquivo Parquet individualmente.
    - Padronizar nomes de colunas para minÃºsculas.
    - Garantir que todas as colunas do schema alvo existam (mesmo que com NULL).
    - Realizar cast de cada coluna para o tipo correto.
    - Criar a coluna 'anomes' no formato YYYYMM a partir da data de pickup.
    - Retornar apenas colunas do schema alvo + partiÃ§Ã£o.
    """
    df = spark.read.parquet(path)

    # Normaliza nomes de colunas para lowercase
    for c in df.columns:
        df = df.withColumnRenamed(c, c.lower())

    # Adiciona colunas ausentes e aplica cast para o tipo definido no schema alvo
    for col, dtype in target_schema.items():
        if col not in df.columns:
            df = df.withColumn(col, F.lit(None).cast(dtype))
        else:
            df = df.withColumn(col, F.col(col).cast(dtype))

    # Cria coluna de partiÃ§Ã£o com base na data de pickup
    df = df.withColumn("anomes", F.date_format(F.col("tpep_pickup_datetime"), "yyyyMM"))

    # Seleciona somente colunas relevantes e descarta registros sem data vÃ¡lida
    return df.select(*target_cols, "anomes").filter(F.col("anomes").isNotNull())

# ðŸ”„ Normaliza todos os arquivos individualmente
dfs = [normalize_one(p) for p in files]

# ðŸ”— Une todos os DataFrames normalizados de forma segura
df_all = reduce(lambda a, b: a.unionByName(b, allowMissingColumns=True), dfs)

# ðŸš® Remove partiÃ§Ãµes "outliers" com baixa contagem (menos de 10k linhas)
part_counts = df_all.groupBy("anomes").count().filter(F.col("count") >= 10000)
valid_partitions = [row["anomes"] for row in part_counts.collect()]
df_all = df_all.filter(F.col("anomes").isin(valid_partitions))

# ðŸ“Š Valida partiÃ§Ãµes resultantes
print("ðŸ“† PartiÃ§Ãµes encontradas:")
display(df_all.select("anomes").distinct().orderBy("anomes"))

# ðŸš® Dropa a tabela anterior existente, para caso de mudanÃ§a de schema
spark.sql("DROP TABLE IF EXISTS workspace.nyc_taxi.yellowtaxi_trips_sor")

# ðŸ’¾ Escreve o resultado em uma tabela Delta Lake particionada por 'anomes'
(df_all.repartition("anomes")
      .write
      .format("delta")
      .mode("overwrite")
      .partitionBy("anomes")
      .saveAsTable("workspace.nyc_taxi.yellowtaxi_trips_sor"))

print(f"âœ… Base SOR criada com sucesso! Total de linhas: {df_all.count()}")


In [0]:
from pyspark.sql import functions as F

# ðŸ“¥ Leitura da tabela Bronze (camada SOR criada anteriormente)
df_bronze = spark.table("workspace.nyc_taxi.yellowtaxi_trips_sor")

# ðŸŽ¯ SeleÃ§Ã£o e filtragem para criar a camada Silver
df_silver = (
    df_bronze
    .select(
        "vendorid",              # ID do fornecedor/tÃ¡xi
        "passenger_count",       # NÃºmero de passageiros
        "total_amount",          # Valor total da corrida
        "tpep_pickup_datetime",  # Data/hora de embarque
        "tpep_dropoff_datetime", # Data/hora de desembarque
        "anomes"                 # Coluna de partiÃ§Ã£o no formato YYYYMM
    )
    .filter(
        (F.col("anomes") >= "202301") &  # Inclui apenas dados de janeiro/2023
        (F.col("anomes") <= "202305")    # atÃ© maio/2023 (inclusive)
    )
)

# ðŸ’¾ Escrita da camada Silver
(df_silver.write
    .format("delta")
    .mode("overwrite")           # Sobrescreve a tabela se ela jÃ¡ existir
    .partitionBy("anomes")       # Cria partiÃ§Ãµes fÃ­sicas por mÃªs
    .saveAsTable("workspace.nyc_taxi.yellowtaxi_trips_2023_spec"))

# ðŸ‘€ VisualizaÃ§Ã£o de amostra para conferÃªncia
display(df_silver.limit(10))


In [0]:
%sql
SELECT anomes,
       COUNT(*) AS qtd_linhas
FROM workspace.nyc_taxi.yellowtaxi_trips_2023_spec
GROUP BY anomes
ORDER BY anomes;

In [0]:
try catch
delta
volume de arquivos para metadados de bases
data quality