# üìÑ Documenta√ß√£o passo a passo ‚Äî View Tempor√°ria `BronzeYellowMes03`

Este notebook prepara e filtra dados das viagens **Yellow Taxi (Marco/2023)**,
criando uma tabela com m√©tricas derivadas tratadas e regras de consist√™ncia temporal.

---

## üéØ Objetivo
Criar a **temp view** `BronzeYellowMes03` a partir de `RawYellowMes03`,
aplicando:
- deriva√ß√£o de campos de data/hora e dura√ß√£o,
- regras de qualidade de dados,
- consist√™ncia entre in√≠cio e fim da viagem.

---


In [0]:
%sql

USE CATALOG ifood_case; -- indica o cat√°logo selecionado
USE SCHEMA  nytaxi;     -- indica o schema selecionado

-- Cria (ou substitui) a view tempor√°ria com as etapas de limpeza e valida√ß√£o
CREATE OR REPLACE TEMP VIEW BronzeYellowMes03STG AS
-- =========================================
-- 1) Limpeza e deriva√ß√£o de colunas base
--    (CTE: EspecificationDataClean)
-- =========================================
WITH EspecificationDataClean AS
(
  SELECT 
    *                                                       -- mant√©m todas as colunas originais do bronze
    -- üîπ Datas derivadas (formato ISO-friendly)
    , DATE_FORMAT(tpep_pickup_datetime,  'yyyy-MM-dd') AS Data_Inicio_Viagem
    , DATE_FORMAT(tpep_dropoff_datetime, 'yyyy-MM-dd') AS Data_Fim_Viagem
    -- üîπ Componentes de dia (n√∫mero do dia no m√™s)
    , DAY(tpep_dropoff_datetime)                       AS Dia_Fim_Viagem   
    , DAY(tpep_pickup_datetime)                        AS Dia_Inicio_Viagem 
    -- üîπ Dura√ß√£o da viagem em minutos (2 casas decimais)
    , ROUND(
        (UNIX_TIMESTAMP(tpep_dropoff_datetime) - UNIX_TIMESTAMP(tpep_pickup_datetime)) / 60
      , 2
      )                                                AS Duracao_Viagem
    -- üîπ Hora do dia (0‚Äì23) ‚Äî somente √© considerada a HORA CHEIA, sem minutos
    , DATE_FORMAT(tpep_dropoff_datetime, 'HH')         AS Hora_Fim_Viagem
    , DATE_FORMAT(tpep_pickup_datetime,  'HH')         AS Hora_Inicio_Viagem
    -- üîπ Componentes de m√™s (1‚Äì12)
    , MONTH(tpep_dropoff_datetime)                     AS Mes_Fim_Viagem
    , MONTH(tpep_pickup_datetime)                      AS Mes_Inicio_Viagem        
-- Tabela com dados brutos (RAW Table) do m√™s de Marco /2023
  FROM RawYellowMes03
  -- -----------------------------------------
  -- Filtros iniciais de integridade de dados
  -- -----------------------------------------
  WHERE
    improvement_surcharge > 0                          -- taxa de melhoria deve ser positiva e obrigat√≥ria
    AND mta_tax           > 0                          -- taxa MTA deve ser positiva e obrigat√≥ria
    AND passenger_count   > 0                          -- ao menos 1 passageiro
    AND (payment_type BETWEEN 0 AND 6)                 -- tipos de pagamento v√°lidos
    AND (PULocationID <> DOLocationID)                 -- embarque ‚â† desembarque
    AND (store_and_fwd_flag   = 'N' 
        OR store_and_fwd_flag = 'Y')                   -- flag v√°lida
    AND total_amount > 0                               -- valor do pagamento total positivo
    -- verifica√ß√£o se o total pago √© igual a soma das taxas
    AND (ROUND(total_amount,2) 
        = ROUND(
          (fare_amount
          + extra 
          + mta_tax
          + tip_amount
          + tolls_amount
          + improvement_surcharge
          + airport_fee
          + congestion_surcharge), 2))
    AND trip_distance > 0                              -- dist√¢ncia positiva
    AND vendorid IN (1, 2, 6, 7)                       -- vendors permitidos
),
-- =========================================
-- 2) Regras de consist√™ncia temporal
--    (CTE: DateTimeDataClean)
-- =========================================
DateTimeDataClean AS
(
  SELECT 
    *                                                  -- mant√©m os dados do filtro EspecificationDataClean
  FROM 
    EspecificationDataClean 
  WHERE
    Duracao_Viagem          > 0                        -- dura√ß√£o precisa ser maior do que zero indicando que houve deslocamento
    AND Mes_Fim_Viagem      = 3                        -- m√™s fim: Marco
    AND Mes_Inicio_Viagem   = 3                        -- m√™s in√≠cio: Marco
    AND Hora_Inicio_Viagem  BETWEEN '00' AND '23'      -- valida intervalo de horas do inicio da viagem
    AND Hora_Fim_Viagem     BETWEEN '00' AND '23'      -- valida intervalo de horas do fim da viagem
    AND Dia_Inicio_Viagem   BETWEEN 1 AND 31           -- valida intervalo de dias do m√™s do inicio da viagem
    AND Dia_Fim_Viagem      BETWEEN 1 AND 31           -- valida intervalo de dias do m√™s do fim da viagem
    -- -----------------------------------------
    -- Consist√™ncia entre datas/horas de in√≠cio e fim
    -- -----------------------------------------
    AND (
         -- (A) Mesmo m√™s e dia inicial <= dia final
         ((Dia_Inicio_Viagem <= Dia_Fim_Viagem) AND (Mes_Fim_Viagem = Mes_Inicio_Viagem))
         -- (B) Virada de m√™s: dia inicial > dia final e meses diferentes
         OR ((Dia_Inicio_Viagem > Dia_Fim_Viagem) AND (Mes_Fim_Viagem <> Mes_Inicio_Viagem))
         -- (C) Hor√°rio cruza para o mesmo dia (hora in√≠cio > hora fim),
         --     mas dias coerentes (in√≠cio < fim) e mesmo m√™s
         OR ((Hora_Inicio_Viagem > Hora_Fim_Viagem)  
             AND ((Dia_Inicio_Viagem < Dia_Fim_Viagem) AND (Mes_Fim_Viagem = Mes_Inicio_Viagem)))
         -- (D) Mesma data e hora in√≠cio < hora fim
         OR ((Hora_Inicio_Viagem < Hora_Fim_Viagem) 
             AND ((Dia_Inicio_Viagem = Dia_Fim_Viagem) AND (Mes_Fim_Viagem = Mes_Inicio_Viagem)))
        )
)
-- =========================================
-- 3) Sele√ß√£o final: colunas relevantes
-- =========================================
SELECT 
  -- üí∞ Componentes financeiros
  airport_fee,
  congestion_surcharge,
  extra,
  fare_amount,
  improvement_surcharge,
  mta_tax,
  tip_amount,
  tolls_amount,
  total_amount,
  -- üìÖ Datas e horas (originais e derivadas)
  tpep_pickup_datetime,
  tpep_dropoff_datetime,
  Data_Inicio_Viagem,
  Data_Fim_Viagem,
  Hora_Inicio_Viagem,
  Hora_Fim_Viagem,
  Dia_Inicio_Viagem,
  Dia_Fim_Viagem,
  Mes_Inicio_Viagem,
  Mes_Fim_Viagem,
  -- üìç Geografia e metadados
  PULocationID,
  DOLocationID,
  trip_distance,
  passenger_count,
  payment_type,
  store_and_fwd_flag,
  vendorId
FROM
  DateTimeDataClean;

---


# üß™ Valida√ß√£o de Qualidade ‚Äî `BronzeYellowMes03STG`
Este notebook gera um **campo agregado de alertas** (`alerta_validacao`)
com base em regras de consist√™ncia de neg√≥cio e integridade do dado (valores nulos, intervalos inv√°lidos,
soma de taxas, etc.). Ao final, exibe apenas os registros com algum problema.


In [0]:
%python
# Importando funcionalidades 
from pyspark.sql.functions import col, when, lit, concat, unix_timestamp, round

# Tabela preparada em est√°gio "bronze"
df = spark.table("BronzeYellowMes03STG")

# Conjunto de vendors aceitos (regra de neg√≥cio)
vendors_validos = [1, 2, 6, 7]

# -------------------------------------------------------------------
# 1) C√°lculo de m√©tricas derivadas + constru√ß√£o do campo de alertas
# -------------------------------------------------------------------
# - Duracao_Viagem: diferen√ßa (dropoff - pickup) em minutos, arredondada para 2 casas
# - alerta_validacao: CONCAT de mensagens (strings) disparadas pelas regras
# - cada WHEN gera a mensagem da regra quando a condi√ß√£o √© verdadeira; caso contr√°rio, devolve "".
#   O uso de strings vazias permite manter compat√≠vel com vers√µes antigas do Spark.
# -------------------------------------------------------------------
df_validacao = (
    df.withColumn(
        "Duracao_Viagem",
        round((unix_timestamp("tpep_dropoff_datetime") - unix_timestamp("tpep_pickup_datetime")) / 60, 2)
    ).withColumn(
        "alerta_validacao",
        concat(
            # -----------------------------
            # Regras de datas/dias/meses
            # -----------------------------
            when(
                col("Dia_Fim_Viagem").isNull() | (col("Dia_Fim_Viagem") < 1) | (col("Dia_Fim_Viagem") > 31),
                lit("Dia_Fim_Viagem fora do intervalo")
            ).otherwise(lit("")),
            when(
                col("Dia_Inicio_Viagem").isNull() | (col("Dia_Inicio_Viagem") < 1) | (col("Dia_Inicio_Viagem") > 31),
                lit("Dia_Inicio_Viagem fora do intervalo")
            ).otherwise(lit("")),
            # Dura√ß√£o deve ser positiva
            when(
                col("Duracao_Viagem") <= 0,
                lit("Duracao_Viagem inv√°lida")
            ).otherwise(lit("")),
            # -----------------------------
            # Regras de hora (formato texto)
            # -----------------------------
            when(
                col("Hora_Fim_Viagem").isNull() | (col("Hora_Fim_Viagem") < '00') | (col("Hora_Fim_Viagem") > '23'),
                lit("Hora_Fim_Viagem fora do intervalo")
            ).otherwise(lit("")),
            when(
                col("Hora_Inicio_Viagem").isNull() | (col("Hora_Inicio_Viagem") < '00') | (col("Hora_Inicio_Viagem") > '23'),
                lit("Hora_Inicio_Viagem fora do intervalo")
            ).otherwise(lit("")),
            # -----------------------------
            # Regras de m√™s (escopo do dataset)
            # -----------------------------
            when(
                col("Mes_Fim_Viagem").isNull() | (col("Mes_Fim_Viagem") < 1) | (col("Mes_Fim_Viagem") > 5),
                lit("Mes_Fim_Viagem fora do intervalo")
            ).otherwise(lit("")),
            when(
                col("Mes_Inicio_Viagem").isNull() | (col("Mes_Inicio_Viagem") < 1) | (col("Mes_Inicio_Viagem") > 5),
                lit("Mes_Inicio_Viagem fora do intervalo")
            ).otherwise(lit("")),
            # -----------------------------
            # Regras de geografia (zonas)
            # -----------------------------
            when(
                col("PULocationID").isNull() | col("DOLocationID").isNull() | (col("PULocationID") == col("DOLocationID")),
                lit("PULocationID e DOLocationID n√£o podem ser iguais")
            ).otherwise(lit("")),
            # -----------------------------
            # Regras financeiras (taxas > 0)
            # -----------------------------
            when(
                col("improvement_surcharge").isNull() | (col("improvement_surcharge") <= 0),
                lit("improvement_surcharge inv√°lido")
            ).otherwise(lit("")),
            when(
                col("mta_tax").isNull() | (col("mta_tax") <= 0),
                lit("mta_tax inv√°lido")
            ).otherwise(lit("")),
            # -----------------------------
            # Outras consist√™ncias de neg√≥cio
            # -----------------------------
            when(
                col("passenger_count").isNull() | (col("passenger_count") <= 0),
                lit("passenger_count inv√°lido")
            ).otherwise(lit("")),
            when(
                col("payment_type").isNull() | (col("payment_type") < 0) | (col("payment_type") > 6),
                lit("payment_type inv√°lido")
            ).otherwise(lit("")),
            when(
                col("store_and_fwd_flag").isNull() | (~col("store_and_fwd_flag").isin('Y', 'N')),
                lit("store_and_fwd_flag inv√°lido")
            ).otherwise(lit("")),
            when(
                col("total_amount").isNull() | (col("total_amount") <= 0),
                lit("total_amount inv√°lido")
            ).otherwise(lit("")),
            # Verifica se o valor total pago √© igual a soma das parcelas
            when(
                round(col("total_amount"), 2) != round(
                    col("fare_amount")
                    + col("extra")
                    + col("mta_tax")
                    + col("tip_amount")
                    + col("tolls_amount")
                    + col("improvement_surcharge")
                    + col("airport_fee")
                    + col("congestion_surcharge"), 2
                ),
                lit("total_amount n√£o corresponde √† soma das taxas")
            ).otherwise(lit("")),
            # Verifica se houve deslocamento atrav√©s da dist√¢ncia percorrida
            when(
                col("trip_distance").isNull() | (col("trip_distance") <= 0),
                lit("trip_distance inv√°lido")
            ).otherwise(lit("")),
            # Verifica se os vendorId s√£o v√°lidos
            when(
                col("vendorId").isNull() | (~col("vendorId").isin(vendors_validos)),
                lit("vendorId inv√°lido")
            ).otherwise(lit(""))
        )
    )
)
# -------------------------------------------------------------------
# 2) Filtra apenas registros com algum alerta gerado
# -------------------------------------------------------------------
df_com_problemas = df_validacao.filter(col("alerta_validacao") != "")
# -------------------------------------------------------------------
# 3) Exibi√ß√£o para auditoria (pode trocar por write/saveAsTable)
# -------------------------------------------------------------------
df_com_problemas.display()


# üìÑ Cria√ß√£o da View `BronzeYellowMes03`
Este script cria ou substitui a tabela `BronzeYellowMes03` no cat√°logo `ifood_case` e schema `nytaxi` ap√≥s a valida√ß√£o dos dados de acordo com as regras especificadas pelo sistema de taxi de NYC e concep√ß√£o de m√©tricas auxiliares para an√°lises posteriores.

Esta tabela ser√° unficada com as demais tabelas dos outros meses para criar a tabela SilverYellow.

---



In [0]:
%sql

USE CATALOG ifood_case;
USE SCHEMA  nytaxi;

CREATE OR REPLACE TABLE BronzeYellowMes03 AS

SELECT
  *
FROM
  BronzeYellowMes03STG