In [10]:
from pyspark.sql import SparkSession


def filtrar_parquet_por_index(parquet_path: str, valor_index: int):
    """
    Filtra dados de um arquivo Parquet pela coluna 'index' usando SQL.

    Args:
        parquet_path (str): Caminho do arquivo/diretório Parquet.
        valor_index (int): Valor a ser filtrado na coluna 'index'.
    """
    spark = SparkSession.builder.appName("FiltrarParquetSQL").getOrCreate()

    try:
        # Ler o arquivo Parquet
        df = spark.read.parquet(parquet_path)

        # Criar view temporária para consultas SQL
        df.createOrReplaceTempView("tabela_parquet")

        # Consulta SQL com proteção contra SQL injection
        query = f"""
        SELECT *
        FROM tabela_parquet
        WHERE `index` = {valor_index}
        """

        resultado = spark.sql(query)

        # Mostrar resultados
        print(f"\n✅ Resultados para index = {valor_index}:")
        resultado.show(truncate=False)

    except Exception as e:
        print(f"❌ Erro: {e!s}")
    finally:
        spark.stop()


# Exemplo de uso:
filtrar_parquet_por_index("/Users/wilkne/Development/parquet-query/src/data/delta/part-00000-1a498531-9459-4de6-b170-020f82a43c2f-c000.snappy.parquet", 138998)


✅ Resultados para index = 138998:
+------+----------+-------------------+-----------------------------+--------------------------------------------------+------------------------------------------+------------------------------------------+---------------------+--------------------------------------+---------------------------------+------------------------------------+------------------------------------+-----------------------------------------+-----------------------------------------+-------------------------------+-------------------------------+------------------------------+---------------------------+-----------------------+----------------------------+------+-----+--------------------------------+------------+------------+------------+------+
|index |Data      |Hora               |PRECIPITACAO_TOTAL_HORARIO_mm|PRESSAO_ATMOSFERICA_AO_NIVEL_DA_ESTACAO_HORARIA_mB|PRESSAO_ATMOSFERICA_MAX_NA_HORA_ANT_AUT_mB|PRESSAO_ATMOSFERICA_MIN_NA_HORA_ANT_AUT_mB|RADIACAO_GLOBAL_Kj_m2|TEMPERATU