In [3]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [4]:
spark = (
    SparkSession.builder
    .appName("Curso de PySpark")
    .config("spark.sql.repl.eagerEval.enabled", True)
    .getOrCreate()
)

In [5]:
spark

In [6]:
path = "C:/Users/marlos.barros/Cursos/pyspark_na_pratica/DATASETS/LOGINS.parquet"

In [7]:
df = spark.read.format("parquet").load(path)

In [8]:
df

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
981.507.362-12,pedro-lucas53@gma...,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046
493.705.168-75,rezendeisaac@hotm...,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremes...,(031) 0803-6753
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
092.618.354-06,stellamoraes@bol....,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177
509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052
475.698.032-56,wnunes@bol.com.br,_8az1W%n7g,1996-05-12,SE,2023-02-04,139.196.176.154,Azul,Cadeirinha,(071) 1640-3388
217.639.540-99,jribeiro@bol.com.br,MEf1X7fj_0,2021-10-05,PA,2023-03-02,71.22.224.5,Marrom,Geólogo,21 1432 4092
261.938.750-77,murilo05@gmail.com,Te&gO7GkKs,1917-01-05,MT,2023-02-21,136.54.123.165,Marrom,Técnico De Som,+55 (084) 5878-3346


### Consulta SQL com spark.sql e DataFrame como parâmetro
- Função: Executa uma consulta **SQL** diretamente no DataFrame **df**, filtrando as linhas onde a coluna estado está entre **"PE"** e **"MG"**. A função **spark.sql** permite a integração entre código **SQL** e **PySpark**, usando **{tabela}** como um placeholder para o DataFrame **df**.

In [9]:
spark.sql('''
    select *
    from {tabela}
    where estado in ("PE", "MG")
''', tabela = df)

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052
348.215.690-51,omoreira@bol.com.br,!8maDkdVnY,2008-10-24,MG,2023-02-20,177.2.242.176,Verde Escuro,Adestrador De Ani...,+55 61 3217-9930
875.130.249-79,da-rocharebeca@ho...,FlOoH0I6)6,1972-10-05,PE,2023-02-11,126.171.28.31,Violeta,Modelista,+55 84 1130-9822
308.942.751-60,hpires@gmail.com,#^yq9HIt0h,1996-03-08,PE,2023-02-14,139.209.144.207,Ciano,Estofador,+55 31 1784 8068
739.628.014-13,iaraujo@uol.com.br,DX+C7FQw*d,1991-03-05,PE,2023-03-02,12.226.164.38,Roxo,Retificador,51 6855 2871
089.276.145-85,caua85@yahoo.com.br,8V%T2eBfi(,1939-12-30,PE,2023-03-11,110.188.83.186,Verde,Comissário De Bordo,84 6794 1208
943.185.762-64,melissa97@bol.com.br,MBlZ9BOwp(,1953-06-09,PE,2023-01-16,97.254.23.196,Azul,Físico,31 6169-0705
856.320.419-05,scampos@bol.com.br,@*rkAfImD1,1997-06-08,PE,2023-01-31,175.72.45.212,Cinza,Designer De Inter...,+55 11 5760 0473


### Filtrando com filter e Registrando a Tabela Temporária
- Função: Filtra o DataFrame **df** para incluir apenas as linhas onde a coluna estado está entre **"PE"** e **"MG"**. Após o filtro, o DataFrame resultante é registrado como uma tabela temporária com o nome **tabela_pe_mg**, permitindo que seja referenciada em consultas SQL subsequentes.

In [10]:
tabela_pe_mg = (
    df.filter(F.col("estado").isin("PE", "MG"))
    .registerTempTable("tabela_pe_mg")
)



### Consulta SQL em Tabela Temporária
- Função: Executa uma nova consulta SQL diretamente na tabela temporária **tabela_pe_mg**, filtrando novamente as linhas onde **estado** está entre **"PE"** e **"MG"**. Como a tabela já foi previamente filtrada e registrada, essa consulta SQL refina ainda mais os dados, caso necessário.

In [11]:
spark.sql('''
    select *
    from tabela_pe_mg
    where estado in ("PE", "MG")
''')

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052
348.215.690-51,omoreira@bol.com.br,!8maDkdVnY,2008-10-24,MG,2023-02-20,177.2.242.176,Verde Escuro,Adestrador De Ani...,+55 61 3217-9930
875.130.249-79,da-rocharebeca@ho...,FlOoH0I6)6,1972-10-05,PE,2023-02-11,126.171.28.31,Violeta,Modelista,+55 84 1130-9822
308.942.751-60,hpires@gmail.com,#^yq9HIt0h,1996-03-08,PE,2023-02-14,139.209.144.207,Ciano,Estofador,+55 31 1784 8068
739.628.014-13,iaraujo@uol.com.br,DX+C7FQw*d,1991-03-05,PE,2023-03-02,12.226.164.38,Roxo,Retificador,51 6855 2871
089.276.145-85,caua85@yahoo.com.br,8V%T2eBfi(,1939-12-30,PE,2023-03-11,110.188.83.186,Verde,Comissário De Bordo,84 6794 1208
943.185.762-64,melissa97@bol.com.br,MBlZ9BOwp(,1953-06-09,PE,2023-01-16,97.254.23.196,Azul,Físico,31 6169-0705
856.320.419-05,scampos@bol.com.br,@*rkAfImD1,1997-06-08,PE,2023-01-31,175.72.45.212,Cinza,Designer De Inter...,+55 11 5760 0473
