In [1]:
# Importando as bibliotecas utilizadas
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [4]:
# Criando a sessão, nomeando e configurando para mostrar tabela do tipo pandas 
spark = (
    SparkSession.builder
    .appName('PySpark - Funções de Coluna')
    .config('spark.sql.repl.eagerEval.enabled', True)
    .getOrCreate()
)

In [8]:
# Carregando um arquivo PARQUET para dataframe
df = spark.read.parquet('./DATASETS/LOGINS.parquet')
df

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
981.507.362-12,pedro-lucas53@gma...,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046
493.705.168-75,rezendeisaac@hotm...,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremes...,(031) 0803-6753
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
092.618.354-06,stellamoraes@bol....,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177
509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052
475.698.032-56,wnunes@bol.com.br,_8az1W%n7g,1996-05-12,SE,2023-02-04,139.196.176.154,Azul,Cadeirinha,(071) 1640-3388
217.639.540-99,jribeiro@bol.com.br,MEf1X7fj_0,2021-10-05,PA,2023-03-02,71.22.224.5,Marrom,Geólogo,21 1432 4092
261.938.750-77,murilo05@gmail.com,Te&gO7GkKs,1917-01-05,MT,2023-02-21,136.54.123.165,Marrom,Técnico De Som,+55 (084) 5878-3346


In [18]:
# Tirando os espaços e caracteres não numéricos campo de telefone
# Deixando somente números e convertendo para inteiro
(
    df
    .withColumn('tel', F.regexp_replace('telefone', '\D', ''))
    .orderBy(F.asc_nulls_first('tel')) # Se houver nulos pode ordená-los primeiro, último, asc, desc ...
)

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone,tel
753.164.098-84,gda-paz@bol.com.br,$tNppDSO*6,1976-11-01,RS,2023-01-21,100.59.214.104,Verde Claro,Engenheiro De Aqu...,(011) 0026-5893,1100265893
451.270.683-62,aragaoraul@hotmai...,%)_3HHJ1Fr,2012-09-13,CE,2023-01-23,19.124.37.127,Roxo,Office-Boy,(011) 0628-8361,1106288361
950.681.743-00,eloahcastro@yahoo...,C$Wi%d2c@8,1928-11-12,SC,2023-02-03,155.64.186.104,Azul,Supervisor,(011) 0817-1787,1108171787
452.961.783-19,jcastro@uol.com.br,6X8BDmq0E#,1917-05-27,CE,2023-02-28,148.243.207.215,Rosa,Técnico Em Óptica,(011) 1677 4555,1116774555
671.520.943-06,vbarbosa@uol.com.br,@3TkbXehmo,1971-07-18,ES,2023-02-01,12.9.86.255,Preto,Barbeiro,(011) 1730-6724,1117306724
567.918.340-48,gmoreira@gmail.com,0!017S0ZLy,1979-01-29,RO,2023-03-11,168.232.170.74,Verde Escuro,Moldador,(011) 1909 0174,1119090174
724.308.165-71,da-conceicaoisis@...,zCw%U8Cjvi,1923-09-23,PA,2023-02-28,191.99.251.3,Laranja,Aeronauta,(011) 2033 8920,1120338920
210.549.367-06,ana23@uol.com.br,&#6ZAkAKWh,1958-04-06,AC,2023-03-09,38.117.200.190,Verde,Kite-Surfer,(011) 2149 3857,1121493857
416.805.379-20,giovanna74@hotmai...,%4P39oUloo,1978-08-17,AL,2023-01-31,208.222.188.39,Verde Escuro,Contatólogo,(011) 2667 4246,1126674246
354.671.029-07,pedro-henriqueda-...,K4J)83$e$f,1954-12-25,ES,2023-02-05,52.198.227.61,Violeta,Clínico Geral,(011) 2770 6148,1127706148


In [21]:
# Usando a função betweeen para pessoas que nasceram entre 2000 e 2010 inclusivo
(
    df
    .where(F.year('data_de_nascimento').between(2000, 2010)) 
)

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
807.695.421-58,joao-guilhermeda-...,Z^9Og04O*(,2008-11-04,GO,2023-01-06,45.56.63.111,Roxo,Promotor De Eventos,+55 81 9388-4795
452.670.938-74,aragaobryan@ig.co...,Rn$^4GVaLh,2006-09-09,SP,2023-01-20,62.198.106.50,Verde Escuro,Pescador,+55 (084) 0602 1499
952.370.614-43,joao-vitornogueir...,tk^Cj4AxRm,2000-09-01,BA,2023-02-04,166.60.103.231,Azul Escuro,Técnico Em Radiol...,41 0562 1124
049.325.786-10,joao-felipe95@uol...,J5YOLCHc_9,2010-02-04,CE,2023-01-11,131.4.14.104,Azul,Velejador,+55 (041) 5036 9652
605.132.974-99,silvajoao-guilher...,%jW90IfhBN,2009-05-16,SE,2023-03-06,162.179.69.184,Rosa,Arranjador Musical,31 6174 5429


In [25]:
# Filtrando todos quem tem 'joao' em algum lugar do email
(
    df
    .where(F.col('email').contains('joao'))
)

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
807.695.421-58,joao-guilhermeda-...,Z^9Og04O*(,2008-11-04,GO,2023-01-06,45.56.63.111,Roxo,Promotor De Eventos,+55 81 9388-4795
164.593.782-82,joao64@gmail.com,p8HSoDMn&n,1950-03-20,AP,2023-02-13,209.64.45.64,Verde Escuro,Regente,+55 (081) 8127 1919
859.730.624-65,jesusjoao-pedro@b...,e6GTOgSu&x,1934-12-10,RS,2023-03-14,166.167.217.88,Azul,Especialista Em A...,(061) 5783-0665
912.684.357-91,diasjoao-pedro@ya...,ul4MAuou_k,1940-02-02,AM,2023-02-06,22.105.98.7,Verde,Geógrafo,71 1972 8856
298.516.304-89,joao-pedro43@yaho...,Rh*pNaY+*2,1975-01-22,CE,2023-02-20,126.89.241.166,Branco,Levantador De Peso,+55 11 4343-6740
765.198.320-30,joao-lucas03@uol....,%7Dj0mZt7k,2016-05-04,TO,2023-03-08,63.22.72.20,Amarelo,Dançarino,+55 (021) 5525-0037
271.450.869-30,joao-miguelcostel...,s!c1x#csuK,1948-09-30,PR,2023-01-24,181.48.75.3,Branco,Corredor De Atlet...,+55 (021) 2951-1318
732.908.614-22,joao-guilhermemor...,3P&3HnbuG(,1987-04-06,PR,2023-01-01,96.60.227.194,Cinza,Especialista Em A...,71 3193 3975
057.892.463-38,joao-lucas57@hotm...,poR)1Gvsl(,1963-11-12,MA,2023-03-04,205.187.113.174,Azul Escuro,Engenheiro De Erg...,+55 (021) 5211-8547
726.893.105-03,da-motajoao-guilh...,#!5$OabuX7,1949-02-14,TO,2023-01-23,191.161.170.167,Ciano,Bóia-Fria,21 8070-9545


In [30]:
# Filtrando todos emails que começam com 'a' e terminam com '.br'
(
    df
    .where(F.col('email').endswith('.br'))
    .where(F.col('email').startswith('a'))
)

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
413.087.526-44,alexiada-rocha@ig...,@f@!Z!2c*2,1920-05-26,MS,2023-02-18,182.61.65.201,Laranja,Microfonista,(021) 3739-2944
210.549.367-06,ana23@uol.com.br,&#6ZAkAKWh,1958-04-06,AC,2023-03-09,38.117.200.190,Verde,Kite-Surfer,(011) 2149 3857
518.490.623-15,ana08@yahoo.com.br,Dg9epjTlI),2003-10-20,PB,2023-02-02,104.37.135.232,Marrom,Skatista,+55 (021) 4307 4419
891.603.475-20,araujoelisa@ig.co...,7I&8CYyU5Y,1958-01-03,MS,2023-02-17,39.216.170.1,Verde Escuro,Jogador De Futebol,71 8049-1602
517.264.980-85,ana-sophiajesus@b...,w9jTwVpj_r,2018-01-04,GO,2023-01-10,163.253.182.70,Amarelo,Jogador De Boliche,0800-940-3789
965.134.708-20,apires@bol.com.br,_3Wg*UTZPK,1931-06-27,CE,2023-03-12,171.143.246.230,Cinza,Analista De Sistemas,71 1719-4863
495.068.172-94,alana94@bol.com.br,IfV2bMYl(*,1930-06-26,ES,2023-03-04,32.46.82.32,Marrom,Catador De Materi...,11 7683-1500
026.358.719-30,alexiasilva@yahoo...,#aMFx)3wI1,1940-09-13,RO,2023-02-22,52.91.52.76,Azul,Baixista,(061) 3231-7250
360.785.294-47,araujoluna@bol.co...,_%HD@txu5W,1939-11-09,DF,2023-03-07,167.91.9.69,Violeta,Piloto Automobilí...,+55 (051) 2876 0562
704.391.285-79,alexia76@bol.com.br,@8(aMEorP_,1996-01-21,MA,2023-02-24,108.191.88.153,Verde Claro,Sacoleira,+55 (051) 1760 8904
