In [117]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [118]:
spark = (
    SparkSession.builder
    .appName("Curso de PySpark")
    .config("spark.sql.repl.eagerEval.enabled", True)
    .getOrCreate()
)

In [119]:
spark

In [120]:
path = "C:/Users/marlos.barros/Cursos/pyspark_na_pratica/DATASETS/LOGINS.parquet"

In [121]:
df = spark.read.format("parquet").load(path).select("email","senha","estado","cor_favorita","profissao")

In [122]:
df

email,senha,estado,cor_favorita,profissao
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som


### Separar o usuário e provedor de um e-mail
- Função: **F.split()** divide a string com base em um delimitador. Aqui, estamos separando o e-mail em duas partes usando o "@" como delimitador.
- Função: **getItem(0)** retorna a primeira parte da divisão, ou seja, o **usuario**.
- Função: **getItem(1)** retorna a segunda parte, ou seja, o **provedor**.
- Em seguida, estamos extraindo o nome do provedor (a parte antes do ponto **.**) com outra divisão.

In [123]:
(
    df
    .withColumn( "usuario", F.split(F.col("email"), '@').getItem(0))
    .withColumn("provedor", F.split(F.col("email"), "@").getItem(1))
    .withColumn("nome_provedor", F.split(F.col("provedor"), "\\.").getItem(0))
)

email,senha,estado,cor_favorita,profissao,usuario,provedor,nome_provedor
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,pedro-lucas53,gmail.com,gmail
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,rezendeisaac,hotmail.com,hotmail
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,felipepires,uol.com.br,uol
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,stellamoraes,bol.com.br,bol
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,wcarvalho,ig.com.br,ig
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,da-conceicaodavi-...,hotmail.com,hotmail
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,efreitas,bol.com.br,bol
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,wnunes,bol.com.br,bol
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,jribeiro,bol.com.br,bol
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,murilo05,gmail.com,gmail


### Concatenar colunas e literais
- Função: **F.concat()** concatena duas ou mais colunas.
- No primeiro exemplo, estamos concatenando a coluna **profissao** com **cor_favorita**.
- No segundo, concatenamos a coluna **estado** com o literal **' - Brasil'** usando **F.lit()**.

In [124]:
(
    df
    .withColumn("concat_profissao_cor_favorita", F.concat(F.col("profissao"),  F.col("cor_favorita")))
    .withColumn("concta_lit", F.concat(F.col("estado"), F.lit(" - Brasil")))
)

email,senha,estado,cor_favorita,profissao,concat_profissao_cor_favorita,concta_lit
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,Jogador De GolfeRoxo,RR - Brasil
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,Atleta De Arremes...,GO - Brasil
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,PapiloscopistaAzul,MG - Brasil
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,AeromoçaMarrom,AC - Brasil
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,FonoaudiólogoLaranja,AP - Brasil
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,TaxistaRosa,MG - Brasil
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,Produtor De Audio...,MG - Brasil
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,CadeirinhaAzul,SE - Brasil
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,GeólogoMarrom,PA - Brasil
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,Técnico De SomMarrom,MT - Brasil


### Transformações de caixa (lower, upper, capitalize)
- Função: **F.lower()** converte o texto para minúsculas.
- Função: **F.upper()** converte o texto para maiúsculas.
- Função: **F.initcap()** coloca a primeira letra de cada palavra em maiúscula.

In [125]:
(
    df
    .withColumn("lower_profissao", F.lower(F.col("profissao")))
    .withColumn("upper_profissao", F.upper(F.col("profissao")))
    .withColumn("initcap_profissao", F.initcap(F.col("profissao")))
)

email,senha,estado,cor_favorita,profissao,lower_profissao,upper_profissao,initcap_profissao
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,jogador de golfe,JOGADOR DE GOLFE,Jogador De Golfe
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,atleta de arremes...,ATLETA DE ARREMES...,Atleta De Arremes...
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,papiloscopista,PAPILOSCOPISTA,Papiloscopista
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,aeromoça,AEROMOÇA,Aeromoça
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,fonoaudiólogo,FONOAUDIÓLOGO,Fonoaudiólogo
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,taxista,TAXISTA,Taxista
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,produtor de audio...,PRODUTOR DE AUDIO...,Produtor De Audio...
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,cadeirinha,CADEIRINHA,Cadeirinha
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,geólogo,GEÓLOGO,Geólogo
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,técnico de som,TÉCNICO DE SOM,Técnico De Som


### Substrings
- Função: **F.substring()** extrai uma substring. No exemplo, estamos pegando os três primeiros caracteres da coluna **cor_favorita**.

In [126]:
(
    df
    .withColumn("substring", F.substring(F.col("cor_favorita"), 1, 3))
)

email,senha,estado,cor_favorita,profissao,substring
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,Rox
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,Cia
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,Azu
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,Mar
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,Lar
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,Ros
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,Bra
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,Azu
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,Mar
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,Mar


### Formatar strings com placeholders
- Função: **F.format_string()** formata a string utilizando placeholders, parecido com a função **printf** ou **str.format()** do Python. Aqui, o valor de **email** e **cor_favorita** são inseridos na mensagem.

In [142]:
(
    df
    .withColumn("format_string", F.format_string("Olá %s, sua cor favorita é %s", F.col("email"), F.col("cor_favorita"))).show(10, False)
)

+----------------------------------+----------+------+------------+---------------------------+---------------------------------------------------------------+
|email                             |senha     |estado|cor_favorita|profissao                  |format_string                                                  |
+----------------------------------+----------+------+------------+---------------------------+---------------------------------------------------------------+
|pedro-lucas53@gmail.com           |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |Olá pedro-lucas53@gmail.com, sua cor favorita é Roxo           |
|rezendeisaac@hotmail.com          |_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|Olá rezendeisaac@hotmail.com, sua cor favorita é Ciano         |
|felipepires@uol.com.br            |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |Olá felipepires@uol.com.br, sua cor favorita é Azul            |
|stellamoraes@bol.com.br           |mw0A

### Encontrar posição de substrings
- Função: **F.instr()** retorna a posição da primeira ocorrência de uma substring. No exemplo, estamos localizando a posição do **"@"** no e-mail.

In [128]:
(
    df
    .withColumn("instr_email", F.instr(F.col("email"), "@"))
)

email,senha,estado,cor_favorita,profissao,instr_email
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,14
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,13
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,12
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,13
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,10
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,23
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,9
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,7
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,9
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,9


### Tamanho de strings
- Função: **F.length()** retorna o comprimento da string na coluna **profissao**.

In [129]:
(
    df
    .withColumn("length_profissao", F.length(F.col("profissao")))
)

email,senha,estado,cor_favorita,profissao,length_profissao
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,16
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,27
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,14
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,8
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,13
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,7
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,24
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,10
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,7
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,14


### Repetir valores de uma coluna
- Função: **F.repeat()** repete o valor da coluna **estado** duas vezes.

In [130]:
(
    df
    .withColumn("repeat", F.repeat(F.col("estado"), 2))
)

email,senha,estado,cor_favorita,profissao,repeat
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,RRRR
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,GOGO
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,MGMG
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,ACAC
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,APAP
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,MGMG
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,MGMG
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,SESE
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,PAPA
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,MTMT


### Remover espaços em branco
- Função: **F.trim()** remove os espaços em branco no início e fim da string.

In [131]:
(
    df
    .withColumn("trim", F.trim(F.col("estado")))
)

email,senha,estado,cor_favorita,profissao,trim
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,RR
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,GO
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,MG
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,AC
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,AP
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,MG
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,MG
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,SE
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,PA
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,MT


### Preencher com caracteres à esquerda ou à direita
- Função: **F.lpad()** preenche a string à esquerda até o comprimento especificado (10, neste caso), usando o caractere **">"**.
- Função: **F.rpad()** preenche a string à direita até o comprimento especificado, usando o caractere **"<"**.

In [132]:
(
    df
    .withColumn("lpad", F.lpad(F.col("cor_favorita"), 10, ">"))
    .withColumn("rpad", F.rpad(F.col("cor_favorita"), 10, "<"))
)

email,senha,estado,cor_favorita,profissao,lpad,rpad
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,>>>>>>Roxo,Roxo<<<<<<
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,>>>>>Ciano,Ciano<<<<<
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,>>>>>>Azul,Azul<<<<<<
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,>>>>Marrom,Marrom<<<<
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,>>>Laranja,Laranja<<<
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,>>>>>>Rosa,Rosa<<<<<<
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,>>>>Branco,Branco<<<<
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,>>>>>>Azul,Azul<<<<<<
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,>>>>Marrom,Marrom<<<<
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,>>>>Marrom,Marrom<<<<
