In [1]:
#Cria sessão Spark
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
import pyspark.sql.functions as F

In [2]:
#Instância Spark
spark = SparkSession.builder.appName('Curso Pyspark') \
         .config('spark.sql.repl.eagerEval.enabled', True) \
         .getOrCreate()      

In [3]:
# lendo um arquivo parquet
df = spark.read.parquet('./DATASETS/LOGINS.parquet').select('email', 'senha', 'estado', 'cor_favorita', 'profissao')

In [10]:
(
    df
    .withColumn('usuario', F.split(df.email, '@').getItem(0))
    .withColumn('provedor', F.split(df.email, '@').getItem(1))
    .withColumn('nome_provedor', F.split(F.col('provedor'), '\.').getItem(0))
    # no caso do ponto, ele é um caracter de escape, neste caso temos que usar a barra invertida (\) antes do ponto (.)

    .show(20, False)
)

+----------------------------------+----------+------+------------+---------------------------+----------------------+-----------+-------------+
|email                             |senha     |estado|cor_favorita|profissao                  |usuario               |provedor   |nome_provedor|
+----------------------------------+----------+------+------------+---------------------------+----------------------+-----------+-------------+
|pedro-lucas53@gmail.com           |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |pedro-lucas53         |gmail.com  |gmail        |
|rezendeisaac@hotmail.com          |_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|rezendeisaac          |hotmail.com|hotmail      |
|felipepires@uol.com.br            |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |felipepires           |uol.com.br |uol          |
|stellamoraes@bol.com.br           |mw0AWYAs#s|AC    |Marrom      |Aeromoça                   |stellamoraes          |bol.com.br |

In [12]:
# função de concatenar strings

(
    df
    .withColumn('concat', F.concat(F.col('profissao'), F.col('cor_favorita')))
    .withColumn('concat', F.concat(F.col('estado'), F.lit(' - Brasil')))

)

email,senha,estado,cor_favorita,profissao,concat
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,RR - Brasil
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,GO - Brasil
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,MG - Brasil
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,AC - Brasil
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,AP - Brasil
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,MG - Brasil
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,MG - Brasil
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,SE - Brasil
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,PA - Brasil
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,MT - Brasil


In [14]:
# Funções letras maiusculas e minusculas

(
    df
    .withColumn('lower', F.lower(F.col('profissao')))
    .withColumn('upper', F.upper(F.col('cor_favorita')))
    .withColumn('initcap', F.initcap(F.col('lower')))

)

email,senha,estado,cor_favorita,profissao,lower,upper,initcap
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,jogador de golfe,ROXO,Jogador De Golfe
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,atleta de arremes...,CIANO,Atleta De Arremes...
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,papiloscopista,AZUL,Papiloscopista
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,aeromoça,MARROM,Aeromoça
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,fonoaudiólogo,LARANJA,Fonoaudiólogo
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,taxista,ROSA,Taxista
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,produtor de audio...,BRANCO,Produtor De Audio...
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,cadeirinha,AZUL,Cadeirinha
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,geólogo,MARROM,Geólogo
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,técnico de som,MARROM,Técnico De Som


In [18]:
# substring pegar partes de uma string e criar uma nova coluna
(
    df
    .withColumn('substring', F.substring(F.col('cor_favorita'), 1, 3))

)

email,senha,estado,cor_favorita,profissao,substring
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,Rox
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,Cia
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,Azu
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,Mar
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,Lar
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,Ros
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,Bra
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,Azu
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,Mar
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,Mar


In [21]:
# Função para formatar string
(
    df
    .drop('senha', 'estado', 'profissao')
    .withColumn('format_string', F.format_string('Olá %s, sua cor favorita é %s', F.split(df.email, '@').getItem(0), df.cor_favorita))
    .show(20, False)
)


+----------------------------------+------------+---------------------------------------------------+
|email                             |cor_favorita|format_string                                      |
+----------------------------------+------------+---------------------------------------------------+
|pedro-lucas53@gmail.com           |Roxo        |Olá pedro-lucas53, sua cor favorita é Roxo         |
|rezendeisaac@hotmail.com          |Ciano       |Olá rezendeisaac, sua cor favorita é Ciano         |
|felipepires@uol.com.br            |Azul        |Olá felipepires, sua cor favorita é Azul           |
|stellamoraes@bol.com.br           |Marrom      |Olá stellamoraes, sua cor favorita é Marrom        |
|wcarvalho@ig.com.br               |Laranja     |Olá wcarvalho, sua cor favorita é Laranja          |
|da-conceicaodavi-lucas@hotmail.com|Rosa        |Olá da-conceicaodavi-lucas, sua cor favorita é Rosa|
|efreitas@bol.com.br               |Branco      |Olá efreitas, sua cor favorita é 

In [23]:
# função para retornar a posição de uma determinada letra

(
    df
    .withColumn('instr', F.instr(df.email, '@') )
    .show(20, False)
)

+----------------------------------+----------+------+------------+---------------------------+-----+
|email                             |senha     |estado|cor_favorita|profissao                  |instr|
+----------------------------------+----------+------+------------+---------------------------+-----+
|pedro-lucas53@gmail.com           |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |14   |
|rezendeisaac@hotmail.com          |_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|13   |
|felipepires@uol.com.br            |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |12   |
|stellamoraes@bol.com.br           |mw0AWYAs#s|AC    |Marrom      |Aeromoça                   |13   |
|wcarvalho@ig.com.br               |pGD%!2Pq5X|AP    |Laranja     |Fonoaudiólogo              |10   |
|da-conceicaodavi-lucas@hotmail.com|uhBbFxPA&9|MG    |Rosa        |Taxista                    |23   |
|efreitas@bol.com.br               |s#q9VZt&xl|MG    |Branco      |Produtor De Aud

In [24]:
# função para retornar o tamanho (quantos caracteres)

(
    df
    .withColumn('length', F.length(df.profissao))
    .show(20, False)
)

+----------------------------------+----------+------+------------+---------------------------+------+
|email                             |senha     |estado|cor_favorita|profissao                  |length|
+----------------------------------+----------+------+------------+---------------------------+------+
|pedro-lucas53@gmail.com           |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |16    |
|rezendeisaac@hotmail.com          |_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|27    |
|felipepires@uol.com.br            |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |14    |
|stellamoraes@bol.com.br           |mw0AWYAs#s|AC    |Marrom      |Aeromoça                   |8     |
|wcarvalho@ig.com.br               |pGD%!2Pq5X|AP    |Laranja     |Fonoaudiólogo              |13    |
|da-conceicaodavi-lucas@hotmail.com|uhBbFxPA&9|MG    |Rosa        |Taxista                    |7     |
|efreitas@bol.com.br               |s#q9VZt&xl|MG    |Branco      |Produt

In [25]:
# função para repetir o valor de uma coluna por uma quantidade de vezes

(
    df
    .withColumn('repeat', F.repeat(df.estado, 5))
    .show(20, False)
)

+----------------------------------+----------+------+------------+---------------------------+----------+
|email                             |senha     |estado|cor_favorita|profissao                  |repeat    |
+----------------------------------+----------+------+------------+---------------------------+----------+
|pedro-lucas53@gmail.com           |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |RRRRRRRRRR|
|rezendeisaac@hotmail.com          |_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|GOGOGOGOGO|
|felipepires@uol.com.br            |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |MGMGMGMGMG|
|stellamoraes@bol.com.br           |mw0AWYAs#s|AC    |Marrom      |Aeromoça                   |ACACACACAC|
|wcarvalho@ig.com.br               |pGD%!2Pq5X|AP    |Laranja     |Fonoaudiólogo              |APAPAPAPAP|
|da-conceicaodavi-lucas@hotmail.com|uhBbFxPA&9|MG    |Rosa        |Taxista                    |MGMGMGMGMG|
|efreitas@bol.com.br               |s

In [30]:
# função para cortar excesso de espacos em uma strings

(
    df
    .withColumn('concat', F.concat(F.lit('     '), df.estado, F.lit('      ')))
    .withColumn('trim', F.trim(F.col('concat')))
    .show(20, False)
)

+----------------------------------+----------+------+------------+---------------------------+-------------+----+
|email                             |senha     |estado|cor_favorita|profissao                  |concat       |trim|
+----------------------------------+----------+------+------------+---------------------------+-------------+----+
|pedro-lucas53@gmail.com           |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |     RR      |RR  |
|rezendeisaac@hotmail.com          |_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|     GO      |GO  |
|felipepires@uol.com.br            |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |     MG      |MG  |
|stellamoraes@bol.com.br           |mw0AWYAs#s|AC    |Marrom      |Aeromoça                   |     AC      |AC  |
|wcarvalho@ig.com.br               |pGD%!2Pq5X|AP    |Laranja     |Fonoaudiólogo              |     AP      |AP  |
|da-conceicaodavi-lucas@hotmail.com|uhBbFxPA&9|MG    |Rosa        |Taxista      

In [33]:
# função para preenchimento a esquerda ou a direita

(
    df
    .withColumn('lpad', F.lpad(df.cor_favorita, 10, '>'))
    .withColumn('rpad', F.rpad(df.cor_favorita, 10, '>'))
    .show(20, False)
)

+----------------------------------+----------+------+------------+---------------------------+----------+----------+
|email                             |senha     |estado|cor_favorita|profissao                  |lpad      |rpad      |
+----------------------------------+----------+------+------------+---------------------------+----------+----------+
|pedro-lucas53@gmail.com           |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |>>>>>>Roxo|Roxo>>>>>>|
|rezendeisaac@hotmail.com          |_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|>>>>>Ciano|Ciano>>>>>|
|felipepires@uol.com.br            |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |>>>>>>Azul|Azul>>>>>>|
|stellamoraes@bol.com.br           |mw0AWYAs#s|AC    |Marrom      |Aeromoça                   |>>>>Marrom|Marrom>>>>|
|wcarvalho@ig.com.br               |pGD%!2Pq5X|AP    |Laranja     |Fonoaudiólogo              |>>>Laranja|Laranja>>>|
|da-conceicaodavi-lucas@hotmail.com|uhBbFxPA&9|MG    |Ro