In [1]:
# Importando as bibliotecas utilizadas
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [10]:
# Criando a sessão, nomeando e configurando para mostrar tabela do tipo pandas 
spark = (
    SparkSession.builder
    .appName('PySpark - Manipulaçao de String')
    .config('spark.sql.repl.eagerEval.enabled', True)
    .getOrCreate()
)

In [11]:
# Carregando um arquivo PARQUET para dataframe, somentende algumas colunas
df = spark.read.parquet('./DATASETS/LOGINS.parquet').select('email', 'senha', 'estado', 'cor_favorita', 'profissao')

In [12]:
df

email,senha,estado,cor_favorita,profissao
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som


In [32]:
# Criando novas colunas usando a função split
(
    df
    .withColumn('usuario', F.split(F.col('email'), '@').getItem(0))
    .withColumn('provedor', F.split(F.split(F.col('email'), '@').getItem(1), '\.').getItem(0))
)

email,senha,estado,cor_favorita,profissao,usuario,provedor
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,pedro-lucas53,gmail
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,rezendeisaac,hotmail
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,felipepires,uol
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,stellamoraes,bol
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,wcarvalho,ig
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,da-conceicaodavi-...,hotmail
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,efreitas,bol
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,wnunes,bol
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,jribeiro,bol
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,murilo05,gmail


In [31]:
# Concatenando duas colunas
(
    df
    .withColumn('cor_estado', F.concat(F.col('cor_favorita'), F.lit(' '), F.col('estado')))
)

email,senha,estado,cor_favorita,profissao,cor_estado
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,Roxo RR
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,Ciano GO
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,Azul MG
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,Marrom AC
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,Laranja AP
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,Rosa MG
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,Branco MG
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,Azul SE
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,Marrom PA
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,Marrom MT


In [36]:
# Transformando as letras em maiúsculas ou minúsculas
(
    df
    .withColumn('cor_minuscula', F.lower(F.col('cor_favorita')))
    .withColumn('cor_maiuscula', F.upper(F.col('cor_favorita')))
    .withColumn('cor_initcap', F.initcap(F.col('cor_minuscula')))
)

email,senha,estado,cor_favorita,profissao,cor_minuscula,cor_maiuscula,cor_initcap
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,roxo,ROXO,Roxo
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,ciano,CIANO,Ciano
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,azul,AZUL,Azul
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,marrom,MARROM,Marrom
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,laranja,LARANJA,Laranja
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,rosa,ROSA,Rosa
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,branco,BRANCO,Branco
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,azul,AZUL,Azul
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,marrom,MARROM,Marrom
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,marrom,MARROM,Marrom


In [61]:
# Substring 
(
    df
    .withColumn('substring', F.substring(F.col('cor_favorita'), 2, 4))
)

email,senha,estado,cor_favorita,profissao,substring
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,oxo
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,iano
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,zul
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,arro
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,aran
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,osa
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,ranc
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,zul
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,arro
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,arro


In [64]:
# Formatar String
(
    df
    .withColumn('string_formatada', F.format_string('Seu estado é %s e sua cor é %s', F.col('estado'), F.col('cor_favorita')))
    .select(F.col('string_formatada'))
    .show(10, False)
)

+-----------------------------------+
|string_formatada                   |
+-----------------------------------+
|Seu estado é RR e sua cor é Roxo   |
|Seu estado é GO e sua cor é Ciano  |
|Seu estado é MG e sua cor é Azul   |
|Seu estado é AC e sua cor é Marrom |
|Seu estado é AP e sua cor é Laranja|
|Seu estado é MG e sua cor é Rosa   |
|Seu estado é MG e sua cor é Branco |
|Seu estado é SE e sua cor é Azul   |
|Seu estado é PA e sua cor é Marrom |
|Seu estado é MT e sua cor é Marrom |
+-----------------------------------+
only showing top 10 rows



In [65]:
# Posição da letra ou substring
(
    df
    .withColumn('posicao_arroba', F.instr(F.col('email'), '@'))
    .withColumn('posicao_gmail', F.instr(F.col('email'), 'gmail')) # 0 é não encontrado, começa no 1
)

email,senha,estado,cor_favorita,profissao,posicao_arroba,posicao_gmail
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,14,15
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,13,0
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,12,0
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,13,0
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,10,0
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,23,0
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,9,0
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,7,0
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,9,0
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,9,10


In [55]:
# Contagem de caracteres
(
    df
    .withColumn('tamanho_email', F.length(F.col('email')))
)

email,senha,estado,cor_favorita,profissao,tamanho_email
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,23
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,24
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,22
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,23
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,19
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,34
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,19
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,17
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,19
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,18


In [69]:
# Repetição
(
    df
    .withColumn('repetir_estado', F.repeat(F.col('estado'), 5))
)

email,senha,estado,cor_favorita,profissao,repetir_estado
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,RRRRRRRRRR
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,GOGOGOGOGO
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,MGMGMGMGMG
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,ACACACACAC
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,APAPAPAPAP
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,MGMGMGMGMG
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,MGMGMGMGMG
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,SESESESESE
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,PAPAPAPAPA
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,MTMTMTMTMT


In [79]:
# Podar
(
    df
    .withColumn('espacos', F.concat(F.lit('     '), F.col('estado'), F.lit('     ')))
    .withColumn('podado', F.trim(F.col('espacos')))
    .select(F.col('estado'), F.col('espacos'), F.col('podado'))
    .show(10, False)
)

+------+------------+------+
|estado|espacos     |podado|
+------+------------+------+
|RR    |     RR     |RR    |
|GO    |     GO     |GO    |
|MG    |     MG     |MG    |
|AC    |     AC     |AC    |
|AP    |     AP     |AP    |
|MG    |     MG     |MG    |
|MG    |     MG     |MG    |
|SE    |     SE     |SE    |
|PA    |     PA     |PA    |
|MT    |     MT     |MT    |
+------+------------+------+
only showing top 10 rows



In [84]:
# Preenchimento a direita e a esquerda 
(
    df
    .withColumn('esquerda', F.lpad(F.col('cor_favorita'), 10, '*'))
    .withColumn('direita', F.rpad(F.col('cor_favorita'), 10, '*'))
)

email,senha,estado,cor_favorita,profissao,esquerda,direita
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe,******Roxo,Roxo******
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...,*****Ciano,Ciano*****
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista,******Azul,Azul******
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça,****Marrom,Marrom****
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo,***Laranja,Laranja***
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista,******Rosa,Rosa******
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...,****Branco,Branco****
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha,******Azul,Azul******
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo,****Marrom,Marrom****
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som,****Marrom,Marrom****
