## Resumo PySpark

#### Primeiros passos: Instalação e importação da biblioteca e módulos.

Caso não se tenha instalado o PySpark basta executar o comando:\
`!pip install pyspark==3.3.2`  (o ==3.3.2 é opcional)

Após a instalação da biblioteca iremos importar para o kernel e em seguida criar a sessão do spark como mostra o código abaixo:

Finalizamos o código com `spark`.

In [67]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

spark = (
    SparkSession.builder.appName('Curso PySpark')
    .config('spark.sql.repl.eagerEval.enabled',True)
    .getOrCreate()
)

spark

#### Importando dados e criando DataFrames

Para isso o comando é bem simples, basta criar a variável DataFrame `df` e em seguida aplicar o comando:

`df = spark.read` + `.csv`  |  `.txt`  |  `.parquet`  | etc... depende do tipo de arquivo que estará sendo utilizado na sessão.\
O código completo ficaria mais ou menos assim:

`df = spark.read.csv("Caminho do Arquivo + .tipo arquivo"`

In [28]:
df = spark.read.parquet('C:/Users/Kimura/Desktop/Curso PySpark/DATASETS/DATASETS/LOGINS.parquet')

### Comandos de checagens básicas do DataFrame

`df.show()` --> é um tipo de print da tabela em um formato mais "cru" (podemos usar o `df` apenas); \
`df.printSchema()` --> esse é um comando que traz informações das colunas, tipo do dado e existência de dados nulos; \
`df.count()` --> contagem da quantidade de linhas do DF. \
`df.describe()` --> igual ao describe do pandas, traz algumas informações estatísticas do DF; \
`df.columns` --> traz os nomes das colunas; \
`df.dtypes` --> traz os nomes das colunas e o seu tipo de dado.



In [40]:
df.show()

+--------------+--------------------+----------+------------------+------+-------------+---------------+------------+--------------------+-------------------+
|           cpf|               email|     senha|data_de_nascimento|estado|data_cadastro|           ipv4|cor_favorita|           profissao|           telefone|
+--------------+--------------------+----------+------------------+------+-------------+---------------+------------+--------------------+-------------------+
|981.507.362-12|pedro-lucas53@gma...|+7^7E%xFBc|        2006-12-18|    RR|   2023-02-26| 99.107.250.210|        Roxo|    Jogador De Golfe|       31 7785-4046|
|493.705.168-75|rezendeisaac@hotm...|_O_2GRnGOe|        1992-06-17|    GO|   2023-02-16|  197.11.26.213|       Ciano|Atleta De Arremes...|    (031) 0803-6753|
|398.471.625-73|felipepires@uol.c...|*Aw5EOAvy9|        1921-11-11|    MG|   2023-01-02|   181.90.63.58|        Azul|      Papiloscopista|       11 9674-0553|
|092.618.354-06|stellamoraes@bol....|mw0AWYAs#

In [42]:
df.count()

1000

In [44]:
df.columns

['cpf',
 'email',
 'senha',
 'data_de_nascimento',
 'estado',
 'data_cadastro',
 'ipv4',
 'cor_favorita',
 'profissao',
 'telefone']

In [46]:
df.printSchema()

root
 |-- cpf: string (nullable = true)
 |-- email: string (nullable = true)
 |-- senha: string (nullable = true)
 |-- data_de_nascimento: date (nullable = true)
 |-- estado: string (nullable = true)
 |-- data_cadastro: date (nullable = true)
 |-- ipv4: string (nullable = true)
 |-- cor_favorita: string (nullable = true)
 |-- profissao: string (nullable = true)
 |-- telefone: string (nullable = true)



In [55]:
df.dtypes

[('cpf', 'string'),
 ('email', 'string'),
 ('senha', 'string'),
 ('data_de_nascimento', 'date'),
 ('estado', 'string'),
 ('data_cadastro', 'date'),
 ('ipv4', 'string'),
 ('cor_favorita', 'string'),
 ('profissao', 'string'),
 ('telefone', 'string')]

In [59]:
df.describe()

summary,cpf,email,senha,estado,ipv4,cor_favorita,profissao,telefone
count,1000,1000,1000,1000,1000,1000,1000,1000
mean,,,,,,,,
stddev,,,,,,,,
min,012.469.857-30,aaragao@hotmail.com,!$A)4EAxE$,AC,1.122.154.219,Amarelo,Acompanhante,(011) 0026-5893
max,987.620.341-03,zpinto@yahoo.com.br,zm1eLH9t%o,TO,99.31.171.138,Violeta,Árbitro E Mediador,84 9747-8522


## Seleção de Colunas do DataFrame

Comando básico é o `.select(coluna1, coluna2, coluna3, ...)`\
O que teremos de diferente aqui são as variações de chamada de colunas.

OBS: sempre mantenha um padrão de uso no código, as formas mais eficazes são:\
`df.select(df.coluna1, df.coluna2)`\
`df.select(F.col('coluna1', 'coluna2')`

In [85]:
df.select('email','ipv4')

email,ipv4
pedro-lucas53@gma...,99.107.250.210
rezendeisaac@hotm...,197.11.26.213
felipepires@uol.c...,181.90.63.58
stellamoraes@bol....,26.121.127.94
wcarvalho@ig.com.br,76.184.52.163
da-conceicaodavi-...,192.93.0.24
efreitas@bol.com.br,76.251.188.148
wnunes@bol.com.br,139.196.176.154
jribeiro@bol.com.br,71.22.224.5
murilo05@gmail.com,136.54.123.165


In [76]:
df.select(df.email, df.ipv4)

email,ipv4
pedro-lucas53@gma...,99.107.250.210
rezendeisaac@hotm...,197.11.26.213
felipepires@uol.c...,181.90.63.58
stellamoraes@bol....,26.121.127.94
wcarvalho@ig.com.br,76.184.52.163
da-conceicaodavi-...,192.93.0.24
efreitas@bol.com.br,76.251.188.148
wnunes@bol.com.br,139.196.176.154
jribeiro@bol.com.br,71.22.224.5
murilo05@gmail.com,136.54.123.165


In [78]:
df.select(df['email'], df['ipv4'])

email,ipv4
pedro-lucas53@gma...,99.107.250.210
rezendeisaac@hotm...,197.11.26.213
felipepires@uol.c...,181.90.63.58
stellamoraes@bol....,26.121.127.94
wcarvalho@ig.com.br,76.184.52.163
da-conceicaodavi-...,192.93.0.24
efreitas@bol.com.br,76.251.188.148
wnunes@bol.com.br,139.196.176.154
jribeiro@bol.com.br,71.22.224.5
murilo05@gmail.com,136.54.123.165


In [82]:
df.select(F.col('email'), F.col('ipv4'))

email,ipv4
pedro-lucas53@gma...,99.107.250.210
rezendeisaac@hotm...,197.11.26.213
felipepires@uol.c...,181.90.63.58
stellamoraes@bol....,26.121.127.94
wcarvalho@ig.com.br,76.184.52.163
da-conceicaodavi-...,192.93.0.24
efreitas@bol.com.br,76.251.188.148
wnunes@bol.com.br,139.196.176.154
jribeiro@bol.com.br,71.22.224.5
murilo05@gmail.com,136.54.123.165


### Filter

Sintaxe: `df.filter(CÓDIGO DE FILTRAGEM)`

- `df.filter("estado == 'MG'")`
- `df.filter(df.estado == "MG")`

Podemos utilizar os condicionais AND e OR:
- AND = `&`
- OR = `|`

Ex.:
- `df.filter((df.estado == "MG") & (df.cor_favorita == 'Azul'))`
- `df.filter((df.cor_favorita == 'Ciano') | (df.cor_favorita == 'Azul'))`

`df.filter` = `df.where`

Quando temos vários OR podemos substituir por `isin`:\
`df.filter(df.cor_favorita.isin('Ciano','Azul'))`

OBS: por uma questão de boa prática, atenção com a sintaxe entre parenteses + identação

In [107]:
df.filter(df.estado == "MG")

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052
348.215.690-51,omoreira@bol.com.br,!8maDkdVnY,2008-10-24,MG,2023-02-20,177.2.242.176,Verde Escuro,Adestrador De Ani...,+55 61 3217-9930
137.964.520-43,natalia72@ig.com.br,i71MdCj2*^,1939-06-26,MG,2023-02-03,141.28.225.40,Branco,Espeleologista,(041) 8471 8007
790.482.315-23,noaharagao@hotmai...,#i_LhbOX52,1922-03-19,MG,2023-01-25,170.188.237.119,Preto,Empacotador,+55 (031) 9156-3903
872.041.936-87,fsilva@yahoo.com.br,B+E9r_CkU^,1926-05-20,MG,2023-01-04,220.1.100.77,Marrom,Mecânico De Vôo,(031) 9834-4568
832.714.650-53,ijesus@gmail.com,JLr@1Mlr!Z,1983-05-21,MG,2023-01-25,84.142.120.51,Roxo,Ministro,81 9463-7374
529.610.873-68,barbosajuliana@bo...,$!3Td!uO%^,2016-09-03,MG,2023-02-15,85.36.21.190,Amarelo,Lenhador,(061) 3713 1708
198.256.734-19,valentina08@ig.co...,@BJV)ATd!8,1962-01-11,MG,2023-02-23,4.122.66.211,Verde,Atuário,71 4313-7632


In [120]:
df.filter((df.estado == "MG") & (df.cor_favorita == "Azul")) # AND

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
085.427.631-90,pedro-lucas79@yah...,B)9P4q+tLR,1944-03-01,MG,2023-01-06,171.175.90.138,Azul,Tecnólogo Em Espo...,+55 (081) 4438 9837
940.578.623-74,fernandolopes@yah...,DE5Il)Thu*,1945-04-04,MG,2023-03-09,211.163.192.56,Azul,Tenente,0300-025-4031


In [122]:
df.filter((df.estado == "MG") | (df.cor_favorita == "Azul")) # OR

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052
475.698.032-56,wnunes@bol.com.br,_8az1W%n7g,1996-05-12,SE,2023-02-04,139.196.176.154,Azul,Cadeirinha,(071) 1640-3388
348.215.690-51,omoreira@bol.com.br,!8maDkdVnY,2008-10-24,MG,2023-02-20,177.2.242.176,Verde Escuro,Adestrador De Ani...,+55 61 3217-9930
498.071.356-48,davi47@bol.com.br,$XJ)MDIUj7,1985-08-25,MA,2023-03-10,211.146.130.224,Azul,Lenhador,0800 449 6212
472.169.308-78,fnascimento@gmail...,tg4*MbRT%),1916-10-13,SE,2023-01-26,170.27.50.118,Azul,Panificador/Padeiro,+55 81 3465 6714
479.305.682-29,ebarros@bol.com.br,@RJR#F9i40,2022-11-28,RO,2023-02-05,25.193.96.93,Azul,Esteticista,51 8923 1493
859.730.624-65,jesusjoao-pedro@b...,e6GTOgSu&x,1934-12-10,RS,2023-03-14,166.167.217.88,Azul,Especialista Em A...,(061) 5783-0665
876.534.029-92,pietrarocha@hotma...,YqG8G82#M(,2018-09-20,BA,2023-02-07,7.65.90.115,Azul,General,81 2134-1812


In [127]:
df.filter((df.estado == "MG" ) & ((df.cor_favorita == "Azul") | (df.cor_favorita == "Ciano"))) # Atenção com os parênteres

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
085.427.631-90,pedro-lucas79@yah...,B)9P4q+tLR,1944-03-01,MG,2023-01-06,171.175.90.138,Azul,Tecnólogo Em Espo...,+55 (081) 4438 9837
940.578.623-74,fernandolopes@yah...,DE5Il)Thu*,1945-04-04,MG,2023-03-09,211.163.192.56,Azul,Tenente,0300-025-4031
279.806.354-00,vianaigor@uol.com.br,y52dV55x*c,1947-11-30,MG,2023-02-28,223.84.98.58,Ciano,Engenheiro Aeroná...,11 8011-2481


In [131]:
df.where(df.cor_favorita.isin('Ciano','Azul')).filter(df.estado == "MG")

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
085.427.631-90,pedro-lucas79@yah...,B)9P4q+tLR,1944-03-01,MG,2023-01-06,171.175.90.138,Azul,Tecnólogo Em Espo...,+55 (081) 4438 9837
940.578.623-74,fernandolopes@yah...,DE5Il)Thu*,1945-04-04,MG,2023-03-09,211.163.192.56,Azul,Tenente,0300-025-4031
279.806.354-00,vianaigor@uol.com.br,y52dV55x*c,1947-11-30,MG,2023-02-28,223.84.98.58,Ciano,Engenheiro Aeroná...,11 8011-2481


In [134]:
(
    df
    .filter(F.col('estado') == 'MG')           # cada coluna, 1 filter
    .filter(F.col('cor_favorita') == 'Azul')   # cada coluna, 1 filter
    .filter(F.col('profissao') == 'Tenente')   # cada coluna, 1 filter
) 

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
940.578.623-74,fernandolopes@yah...,DE5Il)Thu*,1945-04-04,MG,2023-03-09,211.163.192.56,Azul,Tenente,0300-025-4031


### Adicionando colunas no DataFrame

Comando base para adicionar coluna:\
`withColumn` + `nome da coluna nova` + `valor da coluna`

`df.withColumn('pais', F.lit('Brasil'))`\
`df.withColumn('pais', F.lit('Brasil')).withColumn('Sigla_estado', F.col('estado'))`

Podemos usar o CASE WHEN:\
`.withColumn('Nome_Estados', F.when(df.estado == 'AC', 'Acre')`\
`.withColumn('flag_rosa', F.when(F.col('cor_favorita') == 'Rosa',1).otherwise(0))`

`.otherwise(0)` --> +- um se não da operação CASE WHEN


In [152]:
df.withColumn('pais', F.lit('Brasil'))

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone,pais
981.507.362-12,pedro-lucas53@gma...,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046,Brasil
493.705.168-75,rezendeisaac@hotm...,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremes...,(031) 0803-6753,Brasil
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553,Brasil
092.618.354-06,stellamoraes@bol....,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177,Brasil
509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468,Brasil
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691,Brasil
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052,Brasil
475.698.032-56,wnunes@bol.com.br,_8az1W%n7g,1996-05-12,SE,2023-02-04,139.196.176.154,Azul,Cadeirinha,(071) 1640-3388,Brasil
217.639.540-99,jribeiro@bol.com.br,MEf1X7fj_0,2021-10-05,PA,2023-03-02,71.22.224.5,Marrom,Geólogo,21 1432 4092,Brasil
261.938.750-77,murilo05@gmail.com,Te&gO7GkKs,1917-01-05,MT,2023-02-21,136.54.123.165,Marrom,Técnico De Som,+55 (084) 5878-3346,Brasil


In [155]:
df.withColumn('pais', F.lit('Brasil')).withColumn('Sigla_estado', F.col('estado'))

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone,pais,Sigla_estado
981.507.362-12,pedro-lucas53@gma...,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046,Brasil,RR
493.705.168-75,rezendeisaac@hotm...,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremes...,(031) 0803-6753,Brasil,GO
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553,Brasil,MG
092.618.354-06,stellamoraes@bol....,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177,Brasil,AC
509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468,Brasil,AP
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691,Brasil,MG
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052,Brasil,MG
475.698.032-56,wnunes@bol.com.br,_8az1W%n7g,1996-05-12,SE,2023-02-04,139.196.176.154,Azul,Cadeirinha,(071) 1640-3388,Brasil,SE
217.639.540-99,jribeiro@bol.com.br,MEf1X7fj_0,2021-10-05,PA,2023-03-02,71.22.224.5,Marrom,Geólogo,21 1432 4092,Brasil,PA
261.938.750-77,murilo05@gmail.com,Te&gO7GkKs,1917-01-05,MT,2023-02-21,136.54.123.165,Marrom,Técnico De Som,+55 (084) 5878-3346,Brasil,MT


In [158]:
(
    df
    .withColumn('Nome_Estados', F.when(df.estado == 'AC', 'Acre')
                                 .when(df['estado'] == 'AL', 'Alagoas')
                                 .when(F.col('estado') == 'AP', 'Amapá')
                                 .when(F.col('estado') == 'GO', 'Goiás')
                                 .otherwise('Outros Estados')
               )
    .withColumn('flag_rosa', F.when(F.col('cor_favorita') == 'Rosa',1).otherwise(0))
)

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone,Nome_Estados,flag_rosa
981.507.362-12,pedro-lucas53@gma...,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046,Outros Estados,0
493.705.168-75,rezendeisaac@hotm...,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremes...,(031) 0803-6753,Goiás,0
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553,Outros Estados,0
092.618.354-06,stellamoraes@bol....,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177,Acre,0
509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468,Amapá,0
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691,Outros Estados,1
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052,Outros Estados,0
475.698.032-56,wnunes@bol.com.br,_8az1W%n7g,1996-05-12,SE,2023-02-04,139.196.176.154,Azul,Cadeirinha,(071) 1640-3388,Outros Estados,0
217.639.540-99,jribeiro@bol.com.br,MEf1X7fj_0,2021-10-05,PA,2023-03-02,71.22.224.5,Marrom,Geólogo,21 1432 4092,Outros Estados,0
261.938.750-77,murilo05@gmail.com,Te&gO7GkKs,1917-01-05,MT,2023-02-21,136.54.123.165,Marrom,Técnico De Som,+55 (084) 5878-3346,Outros Estados,0


### Manipulação de Strings

- SPLIT -> separa a string e aloca o resultado em uma lista usando como parâmetro um str: `.withColumn('email_separado', F.split(df_01.email, '@'))`
- CONCAT -> junta dois trechos de STR: `.withColumn('concat', F.concat(df_01.profissao, df_01.cor_favorita))`
- LOWER -> todos caracteres minusculas: `.withColumn('lower', F.lower(df.estado))`
- UPPER -> todos caracteres maiúsculas: `.withColumn('upper', F.upper(df.cor_favorita))`
- INIT_CAP -> primeira letra maiúscula: `.withColumn('init_cap', F.initcap(F.col('lower')))`
- SUBSTRING -> possibilita um recorte dos valores da string: `.withColumn('substring', F.substring(df_01.cor_favorita,1,3))`
- FORMAT_STRING -> é IGUAL ao `.format` do python, única diferença é que utilizamos essa notação com o `%d`,`%s`,`%i`, etc...:
    - `.withColumn('format_string', F.format_string('Olá %s, sua cor favorita é %s',df_01.email, df_01.cor_favorita))`
- INSTR -> mostra o índice que o caractere se encontra: `.withColumn('instr', F.instr(df_01.email, '@'))`
- LENGTH -> tamanha da string: `.withColumn('tamanho_str', F.length(df_01.profissao))`
- REPEAT -> repete o valor da string n vezes: `.withColumn('repete', F.repeat(df_01.estado, 3))`
- TRIM -> elimina os espaços iniciais e finais na string: `.withColumn('Retira_Espaço', F.trim(df_01.estado))`
- LPAD & RPAD -> determina um valor fixo para a string, caso o valor importado não preencha por completo, ele completa com algum outro caractere:
    - `.withColumn('preenche_esqueda', F.lpad(df_01.cor_favorita,10,':'))`
    - `.withColumn('preenche_direita', F.rpad(df_01.cor_favorita,10,':'))`


In [162]:
df_01 = df.select('email','senha','estado','cor_favorita','profissao')
df_01

email,senha,estado,cor_favorita,profissao
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som


In [175]:
(
    df_01
    .withColumn('email_separado', F.split(df_01.email, '@'))
    .withColumn('usuario', F.split(df_01.email, '@').getItem(0))
    .withColumn('provedor', F.split(df_01.email, '@').getItem(1))
    .withColumn('nome_provedor', F.split(F.col('provedor'), '\.').getItem(0))
    .show(5,False)  
)

+------------------------+----------+------+------------+---------------------------+---------------------------+-------------+-----------+-------------+
|email                   |senha     |estado|cor_favorita|profissao                  |email_separado             |usuario      |provedor   |nome_provedor|
+------------------------+----------+------+------------+---------------------------+---------------------------+-------------+-----------+-------------+
|pedro-lucas53@gmail.com |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |[pedro-lucas53, gmail.com] |pedro-lucas53|gmail.com  |gmail        |
|rezendeisaac@hotmail.com|_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|[rezendeisaac, hotmail.com]|rezendeisaac |hotmail.com|hotmail      |
|felipepires@uol.com.br  |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |[felipepires, uol.com.br]  |felipepires  |uol.com.br |uol          |
|stellamoraes@bol.com.br |mw0AWYAs#s|AC    |Marrom      |Aeromoça           

  .withColumn('nome_provedor', F.split(F.col('provedor'), '\.').getItem(0))


In [204]:
(
    df_01
    .withColumn('concat', F.concat(df_01.profissao, df_01.cor_favorita))
    .withColumn('concat_2', F.concat(df_01.estado, F.lit(' - Brasil' )))
    .show(5,False)
)

+------------------------+----------+------+------------+---------------------------+--------------------------------+-----------+
|email                   |senha     |estado|cor_favorita|profissao                  |concat                          |concat_2   |
+------------------------+----------+------+------------+---------------------------+--------------------------------+-----------+
|pedro-lucas53@gmail.com |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |Jogador De GolfeRoxo            |RR - Brasil|
|rezendeisaac@hotmail.com|_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|Atleta De Arremesso De PesoCiano|GO - Brasil|
|felipepires@uol.com.br  |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |PapiloscopistaAzul              |MG - Brasil|
|stellamoraes@bol.com.br |mw0AWYAs#s|AC    |Marrom      |Aeromoça                   |AeromoçaMarrom                  |AC - Brasil|
|wcarvalho@ig.com.br     |pGD%!2Pq5X|AP    |Laranja     |Fonoaudiólogo             

In [173]:
(
    df_01
    .withColumn('lower', F.lower(df.estado))
    .withColumn('upper', F.upper(df.cor_favorita))
    .withColumn('init_cap', F.initcap(F.col('lower')))
    .withColumn('substring', F.substring(df_01.cor_favorita,1,3))
    .withColumn('format_string', F.format_string('Olá %s, sua cor favorita é %s',df_01.email, df_01.cor_favorita))
    .show(5,False)
)

+------------------------+----------+------+------------+---------------------------+-----+-------+--------+---------+------------------------------------------------------+
|email                   |senha     |estado|cor_favorita|profissao                  |lower|upper  |init_cap|substring|format_string                                         |
+------------------------+----------+------+------------+---------------------------+-----+-------+--------+---------+------------------------------------------------------+
|pedro-lucas53@gmail.com |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |rr   |ROXO   |Rr      |Rox      |Olá pedro-lucas53@gmail.com, sua cor favorita é Roxo  |
|rezendeisaac@hotmail.com|_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|go   |CIANO  |Go      |Cia      |Olá rezendeisaac@hotmail.com, sua cor favorita é Ciano|
|felipepires@uol.com.br  |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |mg   |AZUL   |Mg      |Azu      |Olá felipepi

In [210]:
(
    df_01
    .withColumn('instr', F.instr(df_01.email, '@'))
    .withColumn('instr', F.instr(df_01.email, '@gmail'))
    .withColumn('tamanho_str', F.length(df_01.profissao))
    .withColumn('repete', F.repeat(df_01.estado, 3))
    .withColumn('Retira_Espaço', F.trim(df_01.estado))
    .withColumn('preenche_esqueda', F.lpad(df_01.cor_favorita,10,':'))
    .withColumn('preenche_direita', F.rpad(df_01.cor_favorita,10,':'))
    .show(5,False)
)

+------------------------+----------+------+------------+---------------------------+-----+-----------+------+-------------+----------------+----------------+
|email                   |senha     |estado|cor_favorita|profissao                  |instr|tamanho_str|repete|Retira_Espaço|preenche_esqueda|preenche_direita|
+------------------------+----------+------+------------+---------------------------+-----+-----------+------+-------------+----------------+----------------+
|pedro-lucas53@gmail.com |+7^7E%xFBc|RR    |Roxo        |Jogador De Golfe           |14   |16         |RRRRRR|RR           |::::::Roxo      |Roxo::::::      |
|rezendeisaac@hotmail.com|_O_2GRnGOe|GO    |Ciano       |Atleta De Arremesso De Peso|0    |27         |GOGOGO|GO           |:::::Ciano      |Ciano:::::      |
|felipepires@uol.com.br  |*Aw5EOAvy9|MG    |Azul        |Papiloscopista             |0    |14         |MGMGMG|MG           |::::::Azul      |Azul::::::      |
|stellamoraes@bol.com.br |mw0AWYAs#s|AC    |Ma

### Manipulação de Números

- ROUND -> `.withColumn('Round', F.round(df.peso,1))`
- CEIL -> `.withColumn('Ceil', F.ceil(df.peso))`
- FLOOR -> `.withColumn('Floor', F.floor(df.peso))`
- ABS -> `.withColumn('Valor_Abs', F.abs(df.altura))`
- POW -> `.withColumn('Potencia', F.pow(df.peso,2))`
- SQRT -> `.withColumn('Raiz', F.sqrt(F.col('Potencia')))`

In [237]:
df_02 = spark.read.parquet('C:/Users/Kimura/Desktop/Curso PySpark/DATASETS/DATASETS/IMC.parquet')
df_02

nome,altura,peso
Pietra Fernandes,176,97.88
Ana Júlia da Rosa,163,80.56
Fernando Martins,150,85.55
Isis Silveira,173,70.1
Cecília Porto,190,93.42
Sra. Bruna Almeida,198,73.07
Maria Julia Silva,170,71.36
Pedro Henrique da...,188,105.57
Davi Lucas Campos,180,98.49
Juan Gonçalves,175,71.87


In [244]:
(
    df_02
    .withColumn('Round', F.round(df_02.peso,1))
    .withColumn('Ceil', F.ceil(df_02.peso))
    .withColumn('Floor', F.floor(df_02.peso))
    .withColumn('Valor_Abs', F.abs(df_02.altura))
    .withColumn('Potencia', F.pow(df_02.peso,2))
    .withColumn('Raiz', F.sqrt(F.col('Potencia')))
)

nome,altura,peso,Round,Ceil,Floor,Valor_Abs,Potencia,Raiz
Pietra Fernandes,176,97.88,97.9,98,97,176,9580.4944,97.88
Ana Júlia da Rosa,163,80.56,80.6,81,80,163,6489.913600000001,80.56
Fernando Martins,150,85.55,85.6,86,85,150,7318.8025,85.55
Isis Silveira,173,70.1,70.1,71,70,173,4914.009999999999,70.1
Cecília Porto,190,93.42,93.4,94,93,190,8727.296400000001,93.42
Sra. Bruna Almeida,198,73.07,73.1,74,73,198,5339.224899999999,73.07
Maria Julia Silva,170,71.36,71.4,72,71,170,5092.2496,71.36
Pedro Henrique da...,188,105.57,105.6,106,105,188,11145.0249,105.57
Davi Lucas Campos,180,98.49,98.5,99,98,180,9700.280099999998,98.49
Juan Gonçalves,175,71.87,71.9,72,71,175,5165.2969,71.87


### Manipulação de Data

- Adicionar ou Subtrair `MESES`:
    - `.withColumn('Adicionar_mês', F.add_months(df.data_cadastro, 1))` -> Adiciona meses
    - `.withColumn('Subtrair_mês', F.add_months(df.data_cadastro, -1))` -> Subtrai meses

- Tempo Atual: `current_date` ou `current_timestamp`
    - `.withColumn('Data_atual', F.current_date())` -> traz a data atual
    - `.withColumn('Data_hora_atual', F.current_timestamp())` -> traz a data e hora atual

- Adicionar ou Subtrair DIAS: `date_add` ou `date_sub`
    - `.withColumn('Adicionar_dias', F.date_add(df.data_cadastro, 15))` -> adiciona 15 dias;
    - `.withColumn('Subtrair_dias', F.date_add(df.data_cadastro, -15))` -> subtrai 15 dias;
    - `.withColumn('Subtrair_dias_sub', F.date_sub(df.data_cadastro, -15))` -> adiciona 15 dias;
    - `.withColumn('Subtrair_dias_sub', F.date_sub(df.data_cadastro, 15))` -> subtrai 15 dias

- Formatação Data: `date_format` | `'dd/MM/yyyy'` | `'E, dd-MMM-yyyy'` | `F.to_date(F.lit('1996-06-19')`
    - `.withColumn('Formatação_Data', F.date_format(df.data_de_nascimento, 'dd/MM/yyyy'))` -> altera para o formato dia mes ano
    - `.withColumn('Formatação_Data', F.date_format(df.data_de_nascimento, 'E, dd-MMM-yyyy'))` -> altera para o formato dia_semana dia mes ano

- Diferença entre datas: `datediff` e o `date_between`
    - `.withColumn('Diferença_Datas', F.datediff(F.current_date(), df.data_de_nascimento))` -> diferença entre dias
    - `.withColumn('Meses_Entre', F.months_between(F.current_date(), df.data_de_nascimento))` -> diferença entre meses

- Seleção de parte da data:
    - Seleção de ANO:
        - `year` : `.withColumn('Ano', F.year(df.data_de_nascimento))` -> retorna o ano da data
    - Seleção de MêS:
        - `month` : `.withColumn('Mês', F.month(df.data_de_nascimento))` -> retorna o mês da data
    - Seleção do último dia do MêS:
        - `last_day` : `.withColumn('Ultimo_dia_mês', F.last_day(df.data_de_nascimento))` -> retorna a última data do mês
    - Seleção do próximo dia da data selecionada (necessário indicar qual dia deseja selecionar):
        - `next_day` : `.withColumn('Próximo_Dia', F.next_day(df.data_de_nascimento, 'Mon'))` -> no exemplo, retorna a próxima segunda feira a partir da data da coluna
    - Criação de data:
        - `make_date` : `.withColumn('Criar_Data', F.make_date(F.lit(1996), F.lit(6), F.lit(19)))` -> cria uma data a partir de valores LITERAIS `(.lit)`



In [250]:
df_03 = spark.read.parquet('C:/Users/Kimura/Desktop/Curso PySpark/DATASETS/DATASETS/LOGINS.parquet').select('data_de_nascimento','data_cadastro')
df_03

data_de_nascimento,data_cadastro
2006-12-18,2023-02-26
1992-06-17,2023-02-16
1921-11-11,2023-01-02
2021-06-01,2023-01-08
1969-10-28,2023-02-14
1986-05-19,2023-03-07
2018-04-20,2023-01-13
1996-05-12,2023-02-04
2021-10-05,2023-03-02
1917-01-05,2023-02-21


In [284]:
(
    df_03
    .withColumn('Adicionar_mês', F.add_months(df_03.data_cadastro, 1))
    .withColumn('Subtrair_mês', F.add_months(df_03.data_cadastro, -1))
    .withColumn('Data_atual', F.current_date())
    .withColumn('Data_hora_atual', F.current_timestamp())
    .withColumn('Adicionar_dias', F.date_add(df_03.data_cadastro, 15))
    .withColumn('Subtrair_dias', F.date_add(df_03.data_cadastro, -15))
    .withColumn('Subtrair_dias_sub', F.date_sub(df_03.data_cadastro, 15))
    .withColumn('Subtrair_dias_sub', F.date_sub(df_03.data_cadastro, -15))
    .withColumn('Formatação_Data', F.date_format(df_03.data_de_nascimento, 'dd/MM/yyyy'))
    .withColumn('Formatação_Data', F.date_format(df_03.data_de_nascimento, 'E, dd-MMM-yyyy'))
    .withColumn('Diferença_Datas', F.datediff(F.current_date(), df_03.data_de_nascimento))
    .withColumn('Dia_do_Mês', F.dayofmonth(df_03.data_de_nascimento))
    .withColumn('Dia_da_Semana', F.dayofweek(df_03.data_de_nascimento))
    .withColumn('Semana_do_ano', F.weekofyear(df_03.data_de_nascimento))
    .withColumn('Ano', F.year(df_03.data_de_nascimento))
    .withColumn('Mês', F.month(df_03.data_de_nascimento))
    .withColumn('Ultimo_dia_mês', F.last_day(df_03.data_de_nascimento))
    .withColumn('Meses_Entre', F.months_between(F.current_date(), df_03.data_de_nascimento))
    .withColumn('Próximo_Dia', F.next_day(df_03.data_de_nascimento, 'Mon'))
    .withColumn('Criar_Data', F.make_date(F.lit(1996), F.lit(6), F.lit(19)))
    .withColumn('Formatar_como_data', F.to_date(F.lit('1996-06-19')))
)

data_de_nascimento,data_cadastro,Adicionar_mês,Subtrair_mês,Data_atual,Data_hora_atual,Adicionar_dias,Subtrair_dias,Subtrair_dias_sub,Formatação_Data,Diferença_Datas,Dia_do_Mês,Dia_da_Semana,Semana_do_ano,Ano,Mês,Ultimo_dia_mês,Meses_Entre,Próximo_Dia,Criar_Data,Formatar_como_data
2006-12-18,2023-02-26,2023-03-26,2023-01-26,2025-04-09,2025-04-09 08:28:...,2023-03-13,2023-02-11,2023-03-13,"Mon, 18-Dec-2006",6687,18,2,51,2006,12,2006-12-31,219.70967742,2006-12-25,1996-06-19,1996-06-19
1992-06-17,2023-02-16,2023-03-16,2023-01-16,2025-04-09,2025-04-09 08:28:...,2023-03-03,2023-02-01,2023-03-03,"Wed, 17-Jun-1992",11984,17,4,25,1992,6,1992-06-30,393.74193548,1992-06-22,1996-06-19,1996-06-19
1921-11-11,2023-01-02,2023-02-02,2022-12-02,2025-04-09,2025-04-09 08:28:...,2023-01-17,2022-12-18,2023-01-17,"Fri, 11-Nov-1921",37770,11,6,45,1921,11,1921-11-30,1240.93548387,1921-11-14,1996-06-19,1996-06-19
2021-06-01,2023-01-08,2023-02-08,2022-12-08,2025-04-09,2025-04-09 08:28:...,2023-01-23,2022-12-24,2023-01-23,"Tue, 01-Jun-2021",1408,1,3,22,2021,6,2021-06-30,46.25806452,2021-06-07,1996-06-19,1996-06-19
1969-10-28,2023-02-14,2023-03-14,2023-01-14,2025-04-09,2025-04-09 08:28:...,2023-03-01,2023-01-30,2023-03-01,"Tue, 28-Oct-1969",20252,28,3,44,1969,10,1969-10-31,665.38709677,1969-11-03,1996-06-19,1996-06-19
1986-05-19,2023-03-07,2023-04-07,2023-02-07,2025-04-09,2025-04-09 08:28:...,2023-03-22,2023-02-20,2023-03-22,"Mon, 19-May-1986",14205,19,2,21,1986,5,1986-05-31,466.67741935,1986-05-26,1996-06-19,1996-06-19
2018-04-20,2023-01-13,2023-02-13,2022-12-13,2025-04-09,2025-04-09 08:28:...,2023-01-28,2022-12-29,2023-01-28,"Fri, 20-Apr-2018",2546,20,6,16,2018,4,2018-04-30,83.64516129,2018-04-23,1996-06-19,1996-06-19
1996-05-12,2023-02-04,2023-03-04,2023-01-04,2025-04-09,2025-04-09 08:28:...,2023-02-19,2023-01-20,2023-02-19,"Sun, 12-May-1996",10559,12,1,19,1996,5,1996-05-31,346.90322581,1996-05-13,1996-06-19,1996-06-19
2021-10-05,2023-03-02,2023-04-02,2023-02-02,2025-04-09,2025-04-09 08:28:...,2023-03-17,2023-02-15,2023-03-17,"Tue, 05-Oct-2021",1282,5,3,40,2021,10,2021-10-31,42.12903226,2021-10-11,1996-06-19,1996-06-19
1917-01-05,2023-02-21,2023-03-21,2023-01-21,2025-04-09,2025-04-09 08:28:...,2023-03-08,2023-02-06,2023-03-08,"Fri, 05-Jan-1917",39541,5,6,1,1917,1,1917-01-31,1299.12903226,1917-01-08,1996-06-19,1996-06-19


### Ordenação das colunas

Utilizamos o método `.orderBy` para realizar a ordenação das colunas de um DataFrame.\
Default: `.orderBy = ASC`

- `df.orderBy('email')` -> está ordenando todos os email em ordem alfabética A - Z;
- `df.orderBy(F.desc('email'))` -> está ordenando os emails ao contrátio da ordem alfabética Z - A;
- `df.orderBy('estado', 'data_cadastro', F.desc(df.cor_favorita))` -> Podemos ordenar várias colunas tanto ascendente quanto descendente.

In [296]:
df.orderBy('email')


cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
621.405.389-51,aaragao@hotmail.com,_JYL0DQtf2,1914-01-28,CE,2023-02-14,13.16.193.193,Violeta,Mestre-De-Obras,(084) 5160 2174
634.205.971-34,aazevedo@yahoo.co...,&3HILwOn4R,1924-09-25,AL,2023-03-09,219.11.145.237,Verde Escuro,Senador,+55 (061) 7082-6767
298.356.041-42,acardoso@gmail.com,$F7V+mgg**,1935-12-02,MS,2023-01-07,184.215.220.225,Preto,Transcritor,+55 (021) 0076-2292
341.698.720-96,acarvalho@uol.com.br,1jtUGOLd!X,2006-06-22,AL,2023-02-23,11.122.146.214,Laranja,Tenista,+55 61 9832 2237
208.754.391-79,acosta@hotmail.com,!0CNLeSz_u,1984-10-25,SC,2023-02-14,20.111.50.200,Amarelo,Artesão,71 6561 0125
259.781.036-40,adas-neves@hotmai...,P^6VzcbuGq,1954-05-13,DF,2023-03-15,129.233.47.92,Rosa,Engenheiro De Mat...,21 0388-2423
410.732.986-04,afernandes@gmail.com,x0gGbTtp^X,1924-05-07,AM,2023-01-18,218.29.94.87,Marrom,Estatístico,0300 825 2508
623.047.198-13,aferreira@hotmail...,q@7vNfPpE@,1943-10-09,BA,2023-02-17,130.49.142.235,Marrom,Flautista,(031) 4448-2587
734.825.106-44,agatha76@bol.com.br,*VHMNZa4&9,1919-05-27,PE,2023-01-05,222.173.123.246,Magenta,Assistente Social,+55 (021) 8031-1835
517.806.342-26,agatha82@ig.com.br,#4Zhn3k67a,2011-08-31,TO,2023-02-14,92.13.130.231,Roxo,Tenente,+55 (084) 2134 9259


In [298]:
df.orderBy(F.desc('email'))

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
837.021.546-71,zpinto@yahoo.com.br,(5R*_#XVDl,1955-06-08,RR,2023-02-06,52.26.104.153,Rosa,Argumentista,(081) 8099 9690
037.862.951-40,zlopes@gmail.com,_LYcJLlu&8,1966-10-15,RR,2023-03-14,64.236.21.52,Branco,Ourives,+55 61 4893 1165
398.051.472-23,zgomes@uol.com.br,0QZ0RHjHw%,1945-02-04,SE,2023-02-07,126.249.226.142,Magenta,Cadista,(021) 0775 2915
482.063.597-29,zgomes@uol.com.br,zIEEb2Oma^,1990-04-25,PI,2023-03-05,152.70.106.84,Verde Escuro,Baterista,+55 (061) 9491 2341
063.581.249-51,zfernandes@hotmai...,+I%Lr!wz0(,1962-08-22,MT,2023-02-12,53.238.78.76,Azul,Fundidor De Placa...,71 1659-6052
341.697.025-06,ypeixoto@yahoo.co...,&3H*Q_soD4,1973-12-18,BA,2023-03-15,36.64.228.53,Verde Claro,Ferreiro,0500-012-9429
365.841.029-98,ypeixoto@hotmail.com,c$8TxYirOu,1995-06-11,SE,2023-03-13,160.93.14.250,Magenta,Engenheiro Cartog...,0800-480-3407
891.034.672-87,ynogueira@hotmail...,@3AJHqIWkV,2021-07-30,AL,2023-01-05,143.134.33.192,Azul Escuro,Torneiro Mecânico,0500-324-4347
794.623.805-38,ymoura@gmail.com,*bZGnLObY0,1946-05-30,AC,2023-01-02,22.66.90.218,Azul Escuro,Investigador Part...,(051) 4288 6754
561.438.072-80,ymoraes@ig.com.br,c(6&FoouMR,1998-02-23,AC,2023-02-15,8.207.21.132,Marrom,Odontologista Pre...,(061) 5069 4948


In [301]:
#            asc           asc              desc
df.orderBy(df.estado, df.data_cadastro, F.desc(df.cor_favorita))

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
794.623.805-38,ymoura@gmail.com,*bZGnLObY0,1946-05-30,AC,2023-01-02,22.66.90.218,Azul Escuro,Investigador Part...,(051) 4288 6754
340.879.561-48,ana-vitoria98@gma...,i0_lIkL9)P,1994-08-12,AC,2023-01-04,121.45.91.188,Marrom,Gestor De Recurso...,0300 277 1989
573.809.621-59,novaesana-julia@h...,DfbV7W1^&4,1972-08-15,AC,2023-01-04,208.213.179.222,Laranja,Tecelão,+55 (031) 6916 9086
032.185.976-68,benjaminda-paz@ig...,(9l1UVIkot,1966-12-12,AC,2023-01-06,2.186.91.148,Azul Escuro,Ator,+55 51 8053 7792
069.382.471-96,bernardo78@gmail.com,2oQQtOOW!5,2003-10-11,AC,2023-01-08,153.126.72.36,Roxo,Major,61 8633 7694
092.618.354-06,stellamoraes@bol....,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177
471.980.623-69,usales@gmail.com,d^Q%6WjKqH,1958-04-06,AC,2023-01-08,97.110.23.119,Branco,Administrador,(071) 7881 3570
852.637.194-00,miguel01@gmail.com,*0H6kcApJz,1980-01-26,AC,2023-01-11,54.56.177.130,Marrom,Político,(041) 7434-8164
761.208.953-02,joanada-costa@uol...,K59n!CGwZ+,1970-04-01,AC,2023-01-14,130.246.237.68,Rosa,Engenheiro Petroq...,0500 075 5159
613.948.520-70,julia44@gmail.com,&asN*lDI2f,1992-07-06,AC,2023-01-18,182.219.231.186,Branco,Manicure,+55 21 9340 4355


### Agrupamentos GROUPBY

A lógica do `groupBy` é bem simples.
- Primeiro nós indicamos a coluna ou colunas que serão usadas no processo de agrupamento;
- Em seguida nós indicamos qual será o cálculo a ser aplicado nessa aplicação

EX.:
- `df.groupBy('cor_favorita').count()` -> Realiza a contagem de ocorrência de casos de cada elemento da coluna 'cor_favorita'
- `df.groupBy('estado','cor_favorita').count()` -> Agrupa os dados pelas colunas 'estado' e 'cor_favorita' e conta quantas vezes cada combinação aparece no DataFrame.
- `df.groupBy('estado','cor_favorita').count().groupBy('estado').sum('count')` -> Primeiro agrupa os dados pelas colunas 'estado' e 'cor_favorita' e conta quantas vezes cada combinação ocorre. Em seguida, agrupa novamente por 'estado' e soma os valores da contagem, obtendo o total de registros por estado.
- `df.groupBy(F.year('data_de_nascimento')).count()` -> Agrupo os dados baseado no ANO da coluna 'data_de_nascimento' e realizo a contagem de ocorrências.

In [324]:
df.groupBy('estado').count().orderBy('estado')

estado,count
AC,37
AL,36
AM,34
AP,30
BA,42
CE,45
DF,38
ES,38
GO,45
MA,34


In [316]:
df.groupBy('estado','cor_favorita').count()

estado,cor_favorita,count
AM,Cinza,2
MA,Ciano,1
AC,Ciano,1
RS,Roxo,1
RJ,Azul,4
ES,Verde Claro,2
CE,Azul,5
AM,Marrom,6
AP,Preto,2
MA,Verde Escuro,2


In [326]:
df.groupBy('estado','cor_favorita').count().groupBy('estado').sum('count').orderBy('estado')

estado,sum(count)
AC,37
AL,36
AM,34
AP,30
BA,42
CE,45
DF,38
ES,38
GO,45
MA,34


In [330]:
df.groupBy(F.year('data_de_nascimento')).count()

year(data_de_nascimento),count
1959,8
1990,7
1975,7
1977,5
1924,9
2003,7
2007,12
2018,13
1974,7
2015,9


### Agregando vários métodos em um DataFrame

Iremos necessitar utilizar o método `.agg` para realizar várias agregações no DataFrame:
- `df.groupBy('cor_favorita').agg(F.count('*'), F.sum('num'), F.avg('num'), F.max('num'), F.min('num'), F.stddev('num'))` -> nesse exemplo o `.agg` serve para aplicar 1 ou mais funções de agregação no mesmo DataFrame.

In [344]:
df_05 =df.withColumn('num', F.dayofmonth(df.data_de_nascimento))

In [347]:
df_05.groupBy('cor_favorita').count()

cor_favorita,count
Preto,57
Violeta,47
Rosa,81
Marrom,62
Ciano,59
Laranja,53
Azul,76
Verde Claro,66
Roxo,64
Branco,66


In [350]:
df_05.groupBy('cor_favorita').sum('num')

cor_favorita,sum(num)
Preto,893
Violeta,773
Rosa,1146
Marrom,916
Ciano,1085
Laranja,956
Azul,1295
Verde Claro,1179
Roxo,1025
Branco,1085


In [353]:
df_05.groupBy('cor_favorita').agg(F.count('*'), F.sum('num'), F.avg('num'), F.max('num'), F.min('num'), F.stddev('num'))

cor_favorita,count(1),sum(num),avg(num),max(num),min(num),stddev_samp(num)
Preto,57,893,15.666666666666666,31,1,9.158004565354158
Violeta,47,773,16.4468085106383,31,1,8.609419792191972
Rosa,81,1146,14.148148148148149,31,1,8.153390569436604
Marrom,62,916,14.774193548387096,31,1,8.952368227455667
Ciano,59,1085,18.389830508474574,31,1,9.02681245369735
Laranja,53,956,18.0377358490566,31,1,8.735344350904686
Azul,76,1295,17.039473684210527,31,1,9.107419377589803
Verde Claro,66,1179,17.863636363636363,31,1,9.121211734002424
Roxo,64,1025,16.015625,31,1,9.005275680364543
Branco,66,1085,16.439393939393938,31,1,9.907462281422465


### JOINs 

Usamos o método `.join` para realizar as conexões com as tabelas.\
O método join tem 3 argumentos:
- `other` = tabela que vai ser conectada com a tabela base
- `on` = coluna que iremos utilizar para realizar a conexão
- `how` = tipo de join (normalmente usamos o `left` e o `inner`

`tabela_A.join(other = Tabela_B, on = Coluna PF, how = Tipo de JOIN)`

In [358]:
autores = spark.read.parquet('C:/Users/Kimura/Desktop/Curso PySpark/DATASETS/DATASETS/AUTORES.parquet')
livros = spark.read.parquet('C:/Users/Kimura/Desktop/Curso PySpark/DATASETS/DATASETS/LIVROS.parquet')
clientes = spark.read.parquet('C:/Users/Kimura/Desktop/Curso PySpark/DATASETS/DATASETS/CLIENTES.parquet')
compras = spark.read.parquet('C:/Users/Kimura/Desktop/Curso PySpark/DATASETS/DATASETS/COMPRAS.parquet')

In [361]:
autores.join(other=livros, on='id', how='left')

id,titulo,autor,cnpj_editora,data_lancamento,ean,isbn10,numero_paginas,preco
106042959,1984,George Orwell,,,,,,
17551704,200 Crônicas Esco...,Rubem Braga,14.857.032/0001-12,2018-10-19,2352660010751.0,0-7433-6026-5,645.0,44.38
54099410,A Alma Encantador...,João do Rio,,,,,,
128422117,A Biblioteca da M...,Matt Haig,,,,,,
49141399,A Coleira do Cão,Rubem Fonseca,,,,,,
65490862,A Cor Púrpura,Alice Walker,,,,,,
29077001,A Educação Sentim...,Gustave Flaubert,,,,,,
32275599,A Escrava Isaura,Bernardo Guimarães,49.037.512/0001-11,2001-05-15,2964406383663.0,1-83335-705-1,752.0,184.42
90690941,A Estrela Sobe,Marques Rebelo,,,,,,
95695255,A Hora da Estrela,Clarice Lispector,94.567.038/0001-94,2015-04-23,4084520465552.0,0-7650-7381-1,572.0,83.33


In [371]:
# estamos apenas especificando no parâmetro ON a conexão de PK e PF
# tabela_A.ColunaPK = tabela_B.ColunaPF
compras.join(other=livros, on=compras.cd_livro==livros.id, how='inner')

id,cartao_data_expiracao,cartao_numero,cartao_bandeira,cartao_cvc,codigo_transacao_bancaria,data,hora,ipv4,ipv6,cep_entrega,cd_livro,cd_cliente,id.1,cnpj_editora,data_lancamento,ean,isbn10,numero_paginas,preco
12389,11/25,5500804500517692,Discover,959,GB98MPIH622108593...,2021-07-24,03:21:28,62.145.31.164,b23d:58a2:9eff:36...,36629-219,30334762,3339828,30334762,80.463.719/0001-06,2013-05-08,7122725133429,0-85193-340-8,99,123.47
12476,01/31,4609489235873,VISA 16 digit,6979,GB79GAVL233010819...,2021-08-23,11:15:52,185.150.224.52,1e2c:f641:49d1:5a...,17012-747,13721981,7624624,13721981,76.351.940/0001-97,2004-01-27,8786391051693,1-60705-523-6,379,133.43
12478,07/23,30072722359174,American Express,689,GB51SZOU538484531...,2020-01-27,17:08:10,40.179.153.24,9bcd:ee0c:af68:33...,25921298,19458805,8703114,19458805,81.253.490/0001-30,2007-12-13,2628486550239,0-916523-25-X,788,238.54
12534,09/29,4561935154572,VISA 16 digit,353,GB05UNEX021466511...,2021-07-15,07:39:25,86.20.51.194,be57:8f94:132:1cb...,73799370,14347542,7799936,14347542,76.415.890/0001-64,2007-04-05,3883750237349,0-8360-5203-X,452,182.43
12549,01/31,3541220668415122,JCB 15 digit,967,GB97RCCC581942620...,2020-07-22,23:56:14,55.189.220.65,a1fd:9dd:115f:9d5...,50727-454,20215846,6703678,20215846,27.659.813/0001-44,2014-03-25,7684001180416,0-216-16469-9,794,155.18
12574,06/24,4155061214506542,JCB 16 digit,362,GB93YATI197164292...,2020-05-19,10:47:09,212.26.253.42,1815:dc0e:c557:96...,67662-182,10325500,6273720,10325500,27.689.540/0001-80,2000-09-09,8793472196570,0-933627-98-X,306,30.62
12579,01/27,30554213514227,Maestro,9847,GB54PQLN799705859...,2021-04-15,10:36:56,168.197.230.167,7f3b:4ada:4c62:3f...,61193-110,53479015,6977964,53479015,54.327.896/0001-47,2018-12-21,1750535865566,0-518-04786-5,105,207.52
12648,05/24,347386847428278,VISA 16 digit,823,GB90MYZL510193283...,2021-06-19,13:07:48,146.108.131.11,c52d:53d8:371a:34...,10059-723,12331534,6616715,12331534,84.317.925/0001-50,2010-05-29,3177832263150,1-62649-755-9,129,175.67
12675,04/29,4534805013764,Mastercard,384,GB11XMUH824876351...,2021-07-11,07:55:08,148.155.72.234,b290:d2b7:6a58:86...,79292884,35940339,649001,35940339,71.530.496/0001-53,2014-08-11,6764222732753,1-396-90787-4,327,213.6
12698,12/31,4450657280386776,American Express,247,GB79ECRO017868447...,2021-08-11,12:06:48,190.135.5.172,7cbc:4554:7f5d:65...,93609312,58320651,4523531,58320651,82.439.107/0001-03,2013-01-30,6024459409867,1-61357-201-8,290,196.35


### Aias (renomeando colunas)

Muito simples, basta adicionar no final do código o `.alias(NOVO NOME COLUNA_`\
Para renomar colunas use o método `.withColumnRenamed(nome atual , novo nome)`

In [381]:
df.groupBy('estado').agg(F.count('*').alias('quantidade'))

estado,quantidade
SC,44
RO,39
PI,35
AM,34
RR,33
GO,45
TO,34
MT,29
SP,49
ES,38


In [394]:
df_01.withColumnRenamed('email', 'teste')

teste,senha,estado,cor_favorita,profissao
pedro-lucas53@gma...,+7^7E%xFBc,RR,Roxo,Jogador De Golfe
rezendeisaac@hotm...,_O_2GRnGOe,GO,Ciano,Atleta De Arremes...
felipepires@uol.c...,*Aw5EOAvy9,MG,Azul,Papiloscopista
stellamoraes@bol....,mw0AWYAs#s,AC,Marrom,Aeromoça
wcarvalho@ig.com.br,pGD%!2Pq5X,AP,Laranja,Fonoaudiólogo
da-conceicaodavi-...,uhBbFxPA&9,MG,Rosa,Taxista
efreitas@bol.com.br,s#q9VZt&xl,MG,Branco,Produtor De Audio...
wnunes@bol.com.br,_8az1W%n7g,SE,Azul,Cadeirinha
jribeiro@bol.com.br,MEf1X7fj_0,PA,Marrom,Geólogo
murilo05@gmail.com,Te&gO7GkKs,MT,Marrom,Técnico De Som


### Mais manipulação de dados

Um muito popular é o `F.regexp_replace`\
`F.regexp_replace(Nome da Coluna, STR a ser corrigido, Valor de correção)`


In [401]:
(
    df
    .withColumn('tel', F.regexp_replace('telefone',' ',''))
)

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone,tel
981.507.362-12,pedro-lucas53@gma...,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046,317785-4046
493.705.168-75,rezendeisaac@hotm...,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremes...,(031) 0803-6753,(031)0803-6753
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553,119674-0553
092.618.354-06,stellamoraes@bol....,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177,+55(071)30339177
509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468,+55(071)62722468
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691,+558406529691
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052,+55(084)13630052
475.698.032-56,wnunes@bol.com.br,_8az1W%n7g,1996-05-12,SE,2023-02-04,139.196.176.154,Azul,Cadeirinha,(071) 1640-3388,(071)1640-3388
217.639.540-99,jribeiro@bol.com.br,MEf1X7fj_0,2021-10-05,PA,2023-03-02,71.22.224.5,Marrom,Geólogo,21 1432 4092,2114324092
261.938.750-77,murilo05@gmail.com,Te&gO7GkKs,1917-01-05,MT,2023-02-21,136.54.123.165,Marrom,Técnico De Som,+55 (084) 5878-3346,+55(084)5878-3346


In [404]:
(
    df
    .withColumn('tel', F.regexp_replace('telefone','(\D)','')) #(\D) deixa apenas numeros
)

  .withColumn('tel', F.regexp_replace('telefone','(\D)','')) #(\D) deixa apenas numeros


cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone,tel
981.507.362-12,pedro-lucas53@gma...,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046,3177854046
493.705.168-75,rezendeisaac@hotm...,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremes...,(031) 0803-6753,3108036753
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553,1196740553
092.618.354-06,stellamoraes@bol....,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177,5507130339177
509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468,5507162722468
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691,558406529691
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052,5508413630052
475.698.032-56,wnunes@bol.com.br,_8az1W%n7g,1996-05-12,SE,2023-02-04,139.196.176.154,Azul,Cadeirinha,(071) 1640-3388,7116403388
217.639.540-99,jribeiro@bol.com.br,MEf1X7fj_0,2021-10-05,PA,2023-03-02,71.22.224.5,Marrom,Geólogo,21 1432 4092,2114324092
261.938.750-77,murilo05@gmail.com,Te&gO7GkKs,1917-01-05,MT,2023-02-21,136.54.123.165,Marrom,Técnico De Som,+55 (084) 5878-3346,5508458783346


In [409]:
(
    df
    .withColumn('tel', F.regexp_replace('telefone',' ','').cast('int')) # CAST = Converção
)

cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone,tel
981.507.362-12,pedro-lucas53@gma...,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046,
493.705.168-75,rezendeisaac@hotm...,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremes...,(031) 0803-6753,
398.471.625-73,felipepires@uol.c...,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553,
092.618.354-06,stellamoraes@bol....,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177,
509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468,
218.795.460-94,da-conceicaodavi-...,uhBbFxPA&9,1986-05-19,MG,2023-03-07,192.93.0.24,Rosa,Taxista,+55 84 0652 9691,
715.836.940-48,efreitas@bol.com.br,s#q9VZt&xl,2018-04-20,MG,2023-01-13,76.251.188.148,Branco,Produtor De Audio...,+55 (084) 1363 0052,
475.698.032-56,wnunes@bol.com.br,_8az1W%n7g,1996-05-12,SE,2023-02-04,139.196.176.154,Azul,Cadeirinha,(071) 1640-3388,
217.639.540-99,jribeiro@bol.com.br,MEf1X7fj_0,2021-10-05,PA,2023-03-02,71.22.224.5,Marrom,Geólogo,21 1432 4092,2114324092.0
261.938.750-77,murilo05@gmail.com,Te&gO7GkKs,1917-01-05,MT,2023-02-21,136.54.123.165,Marrom,Técnico De Som,+55 (084) 5878-3346,
