# Instalando o Spark

In [None]:
!pip install pyspark #==3.3.1

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyspark
  Downloading pyspark-3.3.1.tar.gz (281.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m281.4/281.4 MB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting py4j==0.10.9.5
  Downloading py4j-0.10.9.5-py2.py3-none-any.whl (199 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m199.7/199.7 KB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.3.1-py2.py3-none-any.whl size=281845512 sha256=80e6954a5a76f9aa83a4c6ce4cd53488f6b4b32cd13f4d7cb25b678f66a7da3f
  Stored in directory: /root/.cache/pip/wheels/43/dc/11/ec201cd671da62fa9c5cc77078235e40722170ceba231d7598
Successfully built pyspark
Installing collected packages: py4j, pyspa

In [None]:
!wget https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!unzip ngrok-stable-linux-amd64.zip

--2023-01-13 13:10:38--  https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
Resolving bin.equinox.io (bin.equinox.io)... 54.161.241.46, 54.237.133.81, 18.205.222.128, ...
Connecting to bin.equinox.io (bin.equinox.io)|54.161.241.46|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 13832437 (13M) [application/octet-stream]
Saving to: ‘ngrok-stable-linux-amd64.zip’


2023-01-13 13:10:41 (3.82 MB/s) - ‘ngrok-stable-linux-amd64.zip’ saved [13832437/13832437]

Archive:  ngrok-stable-linux-amd64.zip
  inflating: ngrok                   


 # Introdução ao PySpark

Pyspark é a interface do Spark no Python. Ela permite tanto que você escreva códigos utilizado a API de Spark para Python, mas também tem fornece um shell do Pyspark para que você possa analisar dados em um ambiente distribuído.

O PySpark suporta praticamente todas as features do Spark que vimos no módulo de intrdução. 
- Spark SQL e DataFrame
- Pandas API 
- Streaming
- MLlib
- Spark Core

## Trabalhando com um RDD

In [None]:
from pyspark import SparkContext

# Create a SparkContext
sc = SparkContext("local", "RDD Example")

In [None]:
# Ler um arquivo de texto e criar um rdd
rdd_texto = sc.textFile("./rdd_dataset.txt")

In [None]:
# Performar transformações no RDD
# Exemplo: Filtrar somente linhas que contenham a palavra DNC
rdd_filtrado = rdd_texto.filter(lambda linha: "DNC" in linha)

In [None]:
# Perform an action on the RDD
# Example: Count the number of lines in the filtered RDD
count = rdd_filtrado.count()

In [None]:
print("Numero de linhas com DNC:", count)

## Iniciar Sessão Spark

O primeiro passo para trabalharmos com spark no Python é inicializarmos uma sessão do spark com o [SparkSession](https://spark.apache.org/docs/3.2.1/api/python/reference/api/pyspark.sql.SparkSession.html?highlight=rdd%20todf#pyspark.sql.SparkSession)


O que essa sessão Spark  está permitindo é que trabalhemos com Core do Spark que irá distribuir os dados que vamos trabalhar através de várias máquinas e paralelizar o seu processamento.

A SparkSession can be used create DataFrame, register DataFrame as tables, execute SQL over tables, cache tables, and read parquet files. To create a SparkSession, use the following builder pattern:

Enfim, nós podemos através da sessão spark trabalhar com todas as ferramentas que ele disponibiliza para trabalharmos com nossos dados de maneira distribuída no nosso cluster. 

A primeira coisa a se fazer é importar o SparkSession que é o ponto de entrada para trabalharmos com os dados no Pyspark. 

In [None]:
from pyspark.sql import SparkSession
from pyspark import SparkContext, SparkConf

# ConfigureSparkUI
conf = SparkConf().set('spark.ui.port', '4050')
sc = SparkContext(conf=conf)
sc.stop()

spark = (
    SparkSession.builder                  # Método da classe que constrói a sessão spark
      .appName("Meu Primeiro App Spark")  # Nome do App Spark
      .getOrCreate())                     # Verifica se há uma sessão ativa, e se não há, cria uma nova sessão

Como podemos ver na documentação, uma sessão spark tem algum métodos e atributos. Então por exemplo se eu quiser retornar qual é a sessão ativa de spark para meu programa atual, basta usar o getActiveSession()

### Disclaimer
Uma forte sugestão que eu tenho a vocês é que a cada função que usarem para manipular dataframes, consultem a documentação específica daquela função. 

https://spark.apache.org/

1. Acessar o site
2. Documentation
  - Latest Release que é a que estamos usando
  - Older versions caso esteja usando outra versão do spark


Reforçar o uso da documentação mostrando como achar o show() e falar que eles irão precisar usar a documentação para completar os exercício. 

## Leitura de um CSV

Agora, vamos pegar uma base de dados mais próxima daquilo que diariamente engenheiro, cientistas e analistas lidam. 

Para isso, vamos pegar uma base de dados fictícias que contém transações pix. 

In [None]:
caminho_csv = "./base_de_dados.csv"

In [None]:
caminho_csv = "./base_de_dados.csv"

df = spark.read.csv(
      path=caminho_csv,
)

AnalysisException: ignored

In [None]:
df.show()

+--------------------+
|                 _c0|
+--------------------+
|id;valor;parte_de...|
|1;9.93;Dra. Ana C...|
|2;15.38;Ana Calde...|
|3;57.58;Arthur Go...|
|4;53705.13;Ana Ju...|
|5;25299.69;Srta. ...|
|6;7165.06;Gabriel...|
|7;6.16;Heloisa da...|
|8;136.36;Srta. Is...|
|9;574.39;Dr. Luca...|
|10;42.88;Mirella ...|
|11;33629.97;Sr. V...|
|12;4374.56;Nathan...|
|13;507.18;Miguel ...|
|14;67758.87;Julia...|
|15;815.53;Ana Lau...|
|16;2.73;Levi Lima...|
|17;0.54;Otavio Cu...|
|18;49836.72;Ana C...|
|19;9.68;Levi Mart...|
+--------------------+
only showing top 20 rows



In [None]:
df.printSchema()

root
 |-- _c0: string (nullable = true)



In [None]:
df.show(truncate=False)

+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|id;valor;parte_debitada_nome;parte_debitada_conta;parte_debitada_banco;parte_creditada_nome;parte_creditada_conta;parte_creditada_banco;chave_pix_tipo;chave_pix_valor;data_transacao|
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|1;9.93;Dra. Ana Carolina Oliveira;79470453;Nubank;Maysa da Cruz;67162333;Itau;cpf;8439752610;18/02/2022 13:28                                                                        |
|2;15.38;Ana Caldeira;19689668;Itau;Evelyn Sales;60005091;Bradesco;cpf;27145380617;08/04/2022 01:47                                                                                   |
|3;57.58;Arthur Goncalves;18856899;Bradesco;Maria Melo;13496303;BTG;cpf;16452937

In [None]:
df = spark.read.csv(
      path=caminho_csv,
      header=True      
      #inferSchema=True,
      #sep=";"
)

In [None]:
df.printSchema()

root
 |-- id;valor;parte_debitada_nome;parte_debitada_conta;parte_debitada_banco;parte_creditada_nome;parte_creditada_conta;parte_creditada_banco;chave_pix_tipo;chave_pix_valor;data_transacao: string (nullable = true)



In [None]:
df.show()

+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|id;valor;parte_debitada_nome;parte_debitada_conta;parte_debitada_banco;parte_creditada_nome;parte_creditada_conta;parte_creditada_banco;chave_pix_tipo;chave_pix_valor;data_transacao|
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|                                                                                                                                                                 1;9.93;Dra. Ana C...|
|                                                                                                                                                                 2;15.38;Ana Calde...|
|                                                                               

In [None]:
df = spark.read.csv(
      path=caminho_csv,
      header=True,
      sep=";"
)

In [None]:
df.show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+----------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|  data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+----------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|18/02/2022 13:28|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|08/04/2022 01:47|
|  3|   57.58|    Arthur Goncalves|          

In [None]:
df.printSchema()

root
 |-- id: string (nullable = true)
 |-- valor: string (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: string (nullable = true)



In [None]:
# Outra maneira de ler os dados
# df = (
#     spark
#       .read
#       .format("csv")                  # Formato de Leitura
#       .option("inferSchema", "true")  # Determina automáticamente o schema dos dados
#       .option('delimiter',";")        # Separador dos Dados
#       .option("header", "true")       # Identificar se meus dados possuem header
#       .load(caminho_csv)              # Local do meu arquivo
#   )

Como fazer para que meus dados tenham o schema correto?
1. Schema On Read
2. Alterar o tipo do dados depois da leitura

O Spark reader tem uma opção padrão de inferSchema, que seta o schema de forma automática e como achar conveniente. 

### Schema on read
Quais são os tipos de dados do PySpark?
https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/data_types.html

1. Definir o nosso schema
  - StructType
  - StructField
2. Ler a base de dados com nosso schema setado!

In [None]:
df.schema.fieldNames()

['id',
 'valor',
 'parte_debitada_nome',
 'parte_debitada_conta',
 'parte_debitada_banco',
 'parte_creditada_nome',
 'parte_creditada_conta',
 'parte_creditada_banco',
 'chave_pix_tipo',
 'chave_pix_valor',
 'data_transacao']

In [None]:
from pyspark.sql.types import StructType, StructField, IntegerType, DoubleType

In [None]:
schema_base_pix = StructType([
    StructField('id', IntegerType()),
    StructField('valor', DoubleType()),
])


In [None]:
df = spark.read.csv(
      path=caminho_csv,
      header=True,
      sep=";",
      schema=schema_base_pix
)

In [None]:
df.show()

+---+--------+
| id|   valor|
+---+--------+
|  1|    9.93|
|  2|   15.38|
|  3|   57.58|
|  4|53705.13|
|  5|25299.69|
|  6| 7165.06|
|  7|    6.16|
|  8|  136.36|
|  9|  574.39|
| 10|   42.88|
| 11|33629.97|
| 12| 4374.56|
| 13|  507.18|
| 14|67758.87|
| 15|  815.53|
| 16|    2.73|
| 17|    0.54|
| 18|49836.72|
| 19|    9.68|
| 20| 9837.22|
+---+--------+
only showing top 20 rows



In [None]:
df.printSchema()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)



In [None]:
df.select(sum('valor')).show()

TypeError: ignored

Cuidar para não usar funções do próprio python como se fosse PySpark!

In [None]:
from pyspark.sql.functions import sum as _sum
df.select(_sum('valor')).show()

+------------------+
|        sum(valor)|
+------------------+
|1366301.1899999997|
+------------------+



In [None]:
from pyspark.sql.types import StructType, StructField, IntegerType, DoubleType, StringType, TimestampType

In [None]:
schema_base_pix = StructType([
    StructField('id', IntegerType()),
    StructField('valor', DoubleType()),
    StructField('parte_debitada_nome', StringType()),
    StructField('parte_debitada_conta', StringType()),
    StructField('parte_debitada_banco', StringType()),
    StructField('parte_creditada_nome', StringType()),
    StructField('parte_creditada_conta', StringType()),
    StructField('parte_creditada_banco', StringType()),
    StructField('chave_pix_tipo', StringType()),
    StructField('chave_pix_valor', StringType()),
    StructField('data_transacao', TimestampType())
])


df = spark.read.csv(
      path=caminho_csv,
      header=True,
      sep=";",
      schema=schema_base_pix
)

In [None]:
df.printSchema()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: timestamp (nullable = true)



In [None]:
df.show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+--------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+--------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|          null|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|          null|
|  3|   57.58|    Arthur Goncalves|            18856899

In [None]:
schema_base_pix = StructType([
    StructField('id', IntegerType()),
    StructField('valor', DoubleType()),
    StructField('parte_debitada_nome', StringType()),
    StructField('parte_debitada_conta', StringType()),
    StructField('parte_debitada_banco', StringType()),
    StructField('parte_creditada_nome', StringType()),
    StructField('parte_creditada_conta', StringType()),
    StructField('parte_creditada_banco', StringType()),
    StructField('chave_pix_tipo', StringType()),
    StructField('chave_pix_valor', StringType()),
    StructField('data_transacao', TimestampType())
])


df = spark.read.csv(
      path=caminho_csv,
      header=True,
      sep=";",
      schema=schema_base_pix,
      timestampFormat="dd/MM/yyyy HH:mm"
)

In [None]:
df.printSchema()

df.show()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: timestamp (nullable = true)

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|
+---+--------+--------------------+--------------------+--------------------+--

In [None]:
schema_base_pix = StructType([
    StructField('data_transacao', TimestampType()),    
    StructField('id', IntegerType()),
    StructField('valor', DoubleType()),
    StructField('parte_debitada_nome', StringType()),
    StructField('parte_debitada_conta', StringType()),
    StructField('parte_debitada_banco', StringType()),
    StructField('parte_creditada_nome', StringType()),
    StructField('parte_creditada_conta', StringType()),
    StructField('parte_creditada_banco', StringType()),
    StructField('chave_pix_tipo', StringType()),
    StructField('chave_pix_valor', StringType())

])


df = spark.read.csv(
      path=caminho_csv,
      header=True,
      sep=";",
      schema=schema_base_pix,
      timestampFormat="dd/MM/yyyy HH:mm"
)

In [None]:
df.printSchema()

df.show()

root
 |-- data_transacao: timestamp (nullable = true)
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)

+--------------+----+-----+-------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+----------------+
|data_transacao|  id|valor|parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo| chave_pix_valor|
+--------------+----+-----+-------------------+--------------------+--------------------+----

### Mudar Schema após a leitura

Agora digamos que nossa base possui 350 colunas, e nós não temos tempo hábil para documentarmos todas as colunas e todos os tipos!

In [None]:
df = spark.read.csv(
      path=caminho_csv,
      header=True,
      sep=";",
      inferSchema=True
)

In [None]:
df.printSchema()

df.show()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: integer (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: integer (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: string (nullable = true)

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+----------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|  data_transacao|
+---+--------+--------------------+--------------------+--------------------+---------

In [None]:
df_cast = df.withColumn(
    'id', col('id').cast('int'),
).withColumn(
    'valor', col('valor').cast(DoubleType()),
).withColumn(
    'data_transacao', to_timestamp('data_transacao', "dd/MM/yyyy HH:mm"),
)

In [None]:
df_cast.printSchema()

df_cast.show()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: integer (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: integer (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: timestamp (nullable = true)

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|
+---+--------+--------------------+--------------------+--------------------+

## Manipulando os Dados

Veremos agora a variedade de ferramentas que o Spark nos fornece para trabalharmos e analisarmos dados.

### Descrevendo os dados

In [None]:
df.describe().show()

+-------+------------------+------------------+-------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+--------------------+
|summary|                id|             valor|parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|     chave_pix_valor|
+-------+------------------+------------------+-------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+--------------------+
|  count|               100|               100|                100|                 100|                 100|                 100|                  100|                  100|           100|                 100|
|   mean|              50.5|13663.011899999998|               null|        4.78019628E7|                null|                null|        5.107910677E7|    

### Seleção de Dados

In [None]:
df.select("id", "valor").show(10)

+---+--------+
| id|   valor|
+---+--------+
|  1|    9.93|
|  2|   15.38|
|  3|   57.58|
|  4|53705.13|
|  5|25299.69|
|  6| 7165.06|
|  7|    6.16|
|  8|  136.36|
|  9|  574.39|
| 10|   42.88|
+---+--------+
only showing top 10 rows



### Adicionando mais colunas

Exemplo para transformar coluna de pix para dolar

In [None]:
from pyspark.sql.functions import col, round, lit

dolar_hoje = 5.15
df_dolar = df.withColumn(
    'dolar',lit(dolar_hoje)
).withColumn(
    'valor_dolar', round(col('valor') * col('dolar'), 2)
)

In [None]:
df_dolar.select('id', 'valor', 'dolar', 'valor_dolar').show()

+---+--------+-----+-----------+
| id|   valor|dolar|valor_dolar|
+---+--------+-----+-----------+
|  1|    9.93| 5.15|      51.14|
|  2|   15.38| 5.15|      79.21|
|  3|   57.58| 5.15|     296.54|
|  4|53705.13| 5.15|  276581.42|
|  5|25299.69| 5.15|   130293.4|
|  6| 7165.06| 5.15|   36900.06|
|  7|    6.16| 5.15|      31.72|
|  8|  136.36| 5.15|     702.25|
|  9|  574.39| 5.15|    2958.11|
| 10|   42.88| 5.15|     220.83|
| 11|33629.97| 5.15|  173194.35|
| 12| 4374.56| 5.15|   22528.98|
| 13|  507.18| 5.15|    2611.98|
| 14|67758.87| 5.15|  348958.18|
| 15|  815.53| 5.15|    4199.98|
| 16|    2.73| 5.15|      14.06|
| 17|    0.54| 5.15|       2.78|
| 18|49836.72| 5.15|  256659.11|
| 19|    9.68| 5.15|      49.85|
| 20| 9837.22| 5.15|   50661.68|
+---+--------+-----+-----------+
only showing top 20 rows



### Dropar Colunas

In [None]:
df_dolar = df_dolar.drop('dolar')

In [None]:
df_dolar.printSchema()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: timestamp (nullable = true)
 |-- valor_dolar: double (nullable = true)



### Renomear Colunas

In [None]:
df_dolar = df_dolar.withColumnRenamed('valor_dolar', 'valor_convertido')

In [None]:
df_dolar.printSchema()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: timestamp (nullable = true)
 |-- valor_convertido: double (nullable = true)



### Filtrando Valores

In [None]:
# &, |, ==, ~
df.select('id', 'valor', 'chave_pix_tipo').filter(col('chave_pix_tipo') == 'cpf').show(10)

+---+--------+--------------+
| id|   valor|chave_pix_tipo|
+---+--------+--------------+
|  1|    9.93|           cpf|
|  2|   15.38|           cpf|
|  3|   57.58|           cpf|
|  4|53705.13|           cpf|
|  5|25299.69|           cpf|
|  6| 7165.06|           cpf|
|  7|    6.16|           cpf|
|  8|  136.36|           cpf|
|  9|  574.39|           cpf|
| 10|   42.88|           cpf|
+---+--------+--------------+
only showing top 10 rows



In [None]:
df.select('id', 'valor', 'chave_pix_tipo').filter(col('chave_pix_tipo') != 'cpf').show(10)

+---+--------+--------------+
| id|   valor|chave_pix_tipo|
+---+--------+--------------+
| 19|    9.68|       celular|
| 20| 9837.22|       celular|
| 21|    9.36|       celular|
| 22|   22.43|       celular|
| 23|    7.44|       celular|
| 24|   40.36|       celular|
| 25|   28.66|       celular|
| 26|  154.98|       celular|
| 27|35859.11|       celular|
| 28|   89.94|       celular|
+---+--------+--------------+
only showing top 10 rows



In [None]:
df.select(
    'id', 'valor', 'chave_pix_tipo'
).filter(
    (col('chave_pix_tipo') == 'cpf') &
    (col('valor') > 10000)
).show(10)

+---+--------+--------------+
| id|   valor|chave_pix_tipo|
+---+--------+--------------+
|  4|53705.13|           cpf|
|  5|25299.69|           cpf|
| 11|33629.97|           cpf|
| 14|67758.87|           cpf|
| 18|49836.72|           cpf|
| 47|38219.08|           cpf|
| 52|60139.23|           cpf|
| 54|95977.62|           cpf|
| 55|35409.61|           cpf|
| 62|57433.69|           cpf|
+---+--------+--------------+
only showing top 10 rows



In [None]:
df.select(
    'id', 'valor', 'chave_pix_tipo'
).filter(
    (col('chave_pix_tipo') == 'cpf') |
    (col('chave_pix_tipo') == 'celular')
).show(20)

+---+--------+--------------+
| id|   valor|chave_pix_tipo|
+---+--------+--------------+
|  1|    9.93|           cpf|
|  2|   15.38|           cpf|
|  3|   57.58|           cpf|
|  4|53705.13|           cpf|
|  5|25299.69|           cpf|
|  6| 7165.06|           cpf|
|  7|    6.16|           cpf|
|  8|  136.36|           cpf|
|  9|  574.39|           cpf|
| 10|   42.88|           cpf|
| 11|33629.97|           cpf|
| 12| 4374.56|           cpf|
| 13|  507.18|           cpf|
| 14|67758.87|           cpf|
| 15|  815.53|           cpf|
| 16|    2.73|           cpf|
| 17|    0.54|           cpf|
| 18|49836.72|           cpf|
| 19|    9.68|       celular|
| 20| 9837.22|       celular|
+---+--------+--------------+
only showing top 20 rows



### Lidar com Valores Nulos

#### Dropando Linhas que contém valores nulos

In [None]:
df.na.drop('mode')

#### Preenchendo valores nulos com algum valor

In [None]:
df.na.fill(0, 'valor')

### Agregações e GroupBy


In [None]:
df.select(
    'id', 'valor', 'chave_pix_tipo'
).groupBy(col('chave_pix_tipo')).count().show()

+--------------+-----+
|chave_pix_tipo|count|
+--------------+-----+
|       celular|   22|
|         email|   29|
|           cpf|   49|
+--------------+-----+



In [None]:
df.select(
    'id', 'valor', 'chave_pix_tipo'
).groupBy(col('chave_pix_tipo')).sum('valor').show()

+--------------+------------------+
|chave_pix_tipo|        sum(valor)|
+--------------+------------------+
|       celular|         207778.46|
|         email|499009.38000000006|
|           cpf| 659513.3499999997|
+--------------+------------------+



In [None]:
df.select(
    'id', 'valor', 'chave_pix_tipo'
).groupBy(col('chave_pix_tipo')).avg('valor').show()

+--------------+------------------+
|chave_pix_tipo|        avg(valor)|
+--------------+------------------+
|       celular| 9444.475454545454|
|         email|          17207.22|
|           cpf|13459.456122448973|
+--------------+------------------+



## Escrita de Dados

A maneira mais simples de escrever um arquivo como resultado de um processamento é:

In [None]:
df.write.parquet('./output/base_de_dados')

### Escrita Particionada

In [None]:
df.write.partitionBy("chave_pix_tipo").parquet('./output/base_de_dados')

AnalysisException: ignored

In [None]:
df.write.mode('overwrite').partitionBy("chave_pix_tipo").parquet('./output/base_de_dados')

In [None]:
from pyspark.sql.functions import year, month, dayofmonth, dayofyear

df.select(
    'data_transacao',
    year(col('data_transacao')),
    month(col('data_transacao')),
    dayofmonth(col('data_transacao')),
    dayofyear(col('data_transacao')),
).show(3)

+-------------------+--------------------+---------------------+--------------------------+-------------------------+
|     data_transacao|year(data_transacao)|month(data_transacao)|dayofmonth(data_transacao)|dayofyear(data_transacao)|
+-------------------+--------------------+---------------------+--------------------------+-------------------------+
|2022-02-18 13:28:00|                2022|                    2|                        18|                       49|
|2022-04-08 01:47:00|                2022|                    4|                         8|                       98|
|2022-07-14 03:18:00|                2022|                    7|                        14|                      195|
+-------------------+--------------------+---------------------+--------------------------+-------------------------+
only showing top 3 rows



In [None]:
df_final = df.withColumn(
    'year', year(col('data_transacao'))
).withColumn(
    'month', month(col('data_transacao'))
).withColumn(
    'day', dayofmonth(col('data_transacao'))
)

In [None]:
df_final.write.mode('overwrite').partitionBy(
  "year", "month", "day").parquet('./output/base_de_dados')

## Leitura de um dados particionado

In [None]:
df_parquet = spark.read.parquet('./output/base_de_dados')

In [None]:
df_parquet.rdd.getNumPartitions()

2

In [None]:
!lscpu 

Architecture:        x86_64
CPU op-mode(s):      32-bit, 64-bit
Byte Order:          Little Endian
CPU(s):              2
On-line CPU(s) list: 0,1
Thread(s) per core:  2
Core(s) per socket:  1
Socket(s):           1
NUMA node(s):        1
Vendor ID:           AuthenticAMD
CPU family:          23
Model:               49
Model name:          AMD EPYC 7B12
Stepping:            0
CPU MHz:             2249.998
BogoMIPS:            4499.99
Hypervisor vendor:   KVM
Virtualization type: full
L1d cache:           32K
L1i cache:           32K
L2 cache:            512K
L3 cache:            16384K
NUMA node0 CPU(s):   0,1
Flags:               fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm constant_tsc rep_good nopl nonstop_tsc cpuid extd_apicid tsc_known_freq pni pclmulqdq ssse3 fma cx16 sse4_1 sse4_2 movbe popcnt aes xsave avx f16c rdrand hypervisor lahf_lm cmp_legacy cr8_legacy abm sse4a misalignss

In [None]:
!lscpu  | grep 'CPU(s):'

CPU(s):              2
NUMA node0 CPU(s):   0,1


### Comparar tempo de processamento no SparkUI

In [None]:
df_parquet.filter(col('chave_pix_tipo') == 'cpf').show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+---------------+--------------+--------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_valor|data_transacao|chave_pix_tipo|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+---------------+--------------+--------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|     8439752610|          null|           cpf|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|    27145380617|          null|           cpf|
|  3|   57.58|    Arthur Goncalves|            18856899

In [None]:
df.filter(col('chave_pix_tipo') == 'cpf').show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|2022-02-18 13:28:00|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|2022-04-08 01:47:00|
|  3|   57.58|    Arthur Gonca

### Compression

In [None]:
df.write.mode('overwrite').compression('gzip').partitionBy("chave_pix_tipo").parquet('./output/base_de_dados')