In [1]:
!pip install pyspark

Collecting pyspark
  Downloading pyspark-3.5.1.tar.gz (317.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m317.0/317.0 MB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25l[?25hdone
  Created wheel for pyspark: filename=pyspark-3.5.1-py2.py3-none-any.whl size=317488491 sha256=f423c8fd6c7585fb34e8c71207bfc81f29941ab598b1704ed60b435aab0266ce
  Stored in directory: /root/.cache/pip/wheels/80/1d/60/2c256ed38dddce2fdd93be545214a63e02fbd8d74fb0b7f3a6
Successfully built pyspark
Installing collected packages: pyspark
Successfully installed pyspark-3.5.1


- Para trabalhar com dataframes usamos o Spark Session, ele está um nível acima do Spark Context e é mais facil de trabalhar.

In [2]:
from pyspark.sql import SparkSession

- Criamos uma variável com a sessão do spark e adicionamos variáveis que configuram a seção. No caso colocamos o nome e o get or create que verrifica se já existe uma sessão criada e cria uma caso ela não exista.

In [3]:
spark = SparkSession.builder.appName("Meu primeiro DataFrame").getOrCreate()

In [4]:
df = spark.read.csv('/content/base_de_dados.csv')

In [5]:
df.show()

+--------------------+
|                 _c0|
+--------------------+
|id;valor;parte_de...|
|1;9.93;Dra. Ana C...|
|2;15.38;Ana Calde...|
|3;57.58;Arthur Go...|
|4;53705.13;Ana Ju...|
|5;25299.69;Srta. ...|
|6;7165.06;Gabriel...|
|7;6.16;Heloisa da...|
|8;136.36;Srta. Is...|
|9;574.39;Dr. Luca...|
|10;42.88;Mirella ...|
|11;33629.97;Sr. V...|
|12;4374.56;Nathan...|
|13;507.18;Miguel ...|
|14;67758.87;Julia...|
|15;815.53;Ana Lau...|
|16;2.73;Levi Lima...|
|17;0.54;Otavio Cu...|
|18;49836.72;Ana C...|
|19;9.68;Levi Mart...|
+--------------------+
only showing top 20 rows



- Aqui definimos que a primeira linha é o nosso header, ou seja, nossas colunas. Como o separador padrão do spak é a ",", e o padrão do csv é ";", ele aglutinou toda a informação na útima coluna.

In [6]:
df = spark.read.csv(
    '/content/base_de_dados.csv',
    header = True
)

In [7]:
df.show()

+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|id;valor;parte_debitada_nome;parte_debitada_conta;parte_debitada_banco;parte_creditada_nome;parte_creditada_conta;parte_creditada_banco;chave_pix_tipo;chave_pix_valor;data_transacao|
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|                                                                                                                                                                 1;9.93;Dra. Ana C...|
|                                                                                                                                                                 2;15.38;Ana Calde...|
|                                                                               

- Aqui usamos a função sep para transformar o separador

In [8]:
from os import sep
df = spark.read.csv(
    '/content/base_de_dados.csv',
    header = True,
    sep = ";"
)

In [9]:
df.show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+----------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|  data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+----------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|18/02/2022 13:28|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|08/04/2022 01:47|
|  3|   57.58|    Arthur Goncalves|          

In [10]:
df.printSchema()

root
 |-- id: string (nullable = true)
 |-- valor: string (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: string (nullable = true)



# Manipulando Dados I
Notamos que estamos com tipos de dados errados. Vamos ter que definir os tipos das colunas do dataframe. Temos 2 maneiras de fazer isso.

1. Schemaonread: Antes de lermos o arquivo já definimos a estrutura e os tipos.

2. Alterar depois de o arquivo ter sido lido

In [11]:
from pyspark.sql.types import StructType, StructField, IntegerType, DoubleType

Atravéz da importação do StructType nos podemos definir quais os campos que vão vir no meu data sete. Essa função pede um lista onde temos que importar também cada tipo.

In [12]:
schema_pix = StructType([
    StructField('id', IntegerType()),
    StructField('valor', DoubleType())
])

df = spark.read.csv(
    '/content/base_de_dados.csv',
    header = True,
    sep = ";",
    schema = schema_pix
)

In [13]:
df.show()

+---+--------+
| id|   valor|
+---+--------+
|  1|    9.93|
|  2|   15.38|
|  3|   57.58|
|  4|53705.13|
|  5|25299.69|
|  6| 7165.06|
|  7|    6.16|
|  8|  136.36|
|  9|  574.39|
| 10|   42.88|
| 11|33629.97|
| 12| 4374.56|
| 13|  507.18|
| 14|67758.87|
| 15|  815.53|
| 16|    2.73|
| 17|    0.54|
| 18|49836.72|
| 19|    9.68|
| 20| 9837.22|
+---+--------+
only showing top 20 rows



In [14]:
df.printSchema()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)



In [15]:
from pyspark.sql.types import StructType, StructField, IntegerType, DoubleType, StringType, TimestampType

schema_pix = StructType([
    StructField('id', IntegerType()),
    StructField('valor', DoubleType()),
    StructField('parte_debitada_nome', StringType()),
    StructField('parte_debitada_conta', StringType()),
    StructField('parte_debitada_banco', StringType()),
    StructField('parte_creditada_nome', StringType()),
    StructField('parte_creditada_conta', StringType()),
    StructField('parte_creditada_banco', StringType()),
    StructField('chave_pix_tipo', StringType()),
    StructField('chave_pix_valor', StringType()),
    StructField('data_transacao', TimestampType())
])


df = spark.read.csv(
      path='/content/base_de_dados.csv',
      header=True,
      sep=";",
      schema=schema_pix
)

In [16]:
df.printSchema()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: timestamp (nullable = true)



In [17]:
df.show(20)

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+--------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+--------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|          NULL|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|          NULL|
|  3|   57.58|    Arthur Goncalves|            18856899

- É possível notar que a data veio com o valores nulos. Isso ocorreu por conta da formatação. O Spark lê o timestamp com ano/mes/dia/hora/minuto/segundo. A coluna não forneceu o segundo, logo o Spark não conseguiu realizar a leitura. Vamos corrigir na leitura com o timestampFormat

In [18]:
schema_pix = StructType([
    StructField('id', IntegerType()),
    StructField('valor', DoubleType()),
    StructField('parte_debitada_nome', StringType()),
    StructField('parte_debitada_conta', StringType()),
    StructField('parte_debitada_banco', StringType()),
    StructField('parte_creditada_nome', StringType()),
    StructField('parte_creditada_conta', StringType()),
    StructField('parte_creditada_banco', StringType()),
    StructField('chave_pix_tipo', StringType()),
    StructField('chave_pix_valor', StringType()),
    StructField('data_transacao', TimestampType())
])


df = spark.read.csv(
      path='/content/base_de_dados.csv',
      header=True,
      sep=";",
      schema=schema_pix,
      timestampFormat="dd/MM/yyyy HH:mm"
)

In [19]:
df.show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|2022-02-18 13:28:00|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|2022-04-08 01:47:00|
|  3|   57.58|    Arthur Gonca

Se tivessemos um situação onde os tipos de dados mudam todos os dias, não poderiamos fazer a mudança antes da leitura. Então usamos o inferSchema, mas o mesmo não reconheceu o tipo da data_transacao

In [20]:
df = spark.read.csv(
      path='/content/base_de_dados.csv',
      header=True,
      sep=";",
      inferSchema=True
)

In [21]:
df.printSchema()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: integer (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: integer (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: string (nullable = true)



In [22]:
df = spark.read.csv(
      path='/content/base_de_dados.csv',
      header=True,
      sep=";"
)

In [23]:
df.printSchema()

root
 |-- id: string (nullable = true)
 |-- valor: string (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: string (nullable = true)



- Agora vamsos usar a Manipulação de dados do spark para alterar o dataframe. Com a função withColumn, conseguimos criar e substituir colunas.

In [24]:
from pyspark.sql.functions import col, to_timestamp

df_cast = df.withColumn(
    'id', col('id').cast('int')
).withColumn(
    'valor', col('valor').cast('double')
).withColumn('data_transacao', to_timestamp('data_transacao', 'dd/MM/yyyy HH:mm'))

In [25]:
df.show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+----------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|  data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+----------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|18/02/2022 13:28|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|08/04/2022 01:47|
|  3|   57.58|    Arthur Goncalves|          

# Manipulando Dados II

In [26]:
df.printSchema()

root
 |-- id: string (nullable = true)
 |-- valor: string (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: string (nullable = true)



In [27]:
df_cast.printSchema()

root
 |-- id: integer (nullable = true)
 |-- valor: double (nullable = true)
 |-- parte_debitada_nome: string (nullable = true)
 |-- parte_debitada_conta: string (nullable = true)
 |-- parte_debitada_banco: string (nullable = true)
 |-- parte_creditada_nome: string (nullable = true)
 |-- parte_creditada_conta: string (nullable = true)
 |-- parte_creditada_banco: string (nullable = true)
 |-- chave_pix_tipo: string (nullable = true)
 |-- chave_pix_valor: string (nullable = true)
 |-- data_transacao: timestamp (nullable = true)



1. Ferramente de select:

In [28]:
df_cast.select('id', 'valor', 'data_transacao').show()

+---+--------+-------------------+
| id|   valor|     data_transacao|
+---+--------+-------------------+
|  1|    9.93|2022-02-18 13:28:00|
|  2|   15.38|2022-04-08 01:47:00|
|  3|   57.58|2022-07-14 03:18:00|
|  4|53705.13|2022-01-15 18:06:00|
|  5|25299.69|2022-05-13 11:04:00|
|  6| 7165.06|2022-09-11 13:38:00|
|  7|    6.16|2021-12-10 12:37:00|
|  8|  136.36|2021-12-30 23:18:00|
|  9|  574.39|2021-06-21 07:20:00|
| 10|   42.88|2022-09-21 17:19:00|
| 11|33629.97|2022-09-12 00:29:00|
| 12| 4374.56|2022-08-07 17:01:00|
| 13|  507.18|2021-03-07 12:34:00|
| 14|67758.87|2021-03-24 22:58:00|
| 15|  815.53|2022-02-21 11:25:00|
| 16|    2.73|2021-07-20 09:17:00|
| 17|    0.54|2022-02-16 10:16:00|
| 18|49836.72|2022-07-18 22:46:00|
| 19|    9.68|2022-02-26 15:05:00|
| 20| 9837.22|2021-06-22 05:39:00|
+---+--------+-------------------+
only showing top 20 rows



2. Ferramenta para adicionar colunas:

Aqui usamos o withColumn para visualizarmos a nova coluna e o round para arredondar os dados.

In [29]:
from pyspark.sql.functions import round

df_cast.select('id', 'valor').withColumn('valor_dolar', round(col('valor') * 5, 2)).show()

+---+--------+-----------+
| id|   valor|valor_dolar|
+---+--------+-----------+
|  1|    9.93|      49.65|
|  2|   15.38|       76.9|
|  3|   57.58|      287.9|
|  4|53705.13|  268525.65|
|  5|25299.69|  126498.45|
|  6| 7165.06|    35825.3|
|  7|    6.16|       30.8|
|  8|  136.36|      681.8|
|  9|  574.39|    2871.95|
| 10|   42.88|      214.4|
| 11|33629.97|  168149.85|
| 12| 4374.56|    21872.8|
| 13|  507.18|     2535.9|
| 14|67758.87|  338794.35|
| 15|  815.53|    4077.65|
| 16|    2.73|      13.65|
| 17|    0.54|        2.7|
| 18|49836.72|   249183.6|
| 19|    9.68|       48.4|
| 20| 9837.22|    49186.1|
+---+--------+-----------+
only showing top 20 rows



3. Ferramenta para dropar colunas:

In [30]:
df_dolar = df_cast.select('id', 'valor').withColumn('valor_dolar', round(col('valor') * 5, 2))

In [31]:
df_dolar.show()

+---+--------+-----------+
| id|   valor|valor_dolar|
+---+--------+-----------+
|  1|    9.93|      49.65|
|  2|   15.38|       76.9|
|  3|   57.58|      287.9|
|  4|53705.13|  268525.65|
|  5|25299.69|  126498.45|
|  6| 7165.06|    35825.3|
|  7|    6.16|       30.8|
|  8|  136.36|      681.8|
|  9|  574.39|    2871.95|
| 10|   42.88|      214.4|
| 11|33629.97|  168149.85|
| 12| 4374.56|    21872.8|
| 13|  507.18|     2535.9|
| 14|67758.87|  338794.35|
| 15|  815.53|    4077.65|
| 16|    2.73|      13.65|
| 17|    0.54|        2.7|
| 18|49836.72|   249183.6|
| 19|    9.68|       48.4|
| 20| 9837.22|    49186.1|
+---+--------+-----------+
only showing top 20 rows



In [32]:
df_dolar.drop('valor_dolar').show()

+---+--------+
| id|   valor|
+---+--------+
|  1|    9.93|
|  2|   15.38|
|  3|   57.58|
|  4|53705.13|
|  5|25299.69|
|  6| 7165.06|
|  7|    6.16|
|  8|  136.36|
|  9|  574.39|
| 10|   42.88|
| 11|33629.97|
| 12| 4374.56|
| 13|  507.18|
| 14|67758.87|
| 15|  815.53|
| 16|    2.73|
| 17|    0.54|
| 18|49836.72|
| 19|    9.68|
| 20| 9837.22|
+---+--------+
only showing top 20 rows



4. Ferramenta para renomear uma coluna:

In [33]:
df_dolar.withColumnRenamed('valor_dolar', 'dolar_valor').show()

+---+--------+-----------+
| id|   valor|dolar_valor|
+---+--------+-----------+
|  1|    9.93|      49.65|
|  2|   15.38|       76.9|
|  3|   57.58|      287.9|
|  4|53705.13|  268525.65|
|  5|25299.69|  126498.45|
|  6| 7165.06|    35825.3|
|  7|    6.16|       30.8|
|  8|  136.36|      681.8|
|  9|  574.39|    2871.95|
| 10|   42.88|      214.4|
| 11|33629.97|  168149.85|
| 12| 4374.56|    21872.8|
| 13|  507.18|     2535.9|
| 14|67758.87|  338794.35|
| 15|  815.53|    4077.65|
| 16|    2.73|      13.65|
| 17|    0.54|        2.7|
| 18|49836.72|   249183.6|
| 19|    9.68|       48.4|
| 20| 9837.22|    49186.1|
+---+--------+-----------+
only showing top 20 rows



5. Ferramenta para Filtrar dados específicos onde os operadores são:

- '==': Verifica se o valor de uma coluna é igual eu valor que estou passando como referência
- '!=': Identifica o valor que estou passando e busca todos os diferentes
- '&': Operação binária onde, se eu tiver 2 operações (x=y &(e) x=z), ele só vai me retornar valores que atendam as duas condições
- '|': Oprador de 'or', que se uma ou outra estiver correta ele me retorna.

**Exemplo**: Digamos que eu queira retornar todos os tipos de transação do tipo CPF



In [34]:
df_cast.select('id', 'valor', 'chave_pix_tipo').filter(col('chave_pix_tipo') == 'cpf').show()

+---+--------+--------------+
| id|   valor|chave_pix_tipo|
+---+--------+--------------+
|  1|    9.93|           cpf|
|  2|   15.38|           cpf|
|  3|   57.58|           cpf|
|  4|53705.13|           cpf|
|  5|25299.69|           cpf|
|  6| 7165.06|           cpf|
|  7|    6.16|           cpf|
|  8|  136.36|           cpf|
|  9|  574.39|           cpf|
| 10|   42.88|           cpf|
| 11|33629.97|           cpf|
| 12| 4374.56|           cpf|
| 13|  507.18|           cpf|
| 14|67758.87|           cpf|
| 15|  815.53|           cpf|
| 16|    2.73|           cpf|
| 17|    0.54|           cpf|
| 18|49836.72|           cpf|
| 41|   60.55|           cpf|
| 42|    6.62|           cpf|
+---+--------+--------------+
only showing top 20 rows



Agora queremos todos os outros tipos que não sejam CPF

In [35]:
df_cast.select('id', 'valor', 'chave_pix_tipo').filter(col('chave_pix_tipo') != 'cpf').show()

+---+--------+--------------+
| id|   valor|chave_pix_tipo|
+---+--------+--------------+
| 19|    9.68|       celular|
| 20| 9837.22|       celular|
| 21|    9.36|       celular|
| 22|   22.43|       celular|
| 23|    7.44|       celular|
| 24|   40.36|       celular|
| 25|   28.66|       celular|
| 26|  154.98|       celular|
| 27|35859.11|       celular|
| 28|   89.94|       celular|
| 29|  890.47|       celular|
| 30| 3035.83|       celular|
| 31|20875.64|       celular|
| 32| 1508.83|       celular|
| 33|    1.58|       celular|
| 34|58083.62|       celular|
| 35| 7944.02|       celular|
| 36|48714.95|       celular|
| 37|19799.16|       celular|
| 38|   32.79|       celular|
+---+--------+--------------+
only showing top 20 rows



Agora queremos ver todas as transações com valores maiores que 1mil reais e que ainda sejam CPF

In [36]:
df_cast.select('id', 'valor', 'chave_pix_tipo').filter(
    (col('chave_pix_tipo') != 'cpf') &
    (col('valor') > 10000)
).show()

+---+--------+--------------+
| id|   valor|chave_pix_tipo|
+---+--------+--------------+
| 27|35859.11|       celular|
| 31|20875.64|       celular|
| 34|58083.62|       celular|
| 36|48714.95|       celular|
| 37|19799.16|       celular|
| 78|81977.98|         email|
| 79| 78559.4|         email|
| 83|35095.43|         email|
| 86|94736.79|         email|
| 88|78347.58|         email|
| 97|94586.45|         email|
+---+--------+--------------+



6. Ferramenta para tratar dados nulos:

In [37]:
df_cast.na.drop('any', subset=['id', 'valor']).show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|2022-02-18 13:28:00|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|2022-04-08 01:47:00|
|  3|   57.58|    Arthur Gonca

Substituir o valor null por 0

In [38]:
df_cast.na.fill(0, subset=['valor']).show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|2022-02-18 13:28:00|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|2022-04-08 01:47:00|
|  3|   57.58|    Arthur Gonca

7. Ferramenta de Agrupamentos:

In [39]:
df_cast.select('chave_pix_tipo').groupBy('chave_pix_tipo').count().show()

+--------------+-----+
|chave_pix_tipo|count|
+--------------+-----+
|       celular|   22|
|         email|   29|
|           cpf|   49|
+--------------+-----+



In [40]:
df_cast.select('chave_pix_tipo', 'valor').groupBy('chave_pix_tipo').sum('valor').show()

+--------------+------------------+
|chave_pix_tipo|        sum(valor)|
+--------------+------------------+
|       celular|         207778.46|
|         email|499009.38000000006|
|           cpf| 659513.3499999997|
+--------------+------------------+



In [41]:
df_cast.select('chave_pix_tipo', 'valor').groupBy('chave_pix_tipo').mean('valor').show()

+--------------+------------------+
|chave_pix_tipo|        avg(valor)|
+--------------+------------------+
|       celular| 9444.475454545454|
|         email|          17207.22|
|           cpf|13459.456122448973|
+--------------+------------------+



# Escrita no PySpark

- **Case**: Vamos ler os dados do csv que se referem das transações pix, vamos tratar os dados nulos,vamos filtrar somente as transações de 2022, depois vamos escrever esses dados em 3 formatos diferentes, csv, parquet e parquet particionado.

1. Ler o csv da menira correta:

In [42]:
from pyspark.sql.types import StructType, StructField, IntegerType, DoubleType, StringType, TimestampType


schema_pix = StructType([
    StructField('id', IntegerType()),
    StructField('valor', DoubleType()),
    StructField('parte_debitada_nome', StringType()),
    StructField('parte_debitada_conta', StringType()),
    StructField('parte_debitada_banco', StringType()),
    StructField('parte_creditada_nome', StringType()),
    StructField('parte_creditada_conta', StringType()),
    StructField('parte_creditada_banco', StringType()),
    StructField('chave_pix_tipo', StringType()),
    StructField('chave_pix_valor', StringType()),
    StructField('data_transacao', TimestampType())
])


df = spark.read.csv(
      path='/content/base_de_dados.csv',
      header=True,
      sep=";",
      schema=schema_pix,
      timestampFormat="dd/MM/yyyy HH:mm"
)

In [43]:
df.show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|2022-02-18 13:28:00|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|2022-04-08 01:47:00|
|  3|   57.58|    Arthur Gonca

2. Tratando valores nulos:

In [44]:
df_not_null = df.na.fill(0, subset=['valor'])

3. Filtrar transações de 2022:

In [45]:
from pyspark.sql.functions import year

df_not_null.select(year(col('data_transacao'))).show()

+--------------------+
|year(data_transacao)|
+--------------------+
|                2022|
|                2022|
|                2022|
|                2022|
|                2022|
|                2022|
|                2021|
|                2021|
|                2021|
|                2022|
|                2022|
|                2022|
|                2021|
|                2021|
|                2022|
|                2021|
|                2022|
|                2022|
|                2022|
|                2021|
+--------------------+
only showing top 20 rows



In [46]:
from pyspark.sql.functions import year

df_2022 = df_not_null.filter(year(col('data_transacao')) == '2022')

In [47]:
df_2022.show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|2022-02-18 13:28:00|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    27145380617|2022-04-08 01:47:00|
|  3|   57.58|    Arthur Gonca

In [48]:
df_2022.withColumn('year', year(col('data_transacao'))).groupby('year').count().show()

+----+-----+
|year|count|
+----+-----+
|2022|   48|
+----+-----+



4. Agora precisamos escrever os dados processados em algum lugar:

In [49]:
df_2022.write.csv('output/base_2022.csv')

In [50]:
df_2022.write.parquet('output/patquet/base')

# Particionamento

Para base muito grandes de dados usamos o particionamento. Uma partição em Spark é uma divisão lógica de um DataFrame que permite que os dados sejam processados em paralelo através de um cluster.

https://naifmehanna.com/assets/img/stages.png

In [51]:
df.rdd.getNumPartitions()

1

In [52]:
!lscpu

Architecture:            x86_64
  CPU op-mode(s):        32-bit, 64-bit
  Address sizes:         46 bits physical, 48 bits virtual
  Byte Order:            Little Endian
CPU(s):                  2
  On-line CPU(s) list:   0,1
Vendor ID:               GenuineIntel
  Model name:            Intel(R) Xeon(R) CPU @ 2.20GHz
    CPU family:          6
    Model:               79
    Thread(s) per core:  2
    Core(s) per socket:  1
    Socket(s):           1
    Stepping:            0
    BogoMIPS:            4400.30
    Flags:               fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clf
                         lush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_
                         good nopl xtopology nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fm
                         a cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand hyp
                         ervisor lahf_lm abm 3dnowprefetch invpcid_single ssbd i

In [53]:
df_2022.write.mode('overwrite').partitionBy('chave_pix_tipo').parquet('output/patquet/base')

Agora vamos particionar pela data. Então vamos cirar uma coluna para fazer a partição:

In [54]:
# yyyy-mm-dd
from pyspark.sql.functions import date_format

df_final = df.withColumn('data_particao', date_format(col('data_transacao'), 'yyyy-mm-dd'))

In [55]:
df_final.show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+-------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|data_particao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+-------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|2022-02-18 13:28:00|   2022-28-18|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    2714538

In [56]:
df_final.write.mode('overwrite').partitionBy('data_particao').parquet('output/patquet/base')

# Boas Práticas de Particionamento

1. Particione seus dados com baseando-se em colunas aplamente usadas para realizar filtros.
2. Considere o tamanho do seu dataset e também o tamaho do cluster em que você está executando. Partições muito grandes podem gerar overhead (disperdício de processamento) e poucar partições podem levar a uma distribuição desigual dos dados.
3. Utiliza coalesce() ou repartition() para reduzir o número de partições.
4. O tipo de dado que será utilizado para realizar as partições também conta. Strings por exemplo, podem levar a uma distribuição desigual dos dados.
5. Monitore o seu processamento com o SparkUI.

In [58]:
df_parquet = spark.read.parquet('/content/output/patquet')

- Função para verificar o número de partições no nosso dataframe:

In [59]:
df.rdd.getNumPartitions()

1

- Nosso colab só tem 2 CPU's, logo, o Spark não vai processar de forma performatica o nosso df com 4 partições.

In [60]:
df_parquet.rdd.getNumPartitions()

4

- Para mais performance vamos reduzir o número de partições:

In [61]:
df_parquet_coalesce = df_parquet.coalesce(2)

In [62]:
df_parquet_coalesce.rdd.getNumPartitions()

2

- Agora, como boa prática, vamos melhorar o particionamento:

In [69]:
df_final_ano_mes = df.withColumn('data_particao', date_format(col('data_transacao'), 'yyyy'))

In [70]:
df_final_ano_mes.show()

+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+-------------+
| id|   valor| parte_debitada_nome|parte_debitada_conta|parte_debitada_banco|parte_creditada_nome|parte_creditada_conta|parte_creditada_banco|chave_pix_tipo|chave_pix_valor|     data_transacao|data_particao|
+---+--------+--------------------+--------------------+--------------------+--------------------+---------------------+---------------------+--------------+---------------+-------------------+-------------+
|  1|    9.93|Dra. Ana Carolina...|            79470453|              Nubank|       Maysa da Cruz|             67162333|                 Itau|           cpf|     8439752610|2022-02-18 13:28:00|         2022|
|  2|   15.38|        Ana Caldeira|            19689668|                Itau|        Evelyn Sales|             60005091|             Bradesco|           cpf|    2714538

In [71]:
df_final_ano_mes.write.mode('overwrite').partitionBy('data_particao').parquet('output/parquet/base')