In [7]:

from pyspark.sql.types import StructType,StructField, StringType, IntegerType 
from pyspark.sql import SparkSession
from pyspark.pandas import read_csv


spark = ( 
    SparkSession
    .builder
        .master("local[*]")
    .appName('spark_dataframe_api')
    .getOrCreate()
)


Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
25/06/04 09:09:50 WARN Utils: Your hostname, kassia-pc, resolves to a loopback address: 127.0.1.1; using 172.18.227.129 instead (on interface eth0)
25/06/04 09:09:50 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/06/04 09:09:52 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [23]:
df = (
    spark
    .read
    .option('delimiter', ';')
    .option('header', 'true')
    .option('inferSchema', 'true')
    .option('enconding', 'ISO-8859-1')
    .csv('./data/amostragem.csv')
)

df.printSchema()



root
 |-- Nome da Tarefa: string (nullable = true)
 |-- Tipo da Tarefa: string (nullable = true)
 |-- Tipo da Tarefa ID: integer (nullable = true)
 |-- Data de Criação: timestamp (nullable = true)
 |-- Data de Conclusão: timestamp (nullable = true)
 |-- Status: integer (nullable = true)
 |-- Status Descrição: string (nullable = true)
 |-- Usuário: string (nullable = true)
 |-- ID do Usuário: string (nullable = true)



## Tratando os dados

- Renomeando as colunas 

In [21]:
df = df.withColumnsRenamed(
    {'Nome da Tarefa': 'nome', 
     'Data de Criação': 'data', 
     'Data de Conclusão': 'data_conclusao', 
     'Status': 'status', 
     'Tipo da Tarefa': 'tipo_tarefa', 
     'ID do Usuário': 'user_id'}
    )


df.printSchema()

root
 |-- nome: string (nullable = true)
 |-- tipo_tarefa: string (nullable = true)
 |-- tipo_tarefa: integer (nullable = true)
 |-- data: timestamp (nullable = true)
 |-- data_conclusao: timestamp (nullable = true)
 |-- status: integer (nullable = true)
 |-- user_id: string (nullable = true)



- Filtrando os dados

In [24]:
df = (
  df
  .filter((df['Usuário'] == 'Jeferson Klau') & (df['status'] != 3))
)

df.show()

+--------------------+------------------+-----------------+-------------------+-------------------+------+----------------+-------------+--------------------+
|      Nome da Tarefa|    Tipo da Tarefa|Tipo da Tarefa ID|    Data de Criação|  Data de Conclusão|Status|Status Descrição|      Usuário|       ID do Usuário|
+--------------------+------------------+-----------------+-------------------+-------------------+------+----------------+-------------+--------------------+
|Cum iure exercita...|Tarefa a Ser Feita|                2|2024-07-18 22:51:51|2025-02-12 22:51:51|     2|       Concluído|Jeferson Klau|b4853fc1f03a3a4ce...|
|    Asperiores iusto|Tarefa a Ser Feita|                2|2025-05-29 09:07:49|               NULL|     1|         A Fazer|Jeferson Klau|b4853fc1f03a3a4ce...|
|Asperiores pariat...|Tarefa a Ser Feita|                2|2023-09-12 19:56:45|               NULL|     1|         A Fazer|Jeferson Klau|b4853fc1f03a3a4ce...|
|        Comprar ipsa|    Item de Compra|     

In [25]:
df = (
  df
  .drop('Tipo da Tarefa ID')
  .drop('Status Descrição')
  .drop('Usuário')
)

df.show()

+--------------------+------------------+-------------------+-------------------+------+--------------------+
|      Nome da Tarefa|    Tipo da Tarefa|    Data de Criação|  Data de Conclusão|Status|       ID do Usuário|
+--------------------+------------------+-------------------+-------------------+------+--------------------+
|Cum iure exercita...|Tarefa a Ser Feita|2024-07-18 22:51:51|2025-02-12 22:51:51|     2|b4853fc1f03a3a4ce...|
|    Asperiores iusto|Tarefa a Ser Feita|2025-05-29 09:07:49|               NULL|     1|b4853fc1f03a3a4ce...|
|Asperiores pariat...|Tarefa a Ser Feita|2023-09-12 19:56:45|               NULL|     1|b4853fc1f03a3a4ce...|
|        Comprar ipsa|    Item de Compra|2024-11-27 13:01:39|2025-02-08 13:01:39|     2|b4853fc1f03a3a4ce...|
|     Comprar tempore|    Item de Compra|2023-06-26 06:33:23|2024-06-15 06:33:23|     2|b4853fc1f03a3a4ce...|
|    Laboriosam dolor|Tarefa a Ser Feita|2023-08-27 09:30:37|               NULL|     1|b4853fc1f03a3a4ce...|
|Blanditii

- Mudando o valor dos atributos para o padrão da tabela do dynamoDB

In [26]:
from pyspark.sql.functions import when

df = (
  df.withColumn('status', when(df['Status'] == 1, 'TODO').otherwise('DONE'))
)

df.show()

+--------------------+------------------+-------------------+-------------------+------+--------------------+
|      Nome da Tarefa|    Tipo da Tarefa|    Data de Criação|  Data de Conclusão|status|       ID do Usuário|
+--------------------+------------------+-------------------+-------------------+------+--------------------+
|Cum iure exercita...|Tarefa a Ser Feita|2024-07-18 22:51:51|2025-02-12 22:51:51|  DONE|b4853fc1f03a3a4ce...|
|    Asperiores iusto|Tarefa a Ser Feita|2025-05-29 09:07:49|               NULL|  TODO|b4853fc1f03a3a4ce...|
|Asperiores pariat...|Tarefa a Ser Feita|2023-09-12 19:56:45|               NULL|  TODO|b4853fc1f03a3a4ce...|
|        Comprar ipsa|    Item de Compra|2024-11-27 13:01:39|2025-02-08 13:01:39|  DONE|b4853fc1f03a3a4ce...|
|     Comprar tempore|    Item de Compra|2023-06-26 06:33:23|2024-06-15 06:33:23|  DONE|b4853fc1f03a3a4ce...|
|    Laboriosam dolor|Tarefa a Ser Feita|2023-08-27 09:30:37|               NULL|  TODO|b4853fc1f03a3a4ce...|
|Blanditii