In [56]:

from pyspark.sql.types import StructType,StructField, StringType, IntegerType 
from pyspark.sql import SparkSession
from pyspark.pandas import read_csv


spark = ( 
    SparkSession
    .builder
        .master("local[*]")
    .appName('spark_dataframe_api')
    .getOrCreate()
)


In [57]:
base_dataframe = (
    spark
    .read
    .option('delimiter', ';')
    .option('header', 'true')
    .option('inferSchema', 'true')
    .option('enconding', 'ISO-8859-1')
    .csv('./data/amostragem.csv')
)

base_dataframe.printSchema()



root
 |-- Nome da Tarefa: string (nullable = true)
 |-- Tipo da Tarefa: string (nullable = true)
 |-- Tipo da Tarefa ID: integer (nullable = true)
 |-- Data de Criação: timestamp (nullable = true)
 |-- Data de Conclusão: timestamp (nullable = true)
 |-- Status: integer (nullable = true)
 |-- Status Descrição: string (nullable = true)
 |-- Usuário: string (nullable = true)
 |-- ID do Usuário: string (nullable = true)



## Tratando os dados

- Renomeando as colunas 

In [58]:
df = base_dataframe.withColumnsRenamed(
    {'Nome da Tarefa': 'nome', 
     'Data de Criação': 'data', 
     'Data de Conclusão': 'data_conclusao', 
     'Status': 'status', 
     'Tipo da Tarefa': 'tipo_tarefa', 
     'ID do Usuário': 'user_id'}
    )

df = df.withColumn('status', df['status'].cast(StringType()))

df.printSchema()

root
 |-- nome: string (nullable = true)
 |-- tipo_tarefa: string (nullable = true)
 |-- Tipo da Tarefa ID: integer (nullable = true)
 |-- data: timestamp (nullable = true)
 |-- data_conclusao: timestamp (nullable = true)
 |-- status: string (nullable = true)
 |-- Status Descrição: string (nullable = true)
 |-- Usuário: string (nullable = true)
 |-- user_id: string (nullable = true)



- Filtrando os dados

In [59]:
df = (
  df
  .filter((df['Usuário'] == 'Jeferson Klau') & (df['status'] != 3))
)

df.show()

+--------------------+------------------+-----------------+-------------------+-------------------+------+----------------+-------------+--------------------+
|                nome|       tipo_tarefa|Tipo da Tarefa ID|               data|     data_conclusao|status|Status Descrição|      Usuário|             user_id|
+--------------------+------------------+-----------------+-------------------+-------------------+------+----------------+-------------+--------------------+
|Cum iure exercita...|Tarefa a Ser Feita|                2|2024-07-18 22:51:51|2025-02-12 22:51:51|     2|       Concluído|Jeferson Klau|b4853fc1f03a3a4ce...|
|    Asperiores iusto|Tarefa a Ser Feita|                2|2025-05-29 09:07:49|               NULL|     1|         A Fazer|Jeferson Klau|b4853fc1f03a3a4ce...|
|Asperiores pariat...|Tarefa a Ser Feita|                2|2023-09-12 19:56:45|               NULL|     1|         A Fazer|Jeferson Klau|b4853fc1f03a3a4ce...|
|        Comprar ipsa|    Item de Compra|     

In [60]:
df = (
  df
  .drop('Tipo da Tarefa ID')
  .drop('Status Descrição')
  .drop('Usuário')
)

df.show()

+--------------------+------------------+-------------------+-------------------+------+--------------------+
|                nome|       tipo_tarefa|               data|     data_conclusao|status|             user_id|
+--------------------+------------------+-------------------+-------------------+------+--------------------+
|Cum iure exercita...|Tarefa a Ser Feita|2024-07-18 22:51:51|2025-02-12 22:51:51|     2|b4853fc1f03a3a4ce...|
|    Asperiores iusto|Tarefa a Ser Feita|2025-05-29 09:07:49|               NULL|     1|b4853fc1f03a3a4ce...|
|Asperiores pariat...|Tarefa a Ser Feita|2023-09-12 19:56:45|               NULL|     1|b4853fc1f03a3a4ce...|
|        Comprar ipsa|    Item de Compra|2024-11-27 13:01:39|2025-02-08 13:01:39|     2|b4853fc1f03a3a4ce...|
|     Comprar tempore|    Item de Compra|2023-06-26 06:33:23|2024-06-15 06:33:23|     2|b4853fc1f03a3a4ce...|
|    Laboriosam dolor|Tarefa a Ser Feita|2023-08-27 09:30:37|               NULL|     1|b4853fc1f03a3a4ce...|
|Blanditii

- Mudando o valor dos atributos para o padrão da tabela do dynamoDB

In [None]:
from pyspark.sql.functions import when, date_format, lit, col, concat
import uuid



df = df.withColumn('status', when(df['status'] == 1, 'TODO').otherwise('DONE'))
df = df.withColumn('PK', concat(lit('LIST#'), date_format(col('data'), 'yyyyMMdd')))
df = df.withColumn('SK', concat(lit('ITEM#'), lit(str(uuid.uuid4()))))  # TODO arrumar o id para que naão seja o mesmo para todos
df = df.select(df.PK, df.SK, df.user_id, df.nome, df.data, df.data_conclusao, df.status, df.tipo_tarefa)

df.show()

+-------------+--------------------+--------------------+--------------------+-------------------+-------------------+------+------------------+
|           PK|                  SK|             user_id|                nome|               data|     data_conclusao|status|       tipo_tarefa|
+-------------+--------------------+--------------------+--------------------+-------------------+-------------------+------+------------------+
|LIST#20240718|ITEM#1fa0a8af-6ad...|b4853fc1f03a3a4ce...|Cum iure exercita...|2024-07-18 22:51:51|2025-02-12 22:51:51|  DONE|Tarefa a Ser Feita|
|LIST#20250529|ITEM#1fa0a8af-6ad...|b4853fc1f03a3a4ce...|    Asperiores iusto|2025-05-29 09:07:49|               NULL|  TODO|Tarefa a Ser Feita|
|LIST#20230912|ITEM#1fa0a8af-6ad...|b4853fc1f03a3a4ce...|Asperiores pariat...|2023-09-12 19:56:45|               NULL|  TODO|Tarefa a Ser Feita|
|LIST#20241127|ITEM#1fa0a8af-6ad...|b4853fc1f03a3a4ce...|        Comprar ipsa|2024-11-27 13:01:39|2025-02-08 13:01:39|  DONE|    I