In [2]:
# Projeto 2 - Banco de Dados, Machine Learning e Pipeline ETL em Cluster Spark Para Detectar Anomalias em Transações Financeiras
# Tarefa 1 - Criando o Primeiro Pipeline Para Listar Anomalias nas Transações Financeiras

# Imports
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Inicializando a sessão Spark
spark = SparkSession.builder \
    .appName("DSA Projeto 2 - Tarefa 1") \
    .getOrCreate()

# Carregando dados de um arquivo CSV
df_dsa = spark.read.csv('../data/dados1_cap05.csv', header = True, inferSchema = True)

# Configurando o nível de log
spark.sparkContext.setLogLevel('ERROR')

# Imprimindo os dados 
df_dsa.show()

# Definindo um limite para considerar uma transação como anomalia
LIMITE_ANOMALIA = 50000 

# Filtrando transações que são consideradas anomalias
anomalias = df_dsa.filter(col('Valor') > LIMITE_ANOMALIA)

# Imprimindo anomalias detectadas
anomalias.show()

# Contagem total de linhas no DataFrame de anomalias
print(f"Total de linhas no DataFrame de anomalias: {anomalias.count()}")

# Salvando o resultado em um arquivo CSV 
anomalias.write.mode('overwrite').csv('data/resultado_tarefa1', header = True)

# Encerrando a sessão Spark
spark.stop()

print("\nObrigado DSA. Execução do Job Concluída com Sucesso!\n")



                                                                                

+------------+--------------------+------------------+----------+--------+
|ID_Transacao|                Data|             Valor|ID_Cliente|Anomalia|
+------------+--------------------+------------------+----------+--------+
|       73955|2023-01-07 05:32:...|202.82451434647305|      9314|   false|
|       38220|2023-06-16 19:42:...| 461.7422620705475|      7428|   false|
|       58300|2023-10-01 13:24:...|312.77835638702317|      2535|   false|
|       97198|2024-09-15 22:01:...| 269.6675352166476|      1262|   false|
|       50951|2023-02-09 18:51:...|103.37012869703008|      3125|   false|
|       98020|2024-11-08 18:27:...|131.95424204314185|      7875|   false|
|       54317|2024-11-27 10:20:...|155.01588705192634|      1442|   false|
|       21864|2023-03-17 05:49:...| 48.52795667352884|      6467|   false|
|       56664|2024-01-16 02:40:...|11.962321504794886|      2279|   false|
|       63826|2024-10-28 00:45:...| 346.8514589472834|      3748|   false|
|       77865|2024-12-08 



Total de linhas no DataFrame de anomalias: 10086


                                                                                


Obrigado DSA. Execução do Job Concluída com Sucesso!

