In [5]:
import pandas as pd
import pyarrow.parquet as pq
import os
import matplotlib.pyplot as plt
import seaborn as sns
import glob


# Carregar todos os arquivos Parquet na pasta
processed_data_path = "data/processed/*.parquet"

# Lista todos os arquivos correspondentes ao padrão
parquet_files = glob.glob(processed_data_path)

# Verifica se encontrou arquivos
if not parquet_files:
    raise FileNotFoundError("Nenhum arquivo Parquet encontrado na pasta 'data/processed/'.")

# Carregar todos os arquivos Parquet em um único DataFrame
df = pd.concat([pd.read_parquet(f, engine="pyarrow") for f in parquet_files])

# Exibir as 5 primeiras linhas
display(df.head())

# Exibir as 5 primeiras linhas
display(df.head())

# Informações gerais do dataset
df.info()

# Estatísticas descritivas
display(df.describe())

# Verificar valores nulos
display(df.isnull().sum())

# Verificar colunas e tipos de dados
display(df.dtypes)

# Distribuição dos Valores das Transações
plt.figure(figsize=(10,5))
sns.histplot(df["amt"], bins=50, kde=True)
plt.title("Distribuição do Valor das Transações")
plt.xlabel("Valor da Transação ($)")
plt.ylabel("Frequência")
plt.show()

# Comparação de Transações Legítimas vs. Fraudulentas
plt.figure(figsize=(6,4))
sns.countplot(x="is_fraud", data=df, palette="coolwarm")
plt.title("Distribuição de Transações Fraudulentas vs. Legítimas")
plt.xlabel("Fraude (0 = Não, 1 = Sim)")
plt.ylabel("Contagem")
plt.show()

# Boxplot para Identificação de Outliers
plt.figure(figsize=(10,5))
sns.boxplot(x="is_fraud", y="amt", data=df)
plt.title("Distribuição de Valores de Transações - Legítimas vs. Fraudulentas")
plt.xlabel("Fraude")
plt.ylabel("Valor da Transação ($)")
plt.yscale("log")  # Escala log para melhor visualização
plt.show()

# Criar matriz de correlação
plt.figure(figsize=(10, 6))
sns.heatmap(df.corr(), annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlação das Variáveis")
plt.show()


ModuleNotFoundError: No module named 'pandas'