# üìä AWS Glue & PySpark ETL: An√°lise de Transa√ß√µes Financeiras

## üìå Introdu√ß√£o

Este projeto tem como objetivo **analisar transa√ß√µes financeiras**, identificando padr√µes e poss√≠veis fraudes.
Utilizamos **AWS Glue & PySpark** para processamento e **Pandas + Seaborn** para an√°lise explorat√≥ria.

### **Principais perguntas analisadas:**
- Como os valores das transa√ß√µes est√£o distribu√≠dos?
- H√° padr√µes claros entre transa√ß√µes fraudulentas e leg√≠timas?
- Existe alguma vari√°vel fortemente correlacionada com fraudes?

### **Tecnologias utilizadas:**
‚úÖ **PySpark & Pandas** ‚Üí Manipula√ß√£o de dados.  
‚úÖ **Matplotlib & Seaborn** ‚Üí Visualiza√ß√£o de insights.  
‚úÖ **AWS Glue & S3** ‚Üí Processamento em escala.  
‚úÖ **SQL & Power BI** ‚Üí Otimiza√ß√£o e Dashboards (pr√≥ximas etapas).


## üìå 2Ô∏è‚É£ Importa√ß√£o de Bibliotecas

In [None]:
import os
import yaml
import glob
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## üìå 3Ô∏è‚É£ Carregamento do Arquivo de Configura√ß√£o

Antes de iniciar a an√°lise, precisamos carregar as configura√ß√µes do projeto.  
O arquivo `config.yaml` cont√©m informa√ß√µes essenciais, como **caminho dos dados** e **par√¢metros de processamento**.


In [None]:
import os
import yaml

# üìÇ Garantir que o caminho seja carregado corretamente
config_path = os.path.abspath(os.path.join(os.getcwd(), "config/config.yaml"))

print(f"üìÇ Tentando carregar: {config_path}")

if os.path.exists(config_path):
    with open(config_path, "r") as f:
        config = yaml.safe_load(f)
    print("‚úÖ Configura√ß√£o carregada com sucesso!")
else:
    raise FileNotFoundError("‚ùå Arquivo 'config.yaml' n√£o encontrado!")

# üîÑ Definir ambiente
IS_AWS = config.get("environment") == "aws"

# üìÇ Ajustar caminhos dependendo do ambiente
if IS_AWS:
    INPUT_PATH = config.get("aws_s3_input")
    OUTPUT_PATH = config.get("aws_s3_output")
else:
    INPUT_PATH = os.path.abspath(config.get("raw_data_path"))
    OUTPUT_PATH = os.path.abspath(config.get("data_path"))

print(f"üìÇ Caminho de entrada: {INPUT_PATH}")
print(f"üìÇ Caminho de sa√≠da: {OUTPUT_PATH}")


In [None]:
# Configura√ß√£o para exibi√ß√£o de gr√°ficos inline
%matplotlib inline
sns.set_theme(style="whitegrid")

# üìå 4Ô∏è‚É£ Carregar os Dados

In [None]:
import os
import yaml
import glob
import pandas as pd

# üìÇ Carregar configura√ß√£o do YAML
config_path = os.path.abspath("config/config.yaml")

if os.path.exists(config_path):
    with open(config_path, "r") as f:
        config = yaml.safe_load(f)
    print("‚úÖ Configura√ß√£o carregada com sucesso!")
else:
    raise FileNotFoundError("‚ùå Arquivo 'config.yaml' n√£o encontrado!")

# üîÑ Definir ambiente (AWS ou Local)
IS_AWS = config.get("environment") == "aws"

# üìÇ Ajustar caminho de busca dos arquivos Parquet
if IS_AWS:
    processed_data_path = config.get("aws_s3_output")  # No AWS, leitura seria via S3
else:
    processed_data_path = os.path.abspath(config.get("data_path"))

# üìÇ Buscar arquivos Parquet no diret√≥rio configurado
parquet_files = glob.glob(os.path.join(processed_data_path, "*.parquet"))

# üîÑ Corrigir caminho para evitar problemas no Windows/Linux
parquet_files = [os.path.normpath(f) for f in parquet_files]

# üìå Verificar se encontrou arquivos Parquet
if not parquet_files:
    raise FileNotFoundError(f"‚ùå Nenhum arquivo Parquet encontrado no diret√≥rio: {processed_data_path}")

print(f"‚úÖ {len(parquet_files)} arquivos Parquet encontrados!")

# üîÑ Carregar e concatenar os arquivos Parquet no Pandas DataFrame
df_list = [pd.read_parquet(f, engine="pyarrow") for f in parquet_files]
df = pd.concat(df_list, ignore_index=True) if df_list else pd.DataFrame()

# üìä Exibir primeiras linhas e estat√≠sticas
display(df.head())
display(df.describe())
display(df.dtypes)


# üìå 5Ô∏è‚É£ Explora√ß√£o Inicial dos Dados

In [None]:
print("üìä Exibindo as 5 primeiras linhas do dataset:")
display(df.head())

print("\nüìå Informa√ß√µes Gerais sobre o DataFrame:")
df.info()

print("\nüìä Estat√≠sticas descritivas do dataset:")
display(df.describe())

print("\nüîç Verifica√ß√£o de valores nulos:")
display(df.isnull().sum())

print("\nüìå Tipos de dados das colunas:")
display(df.dtypes)


## üìå 6Ô∏è‚É£ An√°lise de Distribui√ß√£o dos Valores das Transa√ß√µes

Nesta se√ß√£o, analisamos **como os valores das transa√ß√µes est√£o distribu√≠dos** e **se h√° outliers**.  
Essa an√°lise nos ajudar√° a entender padr√µes e poss√≠veis anomalias associadas a fraudes.


### üìä 6.1 Histograma: Distribui√ß√£o do Valor das Transa√ß√µes
- **Objetivo**: Visualizar a distribui√ß√£o dos valores das transa√ß√µes.  
- **Interpreta√ß√£o**:  
  - A maioria das transa√ß√µes tem valores **baixos (0 a 10 d√≥lares)**.  
  - A distribui√ß√£o √© **assim√©trica √† direita**, indicando algumas transa√ß√µes de alto valor.  
  - Transa√ß√µes de valores extremos podem ser **outliers ou potenciais fraudes**.


In [None]:
plt.figure(figsize=(10,5))
sns.histplot(df["amt"], bins=50, kde=True)
plt.title("Distribui√ß√£o do Valor das Transa√ß√µes")
plt.xlabel("Valor da Transa√ß√£o ($)")
plt.ylabel("Frequ√™ncia")
plt.show()


###  6.2 Boxplot: Identifica√ß√£o de Outliers
- **Objetivo**: Identificar **outliers (valores at√≠picos)** nas transa√ß√µes.  
- **Interpreta√ß√£o**:  
  - A mediana (~50 d√≥lares) representa o valor central da maioria das transa√ß√µes.  
  - **Valores acima de ~175 d√≥lares s√£o considerados outliers**, indicando transa√ß√µes incomuns.  
  - Transa√ß√µes extremamente altas podem ser **fraudes ou compras leg√≠timas de alto valor**.


In [None]:
plt.figure(figsize=(10,5))
sns.boxplot(x=df["amt"])
plt.title("Boxplot do Valor das Transa√ß√µes")
plt.xlabel("Valor da Transa√ß√£o ($)")
plt.show()


### 6.3 Filtrando Transa√ß√µes com Valores Elevados
- **Objetivo**: Examinar transa√ß√µes acima de **175 d√≥lares** para verificar se h√° padr√µes incomuns.  
- **Interpreta√ß√£o**:  
  - Essas transa√ß√µes podem ser **raras e merecem investiga√ß√£o**.  
  - Se muitas dessas transa√ß√µes forem fraudulentas (`is_fraud = 1`), pode indicar que fraudes ocorrem **principalmente em valores altos**.


In [None]:
high_value_tx = df[df["amt"] > 175]
display(high_value_tx.head())


### üìä 6.4 Percentual de Transa√ß√µes Elevadas que S√£o Fraudes
- **Objetivo**: Contar quantas dessas transa√ß√µes de alto valor s√£o fraudulentas (`is_fraud = 1`).  
- **Interpreta√ß√£o**:  
  - Se um **percentual significativo** de fraudes estiver entre as transa√ß√µes caras, pode indicar um **padr√£o de fraude em compras de alto valor**.  
  - Se a maioria das transa√ß√µes de alto valor for leg√≠tima, pode ser apenas um comportamento esperado dos clientes.


In [None]:
df[df["amt"] > 175]["is_fraud"].value_counts()


## üìå 7Ô∏è‚É£ Matriz de Correla√ß√£o

"""
A correla√ß√£o entre as vari√°veis nos ajuda a entender **rela√ß√µes estat√≠sticas** entre elas.
Valores pr√≥ximos de **1.0 ou -1.0** indicam **forte correla√ß√£o positiva ou negativa**, 
enquanto valores pr√≥ximos de **0** indicam que as vari√°veis s√£o independentes.

üìä **O que analisar?**
- Se o valor da transa√ß√£o (`amt`) tem correla√ß√£o com fraude (`is_fraud`).
- Se alguma vari√°vel de localiza√ß√£o (`lat`, `long`) pode indicar comportamento suspeito.
- Se o tempo entre transa√ß√µes (`time_diff`) influencia fraudes.
"""

In [None]:
# Selecionar apenas colunas num√©ricas para evitar erro
df_numeric = df.select_dtypes(include=['number'])

# Criar matriz de correla√ß√£o
plt.figure(figsize=(10,6))
sns.heatmap(df_numeric.corr(), annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correla√ß√£o das Vari√°veis")
plt.show()

In [None]:
## üìå 8Ô∏è‚É£ Conclus√µes e Pr√≥ximos Passos

### üîç **Conclus√µes**
1Ô∏è‚É£ O dataset cont√©m **informa√ß√µes completas e bem estruturadas**.  
2Ô∏è‚É£ A maioria das transa√ß√µes est√° **concentrada em valores menores**, com poucos outliers.  
3Ô∏è‚É£ **Fraudes podem ocorrer tanto em valores baixos quanto altos**, indicando que **outros fatores devem ser analisados**.

### üöÄ **Pr√≥ximos Passos**
‚úÖ **Testar otimiza√ß√µes de performance no PySpark** para melhorar a efici√™ncia do ETL.  
‚úÖ **Criar dashboards interativos no Power BI** para monitoramento em tempo real.
