
# Transaction Analysis

**Conte√∫do:**
1. Carregamento e normaliza√ß√£o dos dados  
2. Se√ß√£o 1 ‚Äî Estat√≠sticas e sazonalidade  
3. Se√ß√£o 2 ‚Äî Identifica√ß√£o de padr√µes e outliers  
4. Se√ß√£o 3 ‚Äî Proposta de ferramenta acion√°vel (fluxo de alertas)  
5. Se√ß√£o 4 ‚Äî M√©trica calcul√°vel por sistema (c√≥digo + JSON)  

In [None]:
import os, io, math, shutil, zipfile, textwrap
from datetime import datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Paths
BASE = ""
CSV_PATH = f"{BASE}/transactions.csv"

# Diret√≥rios criados diretamente na raiz do projeto
ANALYSIS_DIR = os.path.join(BASE, "analysis")
PROPOSAL_DIR = os.path.join(BASE, "proposal")
CODE_DIR = os.path.join(BASE, "code")
ASSETS_DIR = os.path.join(BASE, "assets")

# Cria todos os diret√≥rios, se n√£o existirem
for d in [ANALYSIS_DIR, PROPOSAL_DIR, CODE_DIR, ASSETS_DIR]:
    os.makedirs(d, exist_ok=True)

## 1) Carregamento e normaliza√ß√£o

In [None]:

# Carregar
df = pd.read_csv(CSV_PATH)

# Normalizar nomes
df.columns = [c.strip().lower() for c in df.columns]

# Tipos
if "date" in df.columns:
    df["date"] = pd.to_datetime(df["date"], errors="coerce")
if "amount" in df.columns:
    df["amount"] = pd.to_numeric(df["amount"], errors="coerce")

# Manter linhas v√°lidas
df = df.dropna(subset=["date", "amount"]).copy()
df.head()


## 2) Se√ß√£o 1 ‚Äî Estat√≠sticas e Sazonalidade

In [None]:

# Estat√≠sticas por categoria
stats_by_cat = (
    df.groupby("category")["amount"]
      .agg(mean="mean", median="median", std="std", count="count", sum="sum")
      .sort_values("sum", ascending=False)
      .reset_index()
)
display(stats_by_cat.head(20))

# Totais mensais
df["year_month"] = df["date"].dt.to_period("M").astype(str)
monthly_totals = (df.groupby("year_month")["amount"]
                    .sum()
                    .reset_index()
                    .rename(columns={"amount": "total_spend"}))
display(monthly_totals.head())

# Gr√°fico de sazonalidade
plt.figure(figsize=(9,4.5))
plt.plot(pd.to_datetime(monthly_totals["year_month"]), monthly_totals["total_spend"], marker="o")
plt.title("Gastos totais por m√™s")
plt.xlabel("M√™s"); plt.ylabel("Total gasto"); plt.tight_layout()
seasonality_png = os.path.join(ASSETS_DIR, "seasonality.png")
plt.savefig(seasonality_png, dpi=160)
plt.show()
plt.close()

# Salvar artefatos
stats_by_cat_path = os.path.join(ANALYSIS_DIR, "stats_by_category.csv")
monthly_totals_path = os.path.join(ANALYSIS_DIR, "monthly_totals.csv")
stats_by_cat.to_csv(stats_by_cat_path, index=False)
monthly_totals.to_csv(monthly_totals_path, index=False)

stats_by_cat_path, monthly_totals_path, seasonality_png


## 3) Se√ß√£o 2 ‚Äî Padr√µes e Outliers

In [None]:
# Calcular o coeficiente de varia√ß√£o (CV) por categoria
stats_by_cat["cv"] = stats_by_cat["std"] / (stats_by_cat["mean"].replace(0, np.nan))
var_df = stats_by_cat.dropna(subset=["cv"]).sort_values("cv", ascending=False)
top_var = var_df.head(5)

print("üìä Categorias com maior variabilidade de gasto:")
display(top_var[["category", "mean", "std", "cv", "count", "sum"]])

# Fun√ß√£o para detectar outliers usando o m√©todo IQR
def iqr_bounds(x):
    q1, q3 = x.quantile(0.25), x.quantile(0.75)
    iqr = q3 - q1
    return q1 - 1.5 * iqr, q3 + 1.5 * iqr

# Detectar e registrar outliers por categoria
outliers = []
for cat, sub in df.groupby("category"):
    if len(sub) < 8:
        continue
    low, up = iqr_bounds(sub["amount"])
    mask = (sub["amount"] < low) | (sub["amount"] > up)
    if mask.any():
        flagged = sub.loc[mask, ["date", "category", "merchant", "amount"]].copy()
        flagged["lower_bound"] = low
        flagged["upper_bound"] = up
        outliers.append(flagged)

outliers_df = (
    pd.concat(outliers, ignore_index=True)
    if outliers
    else pd.DataFrame(columns=["date", "category", "merchant", "amount", "lower_bound", "upper_bound"])
)

# Ordenar e limitar aos 10 outliers mais extremos
if not outliers_df.empty:
    outliers_df["distance"] = outliers_df.apply(
        lambda r: min(abs(r["amount"] - r["lower_bound"]), abs(r["upper_bound"] - r["amount"])),
        axis=1
    )
    outliers_df = outliers_df.sort_values("distance", ascending=False).head(10)

# Exibir resultados
if outliers_df.empty:
    print("‚ö†Ô∏è Nenhum outlier relevante identificado pelo crit√©rio IQR.")
else:
    print(f"‚ö†Ô∏è Foram detectados outliers em {outliers_df['category'].nunique()} categorias.")
    print("Principais categorias com outliers:")
    print(outliers_df['category'].unique()[:10])
    display(outliers_df)

# Salvar resultados
outliers_path = os.path.join(ANALYSIS_DIR, "top_outliers.csv")
top_var_path = os.path.join(ANALYSIS_DIR, "stats_variability.csv")
var_df.to_csv(top_var_path, index=False)

print(f"\nArquivos salvos:\n- {top_var_path}\n- {outliers_path}")

## 4) Relat√≥rio

A an√°lise das transa√ß√µes revelou varia√ß√µes expressivas em determinadas categorias de gasto.  
As categorias com maior variabilidade (coeficiente de varia√ß√£o ‚Äî CV) foram:

- **Transfer√™ncia ‚Äì PIX** (CV = 4.29, m√©dia =  482,75, desvio =  2.071,35)  
- **Transfer√™ncia ‚Äì C√¢mbio** (CV = 1.18, m√©dia =  2.098,89, desvio =  2.471,38)  
- **Transfer√™ncia ‚Äì TED** (CV = 0.73, m√©dia =  96,62, desvio =  70,40)

Esses resultados indicam comportamento financeiro mais vol√°til, com transa√ß√µes pontuais de valores elevados que afetam a estabilidade mensal.

Al√©m disso, foram identificados **outliers** nas seguintes categorias:

- **Transfer√™ncia - PIX**
- **Transfer√™ncia entre contas de mesma titularidade**
- **Servi√ßos**
- **Compras**

Essas categorias apresentam **movimenta√ß√µes isoladas com valores significativamente acima da m√©dia**.  
Os casos podem estar relacionados a **opera√ß√µes n√£o recorrentes**, como **transfer√™ncias de grande valor** ou **pagamentos extraordin√°rios**, que **distorcem o padr√£o estat√≠stico de consumo** e **devem ser monitorados** em an√°lises de comportamento financeiro.


Para melhorar o acompanhamento das finan√ßas, prop√µem-se duas m√©tricas:  
(1) **Overspend Index (OI)** ‚Äî compara o gasto atual com a m√©dia dos tr√™s meses anteriores, permitindo identificar picos de gasto;  
(2) **Large Transaction Z-Score (LTZ)** ‚Äî quantifica o desvio de uma transa√ß√£o em rela√ß√£o √† m√©dia hist√≥rica da categoria.

Essas m√©tricas permitem a cria√ß√£o de alertas autom√°ticos e relat√≥rios inteligentes de comportamento de consumo, favorecendo a gest√£o financeira e o planejamento pessoal.

---

## üßÆ Defini√ß√£o Formal das M√©tricas

### 1. Overspend Index (OI)

**F√≥rmula:**
\[
OI_t = \frac{Gasto_t}{\epsilon + \text{M√©dia}(Gasto_{t-1}, Gasto_{t-2}, Gasto_{t-3})}
\]

**Interpreta√ß√£o:**
- \( OI > 1.25 \) ‚Üí gasto 25 % acima da m√©dia recente  
- \( OI < 0.75 \) ‚Üí queda acentuada no consumo  

---

### 2. Large Transaction Z-Score (LTZ)

**F√≥rmula:**
\[
LTZ = \frac{Valor - \mu_{\text{categoria}}}{\sigma_{\text{categoria}} + \epsilon}
\]

**Interpreta√ß√£o:**
- \( |LTZ| \ge 3 \) ‚Üí transa√ß√£o at√≠pica  
- Permite detectar gastos muito acima (ou abaixo) do padr√£o da categoria


## 5) Se√ß√£o 3 ‚Äî Proposta de Ferramenta Acion√°vel (Fluxo de Alertas)

### Fluxo de Intera√ß√£o

1. **Coleta di√°ria de transa√ß√µes**  
   - O sistema importa automaticamente as novas movimenta√ß√µes do usu√°rio (ex: app banc√°rio ou plataforma de controle financeiro).  

2. **C√°lculo autom√°tico das m√©tricas**  
   - Para cada categoria e transa√ß√£o:
     - Calcula o **Overspend Index (OI)** ‚Üí compara o gasto atual com a m√©dia dos 3 meses anteriores.  
     - Calcula o **Large Transaction Z-Score (LTZ)** ‚Üí identifica transa√ß√µes muito acima do padr√£o da categoria.  

3. **Detec√ß√£o de eventos an√¥malos**  
   - Se **OI > 1.25**, o sistema detecta pico de gasto.  
   - Se **|LTZ| ‚â• 3**, o sistema detecta transa√ß√£o at√≠pica.  

4. **Gera√ß√£o de alerta**  
   - O sistema envia **notifica√ß√£o push ou e-mail** imediatamente ap√≥s a detec√ß√£o (ou em resumo di√°rio).  

5. **Visualiza√ß√£o no painel**  
   - O usu√°rio acessa um painel que exibe:
     - Categoria afetada  
     - Valor gasto e m√©dia anterior  
     - Tipo de alerta (pico de gasto / transa√ß√£o fora do padr√£o)  
     - Sugest√£o de a√ß√£o (ex: revisar assinatura, confirmar despesa, ajustar or√ßamento)

6. **A√ß√£o do usu√°rio**  
   - O usu√°rio pode **confirmar** a despesa como leg√≠tima, **categorizar** novamente, ou **definir novo limite**.

---

### ‚öôÔ∏è Par√¢metros Configur√°veis

- **Limite de OI**: valor de alerta (ex: 1.25 padr√£o, ajust√°vel pelo usu√°rio).  
- **Limite de LTZ**: n√≠vel de sensibilidade (ex: 2.5, 3.0).  
- **Frequ√™ncia de alertas**: imediata, di√°ria ou semanal.  
- **Categorias monitoradas**: o usu√°rio pode ativar/desativar alertas por tipo de gasto.  
- **Canal de notifica√ß√£o**: e-mail, push, SMS.

---

### üí¨ Exemplo de Alerta ao Usu√°rio

> **üìà Alerta de Gasto At√≠pico ‚Äî Transfer√™ncia PIX**  
> Seu gasto com **Transfer√™ncia - PIX** neste m√™s est√° **4,2√ó acima da m√©dia recente**.  
>
> üí∞ **Valor:** R$ 2.480,00  
> üìÖ **M√©dia dos 3 √∫ltimos meses:** R$ 590,00  
> ‚ö†Ô∏è Esse aumento pode indicar uma transa√ß√£o pontual ou um novo padr√£o de consumo.  
>
> ‚ûú **Sugest√£o:** revise a transa√ß√£o e, se for um gasto recorrente, atualize seu limite de categoria.

## 6) Se√ß√£o 4 ‚Äî M√©trica calcul√°vel por sistema (c√≥digo + JSON)

In [None]:
import pandas as pd
import json

def detect_unstable_categories(csv_path, inactive_threshold=10.0):
    """
    Detecta categorias com comportamento n√£o est√°vel do √çndice de Gasto Excessivo (Overspend Index - OI) a partir de um arquivo CSV de transa√ß√µes.

    Uma categoria √© classificada como:
        - "upward"   ‚Üí OI > 1.05 (aumento de gastos)
        - "downward" ‚Üí OI < 0.95 (redu√ß√£o de gastos)
        - "inactive" ‚Üí gasto total do √∫ltimo m√™s < inactive_threshold
        - "stable"   ‚Üí caso contr√°rio (n√£o retornada aqui)

    Par√¢metros:
        csv_path (str): Caminho do arquivo CSV de transa√ß√µes.
        inactive_threshold (float): Gasto m√≠nimo mensal para considerar uma categoria ativa.

    Retorna:
        String JSON contendo apenas as categorias n√£o est√°veis.
    """

    epsilon = 1e-9

    # Carregar e pr√©-processar os dados
    df = pd.read_csv(csv_path)
    df['date'] = pd.to_datetime(df['date'], format='mixed', errors='coerce')

    # Manter apenas transa√ß√µes de d√©bito (sa√≠das)
    df = df[df['amount'] < 0].copy()
    df['amount'] = df['amount'].abs()

    # Extrair o ano e m√™s
    df['year_month'] = df['date'].dt.to_period('M')

    # Calcular o gasto mensal por categoria
    monthly = (
        df.groupby(['category', 'year_month'])['amount']
        .sum()
        .reset_index()
        .sort_values(['category', 'year_month'])
    )

    # Calcular a m√©dia m√≥vel dos √∫ltimos 3 meses
    monthly['rolling_mean'] = (
        monthly.groupby('category')['amount']
        .apply(lambda x: x.shift(1).rolling(3, min_periods=3).mean())
        .reset_index(level=0, drop=True)
    )

    # Calcular o √çndice de Gasto Excessivo (Overspend Index - OI)
    monthly['OI'] = monthly['amount'] / (monthly['rolling_mean'] + epsilon)

    # Selecionar o registro mais recente de cada categoria
    latest = monthly.groupby('category').tail(1).copy()

    # Classificar a tend√™ncia de forma segura
    def classify_trend(row):
        if row['amount'] < inactive_threshold:
            return "inactive"
        elif row['OI'] > 1.05:
            return "upward"
        elif row['OI'] < 0.95:
            return "downward"
        else:
            return "stable"

    latest.loc[:, 'trend'] = latest.apply(classify_trend, axis=1)

    # Manter apenas categorias n√£o est√°veis
    unstable = latest[latest['trend'] != 'stable']

    # Construir a lista de resultados
    results = []
    for _, row in unstable.iterrows():
        results.append({
            "metric_name": "Overspend Index",
            "category": row['category'],
            "year_month": str(row['year_month']),
            "value": round(float(row['OI']), 2),
            "trend": row['trend']
        })

    return json.dumps(results, indent=4, ensure_ascii=False)

In [None]:
print(detect_unstable_categories(f'{CSV_PATH}'))