# 📊 Pulso Finance - Análise Financeira Inicial

Este notebook contém a análise exploratória inicial de dados financeiros para o projeto Pulso Finance. 

## Objetivos:
- Explorar dados financeiros de arquivos Excel/CSV
- Identificar padrões e tendências
- Criar visualizações informativas
- Estabelecer a base para o desenvolvimento do sistema

## 1. Importação das Bibliotecas Necessárias

In [1]:
# Importação das bibliotecas principais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from datetime import datetime, timedelta
import warnings

# Configurações gerais
warnings.filterwarnings('ignore')
plt.style.use('default')
sns.set_palette("husl")

# Configurar pandas para mostrar mais colunas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("✅ Bibliotecas importadas com sucesso!")
print(f"📊 Pandas versão: {pd.__version__}")
print(f"🔢 NumPy versão: {np.__version__}")

✅ Bibliotecas importadas com sucesso!
📊 Pandas versão: 2.3.3
🔢 NumPy versão: 2.3.3


## 2. Carregamento e Leitura dos Arquivos

In [2]:
def carregar_dados_financeiros(caminho_arquivo):
    """
    Função para carregar dados financeiros de diferentes formatos
    """
    try:
        if caminho_arquivo.endswith('.csv'):
            # Tentar diferentes encodings para CSV
            encodings = ['utf-8', 'latin-1', 'cp1252']
            for encoding in encodings:
                try:
                    df = pd.read_csv(caminho_arquivo, encoding=encoding)
                    print(f"✅ Arquivo CSV carregado com encoding: {encoding}")
                    return df
                except UnicodeDecodeError:
                    continue
            raise ValueError("Não foi possível ler o arquivo com nenhum encoding testado")
            
        elif caminho_arquivo.endswith(('.xlsx', '.xls')):
            df = pd.read_excel(caminho_arquivo)
            print("✅ Arquivo Excel carregado com sucesso!")
            return df
        else:
            raise ValueError("Formato de arquivo não suportado. Use .csv, .xlsx ou .xls")
            
    except Exception as e:
        print(f"❌ Erro ao carregar arquivo: {str(e)}")
        return None

# Carregar dados de exemplo
caminho_dados = "../data/exemplo_financeiro.csv"
df_financeiro = carregar_dados_financeiros(caminho_dados)

if df_financeiro is not None:
    print(f"\n📈 Dataset carregado: {df_financeiro.shape[0]} linhas x {df_financeiro.shape[1]} colunas")
    print(f"📊 Colunas disponíveis: {list(df_financeiro.columns)}")

✅ Arquivo CSV carregado com encoding: utf-8

📈 Dataset carregado: 20 linhas x 4 colunas
📊 Colunas disponíveis: ['data', 'descricao', 'valor', 'categoria']


## 3. Exploração Inicial dos Dados

In [3]:
# Exploração inicial dos dados
print("🔍 EXPLORAÇÃO INICIAL DOS DADOS")
print("=" * 50)

if df_financeiro is not None:
    # Informações gerais do dataset
    print(f"📊 Dimensões: {df_financeiro.shape}")
    print(f"🗂️ Colunas: {list(df_financeiro.columns)}")
    print(f"🏷️ Tipos de dados:")
    print(df_financeiro.dtypes)
    
    print("\n📋 Primeiras 5 linhas:")
    display(df_financeiro.head())
    
    print("\n📋 Últimas 5 linhas:")
    display(df_financeiro.tail())
    
    print("\n📊 Informações gerais:")
    print(df_financeiro.info())
else:
    print("❌ Nenhum dado foi carregado")

🔍 EXPLORAÇÃO INICIAL DOS DADOS
📊 Dimensões: (20, 4)
🗂️ Colunas: ['data', 'descricao', 'valor', 'categoria']
🏷️ Tipos de dados:
data          object
descricao     object
valor        float64
categoria     object
dtype: object

📋 Primeiras 5 linhas:


Unnamed: 0,data,descricao,valor,categoria
0,2024-01-15,Supermercado Extra,-250.0,Alimentação
1,2024-01-16,Salário,3500.0,Receita
2,2024-01-17,Conta de Luz,-120.0,Casa
3,2024-01-18,Uber,-35.0,Transporte
4,2024-01-19,Netflix,-29.9,Entretenimento



📋 Últimas 5 linhas:


Unnamed: 0,data,descricao,valor,categoria
15,2024-02-07,iFood,-55.0,Alimentação
16,2024-02-10,Consultório Médico,-200.0,Saúde
17,2024-02-12,Spotify,-16.9,Entretenimento
18,2024-02-15,Salário,3500.0,Receita
19,2024-02-18,Supermercado,-280.0,Alimentação



📊 Informações gerais:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   data       20 non-null     object 
 1   descricao  20 non-null     object 
 2   valor      20 non-null     float64
 3   categoria  20 non-null     object 
dtypes: float64(1), object(3)
memory usage: 772.0+ bytes
None


## 4. Limpeza e Tratamento dos Dados

In [4]:
# Limpeza e tratamento dos dados
if df_financeiro is not None:
    df_clean = df_financeiro.copy()
    
    print("🧹 LIMPEZA E TRATAMENTO DOS DADOS")
    print("=" * 50)
    
    # Verificar valores nulos
    print("🔍 Valores nulos por coluna:")
    print(df_clean.isnull().sum())
    
    # Verificar duplicatas
    duplicatas = df_clean.duplicated().sum()
    print(f"\n📋 Registros duplicados: {duplicatas}")
    
    # Converter coluna de data
    if 'data' in df_clean.columns:
        df_clean['data'] = pd.to_datetime(df_clean['data'], errors='coerce')
        print("✅ Coluna 'data' convertida para datetime")
    
    # Converter coluna de valor para numérico
    if 'valor' in df_clean.columns:
        df_clean['valor'] = pd.to_numeric(df_clean['valor'], errors='coerce')
        print("✅ Coluna 'valor' convertida para numérico")
    
    # Remover registros com valores nulos essenciais
    antes = len(df_clean)
    df_clean = df_clean.dropna(subset=['data', 'valor'])
    depois = len(df_clean)
    removidos = antes - depois
    
    print(f"\n📊 Registros removidos por valores nulos: {removidos}")
    print(f"📈 Dataset final: {df_clean.shape[0]} linhas x {df_clean.shape[1]} colunas")
    
    # Ordenar por data
    df_clean = df_clean.sort_values('data').reset_index(drop=True)
    print("✅ Dados ordenados por data")
    
    print("\n📋 Dados após limpeza:")
    display(df_clean.head())

🧹 LIMPEZA E TRATAMENTO DOS DADOS
🔍 Valores nulos por coluna:
data         0
descricao    0
valor        0
categoria    0
dtype: int64

📋 Registros duplicados: 0
✅ Coluna 'data' convertida para datetime
✅ Coluna 'valor' convertida para numérico

📊 Registros removidos por valores nulos: 0
📈 Dataset final: 20 linhas x 4 colunas
✅ Dados ordenados por data

📋 Dados após limpeza:


Unnamed: 0,data,descricao,valor,categoria
0,2024-01-15,Supermercado Extra,-250.0,Alimentação
1,2024-01-16,Salário,3500.0,Receita
2,2024-01-17,Conta de Luz,-120.0,Casa
3,2024-01-18,Uber,-35.0,Transporte
4,2024-01-19,Netflix,-29.9,Entretenimento


## 5. Análise Estatística Básica

In [None]:
# Análise estatística básica
if 'df_clean' in locals() and df_clean is not None:
    print("📊 ANÁLISE ESTATÍSTICA BÁSICA")
    print("=" * 50)
    
    # Estatísticas descritivas gerais
    print("📈 Estatísticas descritivas dos valores:")
    display(df_clean['valor'].describe())
    
    # Separar receitas e despesas
    receitas = df_clean[df_clean['valor'] > 0]
    despesas = df_clean[df_clean['valor'] < 0]
    
    print(f"\n💰 Total de transações: {len(df_clean)}")
    print(f"📈 Receitas: {len(receitas)} transações")
    print(f"📉 Despesas: {len(despesas)} transações")
    
    # Análise financeira
    total_receitas = receitas['valor'].sum()
    total_despesas = abs(despesas['valor'].sum())
    saldo_liquido = total_receitas - total_despesas
    
    print(f"\n💵 RESUMO FINANCEIRO:")
    print(f"💰 Total de Receitas: R$ {total_receitas:,.2f}")
    print(f"💸 Total de Despesas: R$ {total_despesas:,.2f}")
    print(f"🏦 Saldo Líquido: R$ {saldo_liquido:,.2f}")
    
    # Estatísticas por categoria
    if 'categoria' in df_clean.columns:
        print(f"\n📊 Análise por Categoria:")
        categoria_resumo = df_clean.groupby('categoria').agg({
            'valor': ['count', 'sum', 'mean']
        }).round(2)
        categoria_resumo.columns = ['Qtd_Transações', 'Total', 'Média']
        display(categoria_resumo)
    
    # Ticket médio
    ticket_medio = df_clean['valor'].mean()
    print(f"\n🎫 Ticket médio: R$ {ticket_medio:,.2f}")

## 6. Visualização dos Dados Financeiros

In [None]:
# Visualizações dos dados financeiros
if 'df_clean' in locals() and df_clean is not None:
    print("📊 VISUALIZAÇÃO DOS DADOS FINANCEIROS")
    print("=" * 50)
    
    # Configurar o tamanho das figuras
    plt.figure(figsize=(15, 12))
    
    # 1. Evolução temporal dos valores
    plt.subplot(2, 3, 1)
    plt.plot(df_clean['data'], df_clean['valor'], marker='o', linewidth=1.5)
    plt.title('Evolução Temporal dos Valores')
    plt.xlabel('Data')
    plt.ylabel('Valor (R$)')
    plt.xticks(rotation=45)
    plt.grid(True, alpha=0.3)
    
    # 2. Distribuição dos valores
    plt.subplot(2, 3, 2)
    plt.hist(df_clean['valor'], bins=20, alpha=0.7, color='skyblue', edgecolor='black')
    plt.title('Distribuição dos Valores')
    plt.xlabel('Valor (R$)')
    plt.ylabel('Frequência')
    plt.grid(True, alpha=0.3)
    
    # 3. Box plot dos valores
    plt.subplot(2, 3, 3)
    plt.boxplot(df_clean['valor'])
    plt.title('Box Plot dos Valores')
    plt.ylabel('Valor (R$)')
    plt.grid(True, alpha=0.3)
    
    # 4. Comparação Receitas vs Despesas
    if len(receitas) > 0 and len(despesas) > 0:
        plt.subplot(2, 3, 4)
        categorias = ['Receitas', 'Despesas']
        valores = [total_receitas, total_despesas]
        cores = ['green', 'red']
        plt.bar(categorias, valores, color=cores, alpha=0.7)
        plt.title('Receitas vs Despesas')
        plt.ylabel('Valor (R$)')
        
        # Adicionar valores nas barras
        for i, v in enumerate(valores):
            plt.text(i, v + max(valores)*0.01, f'R$ {v:,.0f}', 
                    ha='center', va='bottom', fontweight='bold')
    
    # 5. Distribuição por categoria (se disponível)
    if 'categoria' in df_clean.columns:
        plt.subplot(2, 3, 5)
        categoria_counts = df_clean['categoria'].value_counts()
        plt.pie(categoria_counts.values, labels=categoria_counts.index, autopct='%1.1f%%')
        plt.title('Distribuição por Categoria')
    
    # 6. Saldo acumulado
    plt.subplot(2, 3, 6)
    saldo_acumulado = df_clean['valor'].cumsum()
    plt.plot(df_clean['data'], saldo_acumulado, marker='o', linewidth=2, color='purple')
    plt.title('Saldo Acumulado')
    plt.xlabel('Data')
    plt.ylabel('Saldo (R$)')
    plt.xticks(rotation=45)
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print("✅ Gráficos gerados com sucesso!")

## 7. Análise de Tendências Temporais

In [None]:
# Análise de tendências temporais
if 'df_clean' in locals() and df_clean is not None:
    print("📈 ANÁLISE DE TENDÊNCIAS TEMPORAIS")
    print("=" * 50)
    
    # Criar colunas adicionais para análise temporal
    df_clean['ano'] = df_clean['data'].dt.year
    df_clean['mes'] = df_clean['data'].dt.month
    df_clean['dia_semana'] = df_clean['data'].dt.day_name()
    df_clean['mes_nome'] = df_clean['data'].dt.month_name()
    
    # Análise mensal
    print("📅 Análise por Mês:")
    mensal = df_clean.groupby(['ano', 'mes']).agg({
        'valor': ['count', 'sum', 'mean']
    }).round(2)
    mensal.columns = ['Qtd_Transações', 'Total', 'Média']
    display(mensal)
    
    # Visualização das tendências
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))
    
    # Gráfico 1: Total por mês
    mensal_total = df_clean.groupby(df_clean['data'].dt.to_period('M'))['valor'].sum()
    axes[0, 0].plot(mensal_total.index.astype(str), mensal_total.values, marker='o')
    axes[0, 0].set_title('Total Mensal')
    axes[0, 0].set_xlabel('Mês')
    axes[0, 0].set_ylabel('Valor (R$)')
    axes[0, 0].tick_params(axis='x', rotation=45)
    axes[0, 0].grid(True, alpha=0.3)
    
    # Gráfico 2: Número de transações por mês
    mensal_count = df_clean.groupby(df_clean['data'].dt.to_period('M'))['valor'].count()
    axes[0, 1].bar(range(len(mensal_count)), mensal_count.values, alpha=0.7)
    axes[0, 1].set_title('Número de Transações por Mês')
    axes[0, 1].set_xlabel('Mês')
    axes[0, 1].set_ylabel('Quantidade')
    axes[0, 1].set_xticks(range(len(mensal_count)))
    axes[0, 1].set_xticklabels(mensal_count.index.astype(str), rotation=45)
    
    # Gráfico 3: Padrão por dia da semana
    dia_semana_ordem = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
    df_dia_semana = df_clean.groupby('dia_semana')['valor'].sum().reindex(dia_semana_ordem)
    axes[1, 0].bar(range(len(df_dia_semana)), df_dia_semana.values, alpha=0.7, color='orange')
    axes[1, 0].set_title('Total por Dia da Semana')
    axes[1, 0].set_xlabel('Dia da Semana')
    axes[1, 0].set_ylabel('Valor (R$)')
    axes[1, 0].set_xticks(range(len(df_dia_semana)))
    axes[1, 0].set_xticklabels(['Seg', 'Ter', 'Qua', 'Qui', 'Sex', 'Sáb', 'Dom'])
    
    # Gráfico 4: Receitas vs Despesas ao longo do tempo
    df_clean['tipo'] = df_clean['valor'].apply(lambda x: 'Receita' if x > 0 else 'Despesa')
    tipo_temporal = df_clean.groupby([df_clean['data'].dt.to_period('M'), 'tipo'])['valor'].sum().unstack(fill_value=0)
    
    if 'Receita' in tipo_temporal.columns and 'Despesa' in tipo_temporal.columns:
        axes[1, 1].plot(tipo_temporal.index.astype(str), tipo_temporal['Receita'], 
                       marker='o', label='Receitas', color='green')
        axes[1, 1].plot(tipo_temporal.index.astype(str), abs(tipo_temporal['Despesa']), 
                       marker='s', label='Despesas', color='red')
        axes[1, 1].set_title('Receitas vs Despesas Mensais')
        axes[1, 1].set_xlabel('Mês')
        axes[1, 1].set_ylabel('Valor (R$)')
        axes[1, 1].legend()
        axes[1, 1].tick_params(axis='x', rotation=45)
        axes[1, 1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print("✅ Análise temporal concluída!")

## 8. Cálculo de Métricas Financeiras

In [None]:
# Cálculo de métricas financeiras
if 'df_clean' in locals() and df_clean is not None:
    print("💰 CÁLCULO DE MÉTRICAS FINANCEIRAS")
    print("=" * 50)
    
    # Separar receitas e despesas novamente para cálculos
    receitas_total = df_clean[df_clean['valor'] > 0]['valor'].sum()
    despesas_total = abs(df_clean[df_clean['valor'] < 0]['valor'].sum())
    
    # KPIs Financeiros
    print("📊 KEY PERFORMANCE INDICATORS (KPIs):")
    print("-" * 40)
    
    # 1. Margem de Lucro
    if receitas_total > 0:
        margem_lucro = ((receitas_total - despesas_total) / receitas_total) * 100
        print(f"📈 Margem de Lucro: {margem_lucro:.2f}%")
    
    # 2. Taxa de Poupança
    if receitas_total > 0:
        taxa_poupanca = ((receitas_total - despesas_total) / receitas_total) * 100
        print(f"🏦 Taxa de Poupança: {taxa_poupanca:.2f}%")
    
    # 3. Relação Despesa/Receita
    if receitas_total > 0:
        relacao_desp_rec = (despesas_total / receitas_total) * 100
        print(f"📊 Relação Despesa/Receita: {relacao_desp_rec:.2f}%")
    
    # 4. Ticket médio de receitas e despesas
    ticket_medio_receitas = df_clean[df_clean['valor'] > 0]['valor'].mean()
    ticket_medio_despesas = abs(df_clean[df_clean['valor'] < 0]['valor'].mean())
    
    print(f"💰 Ticket Médio Receitas: R$ {ticket_medio_receitas:.2f}")
    print(f"💸 Ticket Médio Despesas: R$ {ticket_medio_despesas:.2f}")
    
    # 5. Análise de crescimento (se houver dados de múltiplos meses)
    meses_unicos = df_clean['data'].dt.to_period('M').nunique()
    if meses_unicos > 1:
        crescimento_mensal = df_clean.groupby(df_clean['data'].dt.to_period('M'))['valor'].sum()
        if len(crescimento_mensal) >= 2:
            primeiro_mes = crescimento_mensal.iloc[0]
            ultimo_mes = crescimento_mensal.iloc[-1]
            if primeiro_mes != 0:
                crescimento_pct = ((ultimo_mes - primeiro_mes) / abs(primeiro_mes)) * 100
                print(f"📈 Crescimento do Primeiro ao Último Mês: {crescimento_pct:.2f}%")
    
    # 6. Concentração de despesas por categoria
    if 'categoria' in df_clean.columns:
        print(f"\n📊 CONCENTRAÇÃO DE DESPESAS POR CATEGORIA:")
        print("-" * 45)
        
        despesas_categoria = df_clean[df_clean['valor'] < 0].groupby('categoria')['valor'].sum()
        despesas_categoria = abs(despesas_categoria).sort_values(ascending=False)
        
        for categoria, valor in despesas_categoria.items():
            percentual = (valor / despesas_total) * 100
            print(f"{categoria}: R$ {valor:.2f} ({percentual:.1f}%)")
    
    # 7. Resumo executivo
    print(f"\n📋 RESUMO EXECUTIVO:")
    print("-" * 25)
    print(f"💰 Total de Receitas: R$ {receitas_total:,.2f}")
    print(f"💸 Total de Despesas: R$ {despesas_total:,.2f}")
    print(f"🏦 Saldo Líquido: R$ {receitas_total - despesas_total:,.2f}")
    print(f"📊 Número de Transações: {len(df_clean)}")
    
    # Status financeiro
    if receitas_total > despesas_total:
        status = "🟢 POSITIVO"
    elif receitas_total == despesas_total:
        status = "🟡 EQUILIBRADO" 
    else:
        status = "🔴 NEGATIVO"
    
    print(f"📈 Status Financeiro: {status}")
    
    print("\n✅ Métricas financeiras calculadas com sucesso!")

## 9. Identificação de Padrões e Anomalias

In [None]:
# Identificação de padrões e anomalias
if 'df_clean' in locals() and df_clean is not None:
    print("🔍 IDENTIFICAÇÃO DE PADRÕES E ANOMALIAS")
    print("=" * 50)
    
    # 1. Identificação de outliers usando IQR
    Q1 = df_clean['valor'].quantile(0.25)
    Q3 = df_clean['valor'].quantile(0.75)
    IQR = Q3 - Q1
    
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    outliers = df_clean[(df_clean['valor'] < limite_inferior) | (df_clean['valor'] > limite_superior)]
    
    print(f"📊 Análise de Outliers (Método IQR):")
    print(f"   - Q1 (25%): R$ {Q1:.2f}")
    print(f"   - Q3 (75%): R$ {Q3:.2f}")
    print(f"   - IQR: R$ {IQR:.2f}")
    print(f"   - Limite Inferior: R$ {limite_inferior:.2f}")
    print(f"   - Limite Superior: R$ {limite_superior:.2f}")
    print(f"   - Outliers encontrados: {len(outliers)}")
    
    if len(outliers) > 0:
        print(f"\n🚨 Transações com valores atípicos:")
        display(outliers[['data', 'descricao', 'valor', 'categoria']].sort_values('valor', ascending=False))
    
    # 2. Identificação de padrões por descrição
    print(f"\n🔍 Análise de Padrões por Descrição:")
    if 'descricao' in df_clean.columns:
        # Transações mais comuns
        descricoes_comuns = df_clean['descricao'].value_counts().head(10)
        print(f"📋 Descrições mais frequentes:")
        for desc, count in descricoes_comuns.items():
            print(f"   - {desc}: {count} ocorrências")
    
    # 3. Identificação de padrões temporais
    print(f"\n📅 Análise de Padrões Temporais:")
    
    # Dias com mais transações
    dias_com_transacoes = df_clean['data'].dt.date.value_counts().head(5)
    print(f"📊 Dias com mais transações:")
    for dia, count in dias_com_transacoes.items():
        print(f"   - {dia}: {count} transações")
    
    # Análise de intervalos entre transações
    df_clean_sorted = df_clean.sort_values('data')
    intervalos = df_clean_sorted['data'].diff().dt.days.dropna()
    intervalo_medio = intervalos.mean()
    intervalo_mediano = intervalos.median()
    
    print(f"\n⏱️ Intervalos entre transações:")
    print(f"   - Intervalo médio: {intervalo_medio:.1f} dias")
    print(f"   - Intervalo mediano: {intervalo_mediano:.1f} dias")
    
    # 4. Identificação de inconsistências
    print(f"\n🔧 Verificação de Inconsistências:")
    
    # Valores zerados
    valores_zero = len(df_clean[df_clean['valor'] == 0])
    print(f"   - Transações com valor zero: {valores_zero}")
    
    # Datas futuras
    data_atual = datetime.now().date()
    datas_futuras = len(df_clean[df_clean['data'].dt.date > data_atual])
    print(f"   - Transações com data futura: {datas_futuras}")
    
    # Descrições vazias ou muito curtas
    if 'descricao' in df_clean.columns:
        desc_vazias = len(df_clean[df_clean['descricao'].str.len() < 3])
        print(f"   - Descrições vazias ou muito curtas: {desc_vazias}")
    
    # 5. Análise de sazonalidade
    print(f"\n🌍 Análise de Sazonalidade:")
    
    # Por mês do ano
    if df_clean['data'].dt.year.nunique() >= 1:
        sazonalidade_mes = df_clean.groupby(df_clean['data'].dt.month)['valor'].agg(['count', 'sum', 'mean'])
        sazonalidade_mes.index = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 
                                'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez'][:len(sazonalidade_mes)]
        
        print(f"📊 Atividade por mês:")
        for mes, dados in sazonalidade_mes.iterrows():
            print(f"   - {mes}: {dados['count']} transações, Total: R$ {dados['sum']:.2f}")
    
    # Visualização de anomalias
    plt.figure(figsize=(15, 8))
    
    # Gráfico 1: Distribuição com outliers destacados
    plt.subplot(2, 2, 1)
    plt.boxplot(df_clean['valor'])
    plt.title('Box Plot - Identificação de Outliers')
    plt.ylabel('Valor (R$)')
    
    # Gráfico 2: Série temporal com outliers
    plt.subplot(2, 2, 2)
    plt.scatter(df_clean['data'], df_clean['valor'], alpha=0.6, s=30)
    if len(outliers) > 0:
        plt.scatter(outliers['data'], outliers['valor'], color='red', s=50, alpha=0.8)
    plt.title('Série Temporal com Outliers (vermelho)')
    plt.xlabel('Data')
    plt.ylabel('Valor (R$)')
    plt.xticks(rotation=45)
    
    # Gráfico 3: Histograma de intervalos
    plt.subplot(2, 2, 3)
    plt.hist(intervalos, bins=20, alpha=0.7, edgecolor='black')
    plt.title('Distribuição de Intervalos entre Transações')
    plt.xlabel('Dias')
    plt.ylabel('Frequência')
    
    # Gráfico 4: Atividade por dia da semana
    plt.subplot(2, 2, 4)
    atividade_dia_semana = df_clean.groupby(df_clean['data'].dt.day_name())['valor'].count()
    dias_ordem = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
    atividade_ordenada = atividade_dia_semana.reindex(dias_ordem, fill_value=0)
    plt.bar(range(len(atividade_ordenada)), atividade_ordenada.values, alpha=0.7)
    plt.title('Atividade por Dia da Semana')
    plt.xlabel('Dia da Semana')
    plt.ylabel('Número de Transações')
    plt.xticks(range(7), ['Seg', 'Ter', 'Qua', 'Qui', 'Sex', 'Sáb', 'Dom'])
    
    plt.tight_layout()
    plt.show()
    
    print("✅ Análise de padrões e anomalias concluída!")

## 10. Exportação dos Resultados

In [None]:
# Exportação dos resultados
if 'df_clean' in locals() and df_clean is not None:
    print("💾 EXPORTAÇÃO DOS RESULTADOS")
    print("=" * 40)
    
    # Criar pasta de resultados
    import os
    pasta_resultados = "../data/resultados_analise"
    os.makedirs(pasta_resultados, exist_ok=True)
    
    # 1. Exportar dados limpos
    arquivo_dados_limpos = f"{pasta_resultados}/dados_financeiros_limpos.csv"
    df_clean.to_csv(arquivo_dados_limpos, index=False, encoding='utf-8')
    print(f"✅ Dados limpos exportados: {arquivo_dados_limpos}")
    
    # 2. Criar relatório de resumo
    relatorio_resumo = {
        'data_analise': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
        'total_transacoes': len(df_clean),
        'periodo_analise': f"{df_clean['data'].min().date()} a {df_clean['data'].max().date()}",
        'total_receitas': float(df_clean[df_clean['valor'] > 0]['valor'].sum()),
        'total_despesas': float(abs(df_clean[df_clean['valor'] < 0]['valor'].sum())),
        'saldo_liquido': float(df_clean['valor'].sum()),
        'ticket_medio': float(df_clean['valor'].mean()),
        'outliers_detectados': len(outliers) if 'outliers' in locals() else 0
    }
    
    # Adicionar estatísticas por categoria se disponível
    if 'categoria' in df_clean.columns:
        relatorio_resumo['categorias'] = df_clean.groupby('categoria')['valor'].agg({
            'total': 'sum',
            'count': 'count',
            'media': 'mean'
        }).round(2).to_dict()
    
    # Salvar relatório em JSON
    import json
    arquivo_relatorio = f"{pasta_resultados}/relatorio_resumo.json"
    with open(arquivo_relatorio, 'w', encoding='utf-8') as f:
        json.dump(relatorio_resumo, f, ensure_ascii=False, indent=2, default=str)
    print(f"✅ Relatório de resumo exportado: {arquivo_relatorio}")
    
    # 3. Exportar resumo por categoria
    if 'categoria' in df_clean.columns:
        resumo_categoria = df_clean.groupby('categoria').agg({
            'valor': ['count', 'sum', 'mean', 'min', 'max']
        }).round(2)
        resumo_categoria.columns = ['Qtd_Transações', 'Total', 'Média', 'Mínimo', 'Máximo']
        
        arquivo_categoria = f"{pasta_resultados}/resumo_por_categoria.csv"
        resumo_categoria.to_csv(arquivo_categoria, encoding='utf-8')
        print(f"✅ Resumo por categoria exportado: {arquivo_categoria}")
    
    # 4. Exportar resumo temporal
    resumo_temporal = df_clean.groupby(df_clean['data'].dt.to_period('M')).agg({
        'valor': ['count', 'sum', 'mean']
    }).round(2)
    resumo_temporal.columns = ['Qtd_Transações', 'Total', 'Média']
    
    arquivo_temporal = f"{pasta_resultados}/resumo_temporal.csv"
    resumo_temporal.to_csv(arquivo_temporal, encoding='utf-8')
    print(f"✅ Resumo temporal exportado: {arquivo_temporal}")
    
    # 5. Exportar outliers (se houver)
    if 'outliers' in locals() and len(outliers) > 0:
        arquivo_outliers = f"{pasta_resultados}/outliers_detectados.csv"
        outliers.to_csv(arquivo_outliers, index=False, encoding='utf-8')
        print(f"✅ Outliers exportados: {arquivo_outliers}")
    
    # 6. Criar relatório final em texto
    relatorio_texto = f"""
📊 RELATÓRIO DE ANÁLISE FINANCEIRA - PULSO FINANCE
{'='*60}

📅 Data da Análise: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}
📈 Período Analisado: {df_clean['data'].min().date()} a {df_clean['data'].max().date()}
📊 Total de Transações: {len(df_clean):,}

💰 RESUMO FINANCEIRO
{'-'*30}
💵 Total de Receitas: R$ {relatorio_resumo['total_receitas']:,.2f}
💸 Total de Despesas: R$ {relatorio_resumo['total_despesas']:,.2f}
🏦 Saldo Líquido: R$ {relatorio_resumo['saldo_liquido']:,.2f}
🎫 Ticket Médio: R$ {relatorio_resumo['ticket_medio']:,.2f}

🔍 ANÁLISE DE QUALIDADE
{'-'*30}
🚨 Outliers Detectados: {relatorio_resumo['outliers_detectados']}
✅ Taxa de Completude: {((len(df_clean) / len(df_financeiro)) * 100):.1f}%

📁 ARQUIVOS GERADOS
{'-'*30}
📄 dados_financeiros_limpos.csv
📄 relatorio_resumo.json
📄 resumo_por_categoria.csv
📄 resumo_temporal.csv
📄 outliers_detectados.csv (se aplicável)
📄 relatorio_final.txt

🎯 PRÓXIMOS PASSOS RECOMENDADOS
{'-'*30}
1. Implementar dashboard interativo
2. Criar sistema de alertas para anomalias
3. Desenvolver modelo de previsão de gastos
4. Integrar com APIs bancárias
5. Criar sistema de categorização automática

✅ Análise concluída com sucesso!
    """
    
    arquivo_relatorio_final = f"{pasta_resultados}/relatorio_final.txt"
    with open(arquivo_relatorio_final, 'w', encoding='utf-8') as f:
        f.write(relatorio_texto)
    print(f"✅ Relatório final exportado: {arquivo_relatorio_final}")
    
    print(f"\n📂 Todos os arquivos foram salvos em: {pasta_resultados}")
    print("🎉 Exportação concluída com sucesso!")
    
    # Mostrar estatísticas finais
    print(f"\n📋 ESTATÍSTICAS FINAIS:")
    print(f"📊 Total de arquivos gerados: {len(os.listdir(pasta_resultados))}")
    
    # Listar todos os arquivos gerados
    print(f"\n📁 Arquivos na pasta de resultados:")
    for arquivo in os.listdir(pasta_resultados):
        tamanho = os.path.getsize(os.path.join(pasta_resultados, arquivo))
        print(f"   📄 {arquivo} ({tamanho:,} bytes)")
else:
    print("❌ Nenhum dado disponível para exportação")