# Explora√ß√£o e Prototipagem - AUDITORIA360

## üìã Vis√£o Geral

Este notebook √© utilizado para a explora√ß√£o de dados e prototipagem de modelos relacionados √† auditoria de folha de pagamento. Aqui, realizaremos an√°lises explorat√≥rias, visualiza√ß√µes e testes de diferentes abordagens de modelagem.

## üéØ Objetivos

- An√°lise explorat√≥ria de dados de folha de pagamento
- Identifica√ß√£o de padr√µes e anomalias
- Prototipagem de modelos de machine learning
- Valida√ß√£o de hip√≥teses de auditoria

## üìö Pr√©-requisitos

- Python 3.8+
- Bibliotecas: pandas, numpy, matplotlib, seaborn, scikit-learn
- Dados de folha de pagamento processados

## üöÄ Como Usar

1. Execute as c√©lulas sequencialmente
2. Certifique-se de que os dados est√£o dispon√≠veis no diret√≥rio `../data/processed/`
3. Ajuste os par√¢metros conforme necess√°rio
4. Analise os resultados e visualiza√ß√µes geradas

## üîß Configura√ß√£o do Ambiente

Importa√ß√£o das bibliotecas necess√°rias e configura√ß√£o inicial do ambiente de an√°lise.

In [None]:
# Importa√ß√£o das bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from pathlib import Path

# Suprimir warnings desnecess√°rios
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

# Configura√ß√µes do pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("‚úÖ Ambiente configurado com sucesso!")
print(f"üì¶ Pandas vers√£o: {pd.__version__}")
print(f"üìä Numpy vers√£o: {np.__version__}")

## üìÇ Carregamento e Verifica√ß√£o dos Dados

Carregamento dos dados de folha de pagamento e verifica√ß√£o inicial da estrutura.

In [None]:
# Definir caminhos dos dados
DATA_PATH = Path('../data/processed')
RAW_DATA_PATH = Path('../data/raw')

# Verificar se os diret√≥rios existem
if not DATA_PATH.exists():
    print("‚ö†Ô∏è  Diret√≥rio de dados processados n√£o encontrado.")
    print("üìù Criando dados de exemplo para demonstra√ß√£o...")
    
    # Criar dados de exemplo para demonstra√ß√£o
    np.random.seed(42)
    n_employees = 1000
    
    df_folha = pd.DataFrame({
        'funcionario_id': range(1, n_employees + 1),
        'nome': [f'Funcion√°rio {i}' for i in range(1, n_employees + 1)],
        'cpf': [f'{np.random.randint(10000000000, 99999999999)}' for _ in range(n_employees)],
        'salario_base': np.random.normal(5000, 2000, n_employees).clip(min=1320),
        'horas_extras': np.random.exponential(10, n_employees),
        'descontos': np.random.normal(500, 200, n_employees).clip(min=0),
        'salario_liquido': None,
        'departamento': np.random.choice(['TI', 'RH', 'Financeiro', 'Operacional', 'Vendas'], n_employees),
        'cargo': np.random.choice(['Analista', 'Coordenador', 'Gerente', 'Diretor', 'Assistente'], n_employees),
        'data_admissao': pd.date_range('2020-01-01', '2024-12-31', periods=n_employees),
        'status': np.random.choice(['Ativo', 'Inativo', 'F√©rias'], n_employees, p=[0.85, 0.10, 0.05])
    })
    
    # Calcular sal√°rio l√≠quido
    df_folha['salario_liquido'] = df_folha['salario_base'] + df_folha['horas_extras'] - df_folha['descontos']
    
    print("‚úÖ Dados de exemplo criados com sucesso!")
else:
    try:
        # Tentar carregar dados reais
        df_folha = pd.read_csv(DATA_PATH / 'dados_folha.csv')
        print("‚úÖ Dados carregados com sucesso!")
    except FileNotFoundError:
        print("‚ö†Ô∏è  Arquivo dados_folha.csv n√£o encontrado. Usando dados de exemplo.")
        # Usar l√≥gica de dados de exemplo aqui tamb√©m

# Informa√ß√µes b√°sicas sobre o dataset
print(f"\nüìä Informa√ß√µes do Dataset:")
print(f"   ‚Ä¢ N√∫mero de registros: {len(df_folha):,}")
print(f"   ‚Ä¢ N√∫mero de colunas: {len(df_folha.columns)}")
print(f"   ‚Ä¢ Per√≠odo dos dados: {df_folha['data_admissao'].min()} a {df_folha['data_admissao'].max()}")

# Visualizar primeiras linhas
df_folha.head()

## üîç An√°lise Explorat√≥ria dos Dados

Nesta se√ß√£o, realizaremos uma an√°lise explorat√≥ria dos dados para entender melhor as caracter√≠sticas e padr√µes presentes na folha de pagamento.

In [None]:
# An√°lise descritiva dos dados
print("üìä ESTAT√çSTICAS DESCRITIVAS")
print("=" * 50)

# Informa√ß√µes gerais
print("\nüî¢ Informa√ß√µes Gerais:")
print(df_folha.info())

# Estat√≠sticas das colunas num√©ricas
print("\nüìà Estat√≠sticas das Vari√°veis Num√©ricas:")
numeric_cols = df_folha.select_dtypes(include=[np.number]).columns
display(df_folha[numeric_cols].describe())

# An√°lise de valores √∫nicos para vari√°veis categ√≥ricas
print("\nüìã An√°lise de Vari√°veis Categ√≥ricas:")
categorical_cols = df_folha.select_dtypes(include=['object']).columns
for col in categorical_cols:
    if col not in ['nome', 'cpf']:  # Excluir colunas com muitos valores √∫nicos
        print(f"\n{col.upper()}:")
        print(df_folha[col].value_counts())

In [None]:
# Verifica√ß√£o de dados faltantes e outliers
print("üîç VERIFICA√á√ÉO DE QUALIDADE DOS DADOS")
print("=" * 50)

# Valores faltantes
missing_data = df_folha.isnull().sum()
if missing_data.sum() > 0:
    print("\n‚ö†Ô∏è  Valores Faltantes Encontrados:")
    missing_df = pd.DataFrame({
        'Coluna': missing_data.index,
        'Valores Faltantes': missing_data.values,
        'Percentual': (missing_data.values / len(df_folha) * 100).round(2)
    })
    display(missing_df[missing_df['Valores Faltantes'] > 0])
else:
    print("\n‚úÖ Nenhum valor faltante encontrado!")

# Detec√ß√£o de outliers usando IQR
print("\nüéØ Detec√ß√£o de Outliers (M√©todo IQR):")
for col in ['salario_base', 'horas_extras', 'descontos', 'salario_liquido']:
    Q1 = df_folha[col].quantile(0.25)
    Q3 = df_folha[col].quantile(0.75)
    IQR = Q3 - Q1
    outliers = df_folha[(df_folha[col] < (Q1 - 1.5 * IQR)) | (df_folha[col] > (Q3 + 1.5 * IQR))]
    print(f"   ‚Ä¢ {col}: {len(outliers)} outliers ({len(outliers)/len(df_folha)*100:.2f}%)")

## üìä Visualiza√ß√µes Explorat√≥rias

Cria√ß√£o de visualiza√ß√µes para identificar padr√µes, tend√™ncias e poss√≠veis anomalias nos dados.

In [None]:
# Configurar layout de subplots
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Distribui√ß√µes das Principais Vari√°veis Num√©ricas', fontsize=16, fontweight='bold')

# Distribui√ß√£o do sal√°rio base
axes[0, 0].hist(df_folha['salario_base'], bins=30, alpha=0.7, color='skyblue', edgecolor='black')
axes[0, 0].set_title('Distribui√ß√£o do Sal√°rio Base')
axes[0, 0].set_xlabel('Sal√°rio Base (R$)')
axes[0, 0].set_ylabel('Frequ√™ncia')
axes[0, 0].grid(True, alpha=0.3)

# Distribui√ß√£o das horas extras
axes[0, 1].hist(df_folha['horas_extras'], bins=30, alpha=0.7, color='lightgreen', edgecolor='black')
axes[0, 1].set_title('Distribui√ß√£o das Horas Extras')
axes[0, 1].set_xlabel('Horas Extras (R$)')
axes[0, 1].set_ylabel('Frequ√™ncia')
axes[0, 1].grid(True, alpha=0.3)

# Distribui√ß√£o dos descontos
axes[1, 0].hist(df_folha['descontos'], bins=30, alpha=0.7, color='salmon', edgecolor='black')
axes[1, 0].set_title('Distribui√ß√£o dos Descontos')
axes[1, 0].set_xlabel('Descontos (R$)')
axes[1, 0].set_ylabel('Frequ√™ncia')
axes[1, 0].grid(True, alpha=0.3)

# Distribui√ß√£o do sal√°rio l√≠quido
axes[1, 1].hist(df_folha['salario_liquido'], bins=30, alpha=0.7, color='gold', edgecolor='black')
axes[1, 1].set_title('Distribui√ß√£o do Sal√°rio L√≠quido')
axes[1, 1].set_xlabel('Sal√°rio L√≠quido (R$)')
axes[1, 1].set_ylabel('Frequ√™ncia')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# An√°lise por departamento e cargo
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Distribui√ß√£o por departamento
dept_counts = df_folha['departamento'].value_counts()
axes[0].pie(dept_counts.values, labels=dept_counts.index, autopct='%1.1f%%', startangle=90)
axes[0].set_title('Distribui√ß√£o de Funcion√°rios por Departamento')

# Sal√°rio m√©dio por cargo
salary_by_position = df_folha.groupby('cargo')['salario_liquido'].mean().sort_values(ascending=True)
axes[1].barh(salary_by_position.index, salary_by_position.values, color='lightcoral')
axes[1].set_title('Sal√°rio L√≠quido M√©dio por Cargo')
axes[1].set_xlabel('Sal√°rio L√≠quido M√©dio (R$)')

# Adicionar valores nas barras
for i, v in enumerate(salary_by_position.values):
    axes[1].text(v + 50, i, f'R$ {v:,.0f}', va='center')

plt.tight_layout()
plt.show()

## ü§ñ Prototipagem de Modelos de Machine Learning

Nesta se√ß√£o, testaremos diferentes modelos de machine learning para identificar poss√≠veis riscos e anomalias na folha de pagamento.

In [None]:
# Prepara√ß√£o dos dados para modelagem
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestClassifier, IsolationForest
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.cluster import KMeans

print("üîß PREPARA√á√ÉO DOS DADOS PARA MODELAGEM")
print("=" * 50)

# Criar vari√°vel target para detec√ß√£o de anomalias
# Consideramos como anomalia sal√°rios muito altos ou muito baixos para o cargo
df_model = df_folha.copy()

# Encoding de vari√°veis categ√≥ricas
le_dept = LabelEncoder()
le_cargo = LabelEncoder()
le_status = LabelEncoder()

df_model['departamento_encoded'] = le_dept.fit_transform(df_model['departamento'])
df_model['cargo_encoded'] = le_cargo.fit_transform(df_model['cargo'])
df_model['status_encoded'] = le_status.fit_transform(df_model['status'])

# Criar features adicionais
df_model['tempo_empresa'] = (pd.Timestamp.now() - pd.to_datetime(df_model['data_admissao'])).dt.days
df_model['razao_extras_base'] = df_model['horas_extras'] / df_model['salario_base']
df_model['razao_desconto_base'] = df_model['descontos'] / df_model['salario_base']

# Selecionar features para modelagem
features = ['salario_base', 'horas_extras', 'descontos', 'departamento_encoded', 
           'cargo_encoded', 'status_encoded', 'tempo_empresa', 'razao_extras_base', 'razao_desconto_base']

X = df_model[features]

print(f"‚úÖ Features selecionadas: {len(features)}")
print(f"üìä Shape dos dados: {X.shape}")
print(f"üéØ Features: {features}")

In [None]:
# Modelo 1: Detec√ß√£o de Anomalias usando Isolation Forest
print("üå≤ MODELO 1: ISOLATION FOREST (DETEC√á√ÉO DE ANOMALIAS)")
print("=" * 60)

# Normalizar os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Treinar Isolation Forest
iso_forest = IsolationForest(contamination=0.1, random_state=42)
anomaly_labels = iso_forest.fit_predict(X_scaled)

# Adicionar labels ao dataframe
df_model['anomalia'] = anomaly_labels
df_model['anomalia_label'] = df_model['anomalia'].map({1: 'Normal', -1: 'Anomalia'})

# An√°lise dos resultados
anomaly_counts = df_model['anomalia_label'].value_counts()
print(f"\nüìä Resultados da Detec√ß√£o de Anomalias:")
print(f"   ‚Ä¢ Normal: {anomaly_counts['Normal']} ({anomaly_counts['Normal']/len(df_model)*100:.1f}%)")
print(f"   ‚Ä¢ Anomalias: {anomaly_counts['Anomalia']} ({anomaly_counts['Anomalia']/len(df_model)*100:.1f}%)")

# Visualizar anomalias
plt.figure(figsize=(12, 8))
scatter = plt.scatter(df_model['salario_base'], df_model['salario_liquido'], 
                     c=df_model['anomalia'], cmap='coolwarm', alpha=0.6)
plt.xlabel('Sal√°rio Base (R$)')
plt.ylabel('Sal√°rio L√≠quido (R$)')
plt.title('Detec√ß√£o de Anomalias: Sal√°rio Base vs Sal√°rio L√≠quido')
plt.colorbar(scatter, label='Anomalia (-1) / Normal (1)')
plt.grid(True, alpha=0.3)
plt.show()

# Analisar caracter√≠sticas das anomalias
print("\nüîç Caracter√≠sticas das Anomalias Detectadas:")
anomalias = df_model[df_model['anomalia'] == -1]
print(f"\nüìà Estat√≠sticas das Anomalias:")
print(anomalias[['salario_base', 'horas_extras', 'descontos', 'salario_liquido']].describe())

In [None]:
# Modelo 2: Clustering para Segmenta√ß√£o de Funcion√°rios
print("üéØ MODELO 2: K-MEANS CLUSTERING (SEGMENTA√á√ÉO)")
print("=" * 50)

# Determinar n√∫mero √≥timo de clusters usando o m√©todo do cotovelo
inertias = []
k_range = range(2, 11)

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X_scaled)
    inertias.append(kmeans.inertia_)

# Plotar m√©todo do cotovelo
plt.figure(figsize=(10, 6))
plt.plot(k_range, inertias, marker='o', linewidth=2, markersize=8)
plt.xlabel('N√∫mero de Clusters (k)')
plt.ylabel('In√©rcia')
plt.title('M√©todo do Cotovelo para Determina√ß√£o do K √ìtimo')
plt.grid(True, alpha=0.3)
plt.show()

# Aplicar K-Means com k=4
optimal_k = 4
kmeans = KMeans(n_clusters=optimal_k, random_state=42, n_init=10)
cluster_labels = kmeans.fit_predict(X_scaled)

# Adicionar clusters ao dataframe
df_model['cluster'] = cluster_labels

# An√°lise dos clusters
print(f"\nüìä Distribui√ß√£o dos Clusters:")
cluster_counts = df_model['cluster'].value_counts().sort_index()
for cluster_id, count in cluster_counts.items():
    percentage = count / len(df_model) * 100
    print(f"   ‚Ä¢ Cluster {cluster_id}: {count} funcion√°rios ({percentage:.1f}%)")

# Visualizar clusters
plt.figure(figsize=(12, 8))
scatter = plt.scatter(df_model['salario_base'], df_model['salario_liquido'], 
                     c=df_model['cluster'], cmap='viridis', alpha=0.6)
plt.xlabel('Sal√°rio Base (R$)')
plt.ylabel('Sal√°rio L√≠quido (R$)')
plt.title('Segmenta√ß√£o de Funcion√°rios por Clusters')
plt.colorbar(scatter, label='Cluster')
plt.grid(True, alpha=0.3)
plt.show()

# Perfil dos clusters
print("\nüë• Perfil dos Clusters:")
for cluster_id in sorted(df_model['cluster'].unique()):
    cluster_data = df_model[df_model['cluster'] == cluster_id]
    print(f"\nüéØ CLUSTER {cluster_id}:")
    print(f"   ‚Ä¢ Sal√°rio Base M√©dio: R$ {cluster_data['salario_base'].mean():,.2f}")
    print(f"   ‚Ä¢ Sal√°rio L√≠quido M√©dio: R$ {cluster_data['salario_liquido'].mean():,.2f}")
    print(f"   ‚Ä¢ Departamento Principal: {cluster_data['departamento'].mode().iloc[0]}")
    print(f"   ‚Ä¢ Cargo Principal: {cluster_data['cargo'].mode().iloc[0]}")

## üìã Relat√≥rio de Auditoria e Recomenda√ß√µes

Com base na an√°lise explorat√≥ria e nos modelos desenvolvidos, apresentamos os principais achados e recomenda√ß√µes.

In [None]:
# Gerar relat√≥rio de auditoria
print("üìä RELAT√ìRIO DE AUDITORIA - FOLHA DE PAGAMENTO")
print("=" * 60)

# Resumo geral
total_funcionarios = len(df_folha)
total_folha = df_folha['salario_liquido'].sum()
media_salarial = df_folha['salario_liquido'].mean()

print(f"\nüìà RESUMO EXECUTIVO:")
print(f"   ‚Ä¢ Total de Funcion√°rios: {total_funcionarios:,}")
print(f"   ‚Ä¢ Folha de Pagamento Total: R$ {total_folha:,.2f}")
print(f"   ‚Ä¢ Sal√°rio L√≠quido M√©dio: R$ {media_salarial:,.2f}")

# Principais achados
anomalias_detectadas = len(df_model[df_model['anomalia'] == -1])
percentual_anomalias = anomalias_detectadas / total_funcionarios * 100

print(f"\nüö® PRINCIPAIS ACHADOS:")
print(f"   ‚Ä¢ Anomalias Detectadas: {anomalias_detectadas} ({percentual_anomalias:.1f}%)")
print(f"   ‚Ä¢ Clusters Identificados: {optimal_k}")

# Top 5 funcion√°rios com maiores sal√°rios
print(f"\nüí∞ TOP 5 MAIORES SAL√ÅRIOS:")
top_salarios = df_folha.nlargest(5, 'salario_liquido')[['nome', 'cargo', 'departamento', 'salario_liquido']]
for idx, row in top_salarios.iterrows():
    print(f"   ‚Ä¢ {row['nome']}: R$ {row['salario_liquido']:,.2f} ({row['cargo']} - {row['departamento']})")

# Funcion√°rios com anomalias (top 5)
print(f"\n‚ö†Ô∏è  TOP 5 ANOMALIAS DETECTADAS:")
anomalias_top = df_model[df_model['anomalia'] == -1].nlargest(5, 'salario_liquido')[['nome', 'cargo', 'departamento', 'salario_liquido']]
for idx, row in anomalias_top.iterrows():
    print(f"   ‚Ä¢ {row['nome']}: R$ {row['salario_liquido']:,.2f} ({row['cargo']} - {row['departamento']})")

# Recomenda√ß√µes
print(f"\nüí° RECOMENDA√á√ïES:")
print(f"   1. Investigar as {anomalias_detectadas} anomalias detectadas")
print(f"   2. Revisar estrutura salarial por cargo e departamento")
print(f"   3. Implementar controles autom√°ticos para detec√ß√£o de inconsist√™ncias")
print(f"   4. Estabelecer pol√≠ticas claras de remunera√ß√£o por cluster")
print(f"   5. Realizar auditoria mensal usando os modelos desenvolvidos")

print(f"\n‚úÖ Relat√≥rio gerado com sucesso!")

## üéØ Conclus√µes e Pr√≥ximos Passos

### Principais Resultados

1. **An√°lise Explorat√≥ria**: Identificamos a distribui√ß√£o dos sal√°rios, padr√µes por departamento e cargo
2. **Detec√ß√£o de Anomalias**: Utilizamos Isolation Forest para identificar casos suspeitos
3. **Segmenta√ß√£o**: Aplicamos K-Means para criar clusters de funcion√°rios com caracter√≠sticas similares
4. **Relat√≥rio de Auditoria**: Gerado automaticamente com achados e recomenda√ß√µes

### Pr√≥ximos Passos

1. **Valida√ß√£o**: Validar as anomalias detectadas com a equipe de RH
2. **Implementa√ß√£o**: Integrar os modelos ao sistema de produ√ß√£o
3. **Monitoramento**: Criar dashboard para acompanhamento cont√≠nuo
4. **Melhoria**: Refinar os modelos com feedback da equipe
5. **Automa√ß√£o**: Implementar pipeline de auditoria autom√°tica

### Documenta√ß√£o

- C√≥digo fonte dispon√≠vel neste notebook
- Modelos salvos para uso em produ√ß√£o
- Relat√≥rios export√°veis em formato PDF/Excel
- Dashboards interativos em desenvolvimento

---

**üìÖ √öltima atualiza√ß√£o**: Janeiro 2025  
**üë®‚Äçüíª Desenvolvido por**: Equipe AUDITORIA360  
**üìß Contato**: Para d√∫vidas ou sugest√µes, consulte a documenta√ß√£o t√©cnica