# AN√ÅLISE AVAN√áADA DE ABSENTISMO

**Framework Anal√≠tico Completo**: Da Descri√ß√£o √† Prescri√ß√£o

---

## Estrutura da An√°lise

1. **Prepara√ß√£o e Limpeza de Dados**
2. **Descri√ß√£o Fundamental dos Dados**
3. **Conceito de Spells (Epis√≥dios de Aus√™ncia)**
4. **M√©tricas Core (KPIs Essenciais)**
5. **Bradford Factor Analysis**
6. **Dete√ß√£o de Padr√µes Suspeitos**
7. **An√°lise de Cohorts (por Data de Ingresso)**
8. **Clustering de Perfis de Absentismo**
9. **Network Analysis (Coincid√™ncias)**
10. **Event Detection & Anomaly Detection**
11. **Visualiza√ß√µes Avan√ßadas**
12. **S√≠ntese Executiva e A√ß√µes Recomendadas**

---

## 1. PREPARA√á√ÉO E LIMPEZA DE DADOS

In [None]:
# Imports
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print('‚úì Bibliotecas carregadas')

In [None]:
# 1.1 Carregar dados
print('Carregando dados...')
df_raw = pd.read_csv('combined_data.csv')
df_raw['Data'] = pd.to_datetime(df_raw['Data'])

print(f'   Registos totais: {len(df_raw):,}')
print(f'   Colaboradores √∫nicos: {df_raw["login_colaborador"].nunique():,}')
print(f'   Per√≠odo: {df_raw["Data"].min().date()} at√© {df_raw["Data"].max().date()}')

# Carregar NOVOS c√≥digos (V2)
print('\nCarregando nova classifica√ß√£o (C√≥digos_V2)...')
df_codigos = pd.read_excel('c√≥digos_V2.xlsx')
print(f'   C√≥digos carregados: {len(df_codigos)}')
print(f'\nNivel 1 categories: {df_codigos["Nivel 1"].nunique()}')
print(df_codigos['Nivel 1'].value_counts())
print(f'\nNivel 2 categories: {df_codigos["Nivel 2"].nunique()}')
print(df_codigos['Nivel 2'].value_counts())

In [None]:
# 1.2 Merge com novos c√≥digos
print('Aplicando nova classifica√ß√£o aos dados...')

# Merge
df_raw = df_raw.merge(
    df_codigos,
    left_on='segmento_processado_codigo',
    right_on='Codigo Segmento',
    how='left'
)

# Verificar c√≥digos n√£o mapeados
codigos_sem_match = df_raw[df_raw['Nivel 1'].isna()]['segmento_processado_codigo'].unique()
if len(codigos_sem_match) > 0:
    print(f'\n‚ö†Ô∏è  ATEN√á√ÉO: {len(codigos_sem_match)} c√≥digos sem correspond√™ncia:')
    print(codigos_sem_match)
    print(f'   Registos afetados: {df_raw["Nivel 1"].isna().sum():,}')
else:
    print('\n‚úì Todos os c√≥digos mapeados com sucesso')

print(f'\nTotal de registos: {len(df_raw):,}')

### 1.3 Identificar e Remover Incompatibilidades

**Particularidade dos dados**: Num mesmo dia, um colaborador pode ter **m√∫ltiplos registos**.

**Regras de Compatibilidade** (Nivel 2):
- ‚úÖ **Atraso** + Presen√ßa
- ‚úÖ **Atraso** + Exame Escolar  
- ‚úÖ **Presen√ßa** + Exame Escolar
- ‚ùå **Tudo o resto √© INCOMPAT√çVEL**

Vamos criar uma matriz de compatibilidade e identificar dias problem√°ticos.

In [None]:
# 1.3.1 Criar matriz de compatibilidade (Nivel 2)
print('Criando matriz de compatibilidade (Nivel 2)...')

# Lista de categorias Nivel 2
lista_nivel2 = sorted(df_codigos['Nivel 2'].unique())
print(f'\nCategorias Nivel 2: {len(lista_nivel2)}')
for cat in lista_nivel2:
    print(f'  - {cat}')

# Criar matriz (default: INCOMPAT√çVEL)
matriz_compat = pd.DataFrame('Incompat√≠vel', index=lista_nivel2, columns=lista_nivel2)

# REGRA 1: Categoria consigo mesma = COMPAT√çVEL
for cat in lista_nivel2:
    matriz_compat.loc[cat, cat] = 'Compat√≠vel'

# REGRA 2: Apenas 3 pares compat√≠veis
pares_compativeis = [
    ('Atraso', 'Presen√ßa'),
    ('Atraso', 'Exame Escolar'),
    ('Presen√ßa', 'Exame Escolar')
]

for cat1, cat2 in pares_compativeis:
    if cat1 in matriz_compat.index and cat2 in matriz_compat.columns:
        matriz_compat.loc[cat1, cat2] = 'Compat√≠vel'
        matriz_compat.loc[cat2, cat1] = 'Compat√≠vel'  # Sim√©trica

# Exportar matriz para valida√ß√£o
with pd.ExcelWriter('matriz_compatibilidade_nivel2_v2.xlsx') as writer:
    matriz_compat.to_excel(writer, sheet_name='Matriz')
    
print('\n‚úì Matriz de compatibilidade criada e exportada')
print(f'\nPares COMPAT√çVEIS (al√©m da diagonal):' )
for cat1, cat2 in pares_compativeis:
    print(f'  ‚úì {cat1} + {cat2}')

In [None]:
# 1.3.2 Identificar dias com m√∫ltiplos registos
print('Identificando dias com m√∫ltiplos registos...')

registros_por_dia = df_raw.groupby(['login_colaborador', 'Data']).size()
dias_duplicados = registros_por_dia[registros_por_dia > 1]

print(f'   Dias com m√∫ltiplos registos: {len(dias_duplicados):,}')
print(f'   ({len(dias_duplicados) / len(df_raw.groupby(["login_colaborador", "Data"])) * 100:.2f}% do total de dias-colaborador)')

In [None]:
# 1.3.3 Testar incompatibilidades (VERS√ÉO OTIMIZADA)
print('Testando incompatibilidades nos dias duplicados...')

# PR√â-FILTRAR apenas dias duplicados
dias_dup_list = dias_duplicados.index.tolist()
df_dup = df_raw.set_index(['login_colaborador', 'Data']).loc[dias_dup_list].reset_index()

print(f'   Registos a testar: {len(df_dup):,}')

# PR√â-AGRUPAR dados (UMA vez!)
df_dup_grouped = df_dup.groupby(['login_colaborador', 'Data']).apply(
    lambda g: pd.Series({
        'categorias_nivel2': list(g['Nivel 2'].dropna().unique()),
        'codigos': list(g['segmento_processado_codigo'].unique()),
        'nome': g['nome_colaborador'].iloc[0]
    })
).reset_index()

print(f'   Dias √∫nicos a testar: {len(df_dup_grouped):,}')

# Identificar incompatibilidades
print('\nTestando pares de categorias...')
dias_incompativeis = []

for idx, row in df_dup_grouped.iterrows():
    if idx % 5000 == 0 and idx > 0:
        print(f'   Processados {idx:,}/{len(df_dup_grouped):,} dias...')
    
    login = row['login_colaborador']
    data = row['Data']
    categorias = row['categorias_nivel2']
    codigos = row['codigos']
    nome = row['nome']
    
    # Testar todos os pares
    incompativel_encontrado = False
    pares_incompativeis = []
    
    for i, cat1 in enumerate(categorias):
        for cat2 in categorias[i+1:]:
            if cat1 in matriz_compat.index and cat2 in matriz_compat.columns:
                if matriz_compat.loc[cat1, cat2] == 'Incompat√≠vel':
                    incompativel_encontrado = True
                    pares_incompativeis.append(f'{cat1} + {cat2}')
    
    if incompativel_encontrado:
        dias_incompativeis.append({
            'login_colaborador': login,
            'Data': data,
            'nome_colaborador': nome,
            'categorias': ', '.join(categorias),
            'codigos': ', '.join(codigos),
            'pares_incompativeis': ' | '.join(pares_incompativeis)
        })

df_incompativeis = pd.DataFrame(dias_incompativeis)

print(f'\n‚úì Teste conclu√≠do')
print(f'\nüî¥ INCOMPATIBILIDADES ENCONTRADAS: {len(df_incompativeis)}')

if len(df_incompativeis) > 0:
    print(f'\nDistribui√ß√£o por par incompat√≠vel:')
    for par in df_incompativeis['pares_incompativeis'].str.split(' | ').explode().value_counts().head(10).items():
        print(f'   {par[0]}: {par[1]} casos')
    
    # Exportar para Excel
    df_incompativeis.to_excel('incompatibilidades_encontradas_v2.xlsx', index=False)
    print('\n‚úì Detalhes exportados para: incompatibilidades_encontradas_v2.xlsx')

In [None]:
# 1.3.4 Remover dias incompat√≠veis (VERS√ÉO VETORIZADA)
print('Removendo dias incompat√≠veis...')

n_antes = len(df_raw)

if len(df_incompativeis) > 0:
    # Criar DataFrame dos dias a remover
    dias_remover = df_incompativeis[['login_colaborador', 'Data']].copy()
    
    # Merge com indicador
    df_temp = df_raw.merge(dias_remover, on=['login_colaborador', 'Data'], how='left', indicator=True)
    
    # Manter apenas linhas N√ÉO marcadas
    df_limpo = df_temp[df_temp['_merge'] == 'left_only'].drop('_merge', axis=1)
else:
    df_limpo = df_raw.copy()
    print('   Nenhuma incompatibilidade encontrada')

n_depois = len(df_limpo)
print(f'\n‚úì Registos removidos: {n_antes - n_depois:,}')
print(f'   ({(n_antes - n_depois) / n_antes * 100:.3f}% do total)')
print(f'\nDataset limpo: {n_depois:,} registos')

In [None]:
# APLICAR REGRAS DE HIERARQUIA - VERS√ÉO R√ÅPIDA

print('=== APLICANDO REGRAS DE HIERARQUIA ===\n')

# ============================================================================
# PR√â-AGRUPAR para identificar combina√ß√µes (R√ÅPIDO)
# ============================================================================
print('Identificando combina√ß√µes...')

dias_mult = df_limpo.groupby(['login_colaborador', 'Data']).size()
dias_mult = dias_mult[dias_mult > 1].reset_index()
dias_mult.columns = ['login_colaborador', 'Data', 'num_registos']

# PR√â-FILTRAR s√≥ dias m√∫ltiplos
dias_mult_list = list(zip(dias_mult['login_colaborador'], dias_mult['Data']))
df_mult = df_limpo[df_limpo.set_index(['login_colaborador', 'Data']).index.isin(dias_mult_list)].copy()

# PR√â-AGRUPAR (uma vez s√≥!)
df_comb = df_mult.groupby(['login_colaborador', 'Data']).agg({
    'Nivel 1': lambda x: ' + '.join(sorted(x.dropna().unique())),
    'Nivel 2': lambda x: ' + '.join(sorted(x.dropna().unique()))
}).reset_index()

df_comb.columns = ['login_colaborador', 'Data', 'combinacao_nivel1', 'combinacao_nivel2']

print(f'   ‚úì Combina√ß√µes: {len(df_comb):,}')

# ============================================================================
# ELIMINAR CASOS
# ============================================================================
print('\n1. Eliminando casos raros...')

# Nivel 1
eliminar_n1 = df_comb[df_comb['combinacao_nivel1'].isin([
    'Falta Injustificada + Trabalho Pago',
    'Falta Justificada + Trabalho Pago',
    'Atraso + Falta Justificada'
])]

# Nivel 2
eliminar_n2 = df_comb[df_comb['combinacao_nivel2'].str.contains(
    'Feriado \+ Presen√ßa|F√©rias \+ Presen√ßa|Folga \+ Presen√ßa|Falta Injustificada \+ Presen√ßa|Assist√™ncia Familiar \+ Presen√ßa|Atraso \+ Aus√™ncia M√©dica|Aus√™ncia Justificada \+ Presen√ßa',
    na=False, regex=True
)]

eliminar_total = pd.concat([eliminar_n1, eliminar_n2]).drop_duplicates()

print(f'   Casos a eliminar: {len(eliminar_total)}')

# Eliminar (criar lista de √≠ndices)
idx_eliminar = df_limpo.set_index(['login_colaborador', 'Data']).index.isin(
    list(zip(eliminar_total['login_colaborador'], eliminar_total['Data']))
)
df_limpo = df_limpo[~idx_eliminar]

print(f'   ‚úì Eliminados')

# ============================================================================
# SEPARAR ATRASOS
# ============================================================================
print('\n2. Separando atrasos...')

dias_atraso = df_comb[df_comb['combinacao_nivel1'] == 'Atraso + Trabalho Pago']

print(f'   Dias Atraso + Trabalho Pago: {len(dias_atraso):,}')

# Criar df_atrasos (copiar linhas onde Nivel 1 = Atraso)
idx_atrasos = df_limpo.set_index(['login_colaborador', 'Data']).index.isin(
    list(zip(dias_atraso['login_colaborador'], dias_atraso['Data']))
) & (df_limpo['Nivel 1'] == 'Atraso')

df_atrasos = df_limpo[idx_atrasos].copy()

print(f'   ‚úì df_atrasos: {len(df_atrasos):,} registos')

# Remover atrasos do principal
df_limpo = df_limpo[~idx_atrasos]

print(f'   ‚úì Removidos do principal')

# ============================================================================
# AGREGAR
# ============================================================================
print('\n3. Agregando...')

agg_rules = {
    'nome_colaborador': 'first',
    'categoria_profissional': 'first',
    'segmento_processado_codigo': lambda x: ', '.join(sorted(x.unique())),
    'Nivel 1': lambda x: ', '.join(sorted(x.dropna().unique())),
    'Nivel 2': lambda x: ', '.join(sorted(x.dropna().unique())),
}

if 'operacao' in df_limpo.columns:
    agg_rules['operacao'] = 'first'
if 'Activo?' in df_limpo.columns:
    agg_rules['Activo?'] = 'first'
if 'DtActivacao' in df_limpo.columns:
    agg_rules['DtActivacao'] = 'first'
if 'DtDesactivacao' in df_limpo.columns:
    agg_rules['DtDesactivacao'] = 'first'

df = df_limpo.groupby(['login_colaborador', 'Data']).agg(agg_rules).reset_index()
print(f'   ‚úì df: {len(df):,}')

if len(df_atrasos) > 0:
    df_atrasos = df_atrasos.groupby(['login_colaborador', 'Data']).agg(agg_rules).reset_index()
    print(f'   ‚úì df_atrasos: {len(df_atrasos):,}')

print('\n' + '='*70)
print(f'CONCLU√çDO - df: {len(df):,} | df_atrasos: {len(df_atrasos):,}')
print('='*70)

---

## 2. DESCRI√á√ÉO FUNDAMENTAL DOS DADOS

In [None]:
# 2.1 Estat√≠sticas descritivas
print('=== DESCRI√á√ÉO DO DATASET ===')
print(f'\nüìä DIMENS√ÉO')
print(f'   Total de registos (dias-colaborador): {len(df):,}')
print(f'   Colaboradores √∫nicos: {df["login_colaborador"].nunique():,}')
print(f'   Per√≠odo: {df["Data"].min().date()} at√© {df["Data"].max().date()}')
print(f'   Dias calend√°rio: {(df["Data"].max() - df["Data"].min()).days + 1}')

print(f'\nüìã DISTRIBUI√á√ÉO POR NIVEL 1')
dist_nivel1 = df['Nivel 1'].value_counts()
for cat, count in dist_nivel1.items():
    pct = count / len(df) * 100
    print(f'   {cat:25s}: {count:7,} ({pct:5.2f}%)')

print(f'\nüìã DISTRIBUI√á√ÉO POR NIVEL 2')
dist_nivel2 = df['Nivel 2'].value_counts()
for cat, count in dist_nivel2.head(15).items():
    pct = count / len(df) * 100
    print(f'   {cat:30s}: {count:7,} ({pct:5.2f}%)')

if 'operacao' in df.columns:
    print(f'\nüè¢ OPERA√á√ïES')
    print(f'   Opera√ß√µes √∫nicas: {df["operacao"].nunique()}')
    print(f'   Top 10 opera√ß√µes:')
    for op, count in df['operacao'].value_counts().head(10).items():
        pct = count / len(df) * 100
        print(f'      {op:40s}: {count:6,} ({pct:5.2f}%)')

print(f'\nüë• CATEGORIAS PROFISSIONAIS')
print(f'   Categorias √∫nicas: {df["categoria_profissional"].nunique()}')
for cat, count in df['categoria_profissional'].value_counts().head(10).items():
    pct = count / len(df) * 100
    print(f'   {cat:30s}: {count:6,} ({pct:5.2f}%)')

In [None]:
# 2.2 Visualiza√ß√£o: Distribui√ß√£o temporal
print('Criando visualiza√ß√£o de distribui√ß√£o temporal...')

# Agrupar por m√™s
df['Ano_Mes'] = df['Data'].dt.to_period('M').astype(str)
df_mensal = df.groupby('Ano_Mes').size().reset_index(name='Registos')

fig = go.Figure()
fig.add_trace(go.Scatter(
    x=df_mensal['Ano_Mes'],
    y=df_mensal['Registos'],
    mode='lines+markers',
    name='Registos',
    line=dict(color='#1f77b4', width=2),
    marker=dict(size=6)
))

fig.update_layout(
    title='Evolu√ß√£o Temporal dos Registos',
    xaxis_title='M√™s',
    yaxis_title='N√∫mero de Registos',
    height=400,
    hovermode='x unified'
)

fig.show()
print('‚úì Visualiza√ß√£o criada')

---

## 3. CONCEITO DE SPELLS (EPIS√ìDIOS DE AUS√äNCIA)

**Spell** = Epis√≥dio cont√≠nuo de aus√™ncia (um ou mais dias consecutivos).

**Import√¢ncia**:
- 1 spell de 5 dias vs 5 spells de 1 dia = **impacto operacional MUITO diferente**
- Permite calcular m√©tricas sofisticadas:
  - **Frequency Rate**: Taxa de spells por colaborador
  - **Mean Spell Duration**: Dura√ß√£o m√©dia de cada epis√≥dio
  - **Short-term spells**: ‚â§ 3 dias (poss√≠vel "abuso")
  - **Long-term spells**: > 14 dias (doen√ßa grave, tratamento m√©dico)

**Algoritmo**:
1. Ordenar registos por colaborador e data
2. Identificar quebras de continuidade (gap > 1 dia)
3. Agrupar dias consecutivos no mesmo spell
4. Calcular dura√ß√£o, tipo predominante, etc.

In [None]:
# 3.1 Criar spells de AUS√äNCIA (excluir Presen√ßas e Atrasos)
print('Criando spells de aus√™ncia...')

# Filtrar apenas AUS√äNCIAS (excluir Trabalho Pago, Atraso)
df_ausencias = df[df['Nivel 1'].isin(['Falta Justificada', 'Falta Injustificada', 'Aus√™ncia'])].copy()

print(f'   Registos de aus√™ncia: {len(df_ausencias):,}')
print(f'   Colaboradores com aus√™ncias: {df_ausencias["login_colaborador"].nunique():,}')

# Ordenar por colaborador e data
df_ausencias = df_ausencias.sort_values(['login_colaborador', 'Data']).reset_index(drop=True)

# Calcular diferen√ßa de dias entre registos consecutivos
df_ausencias['dias_desde_anterior'] = df_ausencias.groupby('login_colaborador')['Data'].diff().dt.days

# Novo spell quando:
# 1. Primeiro registo do colaborador (dias_desde_anterior = NaN)
# 2. Gap > 1 dia (n√£o consecutivo)
df_ausencias['novo_spell'] = (
    (df_ausencias['dias_desde_anterior'].isna()) |  # Primeiro registo
    (df_ausencias['dias_desde_anterior'] > 1)        # Gap de dias
)

# Atribuir ID √∫nico a cada spell
df_ausencias['spell_id'] = df_ausencias['novo_spell'].cumsum()

print(f'\n‚úì Spells identificados: {df_ausencias["spell_id"].nunique():,}')

In [None]:
# 3.2 Agregar informa√ß√£o por spell
print('Agregando informa√ß√£o por spell...')

df_spells = df_ausencias.groupby('spell_id').agg({
    'login_colaborador': 'first',
    'nome_colaborador': 'first',
    'categoria_profissional': 'first',
    'Data': ['min', 'max', 'count'],  # In√≠cio, fim, dura√ß√£o
    'Nivel 1': lambda x: x.mode()[0] if len(x.mode()) > 0 else x.iloc[0],  # Tipo predominante
    'Nivel 2': lambda x: x.mode()[0] if len(x.mode()) > 0 else x.iloc[0],
}).reset_index()

# Renomear colunas
df_spells.columns = [
    'spell_id', 'login_colaborador', 'nome_colaborador', 'categoria_profissional',
    'data_inicio', 'data_fim', 'duracao_dias',
    'nivel1_predominante', 'nivel2_predominante'
]

# Adicionar opera√ß√£o se existir
if 'operacao' in df_ausencias.columns:
    df_spells = df_spells.merge(
        df_ausencias.groupby('spell_id')['operacao'].first().reset_index(),
        on='spell_id'
    )

# Adicionar features
df_spells['dia_semana_inicio'] = df_spells['data_inicio'].dt.day_name()
df_spells['dia_semana_fim'] = df_spells['data_fim'].dt.day_name()
df_spells['mes'] = df_spells['data_inicio'].dt.month
df_spells['ano'] = df_spells['data_inicio'].dt.year

# Categorizar spells
df_spells['categoria_spell'] = pd.cut(
    df_spells['duracao_dias'],
    bins=[0, 1, 3, 7, 14, float('inf')],
    labels=['1 dia', '2-3 dias', '4-7 dias', '8-14 dias', '>14 dias']
)

df_spells['short_term'] = df_spells['duracao_dias'] <= 3
df_spells['long_term'] = df_spells['duracao_dias'] > 14

print(f'\n‚úì Dataset de spells criado: {len(df_spells):,} spells')
print(f'\nDistribui√ß√£o por dura√ß√£o:')
print(df_spells['categoria_spell'].value_counts().sort_index())

print(f'\nEstat√≠sticas de dura√ß√£o:')
print(f'   M√©dia: {df_spells["duracao_dias"].mean():.2f} dias')
print(f'   Mediana: {df_spells["duracao_dias"].median():.0f} dias')
print(f'   P75: {df_spells["duracao_dias"].quantile(0.75):.0f} dias')
print(f'   P95: {df_spells["duracao_dias"].quantile(0.95):.0f} dias')
print(f'   M√°ximo: {df_spells["duracao_dias"].max()} dias')

In [None]:
# 3.3 An√°lise de spells por colaborador
print('Analisando spells por colaborador...')

df_colab_spells = df_spells.groupby('login_colaborador').agg({
    'spell_id': 'count',  # Frequency rate (n√∫mero de spells)
    'duracao_dias': ['sum', 'mean', 'median', 'std'],
    'short_term': 'sum',  # N√∫mero de spells curtos
    'long_term': 'sum',   # N√∫mero de spells longos
}).reset_index()

df_colab_spells.columns = [
    'login_colaborador', 'num_spells', 
    'total_dias_ausentes', 'mean_spell_duration', 'median_spell_duration', 'std_spell_duration',
    'num_short_term_spells', 'num_long_term_spells'
]

# Adicionar nome
df_colab_spells = df_colab_spells.merge(
    df[['login_colaborador', 'nome_colaborador']].drop_duplicates(),
    on='login_colaborador'
)

print(f'\n‚úì An√°lise por colaborador criada: {len(df_colab_spells):,} colaboradores')
print(f'\nTop 10 colaboradores por n√∫mero de spells:')
print(df_colab_spells.nlargest(10, 'num_spells')[[
    'nome_colaborador', 'num_spells', 'total_dias_ausentes', 'mean_spell_duration'
]].to_string(index=False))

---

## 4. M√âTRICAS CORE (KPIs ESSENCIAIS)

Baseadas em frameworks de HR Analytics (AIHR, Fitzgerald HR).

In [None]:
# 4.1 Calcular m√©tricas fundamentais
print('=== M√âTRICAS CORE ===')

# Per√≠odo de an√°lise
data_inicio = df['Data'].min()
data_fim = df['Data'].max()
dias_calendario = (data_fim - data_inicio).days + 1
num_colaboradores = df['login_colaborador'].nunique()

# ‚ö†Ô∏è IMPORTANTE: Expandir listas de Nivel 1 e Nivel 2 para contagem correta
df_expanded = df.copy()

# Se Nivel 1 for lista, expandir
if isinstance(df_expanded['Nivel 1'].iloc[0], list):
    df_expanded = df_expanded.explode('Nivel 1')

# Se Nivel 2 for lista, expandir
if isinstance(df_expanded['Nivel 2'].iloc[0], list):
    df_expanded = df_expanded.explode('Nivel 2')

# Contar registos por tipo (agora vai funcionar!)
num_presencas = df_expanded[df_expanded['Nivel 1'] == 'Trabalho Pago'].shape[0]
num_atrasos = df_expanded[df_expanded['Nivel 1'] == 'Atraso'].shape[0]
num_faltas = df_expanded[df_expanded['Nivel 1'].isin(['Falta Justificada', 'Falta Injustificada'])].shape[0]
num_ausencias_medicas = df_expanded[df_expanded['Nivel 2'] == 'Aus√™ncia M√©dica'].shape[0]

# KPI 1: Taxa de Absentismo Global
# % Absentismo = Total de Faltas / (Presen√ßas + Total de Faltas)
taxa_absentismo_global = (num_faltas / (num_presencas + num_faltas)) * 100

# KPI 2: Lost Time Rate (dias perdidos por FTE)
total_dias_perdidos = df_spells['duracao_dias'].sum()
lost_time_rate = total_dias_perdidos / num_colaboradores

# KPI 3: Frequency Rate (spells por colaborador)
frequency_rate = len(df_spells) / num_colaboradores

# KPI 4: Mean Spell Duration
mean_spell_duration = df_spells['duracao_dias'].mean()

# KPI 5: Taxa de Atrasos
# % Atrasos = Atrasos / (Presen√ßas + Atrasos) - faz mais sentido
taxa_atrasos = (num_atrasos / (num_presencas + num_atrasos)) * 100 if (num_presencas + num_atrasos) > 0 else 0

# KPI 6: Taxa de Zero Aus√™ncias
colaboradores_sem_ausencias = num_colaboradores - df_spells['login_colaborador'].nunique()
taxa_zero_ausencias = (colaboradores_sem_ausencias / num_colaboradores) * 100

# Exibir resultados
print(f'\nüìä PER√çODO DE AN√ÅLISE')
print(f'   {data_inicio.date()} at√© {data_fim.date()} ({dias_calendario} dias)')
print(f'   Colaboradores √∫nicos: {num_colaboradores:,}')
print(f'\nüìà M√âTRICAS PRINCIPAIS')
print(f'   Presen√ßas: {num_presencas:,}')
print(f'   Atrasos: {num_atrasos:,}')
print(f'   Faltas (Just.+Injust.): {num_faltas:,}')
print(f'   Aus√™ncias M√©dicas: {num_ausencias_medicas:,}')
print(f'\nüéØ KPIs')
print(f'   Taxa de Absentismo: {taxa_absentismo_global:.2f}%')
print(f'   Taxa de Atrasos: {taxa_atrasos:.2f}%')
print(f'   Lost Time Rate: {lost_time_rate:.1f} dias/colaborador')
print(f'   Frequency Rate: {frequency_rate:.2f} spells/colaborador')
print(f'   Dura√ß√£o M√©dia Spell: {mean_spell_duration:.1f} dias')
print(f'   Colaboradores sem aus√™ncias: {taxa_zero_ausencias:.1f}%')


---

## 4B. AN√ÅLISE ESPEC√çFICA DE ATRASOS

An√°lise dedicada aos atrasos (delays), separada das aus√™ncias.


In [None]:
# 4B.1 Criar dataset espec√≠fico para atrasos
print('=== AN√ÅLISE ESPEC√çFICA DE ATRASOS ===\n')

# Expandir e filtrar atrasos
df_atrasos = df.copy()

# Expandir Nivel 1 se for lista
if isinstance(df_atrasos['Nivel 1'].iloc[0], list):
    df_atrasos = df_atrasos.explode('Nivel 1')

df_atrasos = df_atrasos[df_atrasos['Nivel 1'] == 'Atraso'].copy()

print(f'Total de registos de atraso: {len(df_atrasos):,}')

if len(df_atrasos) > 0:
    print(f'Colaboradores com atrasos: {df_atrasos["login_colaborador"].nunique():,}')

    # An√°lise por colaborador
    atrasos_por_colab = df_atrasos.groupby('login_colaborador').agg({
        'Data': 'count',
        'nome_colaborador': 'first'
    }).rename(columns={'Data': 'num_atrasos'}).sort_values('num_atrasos', ascending=False)

    print(f'\nüìä Estat√≠sticas:')
    print(f'   M√©dia: {atrasos_por_colab["num_atrasos"].mean():.1f} atrasos/colaborador')
    print(f'   Mediana: {atrasos_por_colab["num_atrasos"].median():.0f}')
    print(f'   M√°ximo: {atrasos_por_colab["num_atrasos"].max():.0f}')

    # Top 10
    print(f'\nüîù TOP 10 COLABORADORES COM MAIS ATRASOS:\n')
    for idx, (login, row) in enumerate(atrasos_por_colab.head(10).iterrows(), 1):
        print(f'{idx:2d}. {row["nome_colaborador"][:40]:40s}: {row["num_atrasos"]:3d} atrasos')

    # Distribui√ß√£o
    fig = go.Figure()
    fig.add_trace(go.Histogram(
        x=atrasos_por_colab['num_atrasos'],
        nbinsx=30,
        marker_color='orange',
        marker_line_color='white',
        marker_line_width=1
    ))
    fig.update_layout(
        title='Distribui√ß√£o de Atrasos por Colaborador',
        xaxis_title='N√∫mero de Atrasos',
        yaxis_title='Colaboradores',
        height=400
    )
    fig.show()

    # Evolu√ß√£o temporal
    atrasos_por_data = df_atrasos.groupby('Data').size().reset_index(name='num_atrasos')

    fig2 = go.Figure()
    fig2.add_trace(go.Scatter(
        x=atrasos_por_data['Data'],
        y=atrasos_por_data['num_atrasos'],
        mode='lines',
        line=dict(color='orange', width=2),
        fill='tozeroy',
        fillcolor='rgba(255,165,0,0.2)'
    ))
    fig2.update_layout(
        title='Evolu√ß√£o Temporal de Atrasos',
        xaxis_title='Data',
        yaxis_title='N√∫mero de Atrasos',
        height=400,
        hovermode='x unified'
    )
    fig2.show()

    # Exportar
    atrasos_por_colab.to_excel('analise_atrasos.xlsx')
    print('\n‚úì Exportado: analise_atrasos.xlsx')
else:
    print('‚ö†Ô∏è  Nenhum atraso encontrado no dataset')


---

## 5. BRADFORD FACTOR ANALYSIS

**Bradford Factor** = S¬≤ √ó D
- S = N√∫mero de spells (epis√≥dios)
- D = Total de dias ausentes

**Princ√≠pio**: Aus√™ncias curtas e frequentes s√£o **mais disruptivas** que aus√™ncias longas ocasionais.

**Exemplo**:
- Colaborador A: 1 spell de 10 dias ‚Üí B = 1¬≤ √ó 10 = **10**
- Colaborador B: 10 spells de 1 dia ‚Üí B = 10¬≤ √ó 10 = **1000** (100x pior!)

**Thresholds t√≠picos** (Call Centre Helper):
- < 45: Aceit√°vel
- 45-100: Conversa informal  
- 100-200: Revis√£o formal
- 200-500: Aviso escrito
- 500-900: A√ß√£o disciplinar
- \> 900: Preocupa√ß√£o s√©ria

In [None]:
# 5.1 Calcular Bradford Factor por colaborador
print('Calculando Bradford Factor...')

df_bradford = df_colab_spells.copy()
df_bradford['bradford_score'] = (df_bradford['num_spells'] ** 2) * df_bradford['total_dias_ausentes']

# Categorizar por risk level
def categorizar_bradford(score):
    if score < 45:
        return '1. Aceit√°vel (<45)'
    elif score < 100:
        return '2. Conversa Informal (45-100)'
    elif score < 200:
        return '3. Revis√£o Formal (100-200)'
    elif score < 500:
        return '4. Aviso Escrito (200-500)'
    elif score < 900:
        return '5. A√ß√£o Disciplinar (500-900)'
    else:
        return '6. Preocupa√ß√£o S√©ria (>900)'

df_bradford['risk_level'] = df_bradford['bradford_score'].apply(categorizar_bradford)

print(f'\n‚úì Bradford Factor calculado para {len(df_bradford):,} colaboradores')
print(f'\nDistribui√ß√£o por Risk Level:')
dist_risk = df_bradford['risk_level'].value_counts().sort_index()
for level, count in dist_risk.items():
    pct = count / len(df_bradford) * 100
    print(f'   {level:40s}: {count:4,} ({pct:5.2f}%)')

print(f'\nEstat√≠sticas do Bradford Score:')
print(f'   M√©dia: {df_bradford["bradford_score"].mean():.2f}')
print(f'   Mediana: {df_bradford["bradford_score"].median():.2f}')
print(f'   P75: {df_bradford["bradford_score"].quantile(0.75):.2f}')
print(f'   P90: {df_bradford["bradford_score"].quantile(0.90):.2f}')
print(f'   P95: {df_bradford["bradford_score"].quantile(0.95):.2f}')
print(f'   M√°ximo: {df_bradford["bradford_score"].max():.2f}')

In [None]:
# 5.2 Top colaboradores para aten√ß√£o de RH
print('\nüî¥ TOP 20 COLABORADORES PARA ATEN√á√ÉO DE RH (Bradford Factor)')
print('='*100)

top20_bradford = df_bradford.nlargest(20, 'bradford_score')[
    ['nome_colaborador', 'num_spells', 'total_dias_ausentes', 
     'mean_spell_duration', 'bradford_score', 'risk_level']
].copy()

top20_bradford.columns = ['Nome', 'N¬∫ Spells', 'Total Dias', 'Dura√ß√£o M√©dia', 'Bradford', 'Risk Level']

print(top20_bradford.to_string(index=False))

# Exportar para Excel
top20_bradford.to_excel('bradford_factor_top20.xlsx', index=False)
print('\n‚úì Top 20 exportado para: bradford_factor_top20.xlsx')

In [None]:
# 5.3 Visualiza√ß√£o: Distribui√ß√£o de Bradford Factor
fig = make_subplots(
    rows=1, cols=2,
    subplot_titles=['Distribui√ß√£o por Risk Level', 'Scatter: Spells vs Dias (Bradford)']
)

# Gr√°fico 1: Barras de risk level
dist_risk_sorted = dist_risk.sort_index()
fig.add_trace(
    go.Bar(
        x=[x.split('. ')[1].split(' (')[0] for x in dist_risk_sorted.index],
        y=dist_risk_sorted.values,
        marker_color=['green', 'yellow', 'orange', 'red', 'darkred', 'black'][:len(dist_risk_sorted)],
        text=dist_risk_sorted.values,
        textposition='auto'
    ),
    row=1, col=1
)

# Gr√°fico 2: Scatter plot
# Colorir por risk level
color_map = {
    '1. Aceit√°vel (<45)': 'green',
    '2. Conversa Informal (45-100)': 'yellow',
    '3. Revis√£o Formal (100-200)': 'orange',
    '4. Aviso Escrito (200-500)': 'red',
    '5. A√ß√£o Disciplinar (500-900)': 'darkred',
    '6. Preocupa√ß√£o S√©ria (>900)': 'black'
}

for risk_level in df_bradford['risk_level'].unique():
    df_temp = df_bradford[df_bradford['risk_level'] == risk_level]
    fig.add_trace(
        go.Scatter(
            x=df_temp['num_spells'],
            y=df_temp['total_dias_ausentes'],
            mode='markers',
            name=risk_level.split('. ')[1].split(' (')[0],
            marker=dict(
                size=8,
                color=color_map.get(risk_level, 'gray'),
                opacity=0.7
            ),
            text=df_temp['nome_colaborador'],
            hovertemplate='<b>%{text}</b><br>Spells: %{x}<br>Dias: %{y}<extra></extra>'
        ),
        row=1, col=2
    )

fig.update_xaxes(title_text='Risk Level', row=1, col=1)
fig.update_yaxes(title_text='N√∫mero de Colaboradores', row=1, col=1)
fig.update_xaxes(title_text='N√∫mero de Spells', row=1, col=2)
fig.update_yaxes(title_text='Total Dias Ausentes', row=1, col=2)

fig.update_layout(
    title='Bradford Factor Analysis',
    height=500,
    showlegend=True
)

fig.show()

In [None]:
# 5.4 Visualiza√ß√£o EXTRA: Bradford Heatmap por Opera√ß√£o e Categoria
print('\nCriando heatmap Bradford por Opera√ß√£o √ó Categoria...')

if 'operacao' in df.columns:
    # Merge Bradford scores com opera√ß√£o
    df_bradford_op = df_bradford.merge(
        df[['login_colaborador', 'operacao']].drop_duplicates(),
        on='login_colaborador',
        how='left'
    )

    # Merge com categoria profissional
    df_bradford_op = df_bradford_op.merge(
        df[['login_colaborador', 'categoria_profissional']].drop_duplicates(),
        on='login_colaborador',
        how='left'
    )

    # Top 10 opera√ß√µes
    top_ops = df['operacao'].value_counts().head(10).index
    df_bradford_op_filt = df_bradford_op[df_bradford_op['operacao'].isin(top_ops)]

    # Top 5 categorias
    top_cats = df['categoria_profissional'].value_counts().head(5).index
    df_bradford_op_filt = df_bradford_op_filt[df_bradford_op_filt['categoria_profissional'].isin(top_cats)]

    # Pivot: opera√ß√£o √ó categoria
    pivot_bradford = df_bradford_op_filt.pivot_table(
        index='operacao',
        columns='categoria_profissional',
        values='bradford_score',
        aggfunc='mean'
    ).fillna(0)

    # Heatmap
    fig = go.Figure(data=go.Heatmap(
        z=pivot_bradford.values,
        x=pivot_bradford.columns,
        y=pivot_bradford.index,
        colorscale='RdYlGn_r',  # Vermelho = alto, Verde = baixo
        text=pivot_bradford.values.round(0),
        texttemplate='%{text}',
        textfont={"size": 10},
        hovertemplate='Opera√ß√£o: %{y}<br>Categoria: %{x}<br>Bradford M√©dio: %{z:.0f}<extra></extra>'
    ))

    fig.update_layout(
        title='Bradford Factor M√©dio: Opera√ß√£o √ó Categoria Profissional',
        xaxis_title='Categoria Profissional',
        yaxis_title='Opera√ß√£o',
        height=600,
        width=1000
    )

    fig.show()
    print('‚úì Heatmap criado')
else:
    print('‚ö†Ô∏è Campo "operacao" n√£o encontrado')

In [None]:
# 5.5 Visualiza√ß√£o EXTRA: Funil de A√ß√£o (Bradford Thresholds)
print('\nCriando funil de a√ß√£o...')

# Contar colaboradores por threshold
thresholds = [
    (0, 45, 'Aceit√°vel'),
    (45, 100, 'Conversa Informal'),
    (100, 200, 'Revis√£o Formal'),
    (200, 500, 'Aviso Escrito'),
    (500, 900, 'A√ß√£o Disciplinar'),
    (900, float('inf'), 'Preocupa√ß√£o S√©ria')
]

funnel_data = []
for min_val, max_val, label in thresholds:
    count = ((df_bradford['bradford_score'] >= min_val) &
             (df_bradford['bradford_score'] < max_val)).sum()
    funnel_data.append({'N√≠vel': label, 'Colaboradores': count})

df_funnel = pd.DataFrame(funnel_data)

# Criar funil (inverted para mostrar prioridade)
fig = go.Figure()

colors = ['green', 'yellow', 'orange', 'red', 'darkred', 'black']

fig.add_trace(go.Funnel(
    y=df_funnel['N√≠vel'],
    x=df_funnel['Colaboradores'],
    textposition='inside',
    textinfo='value+percent initial',
    marker=dict(color=colors),
    connector={"line": {"color": "gray", "dash": "dot", "width": 2}}
))

fig.update_layout(
    title='Funil de A√ß√£o: Colaboradores por N√≠vel de Risco (Bradford Factor)',
    height=500,
    width=800
)

fig.show()

print('\nüìä FUNIL DE A√á√ÉO')
for _, row in df_funnel.iterrows():
    print(f'   {row["N√≠vel"]:30s}: {row["Colaboradores"]:4,} colaboradores')

In [None]:
# 5.6 Visualiza√ß√£o EXTRA: Timeline de Spells (Frequ√™ncia vs Dura√ß√£o)
print('\nCriando timeline de spells...')

# Agrupar spells por m√™s
df_spells['mes_inicio'] = df_spells['data_inicio'].dt.to_period('M').astype(str)

spells_mensal = df_spells.groupby('mes_inicio').agg({
    'spell_id': 'count',
    'duracao_dias': 'mean'
}).reset_index()

spells_mensal.columns = ['Mes', 'Num_Spells', 'Duracao_Media']

# Dual-axis plot
fig = make_subplots(specs=[[{"secondary_y": True}]])

fig.add_trace(
    go.Bar(
        x=spells_mensal['Mes'],
        y=spells_mensal['Num_Spells'],
        name='N√∫mero de Spells',
        marker_color='lightblue'
    ),
    secondary_y=False
)

fig.add_trace(
    go.Scatter(
        x=spells_mensal['Mes'],
        y=spells_mensal['Duracao_Media'],
        name='Dura√ß√£o M√©dia (dias)',
        mode='lines+markers',
        line=dict(color='red', width=3),
        marker=dict(size=8)
    ),
    secondary_y=True
)

fig.update_xaxes(title_text='M√™s')
fig.update_yaxes(title_text='N√∫mero de Spells', secondary_y=False)
fig.update_yaxes(title_text='Dura√ß√£o M√©dia (dias)', secondary_y=True)

fig.update_layout(
    title='Evolu√ß√£o Temporal: Frequ√™ncia vs Dura√ß√£o de Spells',
    height=500,
    hovermode='x unified'
)

fig.show()
print('‚úì Timeline criada')

---

**CONTINUA NA PR√ìXIMA C√âLULA**:
- Dete√ß√£o de Padr√µes Suspeitos
- An√°lise de Cohorts
- Clustering
- Network Analysis
- Event Detection
- Visualiza√ß√µes Avan√ßadas

---

## 6. DETE√á√ÉO DE PADR√ïES SUSPEITOS üîç

**Red Flags** para poss√≠vel abuso ou comportamento an√≥malo:
- **Weekend Pattern**: Faltas consistentes √†s sextas/segundas
- **Bridge Pattern**: Aus√™ncias adjacentes a feriados  
- **Temporal Consistency**: Sempre no mesmo dia/semana/m√™s
- **Fragmenta√ß√£o**: Bradford score alto com poucos dias totais

In [None]:
# 6.1 Padr√£o Segunda/Sexta - Spells que come√ßam/terminam em fim de semana
print('Analisando padr√µes de segunda/sexta...')

# Propor√ß√£o de spells que come√ßam √† segunda
spells_inicio_segunda = df_spells[df_spells['dia_semana_inicio'] == 'Monday'].shape[0]
prop_inicio_segunda = spells_inicio_segunda / len(df_spells) * 100

# Propor√ß√£o de spells que terminam √† sexta
spells_fim_sexta = df_spells[df_spells['dia_semana_fim'] == 'Friday'].shape[0]
prop_fim_sexta = spells_fim_sexta / len(df_spells) * 100

# Spells que combinam ambos (ponte de fim de semana)
spells_ponte_fds = df_spells[
    (df_spells['dia_semana_inicio'] == 'Monday') & 
    (df_spells['dia_semana_fim'] == 'Friday')
].shape[0]

print(f'\nüìä PADR√ÉO SEGUNDA/SEXTA')
print(f'   Spells que come√ßam √† segunda: {spells_inicio_segunda:,} ({prop_inicio_segunda:.2f}%)')
print(f'   Spells que terminam √† sexta: {spells_fim_sexta:,} ({prop_fim_sexta:.2f}%)')
print(f'   Spells "ponte de semana" (2¬™ ‚Üí 6¬™): {spells_ponte_fds:,}')

# An√°lise por colaborador
df_padroes_colab = df_spells.groupby('login_colaborador').agg({
    'spell_id': 'count',
    'dia_semana_inicio': lambda x: (x == 'Monday').sum(),
    'dia_semana_fim': lambda x: (x == 'Friday').sum()
}).reset_index()

df_padroes_colab.columns = ['login_colaborador', 'total_spells', 'inicio_segunda', 'fim_sexta']

# Calcular propor√ß√µes
df_padroes_colab['prop_inicio_segunda'] = df_padroes_colab['inicio_segunda'] / df_padroes_colab['total_spells']
df_padroes_colab['prop_fim_sexta'] = df_padroes_colab['fim_sexta'] / df_padroes_colab['total_spells']

# Flag: > 50% dos spells come√ßam √† segunda OU terminam √† sexta
df_padroes_colab['flag_weekend_pattern'] = (
    (df_padroes_colab['prop_inicio_segunda'] > 0.5) | 
    (df_padroes_colab['prop_fim_sexta'] > 0.5)
) & (df_padroes_colab['total_spells'] >= 3)  # M√≠nimo 3 spells para ser significativo

# Adicionar nomes
df_padroes_colab = df_padroes_colab.merge(
    df[['login_colaborador', 'nome_colaborador']].drop_duplicates(),
    on='login_colaborador'
)

n_flagged = df_padroes_colab['flag_weekend_pattern'].sum()
print(f'\nüö© COLABORADORES COM PADR√ÉO SUSPEITO: {n_flagged}')
print(f'   (>50% spells come√ßam 2¬™ OU terminam 6¬™, com m√≠nimo 3 spells)')

if n_flagged > 0:
    print(f'\nTop 10:')
    top_weekend = df_padroes_colab[df_padroes_colab['flag_weekend_pattern']].nlargest(10, 'total_spells')[[
        'nome_colaborador', 'total_spells', 'inicio_segunda', 'fim_sexta', 
        'prop_inicio_segunda', 'prop_fim_sexta'
    ]].copy()
    top_weekend['prop_inicio_segunda'] = top_weekend['prop_inicio_segunda'].apply(lambda x: f'{x*100:.1f}%')
    top_weekend['prop_fim_sexta'] = top_weekend['prop_fim_sexta'].apply(lambda x: f'{x*100:.1f}%')
    print(top_weekend.to_string(index=False))

In [None]:
# 6.2 Padr√µes de Ponte - Aus√™ncias adjacentes a feriados
print('\nAnalisando padr√µes de ponte (adjacentes a feriados)...')

# NOTA: Precisamos de uma lista de feriados
# Para demonstra√ß√£o, vamos criar feriados t√≠picos portugueses
import pandas as pd
from datetime import datetime

# Feriados fixos comuns (exemplo para um ano)
ano_min = df['Data'].min().year
ano_max = df['Data'].max().year

feriados = []
for ano in range(ano_min, ano_max + 1):
    feriados.extend([
        datetime(ano, 1, 1),   # Ano Novo
        datetime(ano, 4, 25),  # 25 de Abril
        datetime(ano, 5, 1),   # Dia do Trabalhador
        datetime(ano, 6, 10),  # Dia de Portugal
        datetime(ano, 8, 15),  # Assun√ß√£o
        datetime(ano, 10, 5),  # Implanta√ß√£o da Rep√∫blica
        datetime(ano, 11, 1),  # Todos os Santos
        datetime(ano, 12, 1),  # Restaura√ß√£o da Independ√™ncia
        datetime(ano, 12, 8),  # Imaculada Concei√ß√£o
        datetime(ano, 12, 25), # Natal
    ])

feriados = pd.to_datetime(feriados)

print(f'   Feriados considerados: {len(feriados)}')

# Identificar spells que come√ßam/terminam adjacentes a feriados
def is_adjacent_to_holiday(date, holidays, tolerance=1):
    """Verifica se data est√° a ¬±tolerance dias de um feriado"""
    for holiday in holidays:
        diff = abs((date - holiday).days)
        if diff <= tolerance:
            return True
    return False

df_spells['inicio_adjacente_feriado'] = df_spells['data_inicio'].apply(
    lambda x: is_adjacent_to_holiday(x, feriados)
)

df_spells['fim_adjacente_feriado'] = df_spells['data_fim'].apply(
    lambda x: is_adjacent_to_holiday(x, feriados)
)

n_inicio_adj = df_spells['inicio_adjacente_feriado'].sum()
n_fim_adj = df_spells['fim_adjacente_feriado'].sum()

print(f'\nüìä PADR√ïES DE PONTE')
print(f'   Spells que come√ßam adjacentes a feriado: {n_inicio_adj:,} ({n_inicio_adj/len(df_spells)*100:.2f}%)')
print(f'   Spells que terminam adjacentes a feriado: {n_fim_adj:,} ({n_fim_adj/len(df_spells)*100:.2f}%)')

# Por colaborador
df_ponte_colab = df_spells.groupby('login_colaborador').agg({
    'spell_id': 'count',
    'inicio_adjacente_feriado': 'sum',
    'fim_adjacente_feriado': 'sum'
}).reset_index()

df_ponte_colab.columns = ['login_colaborador', 'total_spells', 'inicio_adj_feriado', 'fim_adj_feriado']
df_ponte_colab['prop_ponte'] = (
    (df_ponte_colab['inicio_adj_feriado'] + df_ponte_colab['fim_adj_feriado']) / 
    (df_ponte_colab['total_spells'] * 2)
)

# Flag: > 40% adjacentes a feriados
df_ponte_colab['flag_bridge_pattern'] = (
    (df_ponte_colab['prop_ponte'] > 0.4) & 
    (df_ponte_colab['total_spells'] >= 3)
)

df_ponte_colab = df_ponte_colab.merge(
    df[['login_colaborador', 'nome_colaborador']].drop_duplicates(),
    on='login_colaborador'
)

n_flagged_ponte = df_ponte_colab['flag_bridge_pattern'].sum()
print(f'\nüö© COLABORADORES COM PADR√ÉO DE PONTE SUSPEITO: {n_flagged_ponte}')

if n_flagged_ponte > 0:
    print(f'\nTop 10:')
    top_ponte = df_ponte_colab[df_ponte_colab['flag_bridge_pattern']].nlargest(10, 'total_spells')[[
        'nome_colaborador', 'total_spells', 'inicio_adj_feriado', 'fim_adj_feriado'
    ]]
    print(top_ponte.to_string(index=False))

In [None]:
# 6.3 Outlier Detection - Colaboradores estatisticamente fora do padr√£o
print('\nDete√ß√£o de outliers estat√≠sticos...')

from scipy import stats

# Z-score para v√°rias m√©tricas
df_outliers = df_bradford.copy()

# Calcular Z-scores
df_outliers['z_num_spells'] = stats.zscore(df_outliers['num_spells'])
df_outliers['z_total_dias'] = stats.zscore(df_outliers['total_dias_ausentes'])
df_outliers['z_bradford'] = stats.zscore(df_outliers['bradford_score'])

# Outlier se Z-score > 3 em qualquer m√©trica
df_outliers['is_outlier'] = (
    (abs(df_outliers['z_num_spells']) > 3) |
    (abs(df_outliers['z_total_dias']) > 3) |
    (abs(df_outliers['z_bradford']) > 3)
)

n_outliers = df_outliers['is_outlier'].sum()
print(f'\nüéØ OUTLIERS DETETADOS: {n_outliers}')
print(f'   ({n_outliers / len(df_outliers) * 100:.2f}% dos colaboradores)')

if n_outliers > 0:
    print(f'\nOutliers (Z-score > 3 em alguma m√©trica):')
    outliers = df_outliers[df_outliers['is_outlier']][
        ['nome_colaborador', 'num_spells', 'total_dias_ausentes', 'bradford_score',
         'z_num_spells', 'z_total_dias', 'z_bradford']
    ].nlargest(15, 'z_bradford')
    
    for col in ['z_num_spells', 'z_total_dias', 'z_bradford']:
        outliers[col] = outliers[col].apply(lambda x: f'{x:.2f}')
    
    print(outliers.to_string(index=False))

---

## 7. AN√ÅLISE DE COHORTS (por Data de Ingresso)

**Objetivo**: Investigar se colaboradores mais novos t√™m taxas de absentismo diferentes.

**Hip√≥teses a testar**:
- Novos colaboradores podem ter mais aus√™ncias (adapta√ß√£o, problemas iniciais)
- Ou menos aus√™ncias (honeymoon period, medo de consequ√™ncias)

In [None]:
# 7.1 An√°lise por Cohort (baseado em DtActivacao REAL)
print('=== AN√ÅLISE POR COHORT (SENIORIDADE) ===\n')

if 'DtActivacao' not in df.columns:
    print('‚ùå Campo "DtActivacao" n√£o encontrado!')
    print('   An√°lise de cohorts requer data de ativa√ß√£o real.')
    print('   Pulando esta se√ß√£o.')
else:
    print('‚úì Campo DtActivacao encontrado')

    # Preparar dados
    df_cohort = df[['login_colaborador', 'nome_colaborador', 'DtActivacao', 'Data', 'Nivel 1']].copy()
    df_cohort['DtActivacao'] = pd.to_datetime(df_cohort['DtActivacao'], errors='coerce')
    df_cohort = df_cohort.dropna(subset=['DtActivacao'])

    print(f'Colaboradores com DtActivacao v√°lida: {df_cohort["login_colaborador"].nunique():,}')

    # Calcular senioridade
    data_ref = df_cohort['Data'].max()
    df_cohort['senioridade_anos'] = (data_ref - df_cohort['DtActivacao']).dt.days / 365.25

    # Criar cohorts
    df_cohort['cohort'] = pd.cut(
        df_cohort['senioridade_anos'],
        bins=[0, 1, 2, 3, 5, 100],
        labels=['<1 ano', '1-2 anos', '2-3 anos', '3-5 anos', '>5 anos']
    )

    # Expandir e filtrar aus√™ncias
    df_cohort_exp = df_cohort.copy()
    if isinstance(df_cohort_exp['Nivel 1'].iloc[0], list):
        df_cohort_exp = df_cohort_exp.explode('Nivel 1')

    df_cohort_abs = df_cohort_exp[
        df_cohort_exp['Nivel 1'].isin(['Falta Justificada', 'Falta Injustificada', 'Aus√™ncia'])
    ]

    # Estat√≠sticas
    cohort_stats = df_cohort_abs.groupby('cohort').agg({
        'login_colaborador': 'nunique',
        'Data': 'count'
    }).rename(columns={'login_colaborador': 'num_colaboradores', 'Data': 'total_ausencias'})

    cohort_stats['media_ausencias'] = cohort_stats['total_ausencias'] / cohort_stats['num_colaboradores']

    print('\nüìä Absentismo por Cohort:')
    print(cohort_stats)

    # Visualiza√ß√£o
    fig = go.Figure()
    fig.add_trace(go.Bar(
        x=cohort_stats.index,
        y=cohort_stats['media_ausencias'],
        marker_color='skyblue'
    ))
    fig.update_layout(
        title='M√©dia de Aus√™ncias por Cohort de Senioridade',
        xaxis_title='Cohort',
        yaxis_title='M√©dia de Aus√™ncias',
        height=400
    )
    fig.show()


---

## 8. CLUSTERING DE PERFIS DE ABSENTISMO

**Objetivo**: Segmentar colaboradores em grupos homog√©neos por comportamento de absentismo.

**Features para clustering**:
- N√∫mero de spells (frequ√™ncia)
- Total de dias ausentes
- Dura√ß√£o m√©dia de spell
- Bradford score
- Propor√ß√£o de short-term spells

**Algoritmo**: K-Means (3-5 clusters t√≠picos)

In [None]:
# 8.1 Preparar dados para clustering
print('Preparando features para clustering...')

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

# Selecionar features
features_clustering = [
    'num_spells',
    'total_dias_ausentes', 
    'mean_spell_duration',
    'bradford_score',
    'num_short_term_spells'
]

df_cluster = df_bradford[['login_colaborador', 'nome_colaborador'] + features_clustering].copy()

# Normalizar features (importante para K-Means)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_cluster[features_clustering])

print(f'\n‚úì Features preparadas: {X_scaled.shape}')

# Determinar n√∫mero ideal de clusters (Elbow Method)
print('\nCalculando Elbow Method (K=2 a K=8)...')
inertias = []
K_range = range(2, 9)

for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X_scaled)
    inertias.append(kmeans.inertia_)

# Visualizar Elbow
fig = go.Figure()
fig.add_trace(go.Scatter(
    x=list(K_range),
    y=inertias,
    mode='lines+markers',
    marker=dict(size=10)
))
fig.update_layout(
    title='Elbow Method - Determinar K Ideal',
    xaxis_title='N√∫mero de Clusters (K)',
    yaxis_title='Inertia (Within-Cluster Sum of Squares)',
    height=400
)
fig.show()

# Aplicar K-Means com K=4 (t√≠pico para absentismo: baixo/moderado/alto/muito alto)
K_optimal = 4
print(f'\nAplicando K-Means com K={K_optimal}...')

kmeans = KMeans(n_clusters=K_optimal, random_state=42, n_init=10)
df_cluster['cluster'] = kmeans.fit_predict(X_scaled)

print(f'\n‚úì Clusters atribu√≠dos')
print(f'\nDistribui√ß√£o por cluster:')
print(df_cluster['cluster'].value_counts().sort_index())

In [None]:
# 8.2 Valida√ß√£o com Silhouette Score
print('\nValidando n√∫mero de clusters com Silhouette Score...\n')

from sklearn.metrics import silhouette_score

silhouette_scores = []
K_range = range(2, 11)

for k in K_range:
    kmeans_test = KMeans(n_clusters=k, random_state=42, n_init=10)
    labels_test = kmeans_test.fit_predict(X_scaled)
    score = silhouette_score(X_scaled, labels_test)
    silhouette_scores.append(score)
    print(f'K={k}: Silhouette Score = {score:.3f}')

# Visualizar
fig = go.Figure()
fig.add_trace(go.Scatter(
    x=list(K_range),
    y=silhouette_scores,
    mode='lines+markers',
    marker=dict(size=10, color='blue'),
    line=dict(width=2)
))
fig.update_layout(
    title='Silhouette Score por N√∫mero de Clusters',
    xaxis_title='K (N√∫mero de Clusters)',
    yaxis_title='Silhouette Score',
    height=400
)
fig.show()

best_k = list(K_range)[silhouette_scores.index(max(silhouette_scores))]
print(f'\nüí° Melhor K por Silhouette: {best_k} (score={max(silhouette_scores):.3f})')

# Usar o melhor K
K_optimal = best_k
print(f'   Usando K={K_optimal} para clustering final')


In [None]:
# 8.2 Interpretar clusters - Calcular m√©dias por cluster
print('\n=== CARACTERIZA√á√ÉO DOS CLUSTERS ===')

cluster_profiles = df_cluster.groupby('cluster')[features_clustering].mean()

# Ordenar por bradford_score (do menor ao maior)
cluster_profiles = cluster_profiles.sort_values('bradford_score')

# Renomear clusters de forma interpret√°vel
cluster_mapping = {}
for idx, (cluster_id, row) in enumerate(cluster_profiles.iterrows()):
    if idx == 0:
        cluster_mapping[cluster_id] = '1. BAIXO Absentismo'
    elif idx == 1:
        cluster_mapping[cluster_id] = '2. MODERADO Absentismo'
    elif idx == 2:
        cluster_mapping[cluster_id] = '3. ALTO Absentismo'
    else:
        cluster_mapping[cluster_id] = '4. MUITO ALTO Absentismo'

df_cluster['cluster_nome'] = df_cluster['cluster'].map(cluster_mapping)

# Exibir perfis
print('\nPERFIL M√âDIO POR CLUSTER:\n')
for cluster_id, row in cluster_profiles.iterrows():
    cluster_nome = cluster_mapping[cluster_id]
    n_colab = (df_cluster['cluster'] == cluster_id).sum()
    
    print(f'{cluster_nome} (n={n_colab})')
    print(f'   N¬∫ Spells: {row["num_spells"]:.2f}')
    print(f'   Total Dias Ausentes: {row["total_dias_ausentes"]:.2f}')
    print(f'   Dura√ß√£o M√©dia Spell: {row["mean_spell_duration"]:.2f} dias')
    print(f'   Bradford Score: {row["bradford_score"]:.2f}')
    print(f'   Short-term Spells: {row["num_short_term_spells"]:.2f}')
    print()

# Exportar colaboradores com clusters
df_cluster_export = df_cluster[[
    'nome_colaborador', 'cluster_nome', 'num_spells', 'total_dias_ausentes',
    'mean_spell_duration', 'bradford_score'
]].sort_values(['cluster_nome', 'bradford_score'], ascending=[True, False])

df_cluster_export.to_excel('colaboradores_clusters_absentismo.xlsx', index=False)
print('‚úì Clusters exportados para: colaboradores_clusters_absentismo.xlsx')

In [None]:
# 8.3 Visualizar clusters em 2D (PCA)
print('\nVisualizando clusters em 2D (PCA)...')

from sklearn.decomposition import PCA

# Reduzir para 2 dimens√µes
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

df_cluster['PC1'] = X_pca[:, 0]
df_cluster['PC2'] = X_pca[:, 1]

print(f'Vari√¢ncia explicada: PC1={pca.explained_variance_ratio_[0]*100:.2f}%, PC2={pca.explained_variance_ratio_[1]*100:.2f}%')

# Scatter plot
fig = go.Figure()

for cluster_nome in sorted(df_cluster['cluster_nome'].unique()):
    df_temp = df_cluster[df_cluster['cluster_nome'] == cluster_nome]
    
    fig.add_trace(go.Scatter(
        x=df_temp['PC1'],
        y=df_temp['PC2'],
        mode='markers',
        name=cluster_nome,
        text=df_temp['nome_colaborador'],
        marker=dict(size=8, opacity=0.7),
        hovertemplate='<b>%{text}</b><br>PC1: %{x:.2f}<br>PC2: %{y:.2f}<extra></extra>'
    ))

fig.update_layout(
    title='Clusters de Absentismo (PCA 2D)',
    xaxis_title=f'PC1 ({pca.explained_variance_ratio_[0]*100:.1f}% var)',
    yaxis_title=f'PC2 ({pca.explained_variance_ratio_[1]*100:.1f}% var)',
    height=600
)

fig.show()

---

## 9. NETWORK ANALYSIS (Coincid√™ncias de Aus√™ncias)

**Objetivo**: Detetar padr√µes de aus√™ncias **simult√¢neas** que possam indicar:
- Eventos locais (gripe, problema na opera√ß√£o)
- Problemas de equipa
- Coincid√™ncias suspeitas

**M√©todo**: Identificar dias com m√∫ltiplos colaboradores ausentes na mesma opera√ß√£o.

In [None]:
# 9.1 Preparar dados: APENAS colaboradores ativos
print('=== NETWORK ANALYSIS: CO-AUS√äNCIAS ===\n')

# Filtrar apenas aus√™ncias de colaboradores ativos
if 'Activo?' in df.columns:
    df_network = df[
        (df['Nivel 1'].isin(['Falta Justificada', 'Falta Injustificada', 'Aus√™ncia'])) &
        (df['Activo?'].isin(['Sim', True, 'sim', 'S']))
    ].copy()
    print(f'‚úì Filtrado para colaboradores ativos')
else:
    df_network = df[
        df['Nivel 1'].isin(['Falta Justificada', 'Falta Injustificada', 'Aus√™ncia'])
    ].copy()
    print(f'‚ö†Ô∏è  Campo Activo? n√£o encontrado - usando todos')

print(f'Registos: {len(df_network):,}')
print(f'Colaboradores: {df_network["login_colaborador"].nunique():,}')
print(f'Per√≠odo: {df_network["Data"].min().date()} at√© {df_network["Data"].max().date()}')

In [None]:
# 9.2 Calcular co-aus√™ncias e m√©tricas de overlap
print('\nCalculando co-aus√™ncias por pares...\n')

# Criar dicion√°rio: colaborador -> set de dias
print('   Criando dicion√°rio de dias por colaborador...')
colab_dias = {}
for colab in df_network['login_colaborador'].unique():
    dias_set = set(df_network[df_network['login_colaborador'] == colab]['Data'])
    colab_dias[colab] = dias_set

colaboradores = list(colab_dias.keys())
print(f'   Colaboradores: {len(colaboradores):,}')

# Calcular overlaps entre todos os pares
print('   Calculando overlaps entre pares...')
pares = []

for i, colab_i in enumerate(colaboradores):
    if i % 200 == 0:
        print(f'      Processado {i}/{len(colaboradores)}...')

    dias_i = colab_dias[colab_i]

    for colab_j in colaboradores[i+1:]:
        dias_j = colab_dias[colab_j]

        # Co-aus√™ncias = interse√ß√£o
        cooccur = len(dias_i & dias_j)

        if cooccur >= 3:  # M√≠nimo 3 dias juntos
            # Overlap em rela√ß√£o ao menor
            # Jaccard Index = interse√ß√£o / uni√£o
        union_size = len(dias_i | dias_j)
        jaccard = cooccur / union_size if union_size > 0 else 0

            pares.append({
                'colab_i': colab_i,
                'colab_j': colab_j,
                'cooccur': cooccur,
                'dias_i': len(dias_i),
                'dias_j': len(dias_j),
                'jaccard': jaccard
            })

df_pares = pd.DataFrame(pares)

print(f'\n‚úì Encontrados {len(df_pares):,} pares com ‚â•3 co-aus√™ncias')

# Adicionar nomes
df_pares = df_pares.merge(
    df[['login_colaborador', 'nome_colaborador']].drop_duplicates(),
    left_on='colab_i', right_on='login_colaborador'
).rename(columns={'nome_colaborador': 'nome_i'}).drop('login_colaborador', axis=1)

df_pares = df_pares.merge(
    df[['login_colaborador', 'nome_colaborador']].drop_duplicates(),
    left_on='colab_j', right_on='login_colaborador'
).rename(columns={'nome_colaborador': 'nome_j'}).drop('login_colaborador', axis=1)

# Ordenar por Jaccard Index
df_pares = df_pares.sort_values('overlap_pct', ascending=False).reset_index(drop=True)

In [None]:
# 9.3 An√°lise de distribui√ß√£o para escolher threshold
print('\nAN√ÅLISE DE DISTRIBUI√á√ÉO:\n')

print(f'üìä Estat√≠sticas de Overlap:')
print(f'   M√©dia: {df_pares["overlap_pct"].mean()*100:.1f}%')
print(f'   Mediana: {df_pares["overlap_pct"].median()*100:.1f}%')
print(f'   P75: {df_pares["overlap_pct"].quantile(0.75)*100:.1f}%')
print(f'   P90: {df_pares["overlap_pct"].quantile(0.90)*100:.1f}%')
print(f'   P95: {df_pares["overlap_pct"].quantile(0.95)*100:.1f}%')
print(f'   M√°ximo: {df_pares["overlap_pct"].max()*100:.1f}%')

# Histograma
fig = go.Figure()

fig.add_trace(go.Histogram(
    x=df_pares['overlap_pct'] * 100,
    nbinsx=50,
    marker_color='lightblue',
    marker_line_color='white',
    marker_line_width=1
))

fig.update_layout(
    title='Distribui√ß√£o de Overlap % entre Pares',
    xaxis_title='Overlap %',
    yaxis_title='N√∫mero de Pares',
    height=400
)

fig.show()

# Escolher threshold (P90)
threshold = df_pares['overlap_pct'].quantile(0.90)
print(f'\nüí° Threshold escolhido (P90): {threshold*100:.1f}%')

df_pares_sig = df_pares[df_pares['overlap_pct'] >= threshold].copy()
print(f'   Pares significativos: {len(df_pares_sig):,}')

In [None]:
# 9.4 Top pares com maior overlap
print('\nüîù TOP 20 PARES POR OVERLAP:\n')

for idx, row in df_pares_sig.head(20).iterrows():
    print(f"{idx+1:2d}. {row['nome_i'][:30]:30s} + {row['nome_j'][:30]:30s}")
    print(f"    Co-aus√™ncias: {row['cooccur']:3d} | Total i: {row['dias_i']:3d} | Total j: {row['dias_j']:3d} | Overlap: {row['overlap_pct']*100:5.1f}%")

# Exportar
df_pares_sig.to_excel('network_pares_significativos.xlsx', index=False)
print('\n‚úì Exportado: network_pares_significativos.xlsx')

In [None]:
# 9.5 Visualiza√ß√£o da Rede (espessura vari√°vel)
print('\nCriando visualiza√ß√£o da rede...\n')

import networkx as nx

# Limitar a top N pares
TOP_N = min(50, len(df_pares_sig))
df_viz = df_pares_sig.head(TOP_N)

print(f'Visualizando top {TOP_N} pares')

# Criar grafo
G = nx.Graph()

for _, row in df_viz.iterrows():
    G.add_edge(
        row['colab_i'],
        row['colab_j'],
        weight=row['jaccard'],
        cooccur=row['cooccur']
    )

print(f'N√≥s: {G.number_of_nodes()}, Arestas: {G.number_of_edges()}')

# Layout
pos = nx.spring_layout(G, k=1, iterations=50, seed=42)

# ARESTAS COM ESPESSURA VARI√ÅVEL
edge_traces = []

for edge in G.edges(data=True):
    x0, y0 = pos[edge[0]]
    x1, y1 = pos[edge[1]]

    # Espessura proporcional ao Jaccard
    weight = edge[2]['weight']
    line_width = 0.5 + weight * 8  # 0.5 a 8.5

    edge_trace = go.Scatter(
        x=[x0, x1, None],
        y=[y0, y1, None],
        line=dict(width=line_width, color='rgba(100,100,100,0.5)'),
        hoverinfo='none',
        mode='lines'
    )
    edge_traces.append(edge_trace)

# N√≥s
node_x = []
node_y = []
for node in G.nodes():
    x, y = pos[node]
    node_x.append(x)
    node_y.append(y)

node_trace = go.Scatter(
    x=node_x, y=node_y,
    mode='markers',
    hoverinfo='text',
    marker=dict(
        showscale=True,
        colorscale='YlOrRd',
        size=15,
        colorbar=dict(
            thickness=15,
            title='Conex√µes',
            xanchor='left',
            titleside='right'
        ),
        line_width=2
    )
)

# Colorir por n√∫mero de conex√µes
node_adjacencies = []
node_text = []

for node in G.nodes():
    adjacencies = list(G.neighbors(node))
    node_adjacencies.append(len(adjacencies))

    nome = df[df['login_colaborador'] == node]['nome_colaborador']
    nome_str = nome.iloc[0] if len(nome) > 0 else node

    node_text.append(f'{nome_str}<br>Conex√µes: {len(adjacencies)}')

node_trace.marker.color = node_adjacencies
node_trace.text = node_text

# Figura
fig = go.Figure(
    data=edge_traces + [node_trace],
    layout=go.Layout(
        title=f'Rede de Co-Aus√™ncias - Jaccard Index (Top {TOP_N})',
        titlefont_size=16,
        showlegend=False,
        hovermode='closest',
        margin=dict(b=20, l=5, r=5, t=40),
        xaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
        yaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
        height=700,
        width=1000
    )
)

fig.show()

print('\n‚úì Rede visualizada com espessura vari√°vel')


---

## 9B. AN√ÅLISE DE SAZONALIDADE

Identificar padr√µes temporais e sazonais nas aus√™ncias.


In [None]:
# 9B.1 Heatmap: M√™s √ó Dia da Semana
print('=== AN√ÅLISE DE SAZONALIDADE ===\n')

# Preparar dados - apenas aus√™ncias
df_season = df.copy()

# Expandir Nivel 1 se for lista
if isinstance(df_season['Nivel 1'].iloc[0], list):
    df_season = df_season.explode('Nivel 1')

df_season = df_season[
    df_season['Nivel 1'].isin(['Falta Justificada', 'Falta Injustificada', 'Aus√™ncia'])
].copy()

# Extrair componentes temporais
df_season['mes'] = df_season['Data'].dt.month
df_season['dia_semana'] = df_season['Data'].dt.dayofweek  # 0=Segunda
df_season['mes_nome'] = df_season['Data'].dt.strftime('%b')
df_season['dia_nome'] = df_season['Data'].dt.strftime('%a')

# Criar pivot
heatmap_data = df_season.groupby(['mes', 'dia_semana']).size().reset_index(name='count')
heatmap_pivot = heatmap_data.pivot(index='dia_semana', columns='mes', values='count').fillna(0)

# Labels
dia_nomes = ['Seg', 'Ter', 'Qua', 'Qui', 'Sex', 'S√°b', 'Dom']
mes_nomes = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago', 'Set', 'Out', 'Nov', 'Dez']

# Heatmap
fig = go.Figure(data=go.Heatmap(
    z=heatmap_pivot.values,
    x=[mes_nomes[int(i)-1] for i in heatmap_pivot.columns],
    y=dia_nomes,
    colorscale='Reds',
    colorbar=dict(title='Aus√™ncias')
))

fig.update_layout(
    title='Heatmap de Aus√™ncias: M√™s √ó Dia da Semana',
    xaxis_title='M√™s',
    yaxis_title='Dia da Semana',
    height=500,
    width=1000
)

fig.show()

print('‚úì Heatmap criado')


In [None]:
# 9B.2 Decomposi√ß√£o Temporal (Trend + Seasonal)
print('\nDecompondo s√©rie temporal...\n')

from statsmodels.tsa.seasonal import seasonal_decompose

# S√©rie temporal di√°ria
ts_data = df_season.groupby('Data').size().reset_index(name='ausencias')
ts_data = ts_data.set_index('Data').sort_index()
ts_data = ts_data.asfreq('D', fill_value=0)

print(f'Per√≠odo: {ts_data.index.min().date()} at√© {ts_data.index.max().date()}')
print(f'Total dias: {len(ts_data)}')

try:
    # Decomposi√ß√£o (per√≠odo semanal = 7)
    decomposition = seasonal_decompose(ts_data['ausencias'], model='additive', period=7)

    # Visualizar
    fig = go.Figure()

    # Original
    fig.add_trace(go.Scatter(
        x=ts_data.index, y=ts_data['ausencias'],
        mode='lines', name='Original',
        line=dict(color='blue', width=1)
    ))

    # Trend
    fig.add_trace(go.Scatter(
        x=ts_data.index, y=decomposition.trend,
        mode='lines', name='Trend',
        line=dict(color='red', width=2)
    ))

    # Seasonal
    fig.add_trace(go.Scatter(
        x=ts_data.index, y=decomposition.seasonal,
        mode='lines', name='Seasonal',
        line=dict(color='green', width=1)
    ))

    fig.update_layout(
        title='Decomposi√ß√£o Temporal de Aus√™ncias',
        xaxis_title='Data',
        yaxis_title='Aus√™ncias',
        height=600,
        hovermode='x unified'
    )

    fig.show()

    print('\n‚úì Decomposi√ß√£o criada')
    print(f'\nüìä Insights:')
    print(f'   M√©dia: {ts_data["ausencias"].mean():.1f} aus√™ncias/dia')
    print(f'   Tend√™ncia final: {decomposition.trend.dropna().iloc[-30:].mean():.1f}')
    print(f'   Amplitude sazonal: {decomposition.seasonal.max() - decomposition.seasonal.min():.1f}')

except Exception as e:
    print(f'‚ö†Ô∏è  Erro na decomposi√ß√£o: {e}')


---

## 10. EVENT DETECTION & ANOMALY DETECTION

**Objetivo**: Monitorar evolu√ß√£o temporal e detetar **mudan√ßas de padr√£o** (changepoints).

**M√©todos**:
- **U-Chart**: Control chart para taxa por unidade de tempo
- **Rolling statistics**: M√©dia m√≥vel e desvio padr√£o
- **Anomaly detection**: Per√≠odos estatisticamente an√≥malos

In [None]:
# 10.1 U-Chart - Taxa de aus√™ncias por semana
print('Criando U-Chart (control chart)...')

# Agrupar por semana
df_ausencias['semana'] = df_ausencias['Data'].dt.to_period('W').astype(str)

ausencias_semana = df_ausencias.groupby('semana').size().reset_index(name='num_ausencias')
ausencias_semana['semana_dt'] = pd.to_datetime(ausencias_semana['semana'].str.split('/').str[0])

# Calcular colaboradores ativos por semana (para normalizar)
colab_semana = df.groupby(df['Data'].dt.to_period('W').astype(str))['login_colaborador'].nunique()
ausencias_semana['colaboradores_ativos'] = ausencias_semana['semana'].map(colab_semana)

# Taxa de aus√™ncias por colaborador
ausencias_semana['taxa_ausencia_colab'] = (
    ausencias_semana['num_ausencias'] / ausencias_semana['colaboradores_ativos']
)

# Limites de controle (U-chart)
# UCL/LCL = mean ¬± 3*sqrt(mean/n)
mean_taxa = ausencias_semana['taxa_ausencia_colab'].mean()
ausencias_semana['ucl'] = mean_taxa + 3 * np.sqrt(mean_taxa / ausencias_semana['colaboradores_ativos'])
ausencias_semana['lcl'] = mean_taxa - 3 * np.sqrt(mean_taxa / ausencias_semana['colaboradores_ativos'])
ausencias_semana['lcl'] = ausencias_semana['lcl'].clip(lower=0)

# Identificar semanas fora de controle
ausencias_semana['out_of_control'] = (
    (ausencias_semana['taxa_ausencia_colab'] > ausencias_semana['ucl']) |
    (ausencias_semana['taxa_ausencia_colab'] < ausencias_semana['lcl'])
)

n_out = ausencias_semana['out_of_control'].sum()
print(f'\nüìä U-CHART')
print(f'   Semanas analisadas: {len(ausencias_semana)}')
print(f'   Taxa m√©dia: {mean_taxa:.3f} aus√™ncias/colaborador/semana')
print(f'   Semanas FORA DE CONTROLE: {n_out} ({n_out/len(ausencias_semana)*100:.2f}%)')

# Visualizar U-Chart
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=ausencias_semana['semana_dt'],
    y=ausencias_semana['taxa_ausencia_colab'],
    mode='lines+markers',
    name='Taxa Observada',
    line=dict(color='blue'),
    marker=dict(
        size=6,
        color=ausencias_semana['out_of_control'].map({True: 'red', False: 'blue'})
    )
))

fig.add_trace(go.Scatter(
    x=ausencias_semana['semana_dt'],
    y=[mean_taxa] * len(ausencias_semana),
    mode='lines',
    name='M√©dia',
    line=dict(color='green', dash='dash')
))

fig.add_trace(go.Scatter(
    x=ausencias_semana['semana_dt'],
    y=ausencias_semana['ucl'],
    mode='lines',
    name='UCL (Upper Control Limit)',
    line=dict(color='red', dash='dot')
))

fig.add_trace(go.Scatter(
    x=ausencias_semana['semana_dt'],
    y=ausencias_semana['lcl'],
    mode='lines',
    name='LCL (Lower Control Limit)',
    line=dict(color='red', dash='dot'),
    fill='tonexty',
    fillcolor='rgba(255,0,0,0.1)'
))

fig.update_layout(
    title='U-Chart: Taxa de Aus√™ncias por Semana (Control Chart)',
    xaxis_title='Semana',
    yaxis_title='Aus√™ncias / Colaborador',
    height=500,
    hovermode='x unified'
)

fig.show()

if n_out > 0:
    print(f'\nSemanas fora de controle:')
    print(ausencias_semana[ausencias_semana['out_of_control']][
        ['semana', 'num_ausencias', 'colaboradores_ativos', 'taxa_ausencia_colab', 'ucl']
    ].to_string(index=False))

---

## 11. VISUALIZA√á√ïES AVAN√áADAS

### 11.1 Calendar Heatmap - Visualizar dias cr√≠ticos

In [None]:
# 11.1 Calendar Heatmap por Opera√ß√£o
print('Criando calendar heatmap...')

if 'operacao' in df_ausencias.columns:
    # Selecionar top 3 opera√ß√µes por n√∫mero de aus√™ncias
    top_operacoes = df_ausencias['operacao'].value_counts().head(3).index.tolist()
    
    for operacao in top_operacoes:
        print(f'\nCriando heatmap para: {operacao}')
        
        df_op = df_ausencias[df_ausencias['operacao'] == operacao].copy()
        
        # Contar aus√™ncias por dia
        ausencias_dia = df_op.groupby('Data').size().reset_index(name='num_ausencias')
        
        # Adicionar features para heatmap
        ausencias_dia['ano'] = ausencias_dia['Data'].dt.year
        ausencias_dia['semana'] = ausencias_dia['Data'].dt.isocalendar().week
        ausencias_dia['dia_semana'] = ausencias_dia['Data'].dt.dayofweek
        
        # Pivot para heatmap: semanas x dias da semana
        pivot = ausencias_dia.pivot_table(
            index='semana',
            columns='dia_semana',
            values='num_ausencias',
            aggfunc='sum'
        ).fillna(0)
        
        # Criar heatmap
        fig = go.Figure(data=go.Heatmap(
            z=pivot.values,
            x=['Segunda', 'Ter√ßa', 'Quarta', 'Quinta', 'Sexta', 'S√°bado', 'Domingo'],
            y=pivot.index,
            colorscale='Reds',
            hoverongaps=False,
            hovertemplate='Semana %{y}<br>%{x}<br>Aus√™ncias: %{z}<extra></extra>'
        ))
        
        fig.update_layout(
            title=f'Calendar Heatmap: Aus√™ncias - {operacao}',
            xaxis_title='Dia da Semana',
            yaxis_title='Semana do Ano',
            height=600
        )
        
        fig.show()
else:
    print('\n‚ö†Ô∏è  Campo "operacao" n√£o encontrado')

---

## 12. S√çNTESE EXECUTIVA E A√á√ïES RECOMENDADAS

**Esta sec√ß√£o consolida os principais insights e recomenda√ß√µes para a√ß√£o.**

In [None]:
# 12.1 Dashboard Executivo
print('='*100)
print('S√çNTESE EXECUTIVA - AN√ÅLISE DE ABSENTISMO')
print('='*100)

print(f'\nüéØ KPIs PRINCIPAIS')
print(f'   Taxa de Absentismo Global: {taxa_absentismo_global:.2f}%')
print(f'   Lost Time Rate: {lost_time_rate:.2f} dias/colaborador')
print(f'   Frequency Rate: {frequency_rate:.2f} spells/colaborador')
print(f'   Mean Spell Duration: {mean_spell_duration:.2f} dias')

print(f'\nüö® ALERTAS CR√çTICOS')
print(f'   Colaboradores Bradford >500 (a√ß√£o disciplinar): {(df_bradford["bradford_score"] > 500).sum()}')
print(f'   Colaboradores Bradford >900 (preocupa√ß√£o s√©ria): {(df_bradford["bradford_score"] > 900).sum()}')

if 'df_padroes_colab' in locals():
    print(f'   Padr√£o Segunda/Sexta suspeito: {df_padroes_colab["flag_weekend_pattern"].sum()} colaboradores')

if 'df_ponte_colab' in locals():
    print(f'   Padr√£o de Ponte suspeito: {df_ponte_colab["flag_bridge_pattern"].sum()} colaboradores')

print(f'   Outliers estat√≠sticos: {n_outliers} colaboradores')

if 'df_surtos' in locals():
    print(f'   Dias com surto de aus√™ncias: {len(df_surtos)} dias')

if 'ausencias_semana' in locals():
    print(f'   Semanas fora de controle (U-Chart): {n_out} semanas')

print(f'\nüìä PERFIS DE ABSENTISMO (Clusters)')
if 'df_cluster' in locals():
    for cluster in sorted(df_cluster['cluster_nome'].unique()):
        n = (df_cluster['cluster_nome'] == cluster).sum()
        pct = n / len(df_cluster) * 100
        print(f'   {cluster}: {n} colaboradores ({pct:.1f}%)')

print(f'\nüí° A√á√ïES RECOMENDADAS')
print(f'\n1. IMEDIATAS (pr√≥ximas 2 semanas):')
print(f'   - Conversa com Top 20 Bradford Factor (>= posi√ß√£o de aviso escrito)')
print(f'   - Investigar {len(df_surtos) if "df_surtos" in locals() else 0} dias de surto identificados')
print(f'   - Rever casos de padr√£o segunda/sexta e ponte')

print(f'\n2. CURTO PRAZO (pr√≥ximo m√™s):')
print(f'   - Implementar monitoriza√ß√£o cont√≠nua (U-Chart semanal)')
print(f'   - Definir pol√≠tica de follow-up por cluster')
print(f'   - An√°lise detalhada das {n_out if "ausencias_semana" in locals() else 0} semanas fora de controle')

print(f'\n3. M√âDIO PRAZO (pr√≥ximos 3 meses):')
print(f'   - Programa de engagement para clusters alto/muito alto')
print(f'   - Investigar causas raiz por opera√ß√£o')
print(f'   - Implementar sistema de early warning (Bradford + padr√µes)')

print(f'\n' + '='*100)

---

## üìù NOTAS FINAIS

**Ficheiros Gerados**:
- `incompatibilidades_encontradas_v2.xlsx` - Casos de dados inconsistentes removidos
- `matriz_compatibilidade_nivel2_v2.xlsx` - Regras de compatibilidade aplicadas
- `bradford_factor_top20.xlsx` - Colaboradores priorit√°rios para RH
- `colaboradores_clusters_absentismo.xlsx` - Segmenta√ß√£o completa
- `dias_surto_ausencias.xlsx` - Dias com aus√™ncias an√≥malas

**Pr√≥ximos Passos**:
1. Validar resultados com RH
2. Criar dashboard interativo (Power BI / Tableau)
3. Implementar monitoriza√ß√£o cont√≠nua
4. Desenvolver ferramenta Excel para consulta (Parte 2)

**Refer√™ncias**:
- Bradford Factor: Wikipedia, Call Centre Helper
- Spell Analysis: Fitzgerald Human Resources
- HR Analytics: AIHR (Academy to Innovate HR)