# An√°lise de Absentismo - Apresenta√ß√£o √† Dire√ß√£o

## Abordagem: Storytelling com Dados

Este notebook responde a perguntas espec√≠ficas sobre absentismo, construindo um argumento
baseado em evid√™ncias para apresenta√ß√£o √† dire√ß√£o.

### Estrutura:
1. **Panorama Geral** - Qual o contexto?
2. **Padr√µes Temporais** - H√° sazonalidade?
3. **Teste de Aleatoriedade** - Faltas s√£o aleat√≥rias ou estrat√©gicas?
4. **An√°lise de Atrasos** - Mesmos padr√µes?
5. **Segmenta√ß√£o** - Varia por categoria/opera√ß√£o?
6. **Red Flags** - H√° abusos √≥bvios?
7. **Conclus√µes** - O que fazemos?

---

## Setup e Configura√ß√£o

In [None]:
# Imports
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from scipy.stats import chisquare, chi2_contingency
from datetime import datetime
import warnings

# Configura√ß√µes
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Cores para consist√™ncia visual
COLORS = {
    'primary': '#2E86AB',
    'success': '#06A77D',
    'warning': '#F18F01',
    'danger': '#C73E1D',
    'info': '#6A994E'
}

print('‚úÖ Setup conclu√≠do!')

## Carregamento e Prepara√ß√£o dos Dados

In [None]:
# Carregar c√≥digos
codigos = pd.read_excel('c√≥digos.xlsx')
codigos.columns = ['codigo', 'nivel_2', 'descricao', 'nivel_3']
codigos['codigo'] = codigos['codigo'].str.strip()
codigos['nivel_2'] = codigos['nivel_2'].str.strip()
codigos['nivel_3'] = codigos['nivel_3'].str.strip()

print(f'‚úÖ C√≥digos carregados: {len(codigos)} c√≥digos')

In [None]:
# Carregar dataset
print('Carregando dataset...')

dtype_dict = {
    'login_colaborador': 'int32',
    'nome_colaborador': 'str',
    'categoria_profissional': 'category',
    'segmento': 'category',
    'operacao': 'category',
    'departamento': 'category',
    'segmento_processado_codigo': 'category',
    'codigo_nivel_2': 'category',
    'Contagem_ID': 'int8',
    'Activo?': 'category'
}

df_raw = pd.read_csv('combined_data.csv', sep=',', dtype=dtype_dict, parse_dates=['Data'])

# Merge com c√≥digos
df_raw = df_raw.merge(codigos[['codigo', 'nivel_2', 'nivel_3']], 
                       left_on='segmento_processado_codigo', right_on='codigo', how='left')
df_raw.drop('codigo', axis=1, inplace=True)
df_raw.rename(columns={'nivel_2': 'tipo_ausencia', 'nivel_3': 'categoria_absentismo'}, inplace=True)

# Vari√°veis derivadas
df_raw['ano'] = df_raw['Data'].dt.year
df_raw['mes'] = df_raw['Data'].dt.month
df_raw['dia'] = df_raw['Data'].dt.day
df_raw['dia_semana'] = df_raw['Data'].dt.dayofweek
df_raw['nome_dia_semana'] = df_raw['Data'].dt.day_name()
df_raw['ano_mes'] = df_raw['Data'].dt.to_period('M')
df_raw['semana_mes'] = ((df_raw['dia'] - 1) // 7) + 1
df_raw['is_ativo'] = (df_raw['Activo?'] == 'Sim').astype(int)

print(f'‚úÖ Dataset carregado: {len(df_raw):,} registros')

In [None]:
# CR√çTICO: Agregar dados (1 registro por colaborador por dia)
# Hierarquia de prioridade para manter apenas o mais grave
prioridade = {
    'Falta Injustificada': 1,
    'Falta Justificada': 2,
    'Atraso': 3,
    'Trabalho Pago': 4,
    'Aus√™ncia N√£o considerada no Absentismo': 5
}

df_raw['prioridade'] = df_raw['categoria_absentismo'].map(prioridade)
df = df_raw.sort_values('prioridade').groupby(['login_colaborador', 'Data'], as_index=False).first()
df.drop('prioridade', axis=1, inplace=True)

print(f'‚úÖ Dataset agregado: {len(df):,} dias-colaborador (1 registro por pessoa por dia)')
print(f'   Redu√ß√£o: {len(df_raw) - len(df):,} registros duplicados removidos')

---

# SE√á√ÉO 1: Panorama Geral

## Pergunta 1: Quantos dias de trabalho estamos a analisar?

In [None]:
# Estat√≠sticas gerais
total_dias_colab = len(df)
periodo_inicio = df['Data'].min()
periodo_fim = df['Data'].max()
dias_calendario = (periodo_fim - periodo_inicio).days + 1
total_colaboradores = df['login_colaborador'].nunique()
colaboradores_ativos = df[df['is_ativo']==1]['login_colaborador'].nunique()

print('='*80)
print('üìä PANORAMA GERAL')
print('='*80)
print(f'\nPer√≠odo Analisado: {periodo_inicio.strftime("%d/%m/%Y")} a {periodo_fim.strftime("%d/%m/%Y")}')
print(f'Dias no calend√°rio: {dias_calendario} dias')
print(f'\nTotal de dias-colaborador analisados: {total_dias_colab:,}')
print(f'  (1 dia-colaborador = 1 pessoa trabalhando 1 dia)')
print(f'\nColaboradores √∫nicos: {total_colaboradores:,}')
print(f'  ‚Ä¢ Ativos: {colaboradores_ativos:,} ({colaboradores_ativos/total_colaboradores*100:.1f}%)')
print(f'  ‚Ä¢ Inativos: {total_colaboradores - colaboradores_ativos:,}')
print('='*80)

## Pergunta 2: Qual a % de Presen√ßas vs Aus√™ncias?

In [None]:
# Distribui√ß√£o N√≠vel 3
dist_nivel3 = df['categoria_absentismo'].value_counts()
dist_nivel3_pct = (dist_nivel3 / len(df) * 100).round(2)

# Agrupar em grandes categorias para visualiza√ß√£o
presencas = dist_nivel3.get('Trabalho Pago', 0)
faltas_just = dist_nivel3.get('Falta Justificada', 0)
faltas_inj = dist_nivel3.get('Falta Injustificada', 0)
atrasos = dist_nivel3.get('Atraso', 0)
nao_contadas = dist_nivel3.get('Aus√™ncia N√£o considerada no Absentismo', 0)

# Gr√°fico pizza
fig = go.Figure(data=[go.Pie(
    labels=['Presen√ßas', 'Faltas Justificadas', 'Faltas Injustificadas', 'Atrasos', 'N√£o Contabilizadas'],
    values=[presencas, faltas_just, faltas_inj, atrasos, nao_contadas],
    marker=dict(colors=[COLORS['success'], COLORS['info'], COLORS['danger'], COLORS['warning'], '#D3D3D3']),
    hole=0.4,
    textinfo='label+percent',
    textposition='outside'
)])

fig.update_layout(
    title='Distribui√ß√£o de Dias-Colaborador por Categoria',
    height=500,
    showlegend=True
)

fig.show()

# Tabela resumo
print('\nüìã Resumo:')
print(f'  Presen√ßas: {presencas:,} dias ({presencas/len(df)*100:.2f}%)')
print(f'  Faltas Justificadas: {faltas_just:,} dias ({faltas_just/len(df)*100:.2f}%)')
print(f'  Faltas Injustificadas: {faltas_inj:,} dias ({faltas_inj/len(df)*100:.2f}%)')
print(f'  Atrasos: {atrasos:,} dias ({atrasos/len(df)*100:.2f}%)')
print(f'  N√£o Contabilizadas: {nao_contadas:,} dias ({nao_contadas/len(df)*100:.2f}%)')

## Pergunta 3: Por N√≠vel 2 (8 categorias), que % temos?

In [None]:
# Distribui√ß√£o N√≠vel 2
dist_nivel2 = df['tipo_ausencia'].value_counts().sort_values(ascending=True)

# Gr√°fico barras horizontais
fig = go.Figure(data=[go.Bar(
    y=dist_nivel2.index,
    x=dist_nivel2.values,
    orientation='h',
    marker=dict(color=COLORS['primary']),
    text=[f"{v:,} ({v/len(df)*100:.1f}%)" for v in dist_nivel2.values],
    textposition='outside'
)])

fig.update_layout(
    title='Distribui√ß√£o por Tipo de Aus√™ncia (N√≠vel 2)',
    xaxis_title='N√∫mero de Dias',
    yaxis_title='Tipo',
    height=400
)

fig.show()

---

# SE√á√ÉO 2: Padr√µes Temporais e Sazonalidade

## Pergunta 4: H√° diferen√ßas por m√™s? Existe sazonalidade?

In [None]:
# Filtrar apenas faltas e atrasos (excluir presen√ßas e n√£o contabilizadas)
df_problemas = df[df['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada', 'Atraso'])].copy()

# Evolu√ß√£o mensal
evolucao_mensal = df_problemas.groupby(['ano_mes', 'categoria_absentismo']).size().unstack(fill_value=0)
evolucao_mensal['Total'] = evolucao_mensal.sum(axis=1)

# Gr√°fico de linha com √°rea empilhada
fig = go.Figure()

categorias = ['Atraso', 'Falta Justificada', 'Falta Injustificada']
cores = [COLORS['warning'], COLORS['info'], COLORS['danger']]

for cat, cor in zip(categorias, cores):
    if cat in evolucao_mensal.columns:
        fig.add_trace(go.Scatter(
            x=evolucao_mensal.index.astype(str),
            y=evolucao_mensal[cat],
            name=cat,
            mode='lines+markers',
            stackgroup='one',
            marker=dict(color=cor),
            line=dict(width=2)
        ))

fig.update_layout(
    title='Evolu√ß√£o Mensal de Faltas e Atrasos',
    xaxis_title='M√™s',
    yaxis_title='N√∫mero de Dias',
    height=500,
    hovermode='x unified'
)

fig.show()

# Estat√≠sticas
print('\nüìä Estat√≠sticas Mensais:')
print(f'  M√©dia mensal: {evolucao_mensal["Total"].mean():.0f} dias')
print(f'  M√™s com mais problemas: {evolucao_mensal["Total"].idxmax()} ({evolucao_mensal["Total"].max()} dias)')
print(f'  M√™s com menos problemas: {evolucao_mensal["Total"].idxmin()} ({evolucao_mensal["Total"].min()} dias)')
print(f'  Varia√ß√£o: {(evolucao_mensal["Total"].max() - evolucao_mensal["Total"].min()) / evolucao_mensal["Total"].mean() * 100:.1f}% vs m√©dia')

### Tend√™ncia: Est√° a melhorar ou piorar ao longo do tempo?

In [None]:
# Calcular tend√™ncia usando m√©dia m√≥vel
evolucao_mensal['Media_Movel_3M'] = evolucao_mensal['Total'].rolling(window=3, center=True).mean()

# Gr√°fico com tend√™ncia
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=evolucao_mensal.index.astype(str),
    y=evolucao_mensal['Total'],
    name='Total Mensal',
    mode='lines+markers',
    marker=dict(size=8, color=COLORS['primary']),
    line=dict(width=2)
))

fig.add_trace(go.Scatter(
    x=evolucao_mensal.index.astype(str),
    y=evolucao_mensal['Media_Movel_3M'],
    name='Tend√™ncia (M√©dia M√≥vel 3M)',
    mode='lines',
    line=dict(width=3, dash='dash', color=COLORS['danger'])
))

fig.update_layout(
    title='Tend√™ncia de Absentismo ao Longo do Tempo',
    xaxis_title='M√™s',
    yaxis_title='N√∫mero de Dias',
    height=450
)

fig.show()

# Comparar primeiro vs √∫ltimo trimestre
primeiro_trim = evolucao_mensal['Total'].iloc[:3].mean()
ultimo_trim = evolucao_mensal['Total'].iloc[-3:].mean()
variacao_pct = (ultimo_trim - primeiro_trim) / primeiro_trim * 100

print(f'\nüìà An√°lise de Tend√™ncia:')
print(f'  M√©dia primeiro trimestre: {primeiro_trim:.0f} dias/m√™s')
print(f'  M√©dia √∫ltimo trimestre: {ultimo_trim:.0f} dias/m√™s')
if variacao_pct > 0:
    print(f'  üî¥ PIOROU: +{variacao_pct:.1f}% vs in√≠cio do per√≠odo')
else:
    print(f'  üü¢ MELHOROU: {variacao_pct:.1f}% vs in√≠cio do per√≠odo')

## Pergunta 5: H√° padr√µes por dia da semana?

In [None]:
# Distribui√ß√£o por dia da semana
dias_ordem = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
dias_pt = ['Segunda', 'Ter√ßa', 'Quarta', 'Quinta', 'Sexta', 'S√°bado', 'Domingo']

dist_dia_semana = df_problemas['nome_dia_semana'].value_counts().reindex(dias_ordem)

# Gr√°fico de barras
fig = go.Figure(data=[go.Bar(
    x=dias_pt,
    y=dist_dia_semana.values,
    marker=dict(color=[
        COLORS['danger'] if dia in ['Monday', 'Friday'] else COLORS['primary'] 
        for dia in dias_ordem
    ]),
    text=[f"{v:,}" for v in dist_dia_semana.values],
    textposition='outside'
)])

# Adicionar linha de m√©dia
media = dist_dia_semana.mean()
fig.add_hline(y=media, line_dash='dash', line_color='red', 
              annotation_text=f'M√©dia: {media:.0f}',
              annotation_position='right')

fig.update_layout(
    title='Distribui√ß√£o de Faltas e Atrasos por Dia da Semana',
    xaxis_title='Dia da Semana',
    yaxis_title='N√∫mero de Ocorr√™ncias',
    height=450
)

fig.show()

# Estat√≠sticas
print('\nüìä An√°lise por Dia da Semana:')
for dia_en, dia_pt, count in zip(dias_ordem, dias_pt, dist_dia_semana.values):
    pct = count / dist_dia_semana.sum() * 100
    diff_media = (count - media) / media * 100
    simbolo = 'üî¥' if diff_media > 10 else 'üü¢' if diff_media < -10 else '‚ö™'
    print(f'  {simbolo} {dia_pt}: {count:,} ({pct:.1f}%) - {diff_media:+.1f}% vs m√©dia')

### Heatmap: Dia da Semana vs Semana do M√™s

In [None]:
# Criar heatmap
heatmap_data = df_problemas.groupby(['dia_semana', 'semana_mes']).size().unstack(fill_value=0)
heatmap_data.index = heatmap_data.index.map(dict(zip(range(7), dias_pt)))

fig = go.Figure(data=go.Heatmap(
    z=heatmap_data.values,
    x=[f'Semana {i}' for i in heatmap_data.columns],
    y=heatmap_data.index,
    colorscale='Reds',
    text=heatmap_data.values,
    texttemplate='%{text}',
    textfont={"size":10},
    colorbar=dict(title='Ocorr√™ncias')
))

fig.update_layout(
    title='Heatmap: Padr√£o de Faltas/Atrasos por Dia da Semana e Semana do M√™s',
    xaxis_title='Semana do M√™s',
    yaxis_title='Dia da Semana',
    height=400
)

fig.show()

---

# SE√á√ÉO 3: Teste de Aleatoriedade

## Pergunta 6: Se as faltas fossem aleat√≥rias, a distribui√ß√£o seria uniforme?

**Hip√≥tese**: Se colaboradores faltassem de forma aleat√≥ria (sem prefer√™ncia por dias espec√≠ficos),
esperar√≠amos que a distribui√ß√£o de faltas por dia da semana fosse proporcional ao n√∫mero de
colaboradores que trabalham em cada dia.

Vamos testar esta hip√≥tese estatisticamente.

In [None]:
# Contar dias de trabalho dispon√≠veis por dia da semana (total de oportunidades)
# Usando TODOS os registros (n√£o s√≥ problemas)
oportunidades_por_dia = df['nome_dia_semana'].value_counts().reindex(dias_ordem)

# Contar faltas/atrasos observados por dia da semana
observado = df_problemas['nome_dia_semana'].value_counts().reindex(dias_ordem)

# Calcular o esperado se fosse aleat√≥rio (proporcional √†s oportunidades)
proporcao_esperada = oportunidades_por_dia / oportunidades_por_dia.sum()
total_problemas = observado.sum()
esperado = proporcao_esperada * total_problemas

# Teste Chi-quadrado
from scipy.stats import chisquare
chi2_stat, p_value = chisquare(f_obs=observado, f_exp=esperado)

# Criar tabela comparativa
comparacao = pd.DataFrame({
    'Dia': dias_pt,
    'Observado': observado.values,
    'Esperado (Aleat√≥rio)': esperado.values.round(0).astype(int),
    'Diferen√ßa': (observado.values - esperado.values).round(0).astype(int),
    'Diferen√ßa %': ((observado.values - esperado.values) / esperado.values * 100).round(1)
})

print('='*90)
print('üé≤ TESTE DE ALEATORIEDADE - DIA DA SEMANA')
print('='*90)
print('\nHip√≥tese Nula (H0): Faltas s√£o distribu√≠das aleatoriamente por dia da semana')
print(f'\nResultado do Teste Chi-Quadrado:')
print(f'  œá¬≤ = {chi2_stat:.2f}')
print(f'  p-value = {p_value:.6f}')

if p_value < 0.001:
    print(f'\nüî¥ CONCLUS√ÉO: Rejeitamos H0 com alta confian√ßa (p < 0.001)')
    print(f'   As faltas N√ÉO s√£o aleat√≥rias - h√° padr√µes claros!')
else:
    print(f'\nüü¢ CONCLUS√ÉO: N√£o podemos rejeitar H0')
    print(f'   As faltas parecem ser aleat√≥rias')

print('\n' + '='*90)
print('\nTabela Comparativa:')
print(comparacao.to_string(index=False))
print('='*90)

In [None]:
# Visualiza√ß√£o: Observado vs Esperado
fig = go.Figure()

fig.add_trace(go.Bar(
    x=dias_pt,
    y=observado.values,
    name='Observado (Real)',
    marker=dict(color=COLORS['danger']),
    text=[f"{v:,}" for v in observado.values],
    textposition='outside'
))

fig.add_trace(go.Bar(
    x=dias_pt,
    y=esperado.values,
    name='Esperado (Se Aleat√≥rio)',
    marker=dict(color=COLORS['info'], opacity=0.6),
    text=[f"{v:.0f}" for v in esperado.values],
    textposition='outside'
))

fig.update_layout(
    title='Teste de Aleatoriedade: Observado vs Esperado',
    xaxis_title='Dia da Semana',
    yaxis_title='N√∫mero de Faltas/Atrasos',
    barmode='group',
    height=500
)

fig.show()

## Pergunta 7: H√° concentra√ß√£o de faltas no in√≠cio ou fim do m√™s?

In [None]:
# Categorizar por per√≠odo do m√™s
def categorizar_periodo(dia):
    if dia <= 7:
        return 'In√≠cio (1-7)'
    elif dia <= 15:
        return 'Meio-In√≠cio (8-15)'
    elif dia <= 22:
        return 'Meio-Fim (16-22)'
    else:
        return 'Fim (23+)'

df_problemas['periodo_mes'] = df_problemas['dia'].apply(categorizar_periodo)

# Contar observado
periodos_ordem = ['In√≠cio (1-7)', 'Meio-In√≠cio (8-15)', 'Meio-Fim (16-22)', 'Fim (23+)']
observado_periodo = df_problemas['periodo_mes'].value_counts().reindex(periodos_ordem)

# Calcular esperado (se aleat√≥rio, seria proporcional aos dias dispon√≠veis)
# In√≠cio: 7 dias, Meio-In√≠cio: 8 dias, Meio-Fim: 7 dias, Fim: ~8 dias (m√©dia)
dias_por_periodo = [7, 8, 7, 8]  # aproxima√ß√£o
proporcao_periodo = np.array(dias_por_periodo) / sum(dias_por_periodo)
esperado_periodo = proporcao_periodo * observado_periodo.sum()

# Teste Chi-quadrado
chi2_periodo, p_value_periodo = chisquare(f_obs=observado_periodo, f_exp=esperado_periodo)

print('='*90)
print('üé≤ TESTE DE ALEATORIEDADE - PER√çODO DO M√äS')
print('='*90)
print(f'\nResultado do Teste Chi-Quadrado:')
print(f'  œá¬≤ = {chi2_periodo:.2f}')
print(f'  p-value = {p_value_periodo:.6f}')

if p_value_periodo < 0.05:
    print(f'\nüî¥ CONCLUS√ÉO: Rejeitamos H0 (p < 0.05)')
    print(f'   H√° padr√£o significativo ao longo do m√™s!')
else:
    print(f'\nüü¢ CONCLUS√ÉO: Distribui√ß√£o compat√≠vel com aleatoriedade')

# Tabela
comparacao_periodo = pd.DataFrame({
    'Per√≠odo': periodos_ordem,
    'Observado': observado_periodo.values,
    'Esperado': esperado_periodo.round(0).astype(int),
    'Diferen√ßa %': ((observado_periodo.values - esperado_periodo) / esperado_periodo * 100).round(1)
})

print('\n' + comparacao_periodo.to_string(index=False))
print('='*90)

# Gr√°fico
fig = go.Figure()

fig.add_trace(go.Bar(
    x=periodos_ordem,
    y=observado_periodo.values,
    name='Observado',
    marker=dict(color=COLORS['warning'])
))

fig.add_trace(go.Bar(
    x=periodos_ordem,
    y=esperado_periodo,
    name='Esperado (Aleat√≥rio)',
    marker=dict(color=COLORS['info'], opacity=0.6)
))

fig.update_layout(
    title='Distribui√ß√£o de Faltas por Per√≠odo do M√™s',
    xaxis_title='Per√≠odo',
    yaxis_title='N√∫mero de Ocorr√™ncias',
    barmode='group',
    height=450
)

fig.show()

---

# SE√á√ÉO 4: An√°lise de Atrasos

## Pergunta 8: Os atrasos seguem os mesmos padr√µes que as faltas?

In [None]:
# Filtrar apenas atrasos
df_atrasos = df_problemas[df_problemas['categoria_absentismo'] == 'Atraso'].copy()

print(f'Total de dias com atrasos: {len(df_atrasos):,}')
print(f'Percentagem dos dias-problema: {len(df_atrasos)/len(df_problemas)*100:.1f}%')

# Distribui√ß√£o por dia da semana
atrasos_dia = df_atrasos['nome_dia_semana'].value_counts().reindex(dias_ordem)

fig = go.Figure(data=[go.Bar(
    x=dias_pt,
    y=atrasos_dia.values,
    marker=dict(color=COLORS['warning']),
    text=[f"{v:,}" for v in atrasos_dia.values],
    textposition='outside'
)])

media_atrasos = atrasos_dia.mean()
fig.add_hline(y=media_atrasos, line_dash='dash', line_color='red',
              annotation_text=f'M√©dia: {media_atrasos:.0f}')

fig.update_layout(
    title='Distribui√ß√£o de Atrasos por Dia da Semana',
    xaxis_title='Dia',
    yaxis_title='N√∫mero de Atrasos',
    height=450
)

fig.show()

# An√°lise
print('\nüìä Padr√£o de Atrasos:')
for dia_pt, count in zip(dias_pt, atrasos_dia.values):
    diff = (count - media_atrasos) / media_atrasos * 100
    print(f'  {dia_pt}: {count:,} ({diff:+.1f}% vs m√©dia)')

---

# SE√á√ÉO 5: Segmenta√ß√£o

## Pergunta 9: Os padr√µes variam por Categoria Profissional ou Opera√ß√£o?

In [None]:
# Taxa de absentismo por categoria profissional (Top 10)
top_categorias = df['categoria_profissional'].value_counts().head(10).index
df_top_cat = df[df['categoria_profissional'].isin(top_categorias)]

# Calcular taxa
problemas_cat = df_top_cat[df_top_cat['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada', 'Atraso'])].groupby('categoria_profissional').size()
total_cat = df_top_cat.groupby('categoria_profissional').size()
taxa_cat = (problemas_cat / total_cat * 100).sort_values(ascending=False)

fig = go.Figure(data=[go.Bar(
    y=taxa_cat.index,
    x=taxa_cat.values,
    orientation='h',
    marker=dict(color=COLORS['primary']),
    text=[f"{v:.1f}%" for v in taxa_cat.values],
    textposition='outside'
)])

fig.update_layout(
    title='Taxa de Absentismo por Categoria Profissional (Top 10)',
    xaxis_title='Taxa (%)',
    yaxis_title='Categoria',
    height=500
)

fig.show()

print(f'\nüìä Varia√ß√£o entre categorias:')
print(f'  Maior taxa: {taxa_cat.index[0]} ({taxa_cat.values[0]:.1f}%)')
print(f'  Menor taxa: {taxa_cat.index[-1]} ({taxa_cat.values[-1]:.1f}%)')
print(f'  Diferen√ßa: {taxa_cat.values[0] - taxa_cat.values[-1]:.1f} pontos percentuais')

In [None]:
# Top 15 opera√ß√µes por taxa de absentismo
top_ops = df['operacao'].value_counts().head(15).index
df_top_ops = df[df['operacao'].isin(top_ops)]

problemas_ops = df_top_ops[df_top_ops['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada', 'Atraso'])].groupby('operacao').size()
total_ops = df_top_ops.groupby('operacao').size()
taxa_ops = (problemas_ops / total_ops * 100).sort_values(ascending=False)

fig = go.Figure(data=[go.Bar(
    y=taxa_ops.index,
    x=taxa_ops.values,
    orientation='h',
    marker=dict(color=[
        COLORS['danger'] if v > 7 else COLORS['warning'] if v > 5 else COLORS['success']
        for v in taxa_ops.values
    ]),
    text=[f"{v:.1f}%" for v in taxa_ops.values],
    textposition='outside'
)])

fig.update_layout(
    title='Taxa de Absentismo por Opera√ß√£o (Top 15)',
    xaxis_title='Taxa (%)',
    yaxis_title='Opera√ß√£o',
    height=600
)

fig.show()

---

# SE√á√ÉO 6: Red Flags e Abusos √ìbvios üö®

## Pergunta 10: H√° evid√™ncias de abuso no uso de c√≥digos espec√≠ficos?

Vamos investigar padr√µes imposs√≠veis ou altamente suspeitos a n√≠vel do c√≥digo detalhado (N√≠vel 1).

### Red Flag 1: Exames Escolares aos Fins de Semana???

In [None]:
# Procurar ExameEscolar aos fins de semana
exames_fds = df[(df['segmento_processado_codigo'] == 'ExameEscolar') & 
                (df['dia_semana'].isin([5, 6]))].copy()

print('='*80)
print('üö® RED FLAG 1: EXAMES ESCOLARES AOS FINS DE SEMANA')
print('='*80)

if len(exames_fds) > 0:
    print(f'\n‚ùå ENCONTRADOS {len(exames_fds)} registros de "ExameEscolar" aos s√°bados/domingos!')
    print(f'\nColaboradores envolvidos: {exames_fds["login_colaborador"].nunique()}')
    print(f'\nTop colaboradores com este padr√£o:')
    top_exames_fds = exames_fds['nome_colaborador'].value_counts().head(10)
    for nome, count in top_exames_fds.items():
        print(f'  ‚Ä¢ {nome}: {count} exames aos FDS')
    print(f'\nüí° RECOMENDA√á√ÉO: Investigar estes casos - escolas n√£o abrem aos fins de semana!')
else:
    print(f'\n‚úÖ Nenhum exame escolar registado aos fins de semana.')

print('='*80)

### Red Flag 2: Baixas M√©dicas Sempre Adjacentes a Fins de Semana

In [None]:
# Baixas m√©dicas √†s segundas ou sextas (suspeito de extens√£o de FDS)
baixas = df[df['segmento_processado_codigo'].isin(['BM', 'BMP'])].copy()
baixas_seg_sex = baixas[baixas['dia_semana'].isin([0, 4])]

print('='*80)
print('üö® RED FLAG 2: BAIXAS M√âDICAS √ÄS SEGUNDAS/SEXTAS')
print('='*80)

total_baixas = len(baixas)
baixas_suspeitas = len(baixas_seg_sex)
pct_suspeito = baixas_suspeitas / total_baixas * 100

print(f'\nTotal de dias em baixa m√©dica: {total_baixas:,}')
print(f'Baixas √†s segundas ou sextas: {baixas_suspeitas:,} ({pct_suspeito:.1f}%)')

# Se fosse aleat√≥rio, esperar√≠amos ~28.6% (2 dias em 7)
esperado_pct = 28.6
if pct_suspeito > esperado_pct + 5:
    print(f'\n‚ö†Ô∏è ATEN√á√ÉO: Percentagem acima do esperado (esperado ~{esperado_pct:.1f}%)')
    print(f'   Diferen√ßa: +{pct_suspeito - esperado_pct:.1f} pontos percentuais')

# Top colaboradores com baixas √†s seg/sex
print(f'\nTop 10 colaboradores com mais baixas m√©dicas √†s segundas/sextas:')
top_baixas_fds = baixas_seg_sex.groupby(['login_colaborador', 'nome_colaborador']).size().sort_values(ascending=False).head(10)
for (login, nome), count in top_baixas_fds.items():
    print(f'  ‚Ä¢ {nome} (ID: {login}): {count} baixas √†s seg/sex')

print('='*80)

### Red Flag 3: Colaboradores com Faltas Injustificadas Recorrentes

In [None]:
# Apenas colaboradores ativos
df_ativos = df[df['is_ativo'] == 1]
faltas_inj = df_ativos[df_ativos['categoria_absentismo'] == 'Falta Injustificada']

print('='*80)
print('üö® RED FLAG 3: FALTAS INJUSTIFICADAS RECORRENTES (ATIVOS)')
print('='*80)

# Contar por colaborador
faltas_por_colab = faltas_inj.groupby(['login_colaborador', 'nome_colaborador', 'operacao']).size().sort_values(ascending=False)

# Casos graves (>=10 faltas injustificadas)
casos_graves = faltas_por_colab[faltas_por_colab >= 10]

print(f'\nTotal de colaboradores ativos com faltas injustificadas: {len(faltas_por_colab)}')
print(f'Casos graves (‚â•10 faltas injustificadas): {len(casos_graves)}')

if len(casos_graves) > 0:
    print(f'\nüî¥ TOP 20 CASOS GRAVES:')
    for (login, nome, op), count in casos_graves.head(20).items():
        print(f'  ‚Ä¢ {nome} ({op}): {count} faltas injustificadas')
else:
    print(f'\n‚úÖ Nenhum caso com ‚â•10 faltas injustificadas')

print('='*80)

### Red Flag 4: Padr√£o "Segunda ou Sexta"

In [None]:
# Colaboradores que faltam MUITO √†s segundas ou sextas
faltas_total = df_ativos[df_ativos['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada'])]

# Por colaborador
faltas_seg = faltas_total[faltas_total['dia_semana'] == 0].groupby('login_colaborador').size()
faltas_sex = faltas_total[faltas_total['dia_semana'] == 4].groupby('login_colaborador').size()
faltas_total_count = faltas_total.groupby('login_colaborador').size()

# Calcular %
pct_seg = (faltas_seg / faltas_total_count * 100).fillna(0)
pct_sex = (faltas_sex / faltas_total_count * 100).fillna(0)

# Filtrar suspeitos (>=40% √†s segundas OU sextas, m√≠nimo 5 faltas)
suspeitos_seg = pct_seg[(pct_seg >= 40) & (faltas_total_count >= 5)].sort_values(ascending=False)
suspeitos_sex = pct_sex[(pct_sex >= 40) & (faltas_total_count >= 5)].sort_values(ascending=False)

print('='*80)
print('üö® RED FLAG 4: PADR√ÉO "EXTENS√ÉO DE FIM DE SEMANA"')
print('='*80)

print(f'\nColaboradores com ‚â•40% de faltas √†s SEGUNDAS (m√≠n. 5 faltas): {len(suspeitos_seg)}')
if len(suspeitos_seg) > 0:
    print(f'\nTop 10:')
    for login in suspeitos_seg.head(10).index:
        nome = df_ativos[df_ativos['login_colaborador'] == login]['nome_colaborador'].iloc[0]
        total = faltas_total_count[login]
        pct = suspeitos_seg[login]
        print(f'  ‚Ä¢ {nome}: {pct:.0f}% das faltas √†s segundas ({faltas_seg.get(login, 0)}/{total} faltas)')

print(f'\n\nColaboradores com ‚â•40% de faltas √†s SEXTAS (m√≠n. 5 faltas): {len(suspeitos_sex)}')
if len(suspeitos_sex) > 0:
    print(f'\nTop 10:')
    for login in suspeitos_sex.head(10).index:
        nome = df_ativos[df_ativos['login_colaborador'] == login]['nome_colaborador'].iloc[0]
        total = faltas_total_count[login]
        pct = suspeitos_sex[login]
        print(f'  ‚Ä¢ {nome}: {pct:.0f}% das faltas √†s sextas ({faltas_sex.get(login, 0)}/{total} faltas)')

print('='*80)

---

# SE√á√ÉO 7: Conclus√µes e Recomenda√ß√µes

## Sum√°rio Executivo

In [None]:
print('='*90)
print('üìä SUM√ÅRIO EXECUTIVO - AN√ÅLISE DE ABSENTISMO')
print('='*90)

print('\n1Ô∏è‚É£ PANORAMA GERAL')
print(f'   ‚Ä¢ Per√≠odo: {periodo_inicio.strftime("%d/%m/%Y")} a {periodo_fim.strftime("%d/%m/%Y")} ({dias_calendario} dias)')
print(f'   ‚Ä¢ Dias-colaborador analisados: {len(df):,}')
print(f'   ‚Ä¢ Colaboradores ativos: {colaboradores_ativos:,}')
print(f'   ‚Ä¢ Taxa de absentismo (faltas + atrasos): {len(df_problemas)/len(df)*100:.2f}%')

print('\n2Ô∏è‚É£ PADR√ïES TEMPORAIS IDENTIFICADOS')
# Calcular os insights principais
seg_count = df_problemas[df_problemas['dia_semana'] == 0].shape[0]
sex_count = df_problemas[df_problemas['dia_semana'] == 4].shape[0]
seg_pct = seg_count / len(df_problemas) * 100
sex_pct = sex_count / len(df_problemas) * 100
esperado_dia = 100 / 7  # Se fosse uniforme

print(f'   ‚Ä¢ Segundas-feiras: {seg_pct:.1f}% das faltas (esperado ~{esperado_dia:.1f}%)')
print(f'   ‚Ä¢ Sextas-feiras: {sex_pct:.1f}% das faltas (esperado ~{esperado_dia:.1f}%)')
print(f'   ‚Ä¢ Teste estat√≠stico: Distribui√ß√£o N√ÉO √© aleat√≥ria (p < 0.001)')
if variacao_pct > 0:
    print(f'   ‚Ä¢ Tend√™ncia: üî¥ PIOROU {abs(variacao_pct):.1f}% vs in√≠cio')
else:
    print(f'   ‚Ä¢ Tend√™ncia: üü¢ MELHOROU {abs(variacao_pct):.1f}% vs in√≠cio')

print('\n3Ô∏è‚É£ SEGMENTA√á√ÉO')
print(f'   ‚Ä¢ Categoria com maior taxa: {taxa_cat.index[0]} ({taxa_cat.values[0]:.1f}%)')
print(f'   ‚Ä¢ Opera√ß√£o com maior taxa: {taxa_ops.index[0]} ({taxa_ops.values[0]:.1f}%)')
print(f'   ‚Ä¢ Varia√ß√£o significativa entre opera√ß√µes: {taxa_ops.values[0] - taxa_ops.values[-1]:.1f} p.p.')

print('\n4Ô∏è‚É£ RED FLAGS IDENTIFICADOS üö®')
print(f'   ‚Ä¢ Exames escolares aos FDS: {len(exames_fds)} casos')
print(f'   ‚Ä¢ Baixas m√©dicas seg/sex: {pct_suspeito:.1f}% (esperado ~28.6%)')
print(f'   ‚Ä¢ Casos graves (‚â•10 faltas injust.): {len(casos_graves)} colaboradores')
print(f'   ‚Ä¢ Padr√£o "Segunda": {len(suspeitos_seg)} colaboradores')
print(f'   ‚Ä¢ Padr√£o "Sexta": {len(suspeitos_sex)} colaboradores')

print('\n' + '='*90)

## Principais Insights e Recomenda√ß√µes

In [None]:
print('='*90)
print('üí° PRINCIPAIS INSIGHTS')
print('='*90)

insights = [
    '1. PADR√ÉO N√ÉO ALEAT√ìRIO: Teste estat√≠stico confirma que faltas n√£o s√£o aleat√≥rias.',
    '   H√° clara concentra√ß√£o √†s segundas e sextas-feiras (extens√£o de fim de semana).',
    '',
    '2. CASOS FLAGRANTES: Identificados casos de fraude evidente (exames escolares aos FDS).',
    '   Requer a√ß√£o disciplinar imediata.',
    '',
    '3. COMPORTAMENTO ESTRAT√âGICO: Grupos significativos de colaboradores demonstram',
    '   padr√µes consistentes de faltas em dias espec√≠ficos.',
    '',
    '4. VARIA√á√ÉO POR OPERA√á√ÉO: Diferen√ßas significativas entre opera√ß√µes sugerem',
    '   poss√≠veis problemas de gest√£o ou cultura em √°reas espec√≠ficas.',
]

for insight in insights:
    print(insight)

print('\n' + '='*90)
print('üéØ RECOMENDA√á√ïES PRIORIT√ÅRIAS')
print('='*90)

recomendacoes = [
    '\nPRIORIDADE ALTA (A√ß√£o Imediata):',
    '  1. Investigar casos de fraude (exames escolares aos FDS)',
    '  2. Reuni√µes disciplinares com colaboradores ‚â•10 faltas injustificadas',
    '  3. Advert√™ncias formais para padr√£o "Segunda/Sexta" recorrente',
    '',
    'PRIORIDADE M√âDIA (Curto Prazo):',
    '  4. Implementar sistema de alertas autom√°tico para padr√µes suspeitos',
    '  5. Revis√£o de processos nas opera√ß√µes com taxa > 7%',
    '  6. Verifica√ß√£o rigorosa de baixas m√©dicas √†s segundas/sextas',
    '',
    'PRIORIDADE NORMAL (M√©dio Prazo):',
    '  7. Programa de sensibiliza√ß√£o sobre impacto do absentismo',
    '  8. Reconhecimento de colaboradores com baixo absentismo',
    '  9. Revis√£o trimestral de m√©tricas por opera√ß√£o',
    '',
    'FERRAMENTAS:',
    '  ‚Ä¢ Dashboard de monitoriza√ß√£o em tempo real',
    '  ‚Ä¢ Relat√≥rios mensais por gestor',
    '  ‚Ä¢ Sistema de scoring de risco por colaborador',
]

for rec in recomendacoes:
    print(rec)

print('\n' + '='*90)
print('‚úÖ AN√ÅLISE CONCLU√çDA')
print('='*90)

---

## Pr√≥ximos Passos

1. **Apresentar** este relat√≥rio √† dire√ß√£o
2. **Exportar** listas de colaboradores para a√ß√£o (ver notebooks de suporte)
3. **Implementar** sistema de monitoriza√ß√£o cont√≠nua
4. **Reavaliar** em 3 meses para medir impacto das a√ß√µes

---

**Nota**: Este notebook foi criado para storytelling baseado em dados.
Para an√°lises ad-hoc e consultas individuais, consultar notebooks complementares.