# An√°lise de Absentismo - Caracteriza√ß√£o Completa

## Objetivo
Caracteriza√ß√£o detalhada do absentismo na empresa, analisando padr√µes temporais, por opera√ß√£o/segmento/categoria profissional, e identificando comportamentos de alerta em colaboradores ativos.

## Estrutura da An√°lise
1. **Prepara√ß√£o dos Dados**: Carregamento, limpeza e cria√ß√£o de vari√°veis derivadas
2. **An√°lise Geral**: Overview do absentismo a n√≠vel empresa
3. **An√°lise por Segmenta√ß√£o**: Opera√ß√£o, Segmento, Categoria Profissional, Departamento
4. **An√°lise Temporal**: Padr√µes semanais, mensais e sazonais
5. **Detec√ß√£o de Padr√µes de Alerta**: Red flags em colaboradores ativos
6. **Visualiza√ß√µes e Relat√≥rio**: Dashboards e sum√°rio executivo

---

## 1. Imports e Configura√ß√µes

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings

# Configura√ß√µes
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Configura√ß√£o de visualiza√ß√µes
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (14, 6)
plt.rcParams['font.size'] = 10

print("‚úÖ Imports e configura√ß√µes carregadas com sucesso!")

## 2. Carregamento dos C√≥digos e Dataset

### 2.1 Carregamento dos C√≥digos (Excel)

In [None]:
# Carregar c√≥digos do Excel
codigos = pd.read_excel('c√≥digos.xlsx')

# Renomear coluna para facilitar
codigos.columns = ['codigo', 'nivel_2', 'descricao', 'nivel_3']

# Limpar espa√ßos
codigos['codigo'] = codigos['codigo'].str.strip()
codigos['nivel_2'] = codigos['nivel_2'].str.strip()
codigos['nivel_3'] = codigos['nivel_3'].str.strip()

print(f"‚úÖ C√≥digos carregados: {len(codigos)} c√≥digos")
print(f"\nN√≠vel 2 - Categorias: {codigos['nivel_2'].nunique()}")
print(codigos['nivel_2'].value_counts())
print(f"\nN√≠vel 3 - Agrupamento principal:")
print(codigos['nivel_3'].value_counts())

# Mostrar alguns exemplos
print("\nüìã Exemplos de c√≥digos:")
codigos.head(10)

### 2.2 Carregamento do Dataset Principal

**Nota**: O ficheiro `combined_data.csv` deve estar no mesmo diret√≥rio que este notebook.

In [None]:
# Carregar dataset principal
print("Carregando dataset (isto pode demorar alguns segundos)...")

# Definir tipos de dados para otimizar mem√≥ria
dtype_dict = {
    'login_colaborador': 'int32',
    'nome_colaborador': 'str',
    'categoria_profissional': 'category',
    'segmento': 'category',
    'operacao': 'category',
    'departamento': 'category',
    'segmento_processado_codigo': 'category',
    'codigo_nivel_2': 'category',
    'Contagem_ID': 'int8',
    'Activo?': 'category'
}

# Carregar dados
df = pd.read_csv('combined_data.csv', 
                 sep=',',
                 dtype=dtype_dict,
                 parse_dates=['Data'],
                 encoding='utf-8')

# Informa√ß√µes b√°sicas
print(f"‚úÖ Dataset carregado com sucesso!")
print(f"\nüìä Dimens√µes: {df.shape[0]:,} linhas x {df.shape[1]} colunas")
print(f"üìÖ Per√≠odo: {df['Data'].min().strftime('%d/%m/%Y')} a {df['Data'].max().strftime('%d/%m/%Y')}")
print(f"üë• Colaboradores √∫nicos: {df['login_colaborador'].nunique():,}")
print(f"\nüíæ Uso de mem√≥ria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# Primeiras linhas
print("\nüìã Primeiras linhas do dataset:")
df.head()

## 3. Prepara√ß√£o e Enriquecimento dos Dados

### 3.1 Merge com C√≥digos (N√≠veis 2 e 3)

In [None]:
# Fazer merge do dataset com os c√≥digos
# Nota: segmento_processado_codigo √© o c√≥digo que vamos mapear

df = df.merge(
    codigos[['codigo', 'nivel_2', 'nivel_3', 'descricao']], 
    left_on='segmento_processado_codigo', 
    right_on='codigo',
    how='left'
)

# Remover coluna duplicada
df.drop('codigo', axis=1, inplace=True)

# Renomear para facilitar
df.rename(columns={
    'nivel_2': 'tipo_ausencia',
    'nivel_3': 'categoria_absentismo',
    'descricao': 'descricao_codigo'
}, inplace=True)

# Verificar merge
print(f"‚úÖ Merge conclu√≠do!")
print(f"\nRegistros sem match: {df['tipo_ausencia'].isna().sum()}")
print(f"\nDistribui√ß√£o por Categoria de Absentismo (N√≠vel 3):")
print(df['categoria_absentismo'].value_counts())
print(f"\nDistribui√ß√£o por Tipo de Aus√™ncia (N√≠vel 2):")
print(df['tipo_ausencia'].value_counts())

### 3.2 Cria√ß√£o de Vari√°veis Derivadas (Temporais e Flags)

In [None]:
# Vari√°veis temporais
df['ano'] = df['Data'].dt.year
df['mes'] = df['Data'].dt.month
df['dia'] = df['Data'].dt.day
df['dia_semana'] = df['Data'].dt.dayofweek  # 0=Segunda, 6=Domingo
df['nome_dia_semana'] = df['Data'].dt.day_name()
df['semana_ano'] = df['Data'].dt.isocalendar().week
df['trimestre'] = df['Data'].dt.quarter
df['ano_mes'] = df['Data'].dt.to_period('M')

# Semana do m√™s (1-5)
df['semana_mes'] = ((df['dia'] - 1) // 7) + 1

# Flags √∫teis
df['is_segunda'] = (df['dia_semana'] == 0).astype(int)
df['is_sexta'] = (df['dia_semana'] == 4).astype(int)
df['is_fim_semana'] = (df['dia_semana'] >= 5).astype(int)

# In√≠cio e fim de m√™s (primeiros 7 dias = in√≠cio, √∫ltimos 7 = fim)
df['is_inicio_mes'] = (df['dia'] <= 7).astype(int)
df['is_fim_mes'] = (df['dia'] >= 23).astype(int)  # Aproximado para todos os meses

# Flags de tipo de aus√™ncia (para an√°lises r√°pidas)
df['is_falta_injustificada'] = (df['categoria_absentismo'] == 'Falta Injustificada').astype(int)
df['is_falta_justificada'] = (df['categoria_absentismo'] == 'Falta Justificada').astype(int)
df['is_atraso'] = (df['categoria_absentismo'] == 'Atraso').astype(int)
df['is_trabalho_pago'] = (df['categoria_absentismo'] == 'Trabalho Pago').astype(int)
df['is_ausencia_nao_contada'] = (df['categoria_absentismo'] == 'Aus√™ncia N√£o considerada no Absentismo').astype(int)

# Flag de colaborador ativo
df['is_ativo'] = (df['Activo?'] == 'Sim').astype(int)

print("‚úÖ Vari√°veis derivadas criadas com sucesso!")
print(f"\nüìÖ Per√≠odo completo: {df['ano_mes'].min()} a {df['ano_mes'].max()}")
print(f"\nDistribui√ß√£o por dia da semana:")
print(df['nome_dia_semana'].value_counts())
print(f"\nüë• Colaboradores ativos: {df[df['is_ativo']==1]['login_colaborador'].nunique():,}")
print(f"üë• Colaboradores inativos: {df[df['is_ativo']==0]['login_colaborador'].nunique():,}")

### 3.3 Investiga√ß√£o: Registros aos Fins de Semana

In [None]:
# Investigar registros aos fins de semana
print("="*80)
print("üîç INVESTIGA√á√ÉO: O QUE ACONTECE AOS FINS DE SEMANA?")
print("="*80)

# Filtrar apenas s√°bados e domingos
df_fds = df[df['is_fim_semana'] == 1]

print(f"\nüìä Estat√≠sticas Gerais:")
print(f"   Total de registros aos fins de semana: {len(df_fds):,}")
print(f"   S√°bados: {len(df[df['dia_semana']==5]):,}")
print(f"   Domingos: {len(df[df['dia_semana']==6]):,}")
print(f"   Percentagem do total: {len(df_fds)/len(df)*100:.2f}%")

# Distribui√ß√£o por c√≥digo aos fins de semana
print(f"\nüìã Distribui√ß√£o de C√≥digos aos Fins de Semana:")
dist_codigos_fds = df_fds['segmento_processado_codigo'].value_counts().head(10)
for cod, count in dist_codigos_fds.items():
    pct = count / len(df_fds) * 100
    # Buscar descri√ß√£o
    desc = codigos[codigos['codigo'] == cod]['descricao'].values
    desc_texto = desc[0] if len(desc) > 0 else "Sem descri√ß√£o"
    print(f"   {cod}: {count:,} ({pct:.2f}%) - {desc_texto[:60]}...")

# Distribui√ß√£o por categoria de absentismo aos fins de semana
print(f"\nüìä Distribui√ß√£o por Categoria de Absentismo (N√≠vel 3) aos FDS:")
dist_cat_fds = df_fds['categoria_absentismo'].value_counts()
for cat, count in dist_cat_fds.items():
    pct = count / len(df_fds) * 100
    print(f"   {cat}: {count:,} ({pct:.2f}%)")

# Verificar se h√° colaboradores que trabalham aos fins de semana
trabalho_fds = df_fds[df_fds['categoria_absentismo'] == 'Trabalho Pago']
print(f"\nüíº Trabalho Efetivo aos Fins de Semana:")
print(f"   Registros de 'Trabalho Pago' aos FDS: {len(trabalho_fds):,}")
if len(trabalho_fds) > 0:
    colab_trabalham_fds = trabalho_fds['login_colaborador'].nunique()
    print(f"   Colaboradores que trabalham aos FDS: {colab_trabalham_fds:,}")
    
    # Top opera√ß√µes que trabalham aos fins de semana
    print(f"\n   Top Opera√ß√µes com Trabalho aos FDS:")
    top_op_fds = trabalho_fds['operacao'].value_counts().head(5)
    for op, count in top_op_fds.items():
        print(f"      {op}: {count:,} registros")

print("\n" + "="*80)
print("üí° CONCLUS√ÉO:")
print("   O c√≥digo 'Ferias' √© aplicado automaticamente aos FDS para evitar anomalias.")
print("   Alguns colaboradores trabalham efetivamente aos fins de semana (call centers, etc.)")
print("="*80)

---

## 4. FASE 2: Caracteriza√ß√£o Geral do Absentismo (N√≠vel Empresa)

### 4.1 Overview Geral - KPIs Principais

In [None]:
# KPIs Gerais
print("="*80)
print("üìä KPIs PRINCIPAIS - OVERVIEW GERAL")
print("="*80)

# Total de registros
total_registros = len(df)
print(f"\n1Ô∏è‚É£ Total de registros: {total_registros:,}")

# Per√≠odo
print(f"2Ô∏è‚É£ Per√≠odo analisado: {df['Data'].min().strftime('%d/%m/%Y')} a {df['Data'].max().strftime('%d/%m/%Y')}")
dias_total = (df['Data'].max() - df['Data'].min()).days + 1
print(f"   Total de dias: {dias_total}")

# Colaboradores
total_colaboradores = df['login_colaborador'].nunique()
colaboradores_ativos = df[df['is_ativo']==1]['login_colaborador'].nunique()
colaboradores_inativos = df[df['is_ativo']==0]['login_colaborador'].nunique()
print(f"\n3Ô∏è‚É£ Colaboradores:")
print(f"   Total √∫nicos: {total_colaboradores:,}")
print(f"   Ativos: {colaboradores_ativos:,} ({colaboradores_ativos/total_colaboradores*100:.1f}%)")
print(f"   Inativos: {colaboradores_inativos:,} ({colaboradores_inativos/total_colaboradores*100:.1f}%)")

# Distribui√ß√£o por categoria de absentismo (N√≠vel 3)
print(f"\n4Ô∏è‚É£ Distribui√ß√£o por Categoria de Absentismo (N√≠vel 3):")
dist_nivel3 = df['categoria_absentismo'].value_counts()
for cat, count in dist_nivel3.items():
    pct = count / total_registros * 100
    print(f"   {cat}: {count:,} ({pct:.2f}%)")

# Taxa de absentismo (excluindo "Aus√™ncia N√£o considerada" e "Trabalho Pago")
registros_absentismo = df[~df['categoria_absentismo'].isin(['Aus√™ncia N√£o considerada no Absentismo', 'Trabalho Pago'])]
taxa_absentismo = len(registros_absentismo) / total_registros * 100

print(f"\n5Ô∏è‚É£ Taxa de Absentismo Geral (excluindo aus√™ncias n√£o contadas e trabalho pago):")
print(f"   {taxa_absentismo:.2f}% dos registros")
print(f"   {len(registros_absentismo):,} registros de absentismo")

# Faltas justificadas vs injustificadas
faltas_justificadas = df['is_falta_justificada'].sum()
faltas_injustificadas = df['is_falta_injustificada'].sum()
atrasos = df['is_atraso'].sum()

print(f"\n6Ô∏è‚É£ Breakdown de Absentismo:")
print(f"   Faltas Justificadas: {faltas_justificadas:,} ({faltas_justificadas/total_registros*100:.2f}%)")
print(f"   Faltas Injustificadas: {faltas_injustificadas:,} ({faltas_injustificadas/total_registros*100:.2f}%)")
print(f"   Atrasos: {atrasos:,} ({atrasos/total_registros*100:.2f}%)")

print("\n" + "="*80)

### 4.2 Visualiza√ß√µes - Distribui√ß√£o Geral

In [None]:
# Gr√°fico 1: Distribui√ß√£o por Categoria de Absentismo (N√≠vel 3)
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Pizza
dist_nivel3 = df['categoria_absentismo'].value_counts()
colors = ['#2ecc71', '#e74c3c', '#f39c12', '#3498db', '#95a5a6']
axes[0].pie(dist_nivel3.values, labels=dist_nivel3.index, autopct='%1.1f%%', 
            startangle=90, colors=colors)
axes[0].set_title('Distribui√ß√£o por Categoria de Absentismo (N√≠vel 3)', fontsize=14, fontweight='bold')

# Barras
dist_nivel3.plot(kind='barh', ax=axes[1], color=colors)
axes[1].set_title('Contagem por Categoria', fontsize=14, fontweight='bold')
axes[1].set_xlabel('N√∫mero de Registros')
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

# Gr√°fico 2: Distribui√ß√£o por Tipo de Aus√™ncia (N√≠vel 2)
fig, ax = plt.subplots(figsize=(14, 6))
dist_nivel2 = df['tipo_ausencia'].value_counts()
dist_nivel2.plot(kind='bar', ax=ax, color='steelblue', edgecolor='black')
ax.set_title('Distribui√ß√£o por Tipo de Aus√™ncia (N√≠vel 2)', fontsize=14, fontweight='bold')
ax.set_xlabel('Tipo de Aus√™ncia')
ax.set_ylabel('N√∫mero de Registros')
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')
ax.grid(axis='y', alpha=0.3)

# Adicionar valores nas barras
for container in ax.containers:
    ax.bar_label(container, fmt='%d', padding=3)

plt.tight_layout()
plt.show()

### 4.3 Evolu√ß√£o Temporal do Absentismo

In [None]:
# Evolu√ß√£o mensal por categoria de absentismo
evolucao_mensal = df.groupby(['ano_mes', 'categoria_absentismo']).size().unstack(fill_value=0)

# Gr√°fico de evolu√ß√£o temporal
fig, axes = plt.subplots(2, 1, figsize=(16, 10))

# Gr√°fico 1: Evolu√ß√£o de todas as categorias (empilhado)
evolucao_mensal.plot(kind='area', stacked=True, ax=axes[0], alpha=0.7, 
                     color=['#2ecc71', '#e74c3c', '#f39c12', '#3498db', '#95a5a6'])
axes[0].set_title('Evolu√ß√£o Mensal do Absentismo por Categoria (Empilhado)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('M√™s')
axes[0].set_ylabel('N√∫mero de Registros')
axes[0].legend(title='Categoria', bbox_to_anchor=(1.05, 1), loc='upper left')
axes[0].grid(alpha=0.3)

# Gr√°fico 2: Apenas Faltas e Atrasos (mais vis√≠vel)
categorias_interesse = ['Falta Justificada', 'Falta Injustificada', 'Atraso']
evolucao_faltas = evolucao_mensal[categorias_interesse]
evolucao_faltas.plot(kind='line', ax=axes[1], marker='o', linewidth=2)
axes[1].set_title('Evolu√ß√£o Mensal - Faltas e Atrasos', fontsize=14, fontweight='bold')
axes[1].set_xlabel('M√™s')
axes[1].set_ylabel('N√∫mero de Registros')
axes[1].legend(title='Tipo')
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

# Tabela resumo mensal
print("\nüìä Resumo Mensal - Faltas e Atrasos:")
resumo_mensal = df[df['categoria_absentismo'].isin(categorias_interesse)].groupby(['ano_mes', 'categoria_absentismo']).size().unstack(fill_value=0)
resumo_mensal['Total'] = resumo_mensal.sum(axis=1)
print(resumo_mensal)

---

## 5. FASE 3: An√°lise por Segmenta√ß√£o

### 5.1 An√°lise por Opera√ß√£o

In [None]:
# An√°lise por Opera√ß√£o
print("="*80)
print("üìä AN√ÅLISE POR OPERA√á√ÉO")
print("="*80)

# Distribui√ß√£o de registros por opera√ß√£o
print("\n1Ô∏è‚É£ Distribui√ß√£o de Registros por Opera√ß√£o:")
dist_operacao = df['operacao'].value_counts()
for op, count in dist_operacao.items():
    pct = count / len(df) * 100
    print(f"   {op}: {count:,} ({pct:.2f}%)")

# Taxa de absentismo por opera√ß√£o
print("\n2Ô∏è‚É£ Taxa de Absentismo por Opera√ß√£o (Faltas + Atrasos):")
absentismo_operacao = df[df['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada', 'Atraso'])].groupby('operacao').size()
total_operacao = df.groupby('operacao').size()
taxa_operacao = (absentismo_operacao / total_operacao * 100).sort_values(ascending=False)

for op, taxa in taxa_operacao.items():
    print(f"   {op}: {taxa:.2f}%")

# Breakdown por tipo de aus√™ncia por opera√ß√£o
print("\n3Ô∏è‚É£ Breakdown por Tipo de Aus√™ncia:")
breakdown_operacao = df.groupby(['operacao', 'categoria_absentismo']).size().unstack(fill_value=0)
breakdown_operacao_pct = breakdown_operacao.div(breakdown_operacao.sum(axis=1), axis=0) * 100
print(breakdown_operacao_pct.round(2))

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Taxa de absentismo por opera√ß√£o
taxa_operacao.plot(kind='barh', ax=axes[0], color='coral', edgecolor='black')
axes[0].set_title('Taxa de Absentismo por Opera√ß√£o (%)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Taxa (%)')
axes[0].grid(axis='x', alpha=0.3)

# Gr√°fico 2: Distribui√ß√£o por categoria (empilhado)
breakdown_operacao_pct.plot(kind='barh', stacked=True, ax=axes[1], 
                            color=['#2ecc71', '#e74c3c', '#f39c12', '#3498db', '#95a5a6'])
axes[1].set_title('Distribui√ß√£o de Categorias por Opera√ß√£o (%)', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Percentagem (%)')
axes[1].legend(title='Categoria', bbox_to_anchor=(1.05, 1), loc='upper left')
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "="*80)

### 5.2 An√°lise por Segmento (Top 15)

In [None]:
# An√°lise por Segmento (Top 15 segmentos com mais registros)
print("="*80)
print("üìä AN√ÅLISE POR SEGMENTO (Top 15)")
print("="*80)

# Top 15 segmentos
top_segmentos = df['segmento'].value_counts().head(15).index
df_top_segmentos = df[df['segmento'].isin(top_segmentos)]

# Taxa de absentismo por segmento
print("\n1Ô∏è‚É£ Taxa de Absentismo por Segmento (Faltas + Atrasos) - Top 15:")
absentismo_segmento = df_top_segmentos[df_top_segmentos['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada', 'Atraso'])].groupby('segmento').size()
total_segmento = df_top_segmentos.groupby('segmento').size()
taxa_segmento = (absentismo_segmento / total_segmento * 100).sort_values(ascending=False)

for seg, taxa in taxa_segmento.head(15).items():
    print(f"   {seg}: {taxa:.2f}%")

# Visualiza√ß√£o
fig, ax = plt.subplots(figsize=(14, 8))
taxa_segmento.plot(kind='barh', ax=ax, color='teal', edgecolor='black')
ax.set_title('Taxa de Absentismo por Segmento (%) - Top 15', fontsize=14, fontweight='bold')
ax.set_xlabel('Taxa (%)')
ax.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

print("\n" + "="*80)

### 5.3 An√°lise por Categoria Profissional

In [None]:
# An√°lise por Categoria Profissional
print("="*80)
print("üìä AN√ÅLISE POR CATEGORIA PROFISSIONAL")
print("="*80)

# Distribui√ß√£o
print("\n1Ô∏è‚É£ Distribui√ß√£o de Registros por Categoria Profissional:")
dist_categoria = df['categoria_profissional'].value_counts().head(10)
for cat, count in dist_categoria.items():
    pct = count / len(df) * 100
    print(f"   {cat}: {count:,} ({pct:.2f}%)")

# Taxa de absentismo
print("\n2Ô∏è‚É£ Taxa de Absentismo por Categoria Profissional (Top 10):")
top_categorias = df['categoria_profissional'].value_counts().head(10).index
df_top_cat = df[df['categoria_profissional'].isin(top_categorias)]

absentismo_cat = df_top_cat[df_top_cat['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada', 'Atraso'])].groupby('categoria_profissional').size()
total_cat = df_top_cat.groupby('categoria_profissional').size()
taxa_cat = (absentismo_cat / total_cat * 100).sort_values(ascending=False)

for cat, taxa in taxa_cat.items():
    print(f"   {cat}: {taxa:.2f}%")

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(16, 7))

# Gr√°fico 1: Distribui√ß√£o
dist_categoria.plot(kind='barh', ax=axes[0], color='mediumpurple', edgecolor='black')
axes[0].set_title('Top 10 Categorias Profissionais - Volume', fontsize=12, fontweight='bold')
axes[0].set_xlabel('N√∫mero de Registros')
axes[0].grid(axis='x', alpha=0.3)

# Gr√°fico 2: Taxa de absentismo
taxa_cat.plot(kind='barh', ax=axes[1], color='orange', edgecolor='black')
axes[1].set_title('Taxa de Absentismo por Categoria Profissional (%)', fontsize=12, fontweight='bold')
axes[1].set_xlabel('Taxa (%)')
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "="*80)

---

## 6. FASE 4: An√°lise Temporal e Padr√µes de Calend√°rio

### 6.1 Padr√µes Semanais (Dia da Semana)

In [None]:
# An√°lise de padr√µes semanais
print("="*80)
print("üìä PADR√ïES SEMANAIS - DIA DA SEMANA")
print("="*80)

# An√°lise geral por dia da semana
dias_ordem = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']

# Apenas faltas e atrasos
df_faltas_atrasos = df[df['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada', 'Atraso'])]

# Distribui√ß√£o por dia da semana
print("\n1Ô∏è‚É£ Distribui√ß√£o de Faltas e Atrasos por Dia da Semana:")
dist_dia_semana = df_faltas_atrasos['nome_dia_semana'].value_counts().reindex(dias_ordem)
for dia, count in dist_dia_semana.items():
    pct = count / len(df_faltas_atrasos) * 100
    print(f"   {dia}: {count:,} ({pct:.2f}%)")

# Breakdown por categoria
print("\n2Ô∏è‚É£ Breakdown por Categoria:")
breakdown_dia = df_faltas_atrasos.groupby(['nome_dia_semana', 'categoria_absentismo']).size().unstack(fill_value=0).reindex(dias_ordem)
print(breakdown_dia)

# Estat√≠sticas espec√≠ficas: Segunda vs Sexta
seg_total = df_faltas_atrasos[df_faltas_atrasos['is_segunda'] == 1].shape[0]
sex_total = df_faltas_atrasos[df_faltas_atrasos['is_sexta'] == 1].shape[0]
outros_dias = len(df_faltas_atrasos) - seg_total - sex_total

print(f"\n3Ô∏è‚É£ Compara√ß√£o Segunda vs Sexta:")
print(f"   Segundas-feiras: {seg_total:,} ({seg_total/len(df_faltas_atrasos)*100:.2f}%)")
print(f"   Sextas-feiras: {sex_total:,} ({sex_total/len(df_faltas_atrasos)*100:.2f}%)")
print(f"   Outros dias: {outros_dias:,} ({outros_dias/len(df_faltas_atrasos)*100:.2f}%)")

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Distribui√ß√£o total por dia
dist_dia_semana.plot(kind='bar', ax=axes[0], color='skyblue', edgecolor='black')
axes[0].set_title('Distribui√ß√£o de Faltas e Atrasos por Dia da Semana', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Dia da Semana')
axes[0].set_ylabel('N√∫mero de Registros')
axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=45, ha='right')
axes[0].grid(axis='y', alpha=0.3)

# Gr√°fico 2: Breakdown empilhado
breakdown_dia.plot(kind='bar', stacked=True, ax=axes[1], 
                   color=['#2ecc71', '#e74c3c', '#f39c12'])
axes[1].set_title('Breakdown por Tipo de Aus√™ncia por Dia da Semana', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Dia da Semana')
axes[1].set_ylabel('N√∫mero de Registros')
axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=45, ha='right')
axes[1].legend(title='Tipo')
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "="*80)

### 6.2 Padr√µes Mensais (In√≠cio, Meio, Fim do M√™s)

In [None]:
# An√°lise de padr√µes mensais
print("="*80)
print("üìä PADR√ïES MENSAIS - IN√çCIO, MEIO, FIM DO M√äS")
print("="*80)

# Criar categorias
def categorizar_periodo_mes(dia):
    if dia <= 7:
        return 'In√≠cio (1-7)'
    elif dia <= 15:
        return 'Meio-In√≠cio (8-15)'
    elif dia <= 22:
        return 'Meio-Fim (16-22)'
    else:
        return 'Fim (23+)'

df_faltas_atrasos['periodo_mes'] = df_faltas_atrasos['dia'].apply(categorizar_periodo_mes)

# Distribui√ß√£o por per√≠odo do m√™s
print("\n1Ô∏è‚É£ Distribui√ß√£o de Faltas e Atrasos por Per√≠odo do M√™s:")
dist_periodo = df_faltas_atrasos['periodo_mes'].value_counts().reindex(['In√≠cio (1-7)', 'Meio-In√≠cio (8-15)', 'Meio-Fim (16-22)', 'Fim (23+)'])
for periodo, count in dist_periodo.items():
    pct = count / len(df_faltas_atrasos) * 100
    print(f"   {periodo}: {count:,} ({pct:.2f}%)")

# Breakdown por categoria
print("\n2Ô∏è‚É£ Breakdown por Tipo de Aus√™ncia:")
breakdown_periodo = df_faltas_atrasos.groupby(['periodo_mes', 'categoria_absentismo']).size().unstack(fill_value=0)
breakdown_periodo = breakdown_periodo.reindex(['In√≠cio (1-7)', 'Meio-In√≠cio (8-15)', 'Meio-Fim (16-22)', 'Fim (23+)'])
print(breakdown_periodo)

# Distribui√ß√£o por semana do m√™s
print("\n3Ô∏è‚É£ Distribui√ß√£o por Semana do M√™s (1-5):")
dist_semana_mes = df_faltas_atrasos.groupby(['semana_mes', 'categoria_absentismo']).size().unstack(fill_value=0)
print(dist_semana_mes)

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Por per√≠odo do m√™s
dist_periodo.plot(kind='bar', ax=axes[0], color='lightcoral', edgecolor='black')
axes[0].set_title('Distribui√ß√£o por Per√≠odo do M√™s', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Per√≠odo do M√™s')
axes[0].set_ylabel('N√∫mero de Registros')
axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=45, ha='right')
axes[0].grid(axis='y', alpha=0.3)

# Gr√°fico 2: Por semana do m√™s (empilhado)
dist_semana_mes.plot(kind='bar', stacked=True, ax=axes[1], 
                     color=['#2ecc71', '#e74c3c', '#f39c12'])
axes[1].set_title('Distribui√ß√£o por Semana do M√™s', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Semana do M√™s')
axes[1].set_ylabel('N√∫mero de Registros')
axes[1].legend(title='Tipo', bbox_to_anchor=(1.05, 1), loc='upper left')
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "="*80)

### 6.3 Heatmap: Dia da Semana vs Semana do M√™s

In [None]:
# Heatmap: Dia da Semana vs Semana do M√™s
heatmap_data = df_faltas_atrasos.groupby(['dia_semana', 'semana_mes']).size().unstack(fill_value=0)

# Renomear √≠ndice para nomes dos dias
dias_nomes = {0: 'Segunda', 1: 'Ter√ßa', 2: 'Quarta', 3: 'Quinta', 4: 'Sexta', 5: 'S√°bado', 6: 'Domingo'}
heatmap_data.index = heatmap_data.index.map(dias_nomes)

# Visualiza√ß√£o
fig, ax = plt.subplots(figsize=(10, 6))
sns.heatmap(heatmap_data, annot=True, fmt='d', cmap='YlOrRd', ax=ax, 
            cbar_kws={'label': 'N√∫mero de Registros'})
ax.set_title('Heatmap: Dia da Semana vs Semana do M√™s\n(Faltas e Atrasos)', 
             fontsize=14, fontweight='bold')
ax.set_xlabel('Semana do M√™s')
ax.set_ylabel('Dia da Semana')
plt.tight_layout()
plt.show()

print("üí° Interpreta√ß√£o: C√©lulas mais escuras indicam combina√ß√µes de dia/semana com mais faltas e atrasos")

---

## 7. FASE 5: Detec√ß√£o de Padr√µes de Alerta (APENAS COLABORADORES ATIVOS)

**Nota Importante**: Esta se√ß√£o analisa **apenas colaboradores ativos** para identificar padr√µes que podem indicar comportamentos preocupantes.

### 7.1 Prepara√ß√£o do Dataset de Ativos

In [None]:
# Filtrar apenas colaboradores ativos
df_ativos = df[df['is_ativo'] == 1].copy()

print("="*80)
print("üîç AN√ÅLISE DE PADR√ïES DE ALERTA - COLABORADORES ATIVOS")
print("="*80)

print(f"\nüìä Dataset de Colaboradores Ativos:")
print(f"   Total de registros: {len(df_ativos):,}")
print(f"   Colaboradores √∫nicos ativos: {df_ativos['login_colaborador'].nunique():,}")
print(f"   Per√≠odo: {df_ativos['Data'].min().strftime('%d/%m/%Y')} a {df_ativos['Data'].max().strftime('%d/%m/%Y')}")

# Calcular m√©tricas por colaborador
print("\n‚è≥ Calculando m√©tricas por colaborador...")

### 7.2 C√°lculo de M√©tricas por Colaborador

In [None]:
# Criar agrega√ß√£o por colaborador com m√∫ltiplas m√©tricas
metricas_colaborador = df_ativos.groupby('login_colaborador').agg({
    'nome_colaborador': 'first',
    'operacao': 'first',
    'segmento': 'first',
    'categoria_profissional': 'first',
    'departamento': 'first',
    
    # Totais por tipo
    'is_falta_injustificada': 'sum',
    'is_falta_justificada': 'sum',
    'is_atraso': 'sum',
    'is_trabalho_pago': 'sum',
    
    # Flags espec√≠ficas para padr√µes
    'is_segunda': 'sum',
    'is_sexta': 'sum',
    'is_inicio_mes': 'sum',
    'is_fim_mes': 'sum',
    
    # Total de dias
    'Data': 'count'
}).reset_index()

# Renomear colunas
metricas_colaborador.columns = [
    'login', 'nome', 'operacao', 'segmento', 'categoria_profissional', 'departamento',
    'faltas_injustificadas', 'faltas_justificadas', 'atrasos', 'trabalho_pago',
    'registros_segunda', 'registros_sexta', 'registros_inicio_mes', 'registros_fim_mes',
    'total_registros'
]

# Calcular m√©tricas adicionais por colaborador

# 1. Total de faltas (justificadas + injustificadas)
metricas_colaborador['total_faltas'] = (metricas_colaborador['faltas_justificadas'] + 
                                         metricas_colaborador['faltas_injustificadas'])

# 2. Total de problemas (faltas + atrasos)
metricas_colaborador['total_problemas'] = (metricas_colaborador['total_faltas'] + 
                                            metricas_colaborador['atrasos'])

# 3. Taxa de absentismo (%)
metricas_colaborador['taxa_absentismo'] = (metricas_colaborador['total_problemas'] / 
                                            metricas_colaborador['total_registros'] * 100)

# 4. Calcular % de faltas/atrasos √†s segundas e sextas
# Primeiro, contar quantas segundas/sextas teve cada colaborador
df_ativos_faltas = df_ativos[df_ativos['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada', 'Atraso'])]

# Faltas √†s segundas
faltas_segundas = df_ativos_faltas[df_ativos_faltas['is_segunda'] == 1].groupby('login_colaborador').size()
faltas_sextas = df_ativos_faltas[df_ativos_faltas['is_sexta'] == 1].groupby('login_colaborador').size()

metricas_colaborador['faltas_segundas'] = metricas_colaborador['login'].map(faltas_segundas).fillna(0).astype(int)
metricas_colaborador['faltas_sextas'] = metricas_colaborador['login'].map(faltas_sextas).fillna(0).astype(int)

# % de faltas √†s segundas/sextas em rela√ß√£o ao total de faltas+atrasos
metricas_colaborador['pct_faltas_segundas'] = np.where(
    metricas_colaborador['total_problemas'] > 0,
    metricas_colaborador['faltas_segundas'] / metricas_colaborador['total_problemas'] * 100,
    0
)

metricas_colaborador['pct_faltas_sextas'] = np.where(
    metricas_colaborador['total_problemas'] > 0,
    metricas_colaborador['faltas_sextas'] / metricas_colaborador['total_problemas'] * 100,
    0
)

# 5. Faltas em in√≠cio/fim de m√™s
faltas_inicio_mes = df_ativos_faltas[df_ativos_faltas['is_inicio_mes'] == 1].groupby('login_colaborador').size()
faltas_fim_mes = df_ativos_faltas[df_ativos_faltas['is_fim_mes'] == 1].groupby('login_colaborador').size()

metricas_colaborador['faltas_inicio_mes'] = metricas_colaborador['login'].map(faltas_inicio_mes).fillna(0).astype(int)
metricas_colaborador['faltas_fim_mes'] = metricas_colaborador['login'].map(faltas_fim_mes).fillna(0).astype(int)

# 6. Baixas m√©dicas (c√≥digo BM, BMP)
baixas_medicas = df_ativos[df_ativos['segmento_processado_codigo'].isin(['BM', 'BMP'])].groupby('login_colaborador').size()
metricas_colaborador['baixas_medicas'] = metricas_colaborador['login'].map(baixas_medicas).fillna(0).astype(int)

print(f"‚úÖ M√©tricas calculadas para {len(metricas_colaborador)} colaboradores ativos!")
print(f"\nüìã Exemplo das m√©tricas calculadas:")
metricas_colaborador.head(10)

### 7.3 Padr√£o de Alerta 1: Faltas Injustificadas Recorrentes

In [None]:
# Padr√£o 1: Faltas Injustificadas Recorrentes
print("="*80)
print("üö® PADR√ÉO DE ALERTA 1: FALTAS INJUSTIFICADAS RECORRENTES")
print("="*80)

# Filtrar colaboradores com faltas injustificadas
colaboradores_faltas_inj = metricas_colaborador[metricas_colaborador['faltas_injustificadas'] > 0].copy()
colaboradores_faltas_inj = colaboradores_faltas_inj.sort_values('faltas_injustificadas', ascending=False)

print(f"\nüìä Estat√≠sticas:")
print(f"   Colaboradores com pelo menos 1 falta injustificada: {len(colaboradores_faltas_inj)}")
print(f"   Total de faltas injustificadas: {colaboradores_faltas_inj['faltas_injustificadas'].sum():,}")
print(f"   M√©dia de faltas injustificadas por colaborador: {colaboradores_faltas_inj['faltas_injustificadas'].mean():.2f}")
print(f"   Mediana: {colaboradores_faltas_inj['faltas_injustificadas'].median():.0f}")
print(f"   M√°ximo: {colaboradores_faltas_inj['faltas_injustificadas'].max():.0f}")

# Percentis
p75 = colaboradores_faltas_inj['faltas_injustificadas'].quantile(0.75)
p90 = colaboradores_faltas_inj['faltas_injustificadas'].quantile(0.90)
p95 = colaboradores_faltas_inj['faltas_injustificadas'].quantile(0.95)

print(f"\nüìà Percentis:")
print(f"   75%: {p75:.0f} faltas")
print(f"   90%: {p90:.0f} faltas")
print(f"   95%: {p95:.0f} faltas")

# Top 20 colaboradores com mais faltas injustificadas
print(f"\nüîù Top 20 Colaboradores com Mais Faltas Injustificadas:")
top20_faltas_inj = colaboradores_faltas_inj.head(20)[['login', 'nome', 'operacao', 'segmento', 
                                                        'faltas_injustificadas', 'atrasos', 'taxa_absentismo']]
print(top20_faltas_inj.to_string(index=False))

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Distribui√ß√£o
colaboradores_faltas_inj['faltas_injustificadas'].hist(bins=30, ax=axes[0], 
                                                        color='crimson', edgecolor='black')
axes[0].axvline(p90, color='orange', linestyle='--', linewidth=2, label=f'P90 = {p90:.0f}')
axes[0].set_title('Distribui√ß√£o de Faltas Injustificadas', fontsize=14, fontweight='bold')
axes[0].set_xlabel('N√∫mero de Faltas Injustificadas')
axes[0].set_ylabel('Frequ√™ncia')
axes[0].legend()
axes[0].grid(alpha=0.3)

# Gr√°fico 2: Top 20
top20_faltas_inj_plot = top20_faltas_inj.head(20).sort_values('faltas_injustificadas')
axes[1].barh(range(len(top20_faltas_inj_plot)), top20_faltas_inj_plot['faltas_injustificadas'], 
             color='crimson', edgecolor='black')
axes[1].set_yticks(range(len(top20_faltas_inj_plot)))
axes[1].set_yticklabels(top20_faltas_inj_plot['nome'], fontsize=8)
axes[1].set_xlabel('N√∫mero de Faltas Injustificadas')
axes[1].set_title('Top 20 - Faltas Injustificadas', fontsize=14, fontweight='bold')
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "="*80)

### 7.4 Padr√£o de Alerta 2: Atrasos Cr√≥nicos

In [None]:
# Padr√£o 2: Atrasos Cr√≥nicos
print("="*80)
print("üö® PADR√ÉO DE ALERTA 2: ATRASOS CR√ìNICOS")
print("="*80)

# Filtrar colaboradores com atrasos
colaboradores_atrasos = metricas_colaborador[metricas_colaborador['atrasos'] > 0].copy()
colaboradores_atrasos = colaboradores_atrasos.sort_values('atrasos', ascending=False)

print(f"\nüìä Estat√≠sticas:")
print(f"   Colaboradores com pelo menos 1 atraso: {len(colaboradores_atrasos)}")
print(f"   Total de atrasos: {colaboradores_atrasos['atrasos'].sum():,}")
print(f"   M√©dia de atrasos por colaborador: {colaboradores_atrasos['atrasos'].mean():.2f}")
print(f"   Mediana: {colaboradores_atrasos['atrasos'].median():.0f}")
print(f"   M√°ximo: {colaboradores_atrasos['atrasos'].max():.0f}")

# Percentis
p75_atr = colaboradores_atrasos['atrasos'].quantile(0.75)
p90_atr = colaboradores_atrasos['atrasos'].quantile(0.90)
p95_atr = colaboradores_atrasos['atrasos'].quantile(0.95)

print(f"\nüìà Percentis:")
print(f"   75%: {p75_atr:.0f} atrasos")
print(f"   90%: {p90_atr:.0f} atrasos")
print(f"   95%: {p95_atr:.0f} atrasos")

# Top 20 colaboradores com mais atrasos
print(f"\nüîù Top 20 Colaboradores com Mais Atrasos:")
top20_atrasos = colaboradores_atrasos.head(20)[['login', 'nome', 'operacao', 'segmento', 
                                                  'atrasos', 'faltas_injustificadas', 'taxa_absentismo']]
print(top20_atrasos.to_string(index=False))

# Visualiza√ß√£o
fig, ax = plt.subplots(figsize=(14, 8))
top20_atrasos_plot = top20_atrasos.head(20).sort_values('atrasos')
ax.barh(range(len(top20_atrasos_plot)), top20_atrasos_plot['atrasos'], 
        color='darkorange', edgecolor='black')
ax.set_yticks(range(len(top20_atrasos_plot)))
ax.set_yticklabels(top20_atrasos_plot['nome'], fontsize=9)
ax.set_xlabel('N√∫mero de Atrasos')
ax.set_title('Top 20 Colaboradores com Mais Atrasos', fontsize=14, fontweight='bold')
ax.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

print("\n" + "="*80)

### 7.5 Padr√£o de Alerta 3: Faltas Estrat√©gicas (Segundas/Sextas)

In [None]:
# Padr√£o 3: Faltas Estrat√©gicas (Segundas/Sextas - Extens√£o de Fim de Semana)
print("="*80)
print("üö® PADR√ÉO DE ALERTA 3: FALTAS ESTRAT√âGICAS (SEGUNDAS/SEXTAS)")
print("="*80)

# Filtrar colaboradores com problemas √†s segundas ou sextas
# Consideramos "suspeito" se > 30% das faltas/atrasos s√£o √†s segundas OU sextas
threshold_pct = 30  # 30% ou mais √© considerado padr√£o suspeito

colaboradores_segundas = metricas_colaborador[
    (metricas_colaborador['pct_faltas_segundas'] >= threshold_pct) & 
    (metricas_colaborador['total_problemas'] >= 5)  # Pelo menos 5 problemas para ter amostra significativa
].sort_values('pct_faltas_segundas', ascending=False)

colaboradores_sextas = metricas_colaborador[
    (metricas_colaborador['pct_faltas_sextas'] >= threshold_pct) & 
    (metricas_colaborador['total_problemas'] >= 5)
].sort_values('pct_faltas_sextas', ascending=False)

print(f"\nüìä Estat√≠sticas - Padr√£o Segunda-feira:")
print(f"   Colaboradores com ‚â•{threshold_pct}% de faltas/atrasos √†s segundas: {len(colaboradores_segundas)}")
if len(colaboradores_segundas) > 0:
    print(f"   Percentagem m√©dia de faltas √†s segundas (deste grupo): {colaboradores_segundas['pct_faltas_segundas'].mean():.1f}%")
    print(f"   M√°ximo: {colaboradores_segundas['pct_faltas_segundas'].max():.1f}%")

print(f"\nüìä Estat√≠sticas - Padr√£o Sexta-feira:")
print(f"   Colaboradores com ‚â•{threshold_pct}% de faltas/atrasos √†s sextas: {len(colaboradores_sextas)}")
if len(colaboradores_sextas) > 0:
    print(f"   Percentagem m√©dia de faltas √†s sextas (deste grupo): {colaboradores_sextas['pct_faltas_sextas'].mean():.1f}%")
    print(f"   M√°ximo: {colaboradores_sextas['pct_faltas_sextas'].max():.1f}%")

# Top 20 - Segundas
if len(colaboradores_segundas) > 0:
    print(f"\nüîù Top 20 Colaboradores com Padr√£o 'Segunda-feira':")
    print(f"   (Pelo menos 5 problemas e ‚â•{threshold_pct}% √†s segundas)")
    top20_segundas = colaboradores_segundas.head(20)[['login', 'nome', 'operacao', 
                                                        'faltas_segundas', 'total_problemas', 
                                                        'pct_faltas_segundas']]
    print(top20_segundas.to_string(index=False))

# Top 20 - Sextas
if len(colaboradores_sextas) > 0:
    print(f"\nüîù Top 20 Colaboradores com Padr√£o 'Sexta-feira':")
    print(f"   (Pelo menos 5 problemas e ‚â•{threshold_pct}% √†s sextas)")
    top20_sextas = colaboradores_sextas.head(20)[['login', 'nome', 'operacao', 
                                                    'faltas_sextas', 'total_problemas', 
                                                    'pct_faltas_sextas']]
    print(top20_sextas.to_string(index=False))

# Visualiza√ß√£o
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Scatter plot: % faltas segundas vs % faltas sextas
scatter_data = metricas_colaborador[metricas_colaborador['total_problemas'] >= 5]
axes[0].scatter(scatter_data['pct_faltas_segundas'], scatter_data['pct_faltas_sextas'], 
                alpha=0.5, color='purple')
axes[0].axhline(threshold_pct, color='red', linestyle='--', linewidth=1, label=f'Threshold {threshold_pct}%')
axes[0].axvline(threshold_pct, color='red', linestyle='--', linewidth=1)
axes[0].set_xlabel('% Faltas √†s Segundas')
axes[0].set_ylabel('% Faltas √†s Sextas')
axes[0].set_title('Padr√£o Segunda vs Sexta\n(colaboradores com ‚â•5 problemas)', fontsize=12, fontweight='bold')
axes[0].legend()
axes[0].grid(alpha=0.3)

# Distribui√ß√£o de % de faltas √†s segundas
if len(colaboradores_segundas) > 0:
    colaboradores_segundas['pct_faltas_segundas'].hist(bins=20, ax=axes[1], 
                                                        color='steelblue', edgecolor='black')
    axes[1].set_xlabel('% Faltas √†s Segundas')
    axes[1].set_ylabel('Frequ√™ncia')
    axes[1].set_title('Distribui√ß√£o % Faltas √†s Segundas\n(apenas colaboradores com ‚â•30%)', 
                      fontsize=12, fontweight='bold')
    axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "="*80)

### 7.6 Padr√£o de Alerta 4: Baixas M√©dicas Frequentes

In [None]:
# Padr√£o 4: Baixas M√©dicas Frequentes
print("="*80)
print("üö® PADR√ÉO DE ALERTA 4: BAIXAS M√âDICAS FREQUENTES")
print("="*80)

# Filtrar colaboradores com baixas m√©dicas
colaboradores_baixas = metricas_colaborador[metricas_colaborador['baixas_medicas'] > 0].copy()
colaboradores_baixas = colaboradores_baixas.sort_values('baixas_medicas', ascending=False)

print(f"\nüìä Estat√≠sticas:")
print(f"   Colaboradores com pelo menos 1 baixa m√©dica: {len(colaboradores_baixas)}")
print(f"   Total de dias de baixa m√©dica: {colaboradores_baixas['baixas_medicas'].sum():,}")
print(f"   M√©dia por colaborador (com baixa): {colaboradores_baixas['baixas_medicas'].mean():.2f}")
print(f"   Mediana: {colaboradores_baixas['baixas_medicas'].median():.0f}")
print(f"   M√°ximo: {colaboradores_baixas['baixas_medicas'].max():.0f}")

# Percentis
p90_bx = colaboradores_baixas['baixas_medicas'].quantile(0.90)
p95_bx = colaboradores_baixas['baixas_medicas'].quantile(0.95)

print(f"\nüìà Percentis:")
print(f"   90%: {p90_bx:.0f} dias")
print(f"   95%: {p95_bx:.0f} dias")

# Top 20
print(f"\nüîù Top 20 Colaboradores com Mais Baixas M√©dicas:")
top20_baixas = colaboradores_baixas.head(20)[['login', 'nome', 'operacao', 'segmento', 
                                                'baixas_medicas', 'faltas_injustificadas', 
                                                'atrasos']]
print(top20_baixas.to_string(index=False))

# Visualiza√ß√£o
fig, ax = plt.subplots(figsize=(14, 8))
top20_baixas_plot = top20_baixas.head(20).sort_values('baixas_medicas')
ax.barh(range(len(top20_baixas_plot)), top20_baixas_plot['baixas_medicas'], 
        color='teal', edgecolor='black')
ax.set_yticks(range(len(top20_baixas_plot)))
ax.set_yticklabels(top20_baixas_plot['nome'], fontsize=9)
ax.set_xlabel('N√∫mero de Dias em Baixa M√©dica')
ax.set_title('Top 20 Colaboradores com Mais Baixas M√©dicas', fontsize=14, fontweight='bold')
ax.grid(axis='x', alpha=0.3)
plt.tight_layout()
plt.show()

print("\n" + "="*80)

### 7.7 Resumo Final: Tabela Consolidada de Colaboradores de Aten√ß√£o

In [None]:
# Tabela Consolidada Final
print("="*80)
print("üìã TABELA CONSOLIDADA - TOP 50 COLABORADORES DE ATEN√á√ÉO")
print("="*80)

# Ordenar por taxa de absentismo global
top50_geral = metricas_colaborador.sort_values('taxa_absentismo', ascending=False).head(50)

# Selecionar colunas relevantes
tabela_final = top50_geral[[
    'login', 'nome', 'operacao', 'segmento', 'categoria_profissional',
    'faltas_injustificadas', 'faltas_justificadas', 'atrasos', 'baixas_medicas',
    'total_problemas', 'taxa_absentismo',
    'pct_faltas_segundas', 'pct_faltas_sextas'
]].copy()

# Arredondar percentagens
tabela_final['taxa_absentismo'] = tabela_final['taxa_absentismo'].round(2)
tabela_final['pct_faltas_segundas'] = tabela_final['pct_faltas_segundas'].round(1)
tabela_final['pct_faltas_sextas'] = tabela_final['pct_faltas_sextas'].round(1)

print("\nüîù Top 50 Colaboradores por Taxa de Absentismo:")
print(tabela_final.to_string(index=False))

# Resumo por opera√ß√£o
print(f"\n\nüìä Distribui√ß√£o dos Top 50 por Opera√ß√£o:")
dist_top50_op = tabela_final['operacao'].value_counts()
for op, count in dist_top50_op.items():
    pct = count / 50 * 100
    print(f"   {op}: {count} colaboradores ({pct:.1f}%)")

# Exportar para CSV (opcional)
# tabela_final.to_csv('top50_colaboradores_atencao.csv', index=False, encoding='utf-8-sig')
# print("\n‚úÖ Tabela exportada para 'top50_colaboradores_atencao.csv'")

print("\n" + "="*80)

---

## 8. Sum√°rio Executivo - Principais Achados

Esta se√ß√£o consolida os principais achados da an√°lise para apresenta√ß√£o √† dire√ß√£o.

In [None]:
print("="*80)
print("üìä SUM√ÅRIO EXECUTIVO - AN√ÅLISE DE ABSENTISMO")
print("="*80)

print(f"\n{'='*80}")
print("1Ô∏è‚É£ VIS√ÉO GERAL")
print(f"{'='*80}")

total_colab = df['login_colaborador'].nunique()
colab_ativos = df[df['is_ativo']==1]['login_colaborador'].nunique()
periodo_dias = (df['Data'].max() - df['Data'].min()).days + 1

print(f"   ‚Ä¢ Per√≠odo analisado: {df['Data'].min().strftime('%d/%m/%Y')} a {df['Data'].max().strftime('%d/%m/%Y')} ({periodo_dias} dias)")
print(f"   ‚Ä¢ Total de colaboradores: {total_colab:,}")
print(f"   ‚Ä¢ Colaboradores ativos: {colab_ativos:,} ({colab_ativos/total_colab*100:.1f}%)")
print(f"   ‚Ä¢ Total de registros analisados: {len(df):,}")

print(f"\n{'='*80}")
print("2Ô∏è‚É£ DISTRIBUI√á√ÉO GERAL DE ABSENTISMO")
print(f"{'='*80}")

# Recalcular estat√≠sticas principais
total_reg = len(df)
trabalho_pago = df['is_trabalho_pago'].sum()
faltas_just = df['is_falta_justificada'].sum()
faltas_inj = df['is_falta_injustificada'].sum()
atrasos_tot = df['is_atraso'].sum()
nao_contado = df['is_ausencia_nao_contada'].sum()

print(f"   ‚Ä¢ Trabalho Pago: {trabalho_pago:,} ({trabalho_pago/total_reg*100:.2f}%)")
print(f"   ‚Ä¢ Faltas Justificadas: {faltas_just:,} ({faltas_just/total_reg*100:.2f}%)")
print(f"   ‚Ä¢ Faltas Injustificadas: {faltas_inj:,} ({faltas_inj/total_reg*100:.2f}%)")
print(f"   ‚Ä¢ Atrasos: {atrasos_tot:,} ({atrasos_tot/total_reg*100:.2f}%)")
print(f"   ‚Ä¢ N√£o considerado no absentismo: {nao_contado:,} ({nao_contado/total_reg*100:.2f}%)")

print(f"\n{'='*80}")
print("3Ô∏è‚É£ PADR√ïES TEMPORAIS")
print(f"{'='*80}")

# Recalcular para faltas e atrasos apenas
df_prob = df[df['categoria_absentismo'].isin(['Falta Justificada', 'Falta Injustificada', 'Atraso'])]
total_prob = len(df_prob)

seg_pct = df_prob['is_segunda'].sum() / total_prob * 100
sex_pct = df_prob['is_sexta'].sum() / total_prob * 100
inicio_mes_pct = df_prob['is_inicio_mes'].sum() / total_prob * 100
fim_mes_pct = df_prob['is_fim_mes'].sum() / total_prob * 100

print(f"   ‚Ä¢ Faltas/Atrasos √†s Segundas: {seg_pct:.1f}% do total")
print(f"   ‚Ä¢ Faltas/Atrasos √†s Sextas: {sex_pct:.1f}% do total")
print(f"   ‚Ä¢ Faltas/Atrasos no In√≠cio do M√™s (dias 1-7): {inicio_mes_pct:.1f}%")
print(f"   ‚Ä¢ Faltas/Atrasos no Fim do M√™s (dias 23+): {fim_mes_pct:.1f}%")

print(f"\n{'='*80}")
print("4Ô∏è‚É£ COLABORADORES ATIVOS - ALERTAS")
print(f"{'='*80}")

# Estat√≠sticas dos colaboradores ativos
prob_colab = metricas_colaborador[metricas_colaborador['total_problemas'] > 0]

print(f"   ‚Ä¢ Colaboradores ativos com pelo menos 1 falta/atraso: {len(prob_colab):,}")
print(f"   ‚Ä¢ Com faltas injustificadas: {len(metricas_colaborador[metricas_colaborador['faltas_injustificadas'] > 0]):,}")
print(f"   ‚Ä¢ Com atrasos: {len(metricas_colaborador[metricas_colaborador['atrasos'] > 0]):,}")
print(f"   ‚Ä¢ Com baixas m√©dicas: {len(metricas_colaborador[metricas_colaborador['baixas_medicas'] > 0]):,}")

if len(colaboradores_segundas) > 0:
    print(f"   ‚Ä¢ Com padr√£o 'Segunda-feira' (‚â•30% faltas √†s segundas): {len(colaboradores_segundas):,}")
if len(colaboradores_sextas) > 0:
    print(f"   ‚Ä¢ Com padr√£o 'Sexta-feira' (‚â•30% faltas √†s sextas): {len(colaboradores_sextas):,}")

print(f"\n{'='*80}")
print("5Ô∏è‚É£ TOP 10 COLABORADORES POR TAXA DE ABSENTISMO")
print(f"{'='*80}")

top10_final = metricas_colaborador.sort_values('taxa_absentismo', ascending=False).head(10)[
    ['login', 'nome', 'operacao', 'faltas_injustificadas', 'atrasos', 'taxa_absentismo']
]
print(top10_final.to_string(index=False))

print(f"\n{'='*80}")
print("6Ô∏è‚É£ RECOMENDA√á√ïES")
print(f"{'='*80}")
print("""
   1. Revisar os Top 50 colaboradores identificados na tabela consolidada
   2. Investigar colaboradores com padr√µes de faltas √†s segundas/sextas (poss√≠vel extens√£o de FDS)
   3. Analisar individualmente casos com >10 faltas injustificadas
   4. Monitorizar colaboradores com alta frequ√™ncia de baixas m√©dicas curtas
   5. Implementar sistema de alertas autom√°tico para padr√µes recorrentes
   6. Realizar reuni√µes individuais com colaboradores de risco alto
""")

print("="*80)
print("‚úÖ AN√ÅLISE CONCLU√çDA")
print("="*80)