# An√°lise Explorat√≥ria: Incompatibilidades nos Dados

**Objetivo**: Identificar todos os casos de incompatibilidades nos dados de absentismo para discuss√£o com RH.

Este notebook analisa incompatibilidades em todos os n√≠veis da hierarquia de c√≥digos:
- **N√≠vel 1**: Presen√ßa vs Aus√™ncia no mesmo dia
- **N√≠vel 2**: Categorias incompat√≠veis (ex: Presen√ßa + Aus√™ncia Justificada)
- **N√≠vel 3**: Subcategorias incompat√≠veis (ex: F√©rias + Trabalho)
- **N√≠vel 4**: Detalhes incompat√≠veis

**Output**: Excel com uma folha por tipo de incompatibilidade, contendo:
- Data
- Login do colaborador
- Nome do colaborador
- C√≥digo(s) em conflito

---

## 1. Carregamento de Dados

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Carregar c√≥digos (mesma estrutura do notebook de apresenta√ß√£o)
print('Carregando c√≥digos...')
codigos = pd.read_excel('c√≥digos.xlsx', engine='openpyxl')
codigos.columns = ['codigo', 'descricao', 'nivel_1', 'nivel_2', 'nivel_3', 'nivel_4']

# Limpar espa√ßos
for col in codigos.columns:
    if codigos[col].dtype == 'object':
        codigos[col] = codigos[col].str.strip()

print(f'‚úÖ C√≥digos carregados: {len(codigos)} c√≥digos')
print(f'   N√≠veis: N1={codigos["nivel_1"].nunique()}, N2={codigos["nivel_2"].nunique()}, N3={codigos["nivel_3"].nunique()}, N4={codigos["nivel_4"].nunique()}')

# Carregar dataset
print('\nCarregando dataset...')
df_raw = pd.read_csv('combined_data.csv', sep=',', parse_dates=['Data'])

# Merge com c√≥digos para ter todos os n√≠veis
df_raw = df_raw.merge(
    codigos[['codigo', 'nivel_1', 'nivel_2', 'nivel_3', 'nivel_4']], 
    left_on='segmento_processado_codigo', 
    right_on='codigo', 
    how='left'
)
df_raw.drop('codigo', axis=1, inplace=True)

print(f'\n‚úÖ Dataset carregado: {len(df_raw):,} registros')
print(f'   Per√≠odo: {df_raw["Data"].min().strftime("%Y-%m-%d")} a {df_raw["Data"].max().strftime("%Y-%m-%d")}')
print(f'   Colaboradores √∫nicos: {df_raw["login_colaborador"].nunique():,}')
print(f'   Colunas com n√≠veis: {[c for c in df_raw.columns if "nivel" in c]}')

---

## 2. Identifica√ß√£o de Dias com M√∫ltiplos Registros

In [None]:
# Identificar dias com m√∫ltiplos registros
registros_por_dia = df_raw.groupby(['login_colaborador', 'Data']).size()
dias_duplicados = registros_por_dia[registros_por_dia > 1]

print('='*90)
print('üìä DIAS COM M√öLTIPLOS REGISTROS')
print('='*90)
print(f'\nTotal de dias-colaborador √∫nicos: {len(registros_por_dia):,}')
print(f'Dias com M√öLTIPLOS registros: {len(dias_duplicados):,} ({len(dias_duplicados)/len(registros_por_dia)*100:.1f}%)')
print(f'\nDistribui√ß√£o:')
print(f'   1 registro:  {(registros_por_dia == 1).sum():,} dias')
print(f'   2 registros: {(registros_por_dia == 2).sum():,} dias')
print(f'   3 registros: {(registros_por_dia == 3).sum():,} dias')
print(f'   4+ registros: {(registros_por_dia >= 4).sum():,} dias')

# Filtrar apenas dias duplicados
dias_dup_list = dias_duplicados.index.tolist()
df_dup = df_raw.set_index(['login_colaborador', 'Data']).loc[dias_dup_list].reset_index()

print(f'\n‚úÖ Dataset de dias duplicados criado: {len(df_dup):,} registros')

---

## 3. An√°lise de Incompatibilidades por N√≠vel

### 3.1. N√≠vel 1: Presen√ßa vs Aus√™ncia

In [None]:
print('='*90)
print('üö® N√çVEL 1: Presen√ßa E Aus√™ncia no mesmo dia')
print('='*90)

# Identificar dias onde h√° Presen√ßa E Aus√™ncia
conflitos_n1 = df_dup.groupby(['login_colaborador', 'Data'])['nivel_1'].apply(
    lambda x: x.nunique() > 1
)
dias_conflito_n1 = conflitos_n1[conflitos_n1].index.tolist()

# Criar DataFrame com detalhes
df_conflito_n1 = df_dup.set_index(['login_colaborador', 'Data']).loc[dias_conflito_n1].reset_index()

# Para cada dia conflituoso, criar uma linha com todos os c√≥digos
df_n1_export = df_conflito_n1.groupby(['Data', 'login_colaborador', 'nome_colaborador']).agg({
    'segmento_processado_codigo': lambda x: ', '.join(sorted(set(x))),
    'nivel_1': lambda x: ' + '.join(sorted(set(x)))
}).reset_index()

df_n1_export.columns = ['Data', 'Login', 'Nome', 'C√≥digos', 'Conflito']
df_n1_export = df_n1_export.sort_values(['Data', 'Login'])

print(f'\n‚ùå Dias com Presen√ßa E Aus√™ncia: {len(dias_conflito_n1):,}')
print(f'   Registros afetados: {len(df_conflito_n1):,}')
print(f'   Colaboradores afetados: {df_conflito_n1["login_colaborador"].nunique():,}')
print(f'\nüìã Exemplos:')
print(df_n1_export.head(5).to_string(index=False))
print(f'\n‚úÖ DataFrame criado: {len(df_n1_export)} linhas para exportar')

### 3.2. N√≠vel 2: Categorias Incompat√≠veis

In [None]:
print('='*90)
print('üö® N√çVEL 2: Categorias Incompat√≠veis')
print('='*90)

# Definir combina√ß√µes proibidas
combinacoes_proibidas_n2 = [
    ('Presen√ßa', 'Aus√™ncia Justificada'),
    ('Presen√ßa', 'Aus√™ncia Injustificada'),
    ('Presen√ßa', 'Inatividade'),
    ('Aus√™ncia Justificada', 'Aus√™ncia Injustificada'),
]

resultados_n2 = {}

for combo in combinacoes_proibidas_n2:
    # Encontrar dias com esta combina√ß√£o
    conflitos = df_dup.groupby(['login_colaborador', 'Data'])['nivel_2'].apply(
        lambda x: set(combo).issubset(set(x))
    )
    dias_conflito = conflitos[conflitos].index.tolist()
    
    if len(dias_conflito) > 0:
        df_conflito = df_dup.set_index(['login_colaborador', 'Data']).loc[dias_conflito].reset_index()
        
        # Criar DataFrame para exportar
        df_export = df_conflito.groupby(['Data', 'login_colaborador', 'nome_colaborador']).agg({
            'segmento_processado_codigo': lambda x: ', '.join(sorted(set(x))),
            'nivel_2': lambda x: ' + '.join(sorted(set(x)))
        }).reset_index()
        
        df_export.columns = ['Data', 'Login', 'Nome', 'C√≥digos', 'Conflito']
        df_export = df_export.sort_values(['Data', 'Login'])
        
        nome_regra = f'{combo[0]} + {combo[1]}'
        resultados_n2[nome_regra] = df_export
        
        print(f'\n‚ùå {nome_regra}: {len(dias_conflito)} dias, {len(df_export)} casos')
        print(f'   Exemplos: {df_export.head(2).to_string(index=False)}')

print(f'\n‚úÖ {len(resultados_n2)} tipos de conflitos encontrados no N√≠vel 2')

### 3.3. N√≠vel 3: Subcategorias Incompat√≠veis

In [None]:
print('='*90)
print('üö® N√çVEL 3: Subcategorias Incompat√≠veis')
print('='*90)

# Combina√ß√µes proibidas no n√≠vel 3
combinacoes_proibidas_n3 = [
    ('Ferias / Feriado / Folga', 'Presen√ßa'),
    ('Ferias / Feriado / Folga', 'Atraso / Sa√≠da Antecipada'),
    ('Doen√ßa', 'Presen√ßa'),
    ('Maternidade / Paternidade', 'Presen√ßa'),
    ('Forma√ß√£o', 'Aus√™ncia Injustificada'),
]

resultados_n3 = {}

for combo in combinacoes_proibidas_n3:
    conflitos = df_dup.groupby(['login_colaborador', 'Data'])['nivel_3'].apply(
        lambda x: set(combo).issubset(set(x))
    )
    dias_conflito = conflitos[conflitos].index.tolist()
    
    if len(dias_conflito) > 0:
        df_conflito = df_dup.set_index(['login_colaborador', 'Data']).loc[dias_conflito].reset_index()
        
        df_export = df_conflito.groupby(['Data', 'login_colaborador', 'nome_colaborador']).agg({
            'segmento_processado_codigo': lambda x: ', '.join(sorted(set(x))),
            'nivel_3': lambda x: ' + '.join(sorted(set(x)))
        }).reset_index()
        
        df_export.columns = ['Data', 'Login', 'Nome', 'C√≥digos', 'Conflito']
        df_export = df_export.sort_values(['Data', 'Login'])
        
        nome_regra = f'{combo[0]} + {combo[1]}'
        resultados_n3[nome_regra] = df_export
        
        print(f'\n‚ùå {nome_regra}: {len(dias_conflito)} dias, {len(df_export)} casos')
        print(f'   Exemplos: {df_export.head(2).to_string(index=False)}')

print(f'\n‚úÖ {len(resultados_n3)} tipos de conflitos encontrados no N√≠vel 3')

### 3.4. N√≠vel 4: Detalhes Incompat√≠veis

In [None]:
print('='*90)
print('üö® N√çVEL 4: Detalhes Incompat√≠veis')
print('='*90)

# Combina√ß√µes proibidas no n√≠vel 4
combinacoes_proibidas_n4 = [
    ('Atraso', 'Aus√™ncia Injustificada'),
    ('Sa√≠da Antecipada', 'Aus√™ncia Injustificada'),
    ('F√©rias', 'Falta Injustificada'),
    ('Feriado', 'Falta Injustificada'),
    ('Baixa M√©dica', 'Presen√ßa Completa'),
]

resultados_n4 = {}

for combo in combinacoes_proibidas_n4:
    conflitos = df_dup.groupby(['login_colaborador', 'Data'])['nivel_4'].apply(
        lambda x: set(combo).issubset(set(x))
    )
    dias_conflito = conflitos[conflitos].index.tolist()
    
    if len(dias_conflito) > 0:
        df_conflito = df_dup.set_index(['login_colaborador', 'Data']).loc[dias_conflito].reset_index()
        
        df_export = df_conflito.groupby(['Data', 'login_colaborador', 'nome_colaborador']).agg({
            'segmento_processado_codigo': lambda x: ', '.join(sorted(set(x))),
            'nivel_4': lambda x: ' + '.join(sorted(set(x)))
        }).reset_index()
        
        df_export.columns = ['Data', 'Login', 'Nome', 'C√≥digos', 'Conflito']
        df_export = df_export.sort_values(['Data', 'Login'])
        
        nome_regra = f'{combo[0]} + {combo[1]}'
        resultados_n4[nome_regra] = df_export
        
        print(f'\n‚ùå {nome_regra}: {len(dias_conflito)} dias, {len(df_export)} casos')
        print(f'   Exemplos: {df_export.head(2).to_string(index=False)}')

print(f'\n‚úÖ {len(resultados_n4)} tipos de conflitos encontrados no N√≠vel 4')

---

## 4. Resumo de Todas as Incompatibilidades

In [None]:
print('='*90)
print('üìä RESUMO GERAL DE INCOMPATIBILIDADES')
print('='*90)

total_casos = len(df_n1_export)
for df_temp in resultados_n2.values():
    total_casos += len(df_temp)
for df_temp in resultados_n3.values():
    total_casos += len(df_temp)
for df_temp in resultados_n4.values():
    total_casos += len(df_temp)

print(f'\nTotal de casos de incompatibilidades encontrados: {total_casos:,}')
print(f'\nDistribui√ß√£o por n√≠vel:')
print(f'   N√≠vel 1 (Presen√ßa/Aus√™ncia):      {len(df_n1_export):,} casos')
print(f'   N√≠vel 2 (Categorias):             {sum(len(df) for df in resultados_n2.values()):,} casos')
print(f'   N√≠vel 3 (Subcategorias):          {sum(len(df) for df in resultados_n3.values()):,} casos')
print(f'   N√≠vel 4 (Detalhes):               {sum(len(df) for df in resultados_n4.values()):,} casos')

print(f'\n{'='*90}')
print('üìÅ Preparando exporta√ß√£o para Excel...')

---

## 5. Exporta√ß√£o para Excel

In [None]:
# Criar arquivo Excel com m√∫ltiplas folhas
output_file = 'incompatibilidades_dados.xlsx'

with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
    # N√≠vel 1
    df_n1_export.to_excel(writer, sheet_name='N1_Presen√ßa+Aus√™ncia', index=False)
    
    # N√≠vel 2
    for i, (nome, df_temp) in enumerate(resultados_n2.items(), 1):
        sheet_name = f'N2_{nome[:25]}'  # Limitar tamanho do nome
        df_temp.to_excel(writer, sheet_name=sheet_name, index=False)
    
    # N√≠vel 3
    for i, (nome, df_temp) in enumerate(resultados_n3.items(), 1):
        sheet_name = f'N3_{nome[:25]}'
        df_temp.to_excel(writer, sheet_name=sheet_name, index=False)
    
    # N√≠vel 4
    for i, (nome, df_temp) in enumerate(resultados_n4.items(), 1):
        sheet_name = f'N4_{nome[:25]}'
        df_temp.to_excel(writer, sheet_name=sheet_name, index=False)
    
    # Criar folha de resumo
    resumo_data = {
        'N√≠vel': [],
        'Tipo de Incompatibilidade': [],
        'Casos': [],
        'Folha': []
    }
    
    resumo_data['N√≠vel'].append('1')
    resumo_data['Tipo de Incompatibilidade'].append('Presen√ßa + Aus√™ncia')
    resumo_data['Casos'].append(len(df_n1_export))
    resumo_data['Folha'].append('N1_Presen√ßa+Aus√™ncia')
    
    for nome, df_temp in resultados_n2.items():
        resumo_data['N√≠vel'].append('2')
        resumo_data['Tipo de Incompatibilidade'].append(nome)
        resumo_data['Casos'].append(len(df_temp))
        resumo_data['Folha'].append(f'N2_{nome[:25]}')
    
    for nome, df_temp in resultados_n3.items():
        resumo_data['N√≠vel'].append('3')
        resumo_data['Tipo de Incompatibilidade'].append(nome)
        resumo_data['Casos'].append(len(df_temp))
        resumo_data['Folha'].append(f'N3_{nome[:25]}')
    
    for nome, df_temp in resultados_n4.items():
        resumo_data['N√≠vel'].append('4')
        resumo_data['Tipo de Incompatibilidade'].append(nome)
        resumo_data['Casos'].append(len(df_temp))
        resumo_data['Folha'].append(f'N4_{nome[:25]}')
    
    df_resumo = pd.DataFrame(resumo_data)
    df_resumo.to_excel(writer, sheet_name='RESUMO', index=False)

print(f'‚úÖ Arquivo criado: {output_file}')
print(f'\nFolhas no Excel:')
print(f'   - RESUMO: Vis√£o geral de todas as incompatibilidades')
print(f'   - N1_*: Incompatibilidades no N√≠vel 1')
print(f'   - N2_*: Incompatibilidades no N√≠vel 2')
print(f'   - N3_*: Incompatibilidades no N√≠vel 3')
print(f'   - N4_*: Incompatibilidades no N√≠vel 4')
print(f'\nüìä Total de folhas: {1 + len(resultados_n2) + len(resultados_n3) + len(resultados_n4) + 1}')
print(f'\nüéØ Pr√≥ximo passo: Analisar com RH e decidir como tratar cada tipo de incompatibilidade')