# An√°lise Explorat√≥ria: Incompatibilidades nos Dados

**Objetivo**: Identificar todos os casos de incompatibilidades nos dados de absentismo para discuss√£o com RH.

**Abordagem**: Trabalhar ao n√≠vel dos **c√≥digos originais** (n√£o n√≠veis agregados) para evitar mascarar ou criar incompatibilidades artificiais.

## Metodologia:

1. **Criar Matriz de Compatibilidade**: Matriz 40x40 com todos os pares de c√≥digos
2. **Definir Regras Manualmente**: Exportar matriz para Excel e preencher "Compat√≠vel" ou "Incompat√≠vel"
3. **Testar Incompatibilidades**: Usar matriz para identificar todos os casos reais no dataset
4. **Exportar Resultados**: Excel com detalhes (Data, Login, Nome, C√≥digos) para discuss√£o com RH

---

## 1. Carregamento de Dados

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Carregar c√≥digos (mesma estrutura do notebook de apresenta√ß√£o)
print('Carregando c√≥digos...')
codigos = pd.read_excel('c√≥digos.xlsx', engine='openpyxl')
codigos.columns = ['codigo', 'descricao', 'nivel_1', 'nivel_2', 'nivel_3', 'nivel_4']

# Limpar espa√ßos
for col in codigos.columns:
    if codigos[col].dtype == 'object':
        codigos[col] = codigos[col].str.strip()

print(f'‚úÖ C√≥digos carregados: {len(codigos)} c√≥digos')
print(f'   N√≠veis: N1={codigos["nivel_1"].nunique()}, N2={codigos["nivel_2"].nunique()}, N3={codigos["nivel_3"].nunique()}, N4={codigos["nivel_4"].nunique()}')

# Carregar dataset
print('\nCarregando dataset...')
df_raw = pd.read_csv('combined_data.csv', sep=',', parse_dates=['Data'])

# Merge com c√≥digos para ter todos os n√≠veis
df_raw = df_raw.merge(
    codigos[['codigo', 'nivel_1', 'nivel_2', 'nivel_3', 'nivel_4']], 
    left_on='segmento_processado_codigo', 
    right_on='codigo', 
    how='left'
)
df_raw.drop('codigo', axis=1, inplace=True)

print(f'\n‚úÖ Dataset carregado: {len(df_raw):,} registros')
print(f'   Per√≠odo: {df_raw["Data"].min().strftime("%Y-%m-%d")} a {df_raw["Data"].max().strftime("%Y-%m-%d")}')
print(f'   Colaboradores √∫nicos: {df_raw["login_colaborador"].nunique():,}')
print(f'   Colunas com n√≠veis: {[c for c in df_raw.columns if "nivel" in c]}')

---

## 2. Cria√ß√£o da Matriz de Compatibilidade entre C√≥digos

In [None]:
# Obter lista de todos os c√≥digos √∫nicos
lista_codigos = sorted(codigos['codigo'].unique())
n_codigos = len(lista_codigos)

print('='*90)
print('üìã CRIA√á√ÉO DA MATRIZ DE COMPATIBILIDADE')
print('='*90)
print(f'\nTotal de c√≥digos: {n_codigos}')
print(f'Tamanho da matriz: {n_codigos}x{n_codigos} = {n_codigos*n_codigos:,} combina√ß√µes')
print(f'\nüîç C√≥digos encontrados:')
for i, codigo in enumerate(lista_codigos, 1):
    descricao = codigos[codigos['codigo'] == codigo]['descricao'].values[0]
    print(f'   {i:2d}. {codigo:15s} - {descricao}')

# Criar matriz de compatibilidade (DataFrame)
# Por padr√£o, inicializar tudo como "Compat√≠vel"
# O utilizador depois edita no Excel para marcar "Incompat√≠vel"
matriz_compat = pd.DataFrame(
    'Compat√≠vel',  # Valor padr√£o
    index=lista_codigos,
    columns=lista_codigos
)

# REGRA: Um c√≥digo consigo mesmo √© sempre compat√≠vel (diagonal)
for codigo in lista_codigos:
    matriz_compat.loc[codigo, codigo] = 'Compat√≠vel'

print(f'\n‚úÖ Matriz criada com valores padr√£o: "Compat√≠vel"')
print(f'\nüí° Pr√≥ximo passo: Exportar para Excel e editar manualmente as incompatibilidades')
print(f'   Dica: A matriz √© sim√©trica - se A √© incompat√≠vel com B, ent√£o B √© incompat√≠vel com A')

---

## 3. Exporta√ß√£o da Matriz para Excel

In [None]:
# Exportar matriz para Excel
output_matriz = 'matriz_compatibilidade_codigos.xlsx'

with pd.ExcelWriter(output_matriz, engine='openpyxl') as writer:
    # Exportar matriz
    matriz_compat.to_excel(writer, sheet_name='Matriz_Compatibilidade', index=True)
    
    # Criar folha de refer√™ncia com descri√ß√µes dos c√≥digos
    df_ref = codigos[['codigo', 'descricao', 'nivel_1', 'nivel_2', 'nivel_3', 'nivel_4']].copy()
    df_ref = df_ref.sort_values('codigo')
    df_ref.to_excel(writer, sheet_name='Refer√™ncia_C√≥digos', index=False)
    
    # Criar folha de instru√ß√µes
    instrucoes = pd.DataFrame({
        'Instru√ß√µes': [
            '1. Na folha "Matriz_Compatibilidade", cada c√©lula representa um par de c√≥digos',
            '2. Valores poss√≠veis: "Compat√≠vel" ou "Incompat√≠vel"',
            '3. Por padr√£o, todos os pares est√£o marcados como "Compat√≠vel"',
            '4. Editar c√©lulas para marcar "Incompat√≠vel" onde apropriado',
            '',
            'EXEMPLOS DE INCOMPATIBILIDADES:',
            '- F√©rias + Falta Injustificada = Incompat√≠vel',
            '- Presen√ßa + Aus√™ncia = Incompat√≠vel',
            '- Baixa M√©dica + Trabalho Pago = Incompat√≠vel',
            '',
            'REGRAS:',
            '- A matriz √© SIM√âTRICA: se A √© incompat√≠vel com B, ent√£o B √© incompat√≠vel com A',
            '- Um c√≥digo consigo mesmo √© sempre Compat√≠vel (diagonal)',
            '',
            '5. Ap√≥s editar, guardar ficheiro',
            '6. Executar pr√≥xima sec√ß√£o do notebook para testar incompatibilidades',
            '',
            'NOTA: Use a folha "Refer√™ncia_C√≥digos" para consultar descri√ß√µes'
        ]
    })
    instrucoes.to_excel(writer, sheet_name='INSTRU√á√ïES', index=False)

print(f'‚úÖ Matriz exportada: {output_matriz}')
print(f'\nüìã Folhas criadas:')
print(f'   1. INSTRU√á√ïES: Como preencher a matriz')
print(f'   2. Matriz_Compatibilidade: Matriz {n_codigos}x{n_codigos} para editar')
print(f'   3. Refer√™ncia_C√≥digos: Lista de c√≥digos com descri√ß√µes')
print(f'\nüéØ PR√ìXIMO PASSO:')
print(f'   1. Abrir ficheiro: {output_matriz}')
print(f'   2. Editar folha "Matriz_Compatibilidade"')
print(f'   3. Marcar "Incompat√≠vel" onde apropriado')
print(f'   4. Guardar ficheiro')
print(f'   5. Executar sec√ß√£o 4 deste notebook')
print(f'\n‚ö†Ô∏è  IMPORTANTE: N√£o mudar o nome do ficheiro nem das folhas!')

---

## 4. Teste de Incompatibilidades (executar AP√ìS editar a matriz)

**‚ö†Ô∏è ATEN√á√ÉO**: S√≥ executar esta sec√ß√£o DEPOIS de editar e guardar `matriz_compatibilidade_codigos.xlsx`

In [None]:
# Carregar matriz editada
print('Carregando matriz de compatibilidade editada...')
matriz_editada = pd.read_excel(
    'matriz_compatibilidade_codigos.xlsx',
    sheet_name='Matriz_Compatibilidade',
    index_col=0
)

# Contar incompatibilidades definidas
total_incompativeis = (matriz_editada == 'Incompat√≠vel').sum().sum()
# Dividir por 2 porque matriz √© sim√©trica
total_incompativeis_unicos = total_incompativeis // 2

print(f'‚úÖ Matriz carregada')
print(f'   Tamanho: {matriz_editada.shape[0]}x{matriz_editada.shape[1]}')
print(f'   Pares marcados como "Incompat√≠vel": {total_incompativeis} (ou {total_incompativeis_unicos} √∫nicos)')

# Identificar dias com m√∫ltiplos registros
print('\nIdentificando dias com m√∫ltiplos registros...')
registros_por_dia = df_raw.groupby(['login_colaborador', 'Data']).size()
dias_duplicados = registros_por_dia[registros_por_dia > 1]

print(f'‚úÖ Total de dias-colaborador √∫nicos: {len(registros_por_dia):,}')
print(f'   Dias com M√öLTIPLOS registros: {len(dias_duplicados):,} ({len(dias_duplicados)/len(registros_por_dia)*100:.1f}%)')

# Filtrar apenas dias duplicados
dias_dup_list = dias_duplicados.index.tolist()
df_dup = df_raw.set_index(['login_colaborador', 'Data']).loc[dias_dup_list].reset_index()

print(f'   Dataset de dias duplicados: {len(df_dup):,} registros')

### 4.1. Teste de Todas as Incompatibilidades

In [None]:
print('='*90)
print('üö® TESTANDO INCOMPATIBILIDADES')
print('='*90)

# Dicion√°rio para guardar resultados por par de c√≥digos incompat√≠veis
resultados_incompatibilidades = {}

# Iterar por todos os dias duplicados
total_dias_testados = 0
total_incompatibilidades_encontradas = 0

for (login, data), count in dias_duplicados.items():
    total_dias_testados += 1
    
    # Obter c√≥digos deste dia
    registros = df_dup[(df_dup['login_colaborador'] == login) & (df_dup['Data'] == data)]
    codigos_dia = registros['segmento_processado_codigo'].values
    nome = registros['nome_colaborador'].iloc[0]
    
    # Testar todos os pares de c√≥digos
    for i, cod1 in enumerate(codigos_dia):
        for cod2 in codigos_dia[i+1:]:  # Evitar duplicatas e compara√ß√£o consigo mesmo
            # Verificar na matriz se s√£o incompat√≠veis
            if cod1 in matriz_editada.index and cod2 in matriz_editada.columns:
                compatibilidade = matriz_editada.loc[cod1, cod2]
                
                if compatibilidade == 'Incompat√≠vel':
                    total_incompatibilidades_encontradas += 1
                    
                    # Criar chave √∫nica para este par (ordenado alfabeticamente)
                    par = tuple(sorted([cod1, cod2]))
                    
                    # Adicionar ao dicion√°rio de resultados
                    if par not in resultados_incompatibilidades:
                        resultados_incompatibilidades[par] = []
                    
                    resultados_incompatibilidades[par].append({
                        'Data': data,
                        'Login': login,
                        'Nome': nome,
                        'Codigo_1': cod1,
                        'Codigo_2': cod2
                    })

print(f'\n‚úÖ Teste conclu√≠do')
print(f'   Dias testados: {total_dias_testados:,}')
print(f'   Incompatibilidades encontradas: {total_incompatibilidades_encontradas:,}')
print(f'   Pares de c√≥digos incompat√≠veis encontrados: {len(resultados_incompatibilidades)}')

# Mostrar resumo dos pares incompat√≠veis encontrados
if len(resultados_incompatibilidades) > 0:
    print(f'\nüìã RESUMO DOS PARES INCOMPAT√çVEIS ENCONTRADOS:')
    for par, casos in sorted(resultados_incompatibilidades.items(), key=lambda x: len(x[1]), reverse=True):
        cod1, cod2 = par
        desc1 = codigos[codigos['codigo'] == cod1]['descricao'].values[0]
        desc2 = codigos[codigos['codigo'] == cod2]['descricao'].values[0]
        print(f'\n   üî¥ {cod1} + {cod2}: {len(casos)} casos')
        print(f'      {desc1}')
        print(f'      {desc2}')
else:
    print(f'\n‚úÖ Nenhuma incompatibilidade encontrada nos dados!')

---

## 5. Exporta√ß√£o dos Resultados

In [None]:
if len(resultados_incompatibilidades) == 0:
    print('‚ö†Ô∏è Nenhuma incompatibilidade encontrada. Nada para exportar.')
else:
    # Criar Excel com uma folha por par de c√≥digos incompat√≠veis
    output_file = 'incompatibilidades_encontradas.xlsx'
    
    with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
        # Criar folha de resumo
        resumo_data = []
        for par, casos in sorted(resultados_incompatibilidades.items(), key=lambda x: len(x[1]), reverse=True):
            cod1, cod2 = par
            desc1 = codigos[codigos['codigo'] == cod1]['descricao'].values[0]
            desc2 = codigos[codigos['codigo'] == cod2]['descricao'].values[0]
            resumo_data.append({
                'C√≥digo 1': cod1,
                'Descri√ß√£o 1': desc1,
                'C√≥digo 2': cod2,
                'Descri√ß√£o 2': desc2,
                'Casos': len(casos),
                'Folha': f'{cod1}+{cod2}'
            })
        
        df_resumo = pd.DataFrame(resumo_data)
        df_resumo.to_excel(writer, sheet_name='RESUMO', index=False)
        
        # Criar uma folha por par incompat√≠vel
        for par, casos in resultados_incompatibilidades.items():
            cod1, cod2 = par
            
            # Criar DataFrame com os casos
            df_casos = pd.DataFrame(casos)
            
            # Adicionar descri√ß√µes dos c√≥digos
            desc1 = codigos[codigos['codigo'] == cod1]['descricao'].values[0]
            desc2 = codigos[codigos['codigo'] == cod2]['descricao'].values[0]
            df_casos['Descri√ß√£o_1'] = desc1
            df_casos['Descri√ß√£o_2'] = desc2
            
            # Reordenar colunas
            df_casos = df_casos[['Data', 'Login', 'Nome', 'Codigo_1', 'Descri√ß√£o_1', 'Codigo_2', 'Descri√ß√£o_2']]
            
            # Nome da folha (m√°ximo 31 caracteres)
            sheet_name = f'{cod1}+{cod2}'[:31]
            
            df_casos.to_excel(writer, sheet_name=sheet_name, index=False)
    
    print(f'‚úÖ Resultados exportados: {output_file}')
    print(f'\nüìã Estrutura do ficheiro:')
    print(f'   - Folha RESUMO: {len(resultados_incompatibilidades)} pares incompat√≠veis')
    print(f'   - {len(resultados_incompatibilidades)} folhas com detalhes de cada par')
    print(f'\nüìä Total de casos: {total_incompatibilidades_encontradas:,}')
    print(f'\nüéØ Pr√≥ximo passo: Analisar com RH e decidir a√ß√£o para cada tipo de incompatibilidade')

---

## Resumo do Processo

### Workflow Completo:

1. ‚úÖ **Carregamento de Dados**: C√≥digos e dataset
2. ‚úÖ **Cria√ß√£o da Matriz**: Matriz 40x40 com todos os pares de c√≥digos
3. ‚úÖ **Exporta√ß√£o da Matriz**: `matriz_compatibilidade_codigos.xlsx`
4. üìù **Edi√ß√£o Manual**: Marcar pares "Incompat√≠veis" no Excel
5. üîç **Teste de Incompatibilidades**: Identificar todos os casos reais nos dados
6. üìä **Exporta√ß√£o de Resultados**: `incompatibilidades_encontradas.xlsx`

### Vantagens desta Abordagem:

- ‚úÖ **Trabalha ao n√≠vel dos c√≥digos originais** (n√£o agregados)
- ‚úÖ **Evita incompatibilidades artificiais** causadas pela agrega√ß√£o em n√≠veis
- ‚úÖ **Flex√≠vel**: F√°cil adicionar/remover regras editando a matriz
- ‚úÖ **Audit√°vel**: Matriz expl√≠cita de todas as regras de compatibilidade
- ‚úÖ **Reutiliz√°vel**: Matriz pode ser usada em an√°lises futuras