# 1. Modulos

In [None]:
import os
from pathlib import Path
from datetime import datetime, timedelta
import pandas as pd
import openpyxl

# 2. Rutas 

In [None]:
# Validados
#R_NS = r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\NS\NS validado\all-NS-VAL.txt"
R_NS = r"C:\Users\osmarrincon\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\NS\NS validado\all-NS-VAL.txt"
R_NS_neg = r"C:\Users\osmarrincon\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\NS\NS Negado\all-NS-NEG.txt"
# Glosados
#R_NS = r"C:\Users\crist\OneDrive - 891856000_CAPRESOCA E P S\Capresoca\AlmostClear\Procesos BDUA\Subsidiados\Procesos BDUA EPS\NS\NS Negado\all-NS-NEG.txt"

# 3. Cargue Datafarmes 

In [None]:
df_ns = pd.read_csv(R_NS, sep=',', dtype=str, encoding='latin-1')
df_ns_neg = pd.read_csv(R_NS_neg, sep=',', dtype=str, encoding='latin-1')
# Convertir Fecha_Proceso a datetime y filtrar desde enero 2024
df_ns['Fecha_Proceso'] = pd.to_datetime(df_ns['Fecha_Proceso'], format='%d/%m/%Y')
df_ns = df_ns[df_ns['Fecha_Proceso'] >= '2022-01-01']
df_ns = df_ns.sort_values(by='NOVEDAD', ascending=False)

# 4. Validar
## 4.1. Columnas

In [None]:
df_ns.columns

## 4.2. Numero de registros por novedad

In [None]:
df_ns['NOVEDAD'].value_counts().sort_index()

## 4.3. N14 Actualizaci칩n o cambio de estado de afiliaci칩n

In [None]:
# Filtrar registros donde NOVEDAD es N14
df_n14 = df_ns[df_ns['NOVEDAD'] == 'N14']

# Obtener un registro por cada grupo de COD_1_NOVEDAD
muestra_n14 = df_n14.groupby('COD_1_NOVEDAD').first().reset_index()

print(f"Total de grupos distintos en COD_1_NOVEDAD para N14: {len(muestra_n14)}")
print("\nRegistros de muestra (1 por cada COD_1_NOVEDAD):")
print(muestra_n14)

## 4.4. N17 filtro

In [None]:
# Filtrar registros donde NOVEDAD es N17
df_n17 = df_ns[df_ns['NOVEDAD'] == 'N17']

## 4.5. N21 filtro

In [None]:
# Filtrar registros donde NOVEDAD es N21 y COD_3_NOVEDAD es diferente a '5'
df_n21 = df_ns[(df_ns['NOVEDAD'] == 'N21') & (df_ns['COD_3_NOVEDAD'] != '5')]

# 5. Estadisticas
## 5. novedades totales por a침o 

In [None]:
# Extraer el a침o de Fecha_Proceso y contar registros por a침o
registros_por_a침o = df_ns['Fecha_Proceso'].dt.year.value_counts().sort_index()

# Crear una tabla comparativa
tabla_a침os = pd.DataFrame({
    'A침o': registros_por_a침o.index,
    'Total Registros': registros_por_a침o.values
})

print("Tabla de registros por a침o:")
print(tabla_a침os)
print(f"\nTotal general: {tabla_a침os['Total Registros'].sum():,} registros")

# Crear gr치fica
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.bar(registros_por_a침o.index, registros_por_a침o.values, color='steelblue', edgecolor='black')
plt.xlabel('A침o', fontsize=12)
plt.ylabel('Cantidad de Registros', fontsize=12)
plt.title('Cantidad de Registros Totales por A침o', fontsize=14, fontweight='bold')
plt.xticks(registros_por_a침o.index)
plt.grid(axis='y', alpha=0.3)

# A침adir valores encima de las barras
for a침o, cantidad in zip(registros_por_a침o.index, registros_por_a침o.values):
    plt.text(a침o, cantidad, f'{cantidad:,}', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Configurar estilo general
sns.set_style("whitegrid")
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.sans-serif'] = ['Arial']

# Extraer mes y a침o de Fecha_Proceso
df_ns['Mes'] = df_ns['Fecha_Proceso'].dt.month
df_ns['A침o'] = df_ns['Fecha_Proceso'].dt.year
df_ns['A침o_Mes'] = df_ns['Fecha_Proceso'].dt.to_period('M')

# Crear tabla de registros por mes y a침o
registros_mes_a침o = pd.crosstab(df_ns['Mes'], df_ns['A침o'], margins=True, margins_name='Total')

print("Registros por mes y a침o:")
print(registros_mes_a침o)

# Definir paleta de colores personalizada
colores = ['#2E86AB', '#A23B72', '#F18F01', '#C73E1D']

# Crear gr치fica de l칤neas mejorada
plt.figure(figsize=(16, 8))
ax = plt.gca()

# Graficar cada a침o con estilo mejorado
for idx, a침o in enumerate(sorted(df_ns['A침o'].unique())):
    datos_a침o = df_ns[df_ns['A침o'] == a침o].groupby('Mes').size()
    plt.plot(datos_a침o.index, datos_a침o.values, 
             marker='o', label=f'{a침o}', linewidth=2.5, 
             color=colores[idx % len(colores)], markersize=8,
             markeredgewidth=2, markeredgecolor='white')

plt.xlabel('Mes', fontsize=13, fontweight='bold')
plt.ylabel('Cantidad de Registros', fontsize=13, fontweight='bold')
plt.title('Comportamiento Mensual de Registros por A침o', 
          fontsize=16, fontweight='bold', pad=20)
plt.legend(title='A침o', fontsize=11, title_fontsize=12, 
           frameon=True, shadow=True, fancybox=True)
plt.xticks(range(1, 13), ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 
                          'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic'],
           fontsize=11)
plt.yticks(fontsize=11)
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
plt.grid(True, alpha=0.2, linestyle='--')
plt.tight_layout()
plt.show()

# Crear heatmap mejorado
plt.figure(figsize=(14, 9))

# Preparar datos sin totales para el heatmap
datos_heatmap = registros_mes_a침o.iloc[:-1, :-1]

# Crear heatmap con mejor est칠tica
ax = sns.heatmap(datos_heatmap, annot=True, fmt='d', 
                 cmap='RdYlGn_r', linewidths=0.5, linecolor='white',
                 cbar_kws={'label': 'Cantidad de Registros', 'shrink': 0.8},
                 annot_kws={'size': 11, 'weight': 'bold'},
                 xticklabels=datos_heatmap.columns,
                 yticklabels=['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 
                             'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic'])

plt.xlabel('A침o', fontsize=13, fontweight='bold', labelpad=10)
plt.ylabel('Mes', fontsize=13, fontweight='bold', labelpad=10)
plt.title('Mapa de Calor: Registros por Mes y A침o', 
          fontsize=16, fontweight='bold', pad=20)
plt.xticks(fontsize=11, rotation=0)
plt.yticks(fontsize=11, rotation=0)

# Mejorar colorbar
cbar = ax.collections[0].colorbar
cbar.ax.tick_params(labelsize=10)
cbar.set_label('Cantidad de Registros', fontsize=11, fontweight='bold')

plt.tight_layout()
plt.show()

## Novedades por categorias a침o a a침o

In [None]:
# Crear grupos de novedades basados en el prefijo (N01, N02, etc.)
df_ns['Grupo_Novedad'] = df_ns['NOVEDAD'].str[:3]
df_ns['A침o'] = df_ns['Fecha_Proceso'].dt.year

# Crear tabla comparativa de registros por grupo de novedad y a침o
tabla_comparativa = pd.crosstab(df_ns['Grupo_Novedad'], df_ns['A침o'], margins=True, margins_name='Total')
tabla_comparativa = tabla_comparativa.sort_index()

print("Tabla comparativa de registros por grupo de novedad y a침o:")
print(tabla_comparativa)
print("\n")

# Crear gr치fica de l칤neas para ver la evoluci칩n temporal
import matplotlib.pyplot as plt

# Preparar datos para la gr치fica (sin los totales)
datos_grafica = pd.crosstab(df_ns['Grupo_Novedad'], df_ns['A침o'])

plt.figure(figsize=(14, 8))

# Graficar cada grupo de novedad
for grupo in datos_grafica.index:
    plt.plot(datos_grafica.columns, datos_grafica.loc[grupo], marker='o', label=grupo, linewidth=2)

plt.xlabel('A침o', fontsize=12)
plt.ylabel('Cantidad de Registros', fontsize=12)
plt.title('Evoluci칩n de Registros por Grupo de Novedad a lo Largo del Tiempo', fontsize=14, fontweight='bold')
plt.legend(title='Grupo Novedad', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Crear gr치fica de barras apiladas para comparaci칩n visual
plt.figure(figsize=(14, 8))

datos_grafica.T.plot(kind='bar', stacked=True, figsize=(14, 8), colormap='tab20')
plt.xlabel('A침o', fontsize=12)
plt.ylabel('Cantidad de Registros', fontsize=12)
plt.title('Cantidad de Registros por Grupo de Novedad y A침o (Barras Apiladas)', fontsize=14, fontweight='bold')
plt.legend(title='Grupo Novedad', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.xticks(rotation=0)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

# Validadas VS NEgadas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np 

# --- 1. Preparaci칩n de DataFrames y Conversi칩n de Fechas ---

# Crear columna de tipo de registro en ambos DataFrames
# Asumo que df_ns y df_ns_neg existen en tu entorno de trabajo.
df_ns['Tipo'] = 'Validada'
df_ns_neg['Tipo'] = 'Negada'

# Convertir la columna de fecha a formato datetime
# Se utiliza el formato '%d/%m/%Y' basado en tu c칩digo inicial
df_ns['Fecha_Proceso'] = pd.to_datetime(df_ns['Fecha_Proceso'], format='%d/%m/%Y')
df_ns_neg['Fecha_Proceso'] = pd.to_datetime(df_ns_neg['Fecha_Proceso'], format='%d/%m/%Y')

# Unir ambos DataFrames
df_comparativo = pd.concat([df_ns[['Fecha_Proceso', 'Tipo']], df_ns_neg[['Fecha_Proceso', 'Tipo']]], ignore_index=True)

# --- 2. Preparaci칩n para la Comparaci칩n Anual (Mes vs. A침o) ---

# Crear columnas de A침o y Mes (como n칰mero)
df_comparativo['A침o'] = df_comparativo['Fecha_Proceso'].dt.year
df_comparativo['Mes_Num'] = df_comparativo['Fecha_Proceso'].dt.month
df_comparativo['Mes_Label'] = df_comparativo['Fecha_Proceso'].dt.strftime('%b') 

# Agrupar por A침o, Mes y Tipo, contar registros
efectividad_anual_comp = df_comparativo.groupby(['A침o', 'Mes_Num', 'Mes_Label', 'Tipo']).size().unstack(fill_value=0).reset_index()

# Calcular la Tasa de Efectividad (%)
efectividad_anual_comp['Tasa_Efectividad'] = (efectividad_anual_comp['Validada'] / (efectividad_anual_comp['Validada'] + efectividad_anual_comp['Negada'])) * 100

# --- 3. Generaci칩n del Dashboard de Subgr치ficos Anuales (Small Multiples) ---

# Obtener los a침os 칰nicos para iterar
a침os = sorted(efectividad_anual_comp['A침o'].unique())
num_a침os = len(a침os)

# Definir la disposici칩n de la cuadr칤cula (ej. 3 filas, N columnas)
# Usamos int(np.ceil(num_a침os / 3)) para calcular din치micamente el n칰mero de columnas
ncols = 3
nrows = int(np.ceil(num_a침os / ncols))

# Crear la figura y los subgr치ficos
fig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(18, 5 * nrows), sharex=True)

# Asegurar que 'axes' sea un array plano si solo hay una fila/columna para facilitar la iteraci칩n
axes = axes.flatten() if num_a침os > 1 else np.array([axes])

# Determinar el valor m치ximo global para el eje Y de Cantidad
max_cantidad = efectividad_anual_comp[['Validada', 'Negada']].max().max()

# Etiquetas de los meses
meses_labels = [pd.to_datetime(str(m), format='%m').strftime('%b') for m in range(1, 13)]


for i, a침o in enumerate(a침os):
    # Seleccionar el subplot actual (ax)
    ax1 = axes[i]
    
    # Crear un segundo eje Y (ax2) para la Tasa de Efectividad
    ax2 = ax1.twinx() 
    
    df_a침o = efectividad_anual_comp[efectividad_anual_comp['A침o'] == a침o]
    
    # 3.1. Graficar Validada y Negada (Eje Y Principal - Ax1)
    ax1.plot(df_a침o['Mes_Num'], df_a침o['Validada'], label='Validada', marker='o', color='green', linestyle='-')
    ax1.plot(df_a침o['Mes_Num'], df_a침o['Negada'], label='Negada', marker='x', color='red', linestyle=':')
    
    # 3.2. Graficar Tasa de Efectividad (Eje Y Secundario - Ax2)
    ax2.plot(df_a침o['Mes_Num'], df_a침o['Tasa_Efectividad'], label='Tasa (%)', marker='D', color='blue', linestyle='--', alpha=0.7)
    
    # --- Configuraci칩n del Subgr치fico ---
    
    # Asegurar escalas consistentes para facilitar la comparaci칩n entre a침os (Buena pr치ctica de visualizaci칩n)
    ax1.set_ylim(0, max_cantidad * 1.05) # Escala de Cantidad
    ax2.set_ylim(0, 100) # Escala de Tasa de Efectividad
    
    # T칤tulo y etiquetas
    ax1.set_title(f'A침o {a침o}', fontsize=14, fontweight='bold')
    ax1.set_ylabel('Cantidad', color='black')
    ax2.set_ylabel('Tasa (%)', color='blue')
    ax2.tick_params(axis='y', labelcolor='blue')
    
    # Configurar Eje X para mostrar los nombres de los meses
    ax1.set_xticks(range(1, 13))
    ax1.set_xticklabels(meses_labels, rotation=45, ha='right')
    
    ax1.grid(True, alpha=0.4)
    ax2.grid(False)

# Ocultar subgr치ficos vac칤os si el n칰mero de a침os no llena la cuadr칤cula
for j in range(num_a침os, nrows * ncols):
    fig.delaxes(axes[j])
    
# Leyenda unificada (se usa la leyenda del primer gr치fico y se ajusta)
h1, l1 = axes[0].get_legend_handles_labels()
h2, l2 = axes[0].get_legend_handles_labels() # Reutilizar legend_handles
fig.legend(h1, l1, loc='upper center', bbox_to_anchor=(0.5, 1.05), ncol=3, title='Leyenda Global')
    
fig.suptitle('Dashboard de Efectividad Anual (Comparaci칩n Mes a Mes por A침o)', fontsize=16, fontweight='bold')
plt.tight_layout(rect=[0, 0, 1, 0.98]) # Ajustar para el t칤tulo superior
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np 

# --- 1. Preparaci칩n de DataFrames y Conversi칩n de Fechas ---
# ... (Este bloque permanece sin cambios) ...
df_ns['Tipo'] = 'Validada'
df_ns_neg['Tipo'] = 'Negada'

df_ns['Fecha_Proceso'] = pd.to_datetime(df_ns['Fecha_Proceso'], format='%d/%m/%Y')
df_ns_neg['Fecha_Proceso'] = pd.to_datetime(df_ns_neg['Fecha_Proceso'], format='%d/%m/%Y')

df_comparativo = pd.concat([df_ns[['Fecha_Proceso', 'Tipo']], df_ns_neg[['Fecha_Proceso', 'Tipo']]], ignore_index=True)

# --- 2. Preparaci칩n para la Comparaci칩n Anual (Mes vs. A침o) ---
# ... (Este bloque permanece sin cambios) ...
df_comparativo['A침o'] = df_comparativo['Fecha_Proceso'].dt.year
df_comparativo['Mes_Num'] = df_comparativo['Fecha_Proceso'].dt.month
df_comparativo['Mes_Label'] = df_comparativo['Fecha_Proceso'].dt.strftime('%b') 

efectividad_anual_comp = df_comparativo.groupby(['A침o', 'Mes_Num', 'Mes_Label', 'Tipo']).size().unstack(fill_value=0).reset_index()

efectividad_anual_comp['Tasa_Efectividad'] = (efectividad_anual_comp['Validada'] / (efectividad_anual_comp['Validada'] + efectividad_anual_comp['Negada'])) * 100

# --- 3. Generaci칩n del Gr치fico Limpio de Tasa de Efectividad Mes a Mes (CON ETIQUETAS) ---

a침os = sorted(efectividad_anual_comp['A침o'].unique())
num_a침os = len(a침os)
# Identificar el a침o m치s reciente para aplicar etiquetas (칰ltimo en la lista ordenada)
a침o_reciente = a침os[-1]

colores = plt.cm.tab10(np.linspace(0, 1, num_a침os))
meses_labels = [pd.to_datetime(str(m), format='%m').strftime('%b') for m in range(1, 13)]


plt.figure(figsize=(14, 7))
ax = plt.gca()

# Iterar sobre cada a침o para graficar
for i, a침o in enumerate(a침os):
    df_a침o = efectividad_anual_comp[efectividad_anual_comp['A침o'] == a침o]
    color_line = colores[i]
    
    # Graficar la Tasa de Efectividad
    ax.plot(
        df_a침o['Mes_Num'], 
        df_a침o['Tasa_Efectividad'], 
        color=color_line, 
        marker='o', 
        linestyle='-', 
        linewidth=2,
        label=f'Tasa Efectividad {a침o}'
    )
    
    # 游눠 IMPLEMENTACI칍N DE ETIQUETAS: Solo para el a침o m치s reciente (2025)
    if a침o == a침o_reciente:
        for x, y in zip(df_a침o['Mes_Num'], df_a침o['Tasa_Efectividad']):
            # Usar una peque침a compensaci칩n vertical (y+2) para que la etiqueta no tape el punto
            ax.text(
                x, 
                y + 2, 
                f'{y:.1f}%', # Formatear a un decimal
                fontsize=9, 
                color=color_line,
                ha='center', # Alineaci칩n horizontal centrada
                fontweight='bold'
            )
    
# --- Configuraci칩n Final del Gr치fico ---
ax.set_xlabel('Mes del A침o')
ax.set_ylabel('Tasa de Efectividad (%)')
ax.set_title('Comparaci칩n Anual de Tasa de Efectividad (Mes a Mes)')

# Configurar Eje X
ax.set_xticks(range(1, 13))
ax.set_xticklabels(meses_labels)

# Configurar Eje Y
ax.set_ylim(0, 100) 
ax.grid(True, alpha=0.5)

# Posicionar la leyenda fuera del 치rea de trazado
ax.legend(loc='center left', bbox_to_anchor=(1.0, 0.5), title="A침o")

plt.tight_layout()
plt.show()

# NEgados

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Configurar estilo general
sns.set_style("whitegrid")
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.sans-serif'] = ['Arial']

# Extraer mes y a침o de Fecha_Proceso
df_ns_neg['Mes'] = df_ns_neg['Fecha_Proceso'].dt.month
df_ns_neg['A침o'] = df_ns_neg['Fecha_Proceso'].dt.year
df_ns_neg['A침o_Mes'] = df_ns_neg['Fecha_Proceso'].dt.to_period('M')

# Crear tabla de registros por mes y a침o
registros_mes_a침o = pd.crosstab(df_ns_neg['Mes'], df_ns_neg['A침o'], margins=True, margins_name='Total')
print("Registros por mes y a침o:")
print(registros_mes_a침o)

# Definir paleta de colores personalizada
colores = ['#2E86AB', '#A23B72', '#F18F01', '#C73E1D']

# Crear gr치fica de l칤neas mejorada
plt.figure(figsize=(16, 8))
ax = plt.gca()

# Graficar cada a침o con estilo mejorado
for idx, a침o in enumerate(sorted(df_ns['A침o'].unique())):
    datos_a침o = df_ns[df_ns['A침o'] == a침o].groupby('Mes').size()
    plt.plot(datos_a침o.index, datos_a침o.values, 
             marker='o', label=f'{a침o}', linewidth=2.5, 
             color=colores[idx % len(colores)], markersize=8,
             markeredgewidth=2, markeredgecolor='white')

plt.xlabel('Mes', fontsize=13, fontweight='bold')
plt.ylabel('Cantidad de Registros', fontsize=13, fontweight='bold')
plt.title('Comportamiento Mensual de Registros por A침o', 
          fontsize=16, fontweight='bold', pad=20)
plt.legend(title='A침o', fontsize=11, title_fontsize=12, 
           frameon=True, shadow=True, fancybox=True)
plt.xticks(range(1, 13), ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 
                          'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic'],
           fontsize=11)
plt.yticks(fontsize=11)
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
plt.grid(True, alpha=0.2, linestyle='--')
plt.tight_layout()
plt.show()

# Crear heatmap mejorado
plt.figure(figsize=(14, 9))

# Preparar datos sin totales para el heatmap
datos_heatmap = registros_mes_a침o.iloc[:-1, :-1]

# Crear heatmap con mejor est칠tica
ax = sns.heatmap(datos_heatmap, annot=True, fmt='d', 
                 cmap='RdYlGn_r', linewidths=0.5, linecolor='white',
                 cbar_kws={'label': 'Cantidad de Registros', 'shrink': 0.8},
                 annot_kws={'size': 11, 'weight': 'bold'},
                 xticklabels=datos_heatmap.columns,
                 yticklabels=['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 
                             'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic'])

plt.xlabel('A침o', fontsize=13, fontweight='bold', labelpad=10)
plt.ylabel('Mes', fontsize=13, fontweight='bold', labelpad=10)
plt.title('Mapa de Calor: Registros por Mes y A침o', 
          fontsize=16, fontweight='bold', pad=20)
plt.xticks(fontsize=11, rotation=0)
plt.yticks(fontsize=11, rotation=0)

# Mejorar colorbar
cbar = ax.collections[0].colorbar
cbar.ax.tick_params(labelsize=10)
cbar.set_label('Cantidad de Registros', fontsize=11, fontweight='bold')

plt.tight_layout()
plt.show()