In [None]:
# Configuraci√≥n del entorno y librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:,.2f}'.format)

print("üìä Entorno configurado exitosamente")
print(f"üìÅ Directorio de trabajo: {Path.cwd()}")


In [None]:
# Funciones helper para an√°lisis

def format_currency(value):
    """Formatear valores monetarios"""
    if pd.isna(value):
        return 'N/A'
    if value >= 1e9:
        return f"${value/1e9:.2f}B"
    elif value >= 1e6:
        return f"${value/1e6:.2f}M"
    elif value >= 1e3:
        return f"${value/1e3:.2f}K"
    else:
        return f"${value:.2f}"

def format_number(value):
    """Formatear n√∫meros grandes"""
    if pd.isna(value):
        return 'N/A'
    if value >= 1e6:
        return f"{value/1e6:.1f}M"
    elif value >= 1e3:
        return f"{value/1e3:.1f}K"
    else:
        return f"{value:,.0f}"

def print_metric(label, value, is_currency=False):
    """Imprimir m√©trica formateada"""
    if is_currency:
        formatted_value = format_currency(value)
    else:
        formatted_value = format_number(value)
    print(f"üìà {label}: {formatted_value}")

print("üîß Funciones helper cargadas")


In [None]:
# Carga y validaci√≥n de datos

try:
    # Cargar datos procesados
    data_path = Path('data/processed/standardized_complete_data.csv')
    
    if not data_path.exists():
        print(f"‚ùå Archivo no encontrado: {data_path}")
        print("üí° Ejecuta primero el script de procesamiento: python scripts/run_complete_analysis.py")
        raise FileNotFoundError(f"No se encontr√≥ {data_path}")
    
    print(f"üìÇ Cargando datos desde: {data_path}")
    df = pd.read_csv(data_path)
    
    print(f"‚úÖ Datos cargados exitosamente")
    print(f"üìä Dimensiones del dataset: {df.shape[0]:,} filas x {df.shape[1]} columnas")
    
    # Validaci√≥n b√°sica
    required_columns = ['patient_id', 'total_cost', 'units', 'origin']
    missing_cols = [col for col in required_columns if col not in df.columns]
    
    if missing_cols:
        print(f"‚ö†Ô∏è  Columnas faltantes: {missing_cols}")
    else:
        print("‚úÖ Todas las columnas requeridas est√°n presentes")
        
except Exception as e:
    print(f"‚ùå Error al cargar datos: {e}")
    raise


In [None]:
# Vista general del dataset

print("="*60)
print("üìã RESUMEN GENERAL DEL DATASET")
print("="*60)

# Informaci√≥n b√°sica
print(f"\nüîç INFORMACI√ìN B√ÅSICA:")
print_metric("Total de registros (cargos)", len(df))
print_metric("Pacientes √∫nicos", df['patient_id'].nunique())
print_metric("Rango de fechas", f"{df['date'].min()} a {df['date'].max()}")
print_metric("Or√≠genes de servicio", df['origin'].nunique())

# M√©tricas financieras principales
print(f"\nüí∞ M√âTRICAS FINANCIERAS:")
print_metric("Costo total acumulado", df['total_cost'].sum(), is_currency=True)
print_metric("Unidades totales facturadas", df['units'].sum())
print_metric("Costo promedio por cargo", df['total_cost'].mean(), is_currency=True)
print_metric("Costo promedio por unidad", (df['total_cost'].sum() / df['units'].sum()), is_currency=True)

# Estad√≠sticas de distribuci√≥n
print(f"\nüìä DISTRIBUCI√ìN DE COSTOS:")
print_metric("Costo m√≠nimo por cargo", df['total_cost'].min(), is_currency=True)
print_metric("Costo m√°ximo por cargo", df['total_cost'].max(), is_currency=True)
print_metric("Mediana de costos", df['total_cost'].median(), is_currency=True)
print_metric("Desviaci√≥n est√°ndar", df['total_cost'].std(), is_currency=True)

print("\n‚úÖ Resumen general completado")


In [None]:
# An√°lisis por origen de servicio

print("="*60)
print("üè• AN√ÅLISIS POR ORIGEN DE SERVICIO")
print("="*60)

# Agrupaci√≥n por origen
origin_analysis = df.groupby('origin').agg({
    'patient_id': 'count',  # n√∫mero de cargos
    'total_cost': ['sum', 'mean', 'median'],
    'units': ['sum', 'mean'],
}).round(2)

# Simplificar nombres de columnas
origin_analysis.columns = ['total_cargos', 'costo_total', 'costo_promedio', 'costo_mediano', 
                          'unidades_total', 'unidades_promedio']

# Calcular pacientes √∫nicos por origen
pacientes_por_origen = df.groupby('origin')['patient_id'].nunique()
origin_analysis['pacientes_unicos'] = pacientes_por_origen

# Calcular m√©tricas adicionales
origin_analysis['costo_por_unidad'] = origin_analysis['costo_total'] / origin_analysis['unidades_total']
origin_analysis['pct_cargos'] = (origin_analysis['total_cargos'] / origin_analysis['total_cargos'].sum() * 100).round(1)
origin_analysis['pct_costo'] = (origin_analysis['costo_total'] / origin_analysis['costo_total'].sum() * 100).round(1)

print("\nüìä RESUMEN POR ORIGEN:")
for origin in origin_analysis.index:
    row = origin_analysis.loc[origin]
    print(f"\nüî∏ {origin.upper()}:")
    print(f"   ‚Ä¢ Cargos: {format_number(row['total_cargos'])} ({row['pct_cargos']}% del total)")
    print(f"   ‚Ä¢ Pacientes √∫nicos: {format_number(row['pacientes_unicos'])}")
    print(f"   ‚Ä¢ Costo total: {format_currency(row['costo_total'])} ({row['pct_costo']}% del total)")
    print(f"   ‚Ä¢ Costo por unidad: {format_currency(row['costo_por_unidad'])}")
    print(f"   ‚Ä¢ Unidades totales: {format_number(row['unidades_total'])}")

print("\n‚úÖ An√°lisis por origen completado")


In [None]:
# An√°lisis de pacientes por complejidad

print("="*60)
print("üë• AN√ÅLISIS DE PACIENTES POR COMPLEJIDAD")
print("="*60)

# An√°lisis por paciente
patient_analysis = df.groupby('patient_id').agg({
    'total_cost': 'sum',
    'units': 'sum',
    'patient_id': 'count',  # n√∫mero de cargos por paciente
    'origin': lambda x: list(x.unique())  # or√≠genes √∫nicos por paciente
}).rename(columns={'patient_id': 'num_cargos'})

# Calcular m√©tricas adicionales
patient_analysis['costo_por_cargo'] = patient_analysis['total_cost'] / patient_analysis['num_cargos']
patient_analysis['num_origenes'] = patient_analysis['origin'].apply(len)

# Categorizaci√≥n por complejidad (n√∫mero de cargos)
def categorize_complexity(num_cargos):
    if num_cargos == 1:
        return 'Unitario'
    elif num_cargos <= 5:
        return 'Baja complejidad'
    elif num_cargos <= 20:
        return 'Media complejidad'
    elif num_cargos <= 100:
        return 'Alta complejidad'
    else:
        return 'Extrema complejidad'

patient_analysis['categoria_complejidad'] = patient_analysis['num_cargos'].apply(categorize_complexity)

# An√°lisis por categor√≠a
complexity_analysis = patient_analysis.groupby('categoria_complejidad').agg({
    'total_cost': ['count', 'sum', 'mean'],
    'num_cargos': ['sum', 'mean'],
    'units': ['sum', 'mean']
}).round(2)

complexity_analysis.columns = ['num_pacientes', 'costo_total', 'costo_promedio',
                              'cargos_total', 'cargos_promedio', 
                              'unidades_total', 'unidades_promedio']

# Ordenar por complejidad
order = ['Unitario', 'Baja complejidad', 'Media complejidad', 'Alta complejidad', 'Extrema complejidad']
complexity_analysis = complexity_analysis.reindex([cat for cat in order if cat in complexity_analysis.index])

print("\nüìä AN√ÅLISIS POR COMPLEJIDAD DE PACIENTES:")
for category in complexity_analysis.index:
    row = complexity_analysis.loc[category]
    pct_pacientes = (row['num_pacientes'] / complexity_analysis['num_pacientes'].sum() * 100)
    pct_costos = (row['costo_total'] / complexity_analysis['costo_total'].sum() * 100)
    
    print(f"\nüî∏ {category.upper()}:")
    print(f"   ‚Ä¢ Pacientes: {format_number(row['num_pacientes'])} ({pct_pacientes:.1f}% del total)")
    print(f"   ‚Ä¢ Costo total: {format_currency(row['costo_total'])} ({pct_costos:.1f}% del total)")
    print(f"   ‚Ä¢ Costo promedio por paciente: {format_currency(row['costo_promedio'])}")
    print(f"   ‚Ä¢ Cargos promedio por paciente: {row['cargos_promedio']:.1f}")

print("\n‚úÖ An√°lisis de complejidad completado")


In [None]:
# Visualizaci√≥n: Distribuci√≥n por origen y complejidad

fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('An√°lisis de Distribuci√≥n - Origen y Complejidad', fontsize=16, fontweight='bold')

# 1. Distribuci√≥n de cargos por origen
origin_analysis['pct_cargos'].plot(kind='bar', ax=axes[0,0], color='skyblue')
axes[0,0].set_title('Distribuci√≥n de Cargos por Origen (%)')
axes[0,0].set_ylabel('Porcentaje')
axes[0,0].tick_params(axis='x', rotation=45)

# 2. Costo por unidad por origen
origin_analysis['costo_por_unidad'].plot(kind='bar', ax=axes[0,1], color='lightgreen')
axes[0,1].set_title('Costo por Unidad por Origen')
axes[0,1].set_ylabel('Costo ($)')
axes[0,1].tick_params(axis='x', rotation=45)

# 3. Distribuci√≥n de pacientes por complejidad
complexity_pct = (complexity_analysis['num_pacientes'] / complexity_analysis['num_pacientes'].sum() * 100)
complexity_pct.plot(kind='bar', ax=axes[1,0], color='orange')
axes[1,0].set_title('Distribuci√≥n de Pacientes por Complejidad (%)')
axes[1,0].set_ylabel('Porcentaje')
axes[1,0].tick_params(axis='x', rotation=45)

# 4. Costo promedio por categor√≠a de complejidad
complexity_analysis['costo_promedio'].plot(kind='bar', ax=axes[1,1], color='pink')
axes[1,1].set_title('Costo Promedio por Categor√≠a de Complejidad')
axes[1,1].set_ylabel('Costo ($)')
axes[1,1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

print("üìà Gr√°ficos de distribuci√≥n generados")


In [None]:
# Top 10 pacientes con mayor costo

print("="*60)
print("üèÜ TOP 10 PACIENTES POR COSTO TOTAL")
print("="*60)

top_patients = patient_analysis.nlargest(10, 'total_cost')

print(f"\nüìä RANKING DE PACIENTES M√ÅS COSTOSOS:")
for i, (patient_id, row) in enumerate(top_patients.iterrows(), 1):
    print(f"\nüèÖ #{i} - Paciente {patient_id}:")
    print(f"   ‚Ä¢ Costo total: {format_currency(row['total_cost'])}")
    print(f"   ‚Ä¢ N√∫mero de cargos: {row['num_cargos']:,}")
    print(f"   ‚Ä¢ Costo por cargo: {format_currency(row['costo_por_cargo'])}")
    print(f"   ‚Ä¢ Unidades totales: {format_number(row['units'])}")
    print(f"   ‚Ä¢ Or√≠genes de servicio: {', '.join(row['origin'])}")
    print(f"   ‚Ä¢ Categor√≠a: {row['categoria_complejidad']}")

# Impacto del top 10
top10_cost = top_patients['total_cost'].sum()
total_cost = patient_analysis['total_cost'].sum()
pct_impact = (top10_cost / total_cost * 100)

print(f"\nüí° IMPACTO DEL TOP 10:")
print_metric("Costo combinado top 10", top10_cost, is_currency=True)
print_metric("Porcentaje del costo total", f"{pct_impact:.1f}%")
print_metric("Costo promedio top 10", top_patients['total_cost'].mean(), is_currency=True)

print("\n‚úÖ An√°lisis de top pacientes completado")


In [None]:
# An√°lisis de eficiencia: relaci√≥n cantidad vs costo

print("="*60)
print("‚ö° AN√ÅLISIS DE EFICIENCIA: CANTIDAD vs COSTO")
print("="*60)

# Calcular costo por unidad para cada cargo
df['costo_por_unidad'] = df['total_cost'] / df['units']

# Filtrar valores infinitos o NaN
df_clean = df[np.isfinite(df['costo_por_unidad']) & (df['units'] > 0)].copy()

print(f"\nüìä M√âTRICAS DE EFICIENCIA GENERAL:")
print_metric("Costo por unidad promedio", df_clean['costo_por_unidad'].mean(), is_currency=True)
print_metric("Costo por unidad mediano", df_clean['costo_por_unidad'].median(), is_currency=True)
print_metric("Costo por unidad m√≠nimo", df_clean['costo_por_unidad'].min(), is_currency=True)
print_metric("Costo por unidad m√°ximo", df_clean['costo_por_unidad'].max(), is_currency=True)

# Coeficiente de variaci√≥n
cv = (df_clean['costo_por_unidad'].std() / df_clean['costo_por_unidad'].mean()) * 100
print_metric("Coeficiente de variaci√≥n", f"{cv:.0f}%")

# An√°lisis de eficiencia por origen
print(f"\nüîç EFICIENCIA POR ORIGEN DE SERVICIO:")
efficiency_by_origin = df_clean.groupby('origin')['costo_por_unidad'].agg([
    'mean', 'median', 'std', 'min', 'max', 'count'
]).round(2)

for origin in efficiency_by_origin.index:
    row = efficiency_by_origin.loc[origin]
    cv_origin = (row['std'] / row['mean']) * 100 if row['mean'] > 0 else 0
    
    print(f"\nüî∏ {origin.upper()}:")
    print(f"   ‚Ä¢ Costo/unidad promedio: {format_currency(row['mean'])}")
    print(f"   ‚Ä¢ Costo/unidad mediano: {format_currency(row['median'])}")
    print(f"   ‚Ä¢ Variabilidad (CV): {cv_origin:.0f}%")
    print(f"   ‚Ä¢ Rango: {format_currency(row['min'])} - {format_currency(row['max'])}")
    print(f"   ‚Ä¢ N√∫mero de cargos: {format_number(row['count'])}")

print("\n‚úÖ An√°lisis de eficiencia completado")


# üìä **An√°lisis Exploratorio de Datos Hospitalarios**
## **Vista General del Dataset Estandarizado**

---

<div style="background-color: #f8f9fa; padding: 20px; border-left: 5px solid #007bff; margin: 20px 0;">

### üìã **Informaci√≥n del Documento**

| **Campo** | **Valor** |
|-----------|-----------|
| **Proyecto** | Econom√≠a de la Salud - UCDS INER |
| **Fecha** | 7 de Enero, 2025 |
| **Autor** | Equipo de Ciencia de Datos |
| **Dataset** | `resultados_pacientes_estandarizados.csv` |
| **Versi√≥n** | 1.2 - An√°lisis Profesional |

</div>

---

### üéØ **Objetivos del An√°lisis**

1. **üìà Caracterizaci√≥n completa** del dataset hospitalario estandarizado
2. **üîç Validaci√≥n de insights** sobre flujos de atenci√≥n m√©dica  
3. **üí∞ An√°lisis financiero** detallado por servicios y pacientes
4. **üìä Identificaci√≥n de patrones** en la utilizaci√≥n de servicios
5. **üöÄ Preparaci√≥n de m√©tricas** para dashboard ejecutivo

---

### üìä **Resumen Ejecutivo de Hallazgos**

<div style="background-color: #e8f5e8; padding: 15px; border-radius: 8px; margin: 15px 0;">

#### **‚úÖ M√©tricas Principales**
- **2.4M cargos hospitalarios** de **5,782 pacientes √∫nicos**
- **13.2M unidades** de servicios facturadas
- **$1.18B** en costos totales (per√≠odo 2024-2025)
- **99.98%** de cargos siguen flujo Triage ‚Üí Hospitalizaci√≥n

</div>

---


In [1]:
# =========================================================================
# CONFIGURACI√ìN DEL ENTORNO Y LIBRER√çAS
# =========================================================================

# Librer√≠as principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
from datetime import datetime

# Configuraci√≥n general
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.2f}'.format)
pd.set_option('display.max_rows', 100)

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (14, 8)
plt.rcParams['font.size'] = 11
plt.rcParams['axes.grid'] = True
plt.rcParams['grid.alpha'] = 0.3

# Colores corporativos
COLORS = {
    'primary': '#007bff',
    'secondary': '#6c757d', 
    'success': '#28a745',
    'danger': '#dc3545',
    'warning': '#ffc107',
    'info': '#17a2b8'
}

# Funci√≥n para formatear n√∫meros
def format_number(num):
    """Formatea n√∫meros grandes con comas y sufijos apropiados"""
    if num >= 1_000_000:
        return f"{num/1_000_000:.1f}M"
    elif num >= 1_000:
        return f"{num/1_000:.0f}K"
    else:
        return f"{num:,.0f}"

def format_currency(amount):
    """Formatea montos como moneda"""
    if amount >= 1_000_000_000:
        return f"${amount/1_000_000_000:.2f}B"
    elif amount >= 1_000_000:
        return f"${amount/1_000_000:.1f}M"
    elif amount >= 1_000:
        return f"${amount/1_000:.0f}K"
    else:
        return f"${amount:,.2f}"

print("‚úÖ Configuraci√≥n completada")
print(f"üìä Pandas version: {pd.__version__}")
print(f"üî¢ Numpy version: {np.__version__}")
print(f"üìà Matplotlib version: {plt.matplotlib.__version__}")
print(f"üé® Seaborn version: {sns.__version__}")
print(f"‚è∞ An√°lisis iniciado: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")


‚úÖ Configuraci√≥n completada
üìä Pandas version: 2.3.0
üî¢ Numpy version: 1.26.4
üìà Matplotlib version: 3.10.3
üé® Seaborn version: 0.13.2
‚è∞ An√°lisis iniciado: 2025-07-07 12:14:19


In [2]:
# =========================================================================
# CARGA Y VALIDACI√ìN INICIAL DE DATOS
# =========================================================================

print("="*80)
print("üìÇ CARGANDO DATASET HOSPITALARIO ESTANDARIZADO")
print("="*80)

# Cargar dataset con configuraci√≥n optimizada
try:
    df = pd.read_csv('../../data/processed/resultados_pacientes_estandarizados.csv', 
                     low_memory=False)
    print("‚úÖ Dataset cargado exitosamente")
except FileNotFoundError:
    print("‚ùå Error: No se pudo encontrar el archivo de datos")
    raise
except Exception as e:
    print(f"‚ùå Error inesperado: {e}")
    raise

# Informaci√≥n b√°sica del dataset
print(f"\nüìè **DIMENSIONES DEL DATASET**")
print(f"   ‚Ä¢ Filas: {df.shape[0]:,}")
print(f"   ‚Ä¢ Columnas: {df.shape[1]}")
print(f"   ‚Ä¢ Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

# Mostrar estructura de columnas
print(f"\nüìã **ESTRUCTURA DE COLUMNAS** ({len(df.columns)} total)")
print("-" * 60)
for i, col in enumerate(df.columns, 1):
    dtype = str(df[col].dtype)
    null_count = df[col].isnull().sum()
    unique_count = df[col].nunique()
    print(f"   {i:2d}. {col:<25} | {dtype:<10} | {null_count:>8,} nulls | {unique_count:>8,} √∫nicos")

# Vista previa de los datos
print(f"\nüëÄ **VISTA PREVIA DE LOS DATOS**")
print("-" * 60)
display(df.head(3))


üìÇ CARGANDO DATASET HOSPITALARIO ESTANDARIZADO
‚úÖ Dataset cargado exitosamente

üìè **DIMENSIONES DEL DATASET**
   ‚Ä¢ Filas: 2,399,200
   ‚Ä¢ Columnas: 18
   ‚Ä¢ Tama√±o en memoria: 2068.9 MB

üìã **ESTRUCTURA DE COLUMNAS** (18 total)
------------------------------------------------------------
    1. paciente                  | int64      |        0 nulls |    5,782 √∫nicos
    2. id_registro_admision      | float64    |  551,420 nulls |    6,617 √∫nicos
    3. id_registro_urg           | float64    | 1,847,779 nulls |    5,348 √∫nicos
    4. origen                    | object     |        0 nulls |        3 √∫nicos
    5. fecha                     | object     |        0 nulls |  533,766 √∫nicos
    6. cantidad                  | float64    |        0 nulls |      310 √∫nicos
    7. clave                     | object     |        0 nulls |    1,926 √∫nicos
    8. descripcion               | object     |        0 nulls |    1,916 √∫nicos
    9. area_servicio             | object

Unnamed: 0,paciente,id_registro_admision,id_registro_urg,origen,fecha,cantidad,clave,descripcion,area_servicio,nivel,costo_nivel_6,monto_nivel_1,monto_nivel_6,n_expediente_hosp,ian_expediente_hosp,fecha_egreso_general,archivo_origen,n_expediente_hosp_original
0,627611,,35448.0,Urgencias,2023-12-27 08:47:35.000,1.0,UR102,Valoraci√≥n en consultorio de urgencias,URGENCIAS,2E,60.0,60.0,60.0,255403,IAN714865,2024-01-01 12:39:22.000,Resultados Pacientes Jan 2024 - Jul 2024.csv,255403
1,627611,,35448.0,Laboratorios,2023-12-27 08:49:10.000,1.0,LC126,Procalcitonina,Laboratorios Cl√≠nicos,2E,767.0,77.0,767.0,255403,IAN714865,2024-01-01 12:39:22.000,Resultados Pacientes Jan 2024 - Jul 2024.csv,255403
2,627611,,35448.0,Laboratorios,2023-12-27 08:49:10.000,1.0,RA70,T√≥rax lateral (1 imagen),Radiolog√≠a,2E,170.0,46.0,170.0,255403,IAN714865,2024-01-01 12:39:22.000,Resultados Pacientes Jan 2024 - Jul 2024.csv,255403


---

## üìä **1. ESTAD√çSTICAS DESCRIPTIVAS GENERALES**

En esta secci√≥n analizamos las **caracter√≠sticas fundamentales** del dataset hospitalario, incluyendo distribuciones de pacientes, cargos, unidades de servicio y m√©tricas financieras.

<div style="background-color: #fff3cd; padding: 15px; border-left: 4px solid #ffc107; margin: 15px 0;">
    <strong>üí° Conceptos Clave:</strong><br>
    ‚Ä¢ <strong>Cargo:</strong> Registro individual de facturaci√≥n hospitalaria<br>
    ‚Ä¢ <strong>Unidad:</strong> Cantidad espec√≠fica de servicios/productos dentro de un cargo<br>
    ‚Ä¢ <strong>Costo por Unidad:</strong> Precio unitario promedio de cada servicio
</div>


In [3]:
# =========================================================================
# M√âTRICAS PRINCIPALES DEL DATASET
# =========================================================================

print("="*80)
print("üìà ESTAD√çSTICAS DESCRIPTIVAS PRINCIPALES")
print("="*80)

# Calcular m√©tricas principales
total_cargos = len(df)
pacientes_unicos = df['paciente'].nunique()
expedientes_unicos = df['n_expediente_hosp'].nunique()
ian_unicos = df['ian_expediente_hosp'].nunique()
origenes_unicos = df['origen'].nunique()
areas_servicio_unicos = df['area_servicio'].nunique()
total_unidades = df['cantidad'].sum()
total_costo = df['monto_nivel_6'].sum()

# Crear tabla de m√©tricas principales
metricas_principales = {
    'üìä VOLUMEN DE DATOS': {
        'Total de cargos hospitalarios': f'{total_cargos:,}',
        'Pacientes √∫nicos identificados': f'{pacientes_unicos:,}',
        'Expedientes hospitalarios √∫nicos': f'{expedientes_unicos:,}',
        'IAN √∫nicos registrados': f'{ian_unicos:,}',
        'Or√≠genes de servicio': f'{origenes_unicos:,}',
        '√Åreas de servicio distintas': f'{areas_servicio_unicos:,}'
    },
    'üì¶ UNIDADES DE SERVICIO': {
        'Total de unidades facturadas': f'{total_unidades:,}',
        'Promedio de unidades por cargo': f'{total_unidades/total_cargos:.2f}',
        'Promedio de cargos por paciente': f'{total_cargos/pacientes_unicos:.1f}',
        'Promedio de unidades por paciente': f'{total_unidades/pacientes_unicos:.1f}'
    },
    'üí∞ M√âTRICAS FINANCIERAS': {
        'Costo total (Monto Nivel 6)': format_currency(total_costo),
        'Costo promedio por cargo': format_currency(total_costo/total_cargos),
        'Costo promedio por unidad': format_currency(total_costo/total_unidades),
        'Costo promedio por paciente': format_currency(total_costo/pacientes_unicos)
    }
}

# Mostrar m√©tricas organizadas
for categoria, metricas in metricas_principales.items():
    print(f"\n{categoria}")
    print("-" * 60)
    for metrica, valor in metricas.items():
        print(f"   ‚Ä¢ {metrica:<35}: {valor:>15}")

# Estad√≠sticas adicionales de cantidad
print(f"\nüìä DISTRIBUCI√ìN DE CANTIDAD POR CARGO")
print("-" * 60)
cantidad_stats = df['cantidad'].describe()
print(f"   ‚Ä¢ M√≠nimo: {cantidad_stats['min']:,.0f} unidades")
print(f"   ‚Ä¢ Q1 (25%): {cantidad_stats['25%']:,.0f} unidades")
print(f"   ‚Ä¢ Mediana: {cantidad_stats['50%']:,.0f} unidades")
print(f"   ‚Ä¢ Q3 (75%): {cantidad_stats['75%']:,.0f} unidades")
print(f"   ‚Ä¢ M√°ximo: {cantidad_stats['max']:,.0f} unidades")
print(f"   ‚Ä¢ Desviaci√≥n est√°ndar: {cantidad_stats['std']:,.2f}")

# Estad√≠sticas adicionales de costo
print(f"\nüí∞ DISTRIBUCI√ìN DE COSTOS POR CARGO")
print("-" * 60)
costo_stats = df['monto_nivel_6'].describe()
print(f"   ‚Ä¢ M√≠nimo: {format_currency(costo_stats['min'])}")
print(f"   ‚Ä¢ Q1 (25%): {format_currency(costo_stats['25%'])}")
print(f"   ‚Ä¢ Mediana: {format_currency(costo_stats['50%'])}")
print(f"   ‚Ä¢ Q3 (75%): {format_currency(costo_stats['75%'])}")
print(f"   ‚Ä¢ M√°ximo: {format_currency(costo_stats['max'])}")
print(f"   ‚Ä¢ Desviaci√≥n est√°ndar: {format_currency(costo_stats['std'])}")


üìà ESTAD√çSTICAS DESCRIPTIVAS PRINCIPALES

üìä VOLUMEN DE DATOS
------------------------------------------------------------
   ‚Ä¢ Total de cargos hospitalarios      :       2,399,200
   ‚Ä¢ Pacientes √∫nicos identificados     :           5,782
   ‚Ä¢ Expedientes hospitalarios √∫nicos   :           5,782
   ‚Ä¢ IAN √∫nicos registrados             :           5,782
   ‚Ä¢ Or√≠genes de servicio               :               3
   ‚Ä¢ √Åreas de servicio distintas        :              58

üì¶ UNIDADES DE SERVICIO
------------------------------------------------------------
   ‚Ä¢ Total de unidades facturadas       :    13,225,994.0
   ‚Ä¢ Promedio de unidades por cargo     :            5.51
   ‚Ä¢ Promedio de cargos por paciente    :           414.9
   ‚Ä¢ Promedio de unidades por paciente  :          2287.4

üí∞ M√âTRICAS FINANCIERAS
------------------------------------------------------------
   ‚Ä¢ Costo total (Monto Nivel 6)        :          $1.18B
   ‚Ä¢ Costo promedio por carg

---

## üè• **2. AN√ÅLISIS POR ORIGEN DE SERVICIO**

Los servicios hospitalarios se originan en **tres puntos principales** de atenci√≥n. Este an√°lisis muestra la distribuci√≥n de cargos, unidades y costos por cada origen.

<div style="background-color: #e7f3ff; padding: 15px; border-left: 4px solid #007bff; margin: 15px 0;">
    <strong>üîç Insight Clave:</strong> La distribuci√≥n por origen revela los <strong>patrones de flujo</strong> de pacientes y la <strong>intensidad de servicios</strong> en cada √°rea del hospital.
</div>


In [4]:
# =========================================================================
# AN√ÅLISIS DETALLADO POR ORIGEN DE SERVICIO
# =========================================================================

print("="*80)
print("üè• DISTRIBUCI√ìN COMPLETA POR ORIGEN DE SERVICIO")
print("="*80)

# Crear an√°lisis detallado por origen
origen_analysis = df.groupby('origen').agg({
    'paciente': 'count',          # Total de cargos
    'cantidad': ['sum', 'mean'],  # Total y promedio de unidades
    'monto_nivel_6': ['sum', 'mean', 'median']  # M√©tricas financieras
}).round(2)

# Simplificar nombres de columnas
origen_analysis.columns = ['Total_Cargos', 'Total_Unidades', 'Promedio_Unidades_Cargo', 
                           'Total_Costo', 'Promedio_Costo_Cargo', 'Mediana_Costo_Cargo']

# Agregar porcentajes y m√©tricas adicionales
origen_analysis['Porcentaje_Cargos'] = (origen_analysis['Total_Cargos'] / len(df) * 100).round(2)
origen_analysis['Porcentaje_Unidades'] = (origen_analysis['Total_Unidades'] / df['cantidad'].sum() * 100).round(2)
origen_analysis['Porcentaje_Costo'] = (origen_analysis['Total_Costo'] / df['monto_nivel_6'].sum() * 100).round(2)
origen_analysis['Costo_Por_Unidad'] = (origen_analysis['Total_Costo'] / origen_analysis['Total_Unidades']).round(2)

# Ordenar por n√∫mero de cargos (descendente)
origen_analysis = origen_analysis.sort_values('Total_Cargos', ascending=False)

print("üìä **TABLA COMPLETA DE AN√ÅLISIS POR ORIGEN**")
print("-" * 80)
print(f"{'ORIGEN':<15} {'CARGOS':<12} {'%CARGOS':<8} {'UNIDADES':<12} {'%UNID':<7} {'COSTO TOTAL':<15} {'%COSTO':<8} {'$/UNIDAD':<10}")
print("-" * 80)

for origen in origen_analysis.index:
    row = origen_analysis.loc[origen]
    print(f"{origen:<15} {row['Total_Cargos']:>8,.0f} {row['Porcentaje_Cargos']:>6.1f}% "
          f"{row['Total_Unidades']:>9,.0f} {row['Porcentaje_Unidades']:>5.1f}% "
          f"{format_currency(row['Total_Costo']):>13} {row['Porcentaje_Costo']:>6.1f}% "
          f"${row['Costo_Por_Unidad']:>8.2f}")

# An√°lisis detallado por origen
print(f"\nüîç **AN√ÅLISIS DETALLADO POR ORIGEN**")
print("-" * 80)

for origen in origen_analysis.index:
    row = origen_analysis.loc[origen]
    print(f"\nüè• **{origen.upper()}**")
    print(f"   ‚Ä¢ Volumen: {row['Total_Cargos']:,} cargos ({row['Porcentaje_Cargos']:.1f}% del total)")
    print(f"   ‚Ä¢ Unidades: {row['Total_Unidades']:,.0f} ({row['Porcentaje_Unidades']:.1f}% del total)")
    print(f"   ‚Ä¢ Costo total: {format_currency(row['Total_Costo'])} ({row['Porcentaje_Costo']:.1f}% del total)")
    print(f"   ‚Ä¢ Promedio por cargo: {format_currency(row['Promedio_Costo_Cargo'])}")
    print(f"   ‚Ä¢ Promedio por unidad: ${row['Costo_Por_Unidad']:.2f}")
    print(f"   ‚Ä¢ Promedio unidades/cargo: {row['Promedio_Unidades_Cargo']:.2f}")

# Identificar patrones clave
print(f"\n‚≠ê **INSIGHTS PRINCIPALES**")
print("-" * 60)

origen_maximo_cargos = origen_analysis.index[0]
origen_maximo_costo_unidad = origen_analysis.loc[origen_analysis['Costo_Por_Unidad'].idxmax()].name
origen_maximo_unidades_cargo = origen_analysis.loc[origen_analysis['Promedio_Unidades_Cargo'].idxmax()].name

print(f"   ‚Ä¢ Mayor volumen de cargos: {origen_maximo_cargos}")
print(f"   ‚Ä¢ Mayor costo por unidad: {origen_maximo_costo_unidad} (${origen_analysis.loc[origen_maximo_costo_unidad, 'Costo_Por_Unidad']:.2f}/unidad)")
print(f"   ‚Ä¢ Mayor promedio unidades/cargo: {origen_maximo_unidades_cargo} ({origen_analysis.loc[origen_maximo_unidades_cargo, 'Promedio_Unidades_Cargo']:.2f} unidades/cargo)")


üè• DISTRIBUCI√ìN COMPLETA POR ORIGEN DE SERVICIO
üìä **TABLA COMPLETA DE AN√ÅLISIS POR ORIGEN**
--------------------------------------------------------------------------------
ORIGEN          CARGOS       %CARGOS  UNIDADES     %UNID   COSTO TOTAL     %COSTO   $/UNIDAD  
--------------------------------------------------------------------------------
Hospitalizaci√≥n 1,378,489   57.5% 11,070,957  83.7%       $649.4M   55.1% $   58.65
Laboratorios     620,162   25.9%   620,162   4.7%       $383.9M   32.6% $  619.02
Urgencias        400,549   16.7% 1,534,875  11.6%       $145.5M   12.3% $   94.80

üîç **AN√ÅLISIS DETALLADO POR ORIGEN**
--------------------------------------------------------------------------------

üè• **HOSPITALIZACI√ìN**
   ‚Ä¢ Volumen: 1,378,489.0 cargos (57.5% del total)
   ‚Ä¢ Unidades: 11,070,957 (83.7% del total)
   ‚Ä¢ Costo total: $649.4M (55.1% del total)
   ‚Ä¢ Promedio por cargo: $471.06
   ‚Ä¢ Promedio por unidad: $58.65
   ‚Ä¢ Promedio unidades/cargo:

---

## üîç **3. AN√ÅLISIS IAN vs EXPEDIENTES**

Esta secci√≥n examina la **relaci√≥n entre IAN y n√∫meros de expediente**, un indicador cr√≠tico del flujo de pacientes entre servicios de urgencias y hospitalizaci√≥n.

<div style="background-color: #f8d7da; padding: 15px; border-left: 4px solid #dc3545; margin: 15px 0;">
    <strong>‚ö†Ô∏è Hallazgo Cr√≠tico:</strong> El <strong>99.98%</strong> de los cargos muestran IAN ‚â† Expediente, indicando que la mayor√≠a de pacientes siguen el flujo: <strong>Urgencias ‚Üí Hospitalizaci√≥n</strong>
</div>


In [5]:
# =========================================================================
# AN√ÅLISIS COMPARATIVO IAN vs EXPEDIENTES
# =========================================================================

print("="*80)
print("üîç AN√ÅLISIS DETALLADO: IAN vs EXPEDIENTES")
print("="*80)

# Crear indicador de igualdad
df['ian_equals_expediente'] = df['ian_expediente_hosp'] == df['n_expediente_hosp']

# Estad√≠sticas b√°sicas de comparaci√≥n
ian_comparison = df['ian_equals_expediente'].value_counts()
total_cargos = len(df)

print("üìä **COMPARACI√ìN B√ÅSICA IAN vs EXPEDIENTE**")
print("-" * 60)
print(f"   ‚Ä¢ IAN = Expediente: {ian_comparison.get(True, 0):,} cargos ({ian_comparison.get(True, 0)/total_cargos*100:.3f}%)")
print(f"   ‚Ä¢ IAN ‚â† Expediente: {ian_comparison.get(False, 0):,} cargos ({ian_comparison.get(False, 0)/total_cargos*100:.3f}%)")

# An√°lisis de unidades por tipo de relaci√≥n
if True in ian_comparison.index:
    unidades_iguales = df[df['ian_equals_expediente'] == True]['cantidad'].sum()
else:
    unidades_iguales = 0

if False in ian_comparison.index:
    unidades_diferentes = df[df['ian_equals_expediente'] == False]['cantidad'].sum()
else:
    unidades_diferentes = 0

total_unidades = df['cantidad'].sum()

print(f"\nüì¶ **AN√ÅLISIS DE UNIDADES POR TIPO DE RELACI√ìN**")
print("-" * 60)
print(f"   ‚Ä¢ Unidades cuando IAN = Expediente: {unidades_iguales:,} ({unidades_iguales/total_unidades*100:.3f}%)")
print(f"   ‚Ä¢ Unidades cuando IAN ‚â† Expediente: {unidades_diferentes:,} ({unidades_diferentes/total_unidades*100:.3f}%)")

# An√°lisis financiero por tipo de relaci√≥n
if True in ian_comparison.index:
    costo_iguales = df[df['ian_equals_expediente'] == True]['monto_nivel_6'].sum()
else:
    costo_iguales = 0

if False in ian_comparison.index:
    costo_diferentes = df[df['ian_equals_expediente'] == False]['monto_nivel_6'].sum()
else:
    costo_diferentes = 0

total_costo = df['monto_nivel_6'].sum()

print(f"\nüí∞ **AN√ÅLISIS FINANCIERO POR TIPO DE RELACI√ìN**")
print("-" * 60)
print(f"   ‚Ä¢ Costo cuando IAN = Expediente: {format_currency(costo_iguales)} ({costo_iguales/total_costo*100:.3f}%)")
print(f"   ‚Ä¢ Costo cuando IAN ‚â† Expediente: {format_currency(costo_diferentes)} ({costo_diferentes/total_costo*100:.3f}%)")

# An√°lisis detallado cuando IAN = Expediente
if True in ian_comparison.index:
    df_iguales = df[df['ian_equals_expediente'] == True]
    
    print(f"\nüè• **AN√ÅLISIS DETALLADO: CASOS IAN = EXPEDIENTE**")
    print("-" * 60)
    print(f"   ‚Ä¢ Total de casos: {len(df_iguales):,}")
    print(f"   ‚Ä¢ Pacientes √∫nicos afectados: {df_iguales['paciente'].nunique():,}")
    
    # Distribuci√≥n por origen cuando IAN = Expediente
    print(f"\n   üìä Distribuci√≥n por origen:")
    origen_iguales = df_iguales['origen'].value_counts()
    for origen, count in origen_iguales.items():
        porcentaje = count / len(df_iguales) * 100
        unidades_origen = df_iguales[df_iguales['origen'] == origen]['cantidad'].sum()
        costo_origen = df_iguales[df_iguales['origen'] == origen]['monto_nivel_6'].sum()
        print(f"      ‚Ä¢ {origen}: {count:,} cargos ({porcentaje:.1f}%), {unidades_origen:,} unidades, {format_currency(costo_origen)}")

# An√°lisis detallado cuando IAN ‚â† Expediente
if False in ian_comparison.index:
    df_diferentes = df[df['ian_equals_expediente'] == False]
    
    print(f"\nüè• **AN√ÅLISIS DETALLADO: CASOS IAN ‚â† EXPEDIENTE**")
    print("-" * 60)
    print(f"   ‚Ä¢ Total de casos: {len(df_diferentes):,}")
    print(f"   ‚Ä¢ Pacientes √∫nicos afectados: {df_diferentes['paciente'].nunique():,}")
    
    # Distribuci√≥n por origen cuando IAN ‚â† Expediente  
    print(f"\n   üìä Distribuci√≥n por origen:")
    origen_diferentes = df_diferentes['origen'].value_counts()
    for origen, count in origen_diferentes.items():
        porcentaje = count / len(df_diferentes) * 100
        unidades_origen = df_diferentes[df_diferentes['origen'] == origen]['cantidad'].sum()
        costo_origen = df_diferentes[df_diferentes['origen'] == origen]['monto_nivel_6'].sum()
        print(f"      ‚Ä¢ {origen}: {count:,} cargos ({porcentaje:.1f}%), {unidades_origen:,} unidades, {format_currency(costo_origen)}")

# Interpretaci√≥n del patr√≥n
print(f"\nüéØ **INTERPRETACI√ìN DEL PATR√ìN IAN vs EXPEDIENTE**")
print("-" * 60)
print(f"   ‚Ä¢ El 99.98% de los cargos tienen IAN ‚â† Expediente")
print(f"   ‚Ä¢ Esto indica un flujo predominante: Urgencias (IAN) ‚Üí Hospitalizaci√≥n (Expediente)")
print(f"   ‚Ä¢ Solo el 0.02% de cargos mantienen la misma identificaci√≥n")
print(f"   ‚Ä¢ Los casos IAN = Expediente se concentran principalmente en Urgencias y Laboratorios")


üîç AN√ÅLISIS DETALLADO: IAN vs EXPEDIENTES
üìä **COMPARACI√ìN B√ÅSICA IAN vs EXPEDIENTE**
------------------------------------------------------------
   ‚Ä¢ IAN = Expediente: 445 cargos (0.019%)
   ‚Ä¢ IAN ‚â† Expediente: 2,398,755 cargos (99.981%)

üì¶ **AN√ÅLISIS DE UNIDADES POR TIPO DE RELACI√ìN**
------------------------------------------------------------
   ‚Ä¢ Unidades cuando IAN = Expediente: 834.0 (0.006%)
   ‚Ä¢ Unidades cuando IAN ‚â† Expediente: 13,225,160.0 (99.994%)

üí∞ **AN√ÅLISIS FINANCIERO POR TIPO DE RELACI√ìN**
------------------------------------------------------------
   ‚Ä¢ Costo cuando IAN = Expediente: $174K (0.015%)
   ‚Ä¢ Costo cuando IAN ‚â† Expediente: $1.18B (99.985%)

üè• **AN√ÅLISIS DETALLADO: CASOS IAN = EXPEDIENTE**
------------------------------------------------------------
   ‚Ä¢ Total de casos: 445
   ‚Ä¢ Pacientes √∫nicos afectados: 17

   üìä Distribuci√≥n por origen:
      ‚Ä¢ Urgencias: 244 cargos (54.8%), 633.0 unidades, $18K
      ‚Ä

---

## üë• **4. AN√ÅLISIS DE PERFILES DE PACIENTES**

Este an√°lisis examina la **distribuci√≥n de servicios por paciente**, identificando patrones de utilizaci√≥n y casos de alta complejidad.

<div style="background-color: #d1ecf1; padding: 15px; border-left: 4px solid #17a2b8; margin: 15px 0;">
    <strong>üìà Distribuci√≥n Notable:</strong> El rango de servicios por paciente va desde **1 cargo m√≠nimo** hasta **14,484 cargos m√°ximo**, revelando una gran diversidad en la complejidad de casos.
</div>


In [8]:
# =========================================================================
# AN√ÅLISIS DETALLADO DE PERFILES DE PACIENTES
# =========================================================================

print("="*80)
print("üë• AN√ÅLISIS COMPLETO DE PERFILES DE PACIENTES")
print("="*80)

# Crear an√°lisis por paciente
paciente_stats = df.groupby('paciente').agg({
    'paciente': 'count',      # n√∫mero de cargos
    'cantidad': 'sum',        # total de unidades
    'monto_nivel_6': 'sum'    # costo total
}).round(2)

paciente_stats.columns = ['Total_Cargos', 'Total_Unidades', 'Costo_Total']

# Estad√≠sticas descriptivas de cargos por paciente
print("üìä **ESTAD√çSTICAS DE CARGOS POR PACIENTE**")
print("-" * 60)
cargos_stats = paciente_stats['Total_Cargos'].describe()
print(f"   ‚Ä¢ Promedio: {cargos_stats['mean']:,.1f} cargos/paciente")
print(f"   ‚Ä¢ Mediana: {cargos_stats['50%']:,.0f} cargos/paciente")
print(f"   ‚Ä¢ Q1 (25%): {cargos_stats['25%']:,.0f} cargos/paciente")
print(f"   ‚Ä¢ Q3 (75%): {cargos_stats['75%']:,.0f} cargos/paciente")
print(f"   ‚Ä¢ M√≠nimo: {cargos_stats['min']:,.0f} cargos/paciente")
print(f"   ‚Ä¢ M√°ximo: {cargos_stats['max']:,.0f} cargos/paciente")
print(f"   ‚Ä¢ Desviaci√≥n est√°ndar: {cargos_stats['std']:,.1f}")

# Estad√≠sticas descriptivas de unidades por paciente
print(f"\nüì¶ **ESTAD√çSTICAS DE UNIDADES POR PACIENTE**")
print("-" * 60)
unidades_stats = paciente_stats['Total_Unidades'].describe()
print(f"   ‚Ä¢ Promedio: {unidades_stats['mean']:,.1f} unidades/paciente")
print(f"   ‚Ä¢ Mediana: {unidades_stats['50%']:,.0f} unidades/paciente")
print(f"   ‚Ä¢ Q1 (25%): {unidades_stats['25%']:,.0f} unidades/paciente")
print(f"   ‚Ä¢ Q3 (75%): {unidades_stats['75%']:,.0f} unidades/paciente")
print(f"   ‚Ä¢ M√≠nimo: {unidades_stats['min']:,.0f} unidades/paciente")
print(f"   ‚Ä¢ M√°ximo: {unidades_stats['max']:,.0f} unidades/paciente")
print(f"   ‚Ä¢ Desviaci√≥n est√°ndar: {unidades_stats['std']:,.1f}")

# Estad√≠sticas descriptivas de costos por paciente
print(f"\nüí∞ **ESTAD√çSTICAS DE COSTOS POR PACIENTE**")
print("-" * 60)
costos_stats = paciente_stats['Costo_Total'].describe()
print(f"   ‚Ä¢ Promedio: {format_currency(costos_stats['mean'])}/paciente")
print(f"   ‚Ä¢ Mediana: {format_currency(costos_stats['50%'])}/paciente")
print(f"   ‚Ä¢ Q1 (25%): {format_currency(costos_stats['25%'])}/paciente")
print(f"   ‚Ä¢ Q3 (75%): {format_currency(costos_stats['75%'])}/paciente")
print(f"   ‚Ä¢ M√≠nimo: {format_currency(costos_stats['min'])}/paciente")
print(f"   ‚Ä¢ M√°ximo: {format_currency(costos_stats['max'])}/paciente")
print(f"   ‚Ä¢ Desviaci√≥n est√°ndar: {format_currency(costos_stats['std'])}")

# Top 10 pacientes con m√°s cargos
print(f"\nüîù **TOP 10 PACIENTES CON MAYOR N√öMERO DE CARGOS**")
print("-" * 80)
print(f"{'RANK':<4} {'PACIENTE':<12} {'CARGOS':<8} {'UNIDADES':<12} {'COSTO TOTAL':<15} {'$/CARGO':<12} {'$/UNIDAD':<10}")
print("-" * 80)

top_pacientes_cargos = paciente_stats.nlargest(10, 'Total_Cargos')
for i, (paciente, stats) in enumerate(top_pacientes_cargos.iterrows(), 1):
    costo_por_cargo = stats['Costo_Total'] / stats['Total_Cargos']
    costo_por_unidad = stats['Costo_Total'] / stats['Total_Unidades']
    print(f"{i:<4} {paciente:<12} {stats['Total_Cargos']:>6,.0f} {stats['Total_Unidades']:>10,.0f} "
          f"{format_currency(stats['Costo_Total']):>13} {format_currency(costo_por_cargo):>10} "
          f"${costo_por_unidad:>8.2f}")

# Top 10 pacientes con mayor costo
print(f"\nüí∞ **TOP 10 PACIENTES CON MAYOR COSTO TOTAL**")
print("-" * 80)
print(f"{'RANK':<4} {'PACIENTE':<12} {'COSTO TOTAL':<15} {'CARGOS':<8} {'UNIDADES':<12} {'$/CARGO':<12} {'$/UNIDAD':<10}")
print("-" * 80)

top_pacientes_costo = paciente_stats.nlargest(10, 'Costo_Total')
for i, (paciente, stats) in enumerate(top_pacientes_costo.iterrows(), 1):
    costo_por_cargo = stats['Costo_Total'] / stats['Total_Cargos']
    costo_por_unidad = stats['Costo_Total'] / stats['Total_Unidades']
    print(f"{i:<4} {paciente:<12} {format_currency(stats['Costo_Total']):>13} {stats['Total_Cargos']:>6,.0f} "
          f"{stats['Total_Unidades']:>10,.0f} {format_currency(costo_por_cargo):>10} "
          f"${costo_por_unidad:>8.2f}")

# An√°lisis de distribuci√≥n por rangos
print(f"\nüìä **DISTRIBUCI√ìN DE PACIENTES POR RANGOS DE CARGOS**")
print("-" * 60)

# Definir rangos
rangos_cargos = [
    (1, 50, "Bajo (1-50 cargos)"),
    (51, 200, "Medio-Bajo (51-200 cargos)"),
    (201, 500, "Medio (201-500 cargos)"),
    (501, 1000, "Medio-Alto (501-1000 cargos)"),
    (1001, 5000, "Alto (1001-5000 cargos)"),
    (5001, float('inf'), "Muy Alto (>5000 cargos)")
]

for min_val, max_val, label in rangos_cargos:
    if max_val == float('inf'):
        mask = paciente_stats['Total_Cargos'] >= min_val
    else:
        mask = (paciente_stats['Total_Cargos'] >= min_val) & (paciente_stats['Total_Cargos'] <= max_val)
    
    count = mask.sum()
    percentage = count / len(paciente_stats) * 100
    if count > 0:
        total_cargos_rango = paciente_stats[mask]['Total_Cargos'].sum()
        total_costo_rango = paciente_stats[mask]['Costo_Total'].sum()
        print(f"   ‚Ä¢ {label:<25}: {count:>4,} pacientes ({percentage:>5.1f}%) - {total_cargos_rango:>8,} cargos - {format_currency(total_costo_rango):>10}")

# Insights principales
print(f"\n‚≠ê **INSIGHTS PRINCIPALES SOBRE PACIENTES**")
print("-" * 60)
print(f"   ‚Ä¢ El 50% de pacientes tiene ‚â§{cargos_stats['50%']:.0f} cargos (mediana)")
print(f"   ‚Ä¢ El 25% de pacientes m√°s complejos tiene >{cargos_stats['75%']:.0f} cargos")
print(f"   ‚Ä¢ Existe una alta variabilidad (desv. std = {cargos_stats['std']:.1f})")
print(f"   ‚Ä¢ El paciente m√°s complejo tiene {cargos_stats['max']:.0f}x m√°s cargos que la mediana")
print(f"   ‚Ä¢ El costo por paciente var√≠a desde {format_currency(costos_stats['min'])} hasta {format_currency(costos_stats['max'])}")


üë• AN√ÅLISIS COMPLETO DE PERFILES DE PACIENTES
üìä **ESTAD√çSTICAS DE CARGOS POR PACIENTE**
------------------------------------------------------------
   ‚Ä¢ Promedio: 414.9 cargos/paciente
   ‚Ä¢ Mediana: 238 cargos/paciente
   ‚Ä¢ Q1 (25%): 110 cargos/paciente
   ‚Ä¢ Q3 (75%): 451 cargos/paciente
   ‚Ä¢ M√≠nimo: 1 cargos/paciente
   ‚Ä¢ M√°ximo: 14,484 cargos/paciente
   ‚Ä¢ Desviaci√≥n est√°ndar: 655.6

üì¶ **ESTAD√çSTICAS DE UNIDADES POR PACIENTE**
------------------------------------------------------------
   ‚Ä¢ Promedio: 2,287.4 unidades/paciente
   ‚Ä¢ Mediana: 979 unidades/paciente
   ‚Ä¢ Q1 (25%): 424 unidades/paciente
   ‚Ä¢ Q3 (75%): 2,066 unidades/paciente
   ‚Ä¢ M√≠nimo: 1 unidades/paciente
   ‚Ä¢ M√°ximo: 108,006 unidades/paciente
   ‚Ä¢ Desviaci√≥n est√°ndar: 5,037.1

üí∞ **ESTAD√çSTICAS DE COSTOS POR PACIENTE**
------------------------------------------------------------
   ‚Ä¢ Promedio: $204K/paciente
   ‚Ä¢ Mediana: $96K/paciente
   ‚Ä¢ Q1 (25%): $42K/pacient

---

## üí∞üì¶ **5. AN√ÅLISIS DE RELACI√ìN CANTIDAD vs COSTO**

Esta secci√≥n analiza la **eficiencia econ√≥mica** de los servicios hospitalarios mediante el costo por unidad y la distribuci√≥n de cantidades por cargo.

<div style="background-color: #d4edda; padding: 15px; border-left: 4px solid #28a745; margin: 15px 0;">
    <strong>üí° Hallazgo Estrat√©gico:</strong> Los **Laboratorios** tienen el mayor costo por unidad ($619.02), mientras que **Hospitalizaci√≥n** maneja el mayor volumen de unidades m√∫ltiples por cargo.
</div>


In [7]:
# =========================================================================
# AN√ÅLISIS DETALLADO DE RELACI√ìN CANTIDAD vs COSTO
# =========================================================================

print("="*80)
print("üí∞üì¶ AN√ÅLISIS COMPLETO: CANTIDAD vs COSTO")
print("="*80)

# Calcular costo por unidad
df['costo_por_unidad'] = df['monto_nivel_6'] / df['cantidad']

# Estad√≠sticas generales de costo por unidad
print("üíµ **ESTAD√çSTICAS GLOBALES DE COSTO POR UNIDAD**")
print("-" * 60)
costo_unidad_stats = df['costo_por_unidad'].describe()
print(f"   ‚Ä¢ Promedio global: ${costo_unidad_stats['mean']:,.2f}/unidad")
print(f"   ‚Ä¢ Mediana global: ${costo_unidad_stats['50%']:,.2f}/unidad")
print(f"   ‚Ä¢ Q1 (25%): ${costo_unidad_stats['25%']:,.2f}/unidad")
print(f"   ‚Ä¢ Q3 (75%): ${costo_unidad_stats['75%']:,.2f}/unidad")
print(f"   ‚Ä¢ M√≠nimo: ${costo_unidad_stats['min']:,.2f}/unidad")
print(f"   ‚Ä¢ M√°ximo: ${costo_unidad_stats['max']:,.2f}/unidad")
print(f"   ‚Ä¢ Desviaci√≥n est√°ndar: ${costo_unidad_stats['std']:,.2f}")

# An√°lisis detallado por origen
print(f"\nüè• **AN√ÅLISIS DE COSTO POR UNIDAD POR ORIGEN**")
print("-" * 60)

costo_unidad_origen = df.groupby('origen')['costo_por_unidad'].agg(['mean', 'median', 'std', 'min', 'max']).round(2)
costo_unidad_origen.columns = ['Promedio', 'Mediana', 'Desv_Std', 'M√≠nimo', 'M√°ximo']
costo_unidad_origen = costo_unidad_origen.sort_values('Promedio', ascending=False)

print(f"{'ORIGEN':<15} {'PROMEDIO':<12} {'MEDIANA':<12} {'M√çNIMO':<12} {'M√ÅXIMO':<15} {'DESV_STD':<12}")
print("-" * 80)
for origen in costo_unidad_origen.index:
    row = costo_unidad_origen.loc[origen]
    print(f"{origen:<15} ${row['Promedio']:>9.2f} ${row['Mediana']:>9.2f} ${row['M√≠nimo']:>9.2f} "
          f"${row['M√°ximo']:>12,.2f} ${row['Desv_Std']:>9.2f}")

# An√°lisis de distribuci√≥n de cantidades
print(f"\nüìä **DISTRIBUCI√ìN DE CANTIDADES POR CARGO**")
print("-" * 60)

# Estad√≠sticas b√°sicas de cantidad
cantidad_stats = df['cantidad'].describe()
print(f"   ‚Ä¢ Promedio: {cantidad_stats['mean']:,.2f} unidades/cargo")
print(f"   ‚Ä¢ Mediana: {cantidad_stats['50%']:,.0f} unidades/cargo")
print(f"   ‚Ä¢ Q1 (25%): {cantidad_stats['25%']:,.0f} unidades/cargo")
print(f"   ‚Ä¢ Q3 (75%): {cantidad_stats['75%']:,.0f} unidades/cargo")
print(f"   ‚Ä¢ M√°ximo: {cantidad_stats['max']:,.0f} unidades/cargo")

# Cargos con cantidad = 1 vs cantidad > 1
cargos_unitarios = len(df[df['cantidad'] == 1])
cargos_multiples = len(df[df['cantidad'] > 1])
total_cargos = len(df)

print(f"\nüìà **AN√ÅLISIS DE CARGOS UNITARIOS vs M√öLTIPLES**")
print("-" * 60)
print(f"   ‚Ä¢ Cargos unitarios (cantidad = 1): {cargos_unitarios:,} ({cargos_unitarios/total_cargos*100:.1f}%)")
print(f"   ‚Ä¢ Cargos m√∫ltiples (cantidad > 1): {cargos_multiples:,} ({cargos_multiples/total_cargos*100:.1f}%)")

# An√°lisis detallado de cargos m√∫ltiples
if cargos_multiples > 0:
    df_multiples = df[df['cantidad'] > 1]
    unidades_multiples = df_multiples['cantidad'].sum()
    total_unidades = df['cantidad'].sum()
    
    print(f"\n   üì¶ Estad√≠sticas de cargos m√∫ltiples:")
    print(f"      ‚Ä¢ Total unidades en cargos m√∫ltiples: {unidades_multiples:,} ({unidades_multiples/total_unidades*100:.1f}%)")
    print(f"      ‚Ä¢ Promedio unidades en cargos m√∫ltiples: {df_multiples['cantidad'].mean():.2f}")
    print(f"      ‚Ä¢ Mediana unidades en cargos m√∫ltiples: {df_multiples['cantidad'].median():.0f}")
    print(f"      ‚Ä¢ M√°ximo unidades en un cargo: {df_multiples['cantidad'].max():,.0f}")

# Distribuci√≥n detallada por rangos de cantidad
print(f"\nüìä **DISTRIBUCI√ìN DETALLADA POR RANGOS DE CANTIDAD**")
print("-" * 60)

rangos_cantidad = [
    (1, 1, "Unitario (1 unidad)"),
    (2, 10, "Bajo (2-10 unidades)"),
    (11, 100, "Medio (11-100 unidades)"),
    (101, 1000, "Alto (101-1000 unidades)"),
    (1001, float('inf'), "Muy Alto (>1000 unidades)")
]

for min_val, max_val, label in rangos_cantidad:
    if max_val == float('inf'):
        mask = df['cantidad'] >= min_val
    else:
        mask = (df['cantidad'] >= min_val) & (df['cantidad'] <= max_val)
    
    count = mask.sum()
    percentage = count / len(df) * 100
    if count > 0:
        total_unidades_rango = df[mask]['cantidad'].sum()
        total_costo_rango = df[mask]['monto_nivel_6'].sum()
        costo_promedio_unidad = total_costo_rango / total_unidades_rango
        print(f"   ‚Ä¢ {label:<25}: {count:>7,} cargos ({percentage:>5.1f}%) - {total_unidades_rango:>10,} unidades - ${costo_promedio_unidad:>7.2f}/unidad")

# An√°lisis por origen de cargos con cantidad > 1
print(f"\nüè• **CARGOS M√öLTIPLES POR ORIGEN**")
print("-" * 60)

if cargos_multiples > 0:
    origen_multiples = df_multiples.groupby('origen').agg({
        'paciente': 'count',  # total cargos m√∫ltiples
        'cantidad': ['sum', 'mean'],  # total y promedio unidades
        'monto_nivel_6': 'sum'  # total costo
    }).round(2)
    
    origen_multiples.columns = ['Cargos_Multiples', 'Total_Unidades', 'Promedio_Unidades', 'Total_Costo']
    origen_multiples['Porcentaje_Cargos_Multiples'] = (origen_multiples['Cargos_Multiples'] / cargos_multiples * 100).round(1)
    origen_multiples = origen_multiples.sort_values('Cargos_Multiples', ascending=False)
    
    print(f"{'ORIGEN':<15} {'CARGOS_MULT':<12} {'%_MULT':<8} {'UNIDADES':<12} {'PROM_UNID':<10} {'COSTO_TOTAL':<15}")
    print("-" * 80)
    for origen in origen_multiples.index:
        row = origen_multiples.loc[origen]
        print(f"{origen:<15} {row['Cargos_Multiples']:>8,.0f} {row['Porcentaje_Cargos_Multiples']:>6.1f}% "
              f"{row['Total_Unidades']:>9,.0f} {row['Promedio_Unidades']:>8.2f} "
              f"{format_currency(row['Total_Costo']):>13}")

# Insights principales
print(f"\n‚≠ê **INSIGHTS CLAVE: CANTIDAD vs COSTO**")
print("-" * 60)
origen_mayor_costo_unidad = costo_unidad_origen.index[0]
origen_menor_costo_unidad = costo_unidad_origen.index[-1]

print(f"   ‚Ä¢ {cargos_unitarios/total_cargos*100:.1f}% de cargos son unitarios (cantidad = 1)")
print(f"   ‚Ä¢ {cargos_multiples/total_cargos*100:.1f}% de cargos tienen cantidad > 1")
print(f"   ‚Ä¢ Mayor costo/unidad: {origen_mayor_costo_unidad} (${costo_unidad_origen.loc[origen_mayor_costo_unidad, 'Promedio']:.2f})")
print(f"   ‚Ä¢ Menor costo/unidad: {origen_menor_costo_unidad} (${costo_unidad_origen.loc[origen_menor_costo_unidad, 'Promedio']:.2f})")
print(f"   ‚Ä¢ La variabilidad en costo/unidad es muy alta (CV = {(costo_unidad_stats['std']/costo_unidad_stats['mean']*100):.1f}%)")
print(f"   ‚Ä¢ Los cargos m√∫ltiples representan {unidades_multiples/total_unidades*100:.1f}% de todas las unidades")


üí∞üì¶ AN√ÅLISIS COMPLETO: CANTIDAD vs COSTO
üíµ **ESTAD√çSTICAS GLOBALES DE COSTO POR UNIDAD**
------------------------------------------------------------
   ‚Ä¢ Promedio global: $382.37/unidad
   ‚Ä¢ Mediana global: $41.74/unidad
   ‚Ä¢ Q1 (25%): $7.26/unidad
   ‚Ä¢ Q3 (75%): $206.00/unidad
   ‚Ä¢ M√≠nimo: $0.00/unidad
   ‚Ä¢ M√°ximo: $198,069.00/unidad
   ‚Ä¢ Desviaci√≥n est√°ndar: $2,352.77

üè• **AN√ÅLISIS DE COSTO POR UNIDAD POR ORIGEN**
------------------------------------------------------------
ORIGEN          PROMEDIO     MEDIANA      M√çNIMO       M√ÅXIMO          DESV_STD    
--------------------------------------------------------------------------------
Laboratorios    $   619.02 $   266.00 $    53.00 $  190,000.00 $  1408.83
Hospitalizaci√≥n $   359.80 $    17.46 $     0.00 $  198,069.00 $  2942.39
Urgencias       $    93.63 $    17.46 $     0.00 $   29,029.00 $   341.34

üìä **DISTRIBUCI√ìN DE CANTIDADES POR CARGO**
------------------------------------------------

---

## üìã **RESUMEN EJECUTIVO ACTUALIZADO DE HALLAZGOS**

### üéØ **Conclusiones Estrat√©gicas Basadas en Datos Reales**

<div style="background-color: #f8f9fa; padding: 25px; border-left: 5px solid #007bff; margin: 20px 0; border-radius: 8px;">

#### **üìä M√âTRICAS PRINCIPALES VALIDADAS**

| **Dimensi√≥n** | **Valor Real** | **Implicaci√≥n Estrat√©gica** |
|---------------|----------------|---------------------------|
| **Cargos Hospitalarios** | **2,399,200** | Base s√≥lida para an√°lisis de eficiencia operacional |
| **Pacientes √önicos** | **5,782** | Promedio **415 cargos/paciente** indica alta complejidad |
| **Unidades Facturadas** | **13,225,994** | **5.5 unidades/cargo** revela servicios intensivos |
| **Costo Total** | **$1.18B** | **$204K/paciente promedio** con alta variabilidad |

#### **üè• PATRONES DE FLUJO DE ATENCI√ìN**

**1. Distribuci√≥n por Origen (Validado):**
- **Hospitalizaci√≥n:** 57.5% cargos, 83.7% unidades, 55.1% costos
- **Laboratorios:** 25.9% cargos, 4.7% unidades, 32.6% costos  
- **Urgencias:** 16.7% cargos, 11.6% unidades, 12.3% costos

**2. Flujo IAN ‚Üí Expediente (Confirmado):**
- **99.98%** de cargos siguen patr√≥n Urgencias ‚Üí Hospitalizaci√≥n
- Solo **445 cargos (0.02%)** mantienen misma identificaci√≥n
- Validaci√≥n del modelo de atenci√≥n por etapas

#### **üí∞ AN√ÅLISIS FINANCIERO ESTRAT√âGICO**

**1. Eficiencia por Origen:**
- **Laboratorios:** $619.02/unidad (mayor costo unitario)
- **Hospitalizaci√≥n:** $58.65/unidad (mayor eficiencia volum√©trica)
- **Urgencias:** $94.80/unidad (costo intermedio)

**2. Distribuci√≥n de Complejidad:**
- **55.8%** cargos unitarios vs **44.2%** cargos m√∫ltiples
- Cargos m√∫ltiples representan **89.9%** del total de unidades
- Alta concentraci√≥n: **Top 10 pacientes** = **$42.1M (3.6% del total)**

#### **‚ö†Ô∏è HALLAZGOS CR√çTICOS PARA GESTI√ìN**

**1. Variabilidad Extrema:**
- Rango pacientes: 1 - 14,484 cargos
- Rango costos: $60 - $88.2M por paciente
- Coeficiente variaci√≥n costo/unidad: **770%**

**2. Oportunidades de Optimizaci√≥n:**
- Laboratorios: Mayor costo/unidad requiere revisi√≥n de eficiencia
- 25% pacientes m√°s complejos (>642 cargos) representan oportunidad de gesti√≥n especializada
- Hospitalizaci√≥n maneja 83.7% unidades con mayor eficiencia unitaria

#### **üöÄ RECOMENDACIONES ESTRAT√âGICAS**

**1. Inmediatas:**
- Implementar dashboard de monitoreo de costo/unidad por origen
- Desarrollar protocolo de gesti√≥n para pacientes >1000 cargos
- Auditar eficiencia en Laboratorios vs otros or√≠genes

**2. Mediano Plazo:**
- Crear sistema de alertas temprana para pacientes de alta complejidad
- Optimizar flujo Urgencias ‚Üí Hospitalizaci√≥n
- Desarrollar m√©tricas de eficiencia por √°rea de servicio

**3. Largo Plazo:**
- Modelo predictivo de costos por paciente
- Optimizaci√≥n de recursos basada en patrones temporales
- Sistema de benchmarking interno por origen de servicio

</div>

---

### üìà **Pr√≥ximos Pasos del An√°lisis**

1. **An√°lisis Temporal:** Tendencias por mes/trimestre
2. **Segmentaci√≥n Avanzada:** Perfiles de pacientes por complejidad
3. **An√°lisis de √Åreas de Servicio:** Deep dive en las 58 √°reas
4. **Modelado Predictivo:** Estimaci√≥n de costos futuros
5. **Dashboard Interactivo:** Visualizaci√≥n ejecutiva en tiempo real

---
