# 06 ¬∑ Manejo de caracteres y archivos

**M√≥dulo I ‚Äî Fundamentos**

## Objetivos:
- Comprender la codificaci√≥n de caracteres y su importancia en datos m√©dicos
- Resolver problemas comunes con tildes, √± y caracteres especiales
- Manejar diferentes formatos de archivo y sistemas operativos
- Implementar soluciones robustas para intercambio de datos
- Aplicar buenas pr√°cticas en sistemas hospitalarios

## Contexto Real - ¬øPor qu√© es crucial en el sector salud?

En COMFENALCO y el sistema de salud colombiano:
- **Nombres de pacientes**: Mar√≠a Jos√©, Jos√© √Ångel, Nu√±ez, Pe√±a
- **Reportes a Supersalud**: Deben mantener caracteres originales
- **Intercambio con ADRES**: Sistemas con diferentes codificaciones
- **Bases de datos hist√≥ricas**: Datos en Latin1, nuevos en UTF-8
- **Errores costosos**: Un nombre mal codificado = paciente no encontrado

## √çndice:
1. Fundamentos de codificaci√≥n de caracteres
2. Problemas comunes en datos m√©dicos colombianos
3. Detecci√≥n autom√°tica de encoding
4. Conversi√≥n entre formatos
5. Manejo robusto de archivos
6. Casos de error y soluciones
7. Implementaci√≥n en sistemas EPS
8. Ejercicios con datos reales

## 1Ô∏è‚É£ Fundamentos de codificaci√≥n de caracteres

### ü§î Pregunta reflexiva para el grupo:
**¬øAlguna vez han tenido problemas con nombres que aparecen como "Jos√©" en lugar de "Jos√©" en sus sistemas?**

### Contexto Real - Problema t√≠pico en EPS:
Un paciente se registra como "Jos√© √Ångel Mu√±oz" pero en el sistema aparece como:
- Sistema A: "Jos√© √Ångel Mu√±oz" 
- Sistema B: "Jos √Ångel Muoz"
- Reporte Excel: "Jos√© √ÉÔøΩngel Mu√É¬±oz"

**Resultado**: El mismo paciente parece ser 3 personas diferentes.

In [None]:
# Preparaci√≥n del entorno
import pandas as pd
import numpy as np
from pathlib import Path
import chardet  # Para detecci√≥n autom√°tica de encoding
import codecs
import json
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

print("Librer√≠as importadas exitosamente")
print("Configurando entorno para manejo de caracteres especiales...")

# Crear estructura de carpetas
BASE_DIR = Path.cwd()
DATA_DIR = BASE_DIR / "data" / "encoding_examples"
DATA_DIR.mkdir(parents=True, exist_ok=True)

print(f"Carpeta de trabajo: {DATA_DIR}")
print("Listo para comenzar con ejercicios de codificaci√≥n!")

In [None]:
# Demostrar el problema con un ejemplo real
def demostrar_problema_encoding():
    """
    Demuestra c√≥mo los mismos caracteres se ven diferentes seg√∫n la codificaci√≥n.
    """
    # Nombres t√≠picos colombianos con caracteres especiales
    nombres_colombia = [
        "Mar√≠a Jos√© P√©rez",
        "Jos√© √Ångel Mu√±oz", 
        "Sof√≠a Hern√°ndez",
        "Nicol√°s Pe√±a",
        "Andr√©s N√∫√±ez"
    ]
    
    print("DEMOSTRACI√ìN: El mismo nombre en diferentes codificaciones")
    print("="*60)
    
    nombre_ejemplo = "Jos√© √Ångel Mu√±oz"
    print(f"Nombre original: {nombre_ejemplo}")
    print()
    
    # Mostrar c√≥mo se ve en diferentes encodings
    encodings_comunes = ['utf-8', 'latin1', 'cp1252', 'ascii']
    
    for encoding in encodings_comunes:
        try:
            # Codificar y decodificar para simular el problema
            bytes_encoded = nombre_ejemplo.encode('utf-8')
            
            if encoding == 'ascii':
                # ASCII no puede manejar caracteres especiales
                resultado = "ERROR: No se pueden procesar caracteres especiales"
            else:
                # Decodificar con encoding incorrecto
                resultado = bytes_encoded.decode(encoding, errors='replace')
            
            print(f"{encoding.upper():<8}: {resultado}")
            
        except Exception as e:
            print(f"{encoding.upper():<8}: ERROR - {str(e)}")
    
    return nombres_colombia

nombres_test = demostrar_problema_encoding()

# CHECKPOINT 1
print("\n" + "="*50)
print("‚úÖ CHECKPOINT 1: ¬øPueden ver las diferencias en los nombres?")
print("üë®‚Äçüè´ Instructor: Verifiquemos que todos vean los resultados")
print("ü§î ¬øCu√°l creen que es la codificaci√≥n correcta para nombres colombianos?")
print("="*50)

## 2Ô∏è‚É£ Problemas comunes en datos m√©dicos colombianos

### Contexto Real - Casos que veremos en COMFENALCO:
1. **Importar CSV desde Excel**: Latin1 vs UTF-8
2. **Reportes de MinSalud**: Diferentes sistemas, diferentes encodings
3. **Bases de datos legacy**: Datos hist√≥ricos en ASCII extendido
4. **APIs modernas**: UTF-8 por defecto
5. **Archivos de intercambio**: RIPS, BDUA con caracteres especiales

### ü§î Pregunta reflexiva:
**¬øHan notado que algunos reportes muestran caracteres extra√±os cuando los abren en Excel?**

In [None]:
# Crear dataset con problemas t√≠picos de encoding
def crear_datos_problema_encoding():
    """
    Crea archivos con diferentes encodings para simular problemas reales.
    """
    # Datos t√≠picos de una EPS con caracteres problem√°ticos
    datos_eps = {
        'id_afiliado': [1001, 1002, 1003, 1004, 1005],
        'nombres': [
            'Mar√≠a Jos√©',
            'Jos√© √Ångel', 
            'Ana Sof√≠a',
            'Luis Hern√°n',
            'Nicol√°s'
        ],
        'apellidos': [
            'P√©rez Garc√≠a',
            'Mu√±oz L√≥pez',
            'Hern√°ndez Pe√±a',
            'N√∫√±ez V√°squez',
            'G√≥mez S√°nchez'
        ],
        'municipio': [
            'Bogot√° D.C.',
            'Medell√≠n',
            'Cali',
            'Pereira', 
            'Manizales'
        ],
        'diagnostico': [
            'Hipertensi√≥n arterial',
            'Diabetes mellitus',
            'Cefalea tensional',
            'Lumbalgia mec√°nica',
            'Rinitis al√©rgica'
        ]
    }
    
    df_eps = pd.DataFrame(datos_eps)
    
    print("Creando archivos con diferentes encodings...")
    print("(Esto simula archivos que llegan de diferentes sistemas)")
    
    # Archivo 1: UTF-8 (correcto)
    archivo_utf8 = DATA_DIR / "afiliados_utf8.csv"
    df_eps.to_csv(archivo_utf8, index=False, encoding='utf-8')
    
    # Archivo 2: Latin1 (com√∫n en sistemas legacy)
    archivo_latin1 = DATA_DIR / "afiliados_latin1.csv"
    df_eps.to_csv(archivo_latin1, index=False, encoding='latin1')
    
    # Archivo 3: CP1252 (Windows espa√±ol)
    archivo_cp1252 = DATA_DIR / "afiliados_cp1252.csv"
    df_eps.to_csv(archivo_cp1252, index=False, encoding='cp1252')
    
    archivos_creados = [
        (archivo_utf8, 'utf-8', 'Sistema moderno (recomendado)'),
        (archivo_latin1, 'latin1', 'Sistema legacy hospitalario'),
        (archivo_cp1252, 'cp1252', 'Excel Windows espa√±ol')
    ]
    
    print("\nArchivos creados:")
    for archivo, encoding, descripcion in archivos_creados:
        tama√±o = archivo.stat().st_size / 1024
        print(f"  ‚úÖ {archivo.name:<25} ({encoding:<8}) - {descripcion}")
    
    return df_eps, archivos_creados

df_original, archivos_test = crear_datos_problema_encoding()
print(f"\nDatos originales:")
display(df_original)

In [None]:
# Demostrar qu√© pasa al abrir con encoding incorrecto
def demostrar_lectura_incorrecta():
    """
    Muestra el ERROR com√∫n: abrir archivo con encoding incorrecto.
    """
    print("DEMOSTRACI√ìN: ¬øQu√© pasa al leer con encoding incorrecto?")
    print("(Esto es lo que pasa cuando Excel abre un archivo UTF-8)")
    print("="*60)
    
    archivo_utf8 = DATA_DIR / "afiliados_utf8.csv"
    
    # Lectura correcta (UTF-8)
    print("1. LECTURA CORRECTA (UTF-8):")
    df_correcto = pd.read_csv(archivo_utf8, encoding='utf-8')
    print("Nombres:", list(df_correcto['nombres']))
    
    # Lectura incorrecta (Latin1)
    print("\n2. LECTURA INCORRECTA (Latin1):")
    print("(Simula abrir archivo UTF-8 como si fuera Latin1)")
    try:
        df_incorrecto = pd.read_csv(archivo_utf8, encoding='latin1')
        print("Nombres:", list(df_incorrecto['nombres']))
        print("üëÄ ¬øNotan la diferencia? Los acentos se ven raros.")
    except Exception as e:
        print(f"Error: {e}")
    
    return df_correcto, df_incorrecto

df_bien, df_mal = demostrar_lectura_incorrecta()

# CHECKPOINT 2
print("\n" + "="*50)
print("‚úÖ CHECKPOINT 2: Comparaci√≥n de lecturas")
print("üë®‚Äçüè´ ¬øTodos pueden ver la diferencia en los nombres?")
print("ü§î En su trabajo, ¬øhan visto nombres con caracteres extra√±os?")
print("üí° Esto explica por qu√© a veces los reportes se ven mal en Excel")
print("="*50)

## 3Ô∏è‚É£ Detecci√≥n autom√°tica de encoding

### Contexto Real - Situaci√≥n t√≠pica en COMFENALCO:
**Llega un archivo de otra IPS con nombres que no se ven bien. ¬øC√≥mo saber qu√© encoding usar?**

### üîß Soluci√≥n pr√°ctica:
Usar la librer√≠a `chardet` para detectar autom√°ticamente el encoding.

### ü§î Pregunta reflexiva:
**¬øPrefieren adivinar el encoding o que el sistema lo detecte autom√°ticamente?**

In [None]:
# Funci√≥n para detectar encoding autom√°ticamente
def detectar_encoding_archivo(ruta_archivo):
    """
    Detecta autom√°ticamente la codificaci√≥n de un archivo.
    √ötil cuando llegan archivos de sistemas externos.
    """
    print(f"\nAnalizando archivo: {ruta_archivo.name}")
    
    # Leer una muestra del archivo
    with open(ruta_archivo, 'rb') as archivo:
        muestra = archivo.read(10000)  # Primeros 10KB
    
    # Detectar encoding
    resultado = chardet.detect(muestra)
    
    print(f"  Encoding detectado: {resultado['encoding']}")
    print(f"  Confianza: {resultado['confidence']*100:.1f}%")
    print(f"  Lenguaje: {resultado.get('language', 'No detectado')}")
    
    return resultado['encoding'], resultado['confidence']

# Detectar encoding de todos nuestros archivos de prueba
print("DETECCI√ìN AUTOM√ÅTICA DE ENCODING")
print("="*50)
print("(Esto es lo que har√≠amos con archivos de origen desconocido)")

resultados_deteccion = {}
for archivo_path, encoding_real, descripcion in archivos_test:
    encoding_detectado, confianza = detectar_encoding_archivo(archivo_path)
    resultados_deteccion[archivo_path.name] = {
        'real': encoding_real,
        'detectado': encoding_detectado,
        'confianza': confianza
    }
    print(f"  ‚úÖ Encoding real: {encoding_real} | Detectado: {encoding_detectado}")
    print(f"      Coincidencia: {'S√ç' if encoding_real == encoding_detectado else 'NO'}")

In [None]:
# Funci√≥n robusta para leer archivos con encoding autom√°tico
def leer_csv_robusto(ruta_archivo, mostrar_proceso=True):
    """
    Lee un archivo CSV detectando autom√°ticamente el encoding.
    Esta funci√≥n es la que usar√≠amos en producci√≥n en COMFENALCO.
    """
    if mostrar_proceso:
        print(f"\nüìÇ Abriendo archivo: {ruta_archivo.name}")
    
    # Paso 1: Detectar encoding
    with open(ruta_archivo, 'rb') as archivo:
        muestra = archivo.read(10000)
    
    deteccion = chardet.detect(muestra)
    encoding_detectado = deteccion['encoding']
    confianza = deteccion['confidence']
    
    if mostrar_proceso:
        print(f"   üîç Encoding detectado: {encoding_detectado} ({confianza*100:.1f}% confianza)")
    
    # Paso 2: Leer con encoding detectado
    try:
        df = pd.read_csv(ruta_archivo, encoding=encoding_detectado)
        if mostrar_proceso:
            print(f"   ‚úÖ Archivo le√≠do exitosamente: {df.shape[0]} filas, {df.shape[1]} columnas")
        return df, encoding_detectado
        
    except Exception as e:
        if mostrar_proceso:
            print(f"   ‚ùå Error con encoding detectado: {e}")
            print(f"   üîÑ Intentando con UTF-8...")
        
        # Paso 3: Fallback a UTF-8
        try:
            df = pd.read_csv(ruta_archivo, encoding='utf-8')
            if mostrar_proceso:
                print(f"   ‚úÖ Le√≠do con UTF-8: {df.shape[0]} filas, {df.shape[1]} columnas")
            return df, 'utf-8'
        except:
            # Paso 4: Fallback final con errors='replace'
            if mostrar_proceso:
                print(f"   üîÑ √öltimo intento con reemplazo de caracteres...")
            df = pd.read_csv(ruta_archivo, encoding='utf-8', errors='replace')
            if mostrar_proceso:
                print(f"   ‚ö†Ô∏è  Le√≠do con reemplazo de caracteres: {df.shape[0]} filas")
            return df, 'utf-8-replace'

# Probar la funci√≥n robusta con todos nuestros archivos
print("\nPROBANDO FUNCI√ìN ROBUSTA DE LECTURA")
print("="*50)
print("(Esta ser√≠a nuestra funci√≥n est√°ndar para COMFENALCO)")

dataframes_leidos = []
for archivo_path, encoding_real, descripcion in archivos_test:
    df, encoding_usado = leer_csv_robusto(archivo_path)
    dataframes_leidos.append((archivo_path.name, df, encoding_usado))
    
    # Mostrar una muestra de los nombres para verificar
    print(f"   üë§ Muestra de nombres: {df['nombres'].iloc[0]}, {df['nombres'].iloc[1]}")

## 4Ô∏è‚É£ Conversi√≥n entre formatos

### Contexto Real - Caso pr√°ctico COMFENALCO:
**Escenario**: Tenemos archivos hist√≥ricos en Latin1 y necesitamos migrarlos a UTF-8 para el nuevo sistema.

### ü§î Pregunta reflexiva:
**¬øHan tenido que migrar datos de un sistema viejo a uno nuevo? ¬øQu√© problemas encontraron?**

### ‚ö†Ô∏è Caso de error com√∫n:
**Error t√≠pico**: Convertir directamente sin verificar, perdiendo caracteres especiales.

In [None]:
# CHECKPOINT 3
print("‚úÖ CHECKPOINT 3: Verificaci√≥n antes de conversi√≥n")
print("üë®‚Äçüè´ ¬øTodos pudieron leer correctamente los tres archivos?")
print("ü§î ¬øNotan alguna diferencia en la calidad de los nombres?")
print("üíº Conexi√≥n EPS: As√≠ procesar√≠amos archivos de diferentes IPS")
print("="*60)

# Funci√≥n para conversi√≥n segura de encodings
def convertir_encoding_seguro(archivo_origen, archivo_destino, encoding_destino='utf-8'):
    """
    Convierte un archivo de un encoding a otro de forma segura.
    Incluye validaci√≥n y reporte de problemas.
    """
    print(f"\nüîÑ CONVERSI√ìN DE ENCODING")
    print(f"   Origen: {archivo_origen.name}")
    print(f"   Destino: {archivo_destino.name}")
    print(f"   Encoding objetivo: {encoding_destino}")
    
    # Paso 1: Leer archivo origen con detecci√≥n autom√°tica
    df_origen, encoding_origen = leer_csv_robusto(archivo_origen, mostrar_proceso=False)
    print(f"   üìñ Encoding origen detectado: {encoding_origen}")
    
    # Paso 2: Verificar que no hay p√©rdida de datos
    caracteres_especiales = ['√°', '√©', '√≠', '√≥', '√∫', '√±', '√Å', '√â', '√ç', '√ì', '√ö', '√ë']
    
    texto_completo = ' '.join(df_origen.astype(str).values.flatten())
    especiales_encontrados = [c for c in caracteres_especiales if c in texto_completo]
    
    print(f"   üîç Caracteres especiales encontrados: {especiales_encontrados}")
    
    # Paso 3: Realizar conversi√≥n
    try:
        df_origen.to_csv(archivo_destino, index=False, encoding=encoding_destino)
        print(f"   ‚úÖ Conversi√≥n exitosa")
        
        # Paso 4: Verificar conversi√≥n leyendo el archivo convertido
        df_verificacion = pd.read_csv(archivo_destino, encoding=encoding_destino)
        texto_verificacion = ' '.join(df_verificacion.astype(str).values.flatten())
        especiales_despues = [c for c in caracteres_especiales if c in texto_verificacion]
        
        if set(especiales_encontrados) == set(especiales_despues):
            print(f"   ‚úÖ Verificaci√≥n: No se perdieron caracteres especiales")
            return True
        else:
            perdidos = set(especiales_encontrados) - set(especiales_despues)
            print(f"   ‚ö†Ô∏è  Advertencia: Se perdieron caracteres: {perdidos}")
            return False
            
    except Exception as e:
        print(f"   ‚ùå Error en conversi√≥n: {e}")
        return False

# Realizar conversiones de ejemplo
print("EJEMPLO DE MIGRACI√ìN: Latin1 -> UTF-8")
print("(Caso t√≠pico: Sistema legacy -> Sistema moderno)")

archivo_latin1 = DATA_DIR / "afiliados_latin1.csv"
archivo_convertido = DATA_DIR / "afiliados_latin1_to_utf8.csv"

exito = convertir_encoding_seguro(archivo_latin1, archivo_convertido, 'utf-8')

if exito:
    print("\nüéâ ¬°Migraci√≥n exitosa!")
    print("üíº En COMFENALCO: As√≠ migrar√≠amos datos hist√≥ricos al nuevo sistema")
else:
    print("\n‚ö†Ô∏è  Se requiere revisi√≥n manual")

## 5Ô∏è‚É£ Manejo robusto de archivos

### Contexto Real - Operaci√≥n diaria en COMFENALCO:
**Situaci√≥n**: Llegan 20 archivos diarios de diferentes fuentes:
- Laboratorios (Latin1)
- Farmacias (UTF-8) 
- Hospitales (CP1252)
- MinSalud (UTF-8)
- Supersalud (Variable)

### ü§î Pregunta reflexiva:
**¬øC√≥mo procesar√≠an ustedes 20 archivos diferentes cada d√≠a sin saber su encoding?**

### üí° Soluci√≥n: Pipeline autom√°tico robusto

In [None]:
# Pipeline robusto para procesamiento masivo
def procesar_archivos_masivo(carpeta_archivos, carpeta_salida):
    """
    Procesa m√∫ltiples archivos autom√°ticamente.
    Esta ser√≠a la funci√≥n que ejecutar√≠amos diariamente en COMFENALCO.
    """
    carpeta_salida.mkdir(exist_ok=True)
    
    archivos_csv = list(carpeta_archivos.glob("*.csv"))
    
    print(f"\nüè≠ PROCESAMIENTO MASIVO DE ARCHIVOS")
    print(f"üìÅ Carpeta origen: {carpeta_archivos}")
    print(f"üìÅ Carpeta destino: {carpeta_salida}")
    print(f"üìä Archivos encontrados: {len(archivos_csv)}")
    print("="*50)
    
    resultados = {
        'exitosos': [],
        'errores': [],
        'advertencias': []
    }
    
    for i, archivo in enumerate(archivos_csv, 1):
        print(f"\n[{i}/{len(archivos_csv)}] Procesando: {archivo.name}")
        
        try:
            # Leer con detecci√≥n autom√°tica
            df, encoding_usado = leer_csv_robusto(archivo, mostrar_proceso=False)
            
            # Validar datos b√°sicos
            filas_vacias = df.isnull().all(axis=1).sum()
            cols_vacias = df.isnull().all(axis=0).sum()
            
            print(f"   üìã {df.shape[0]} filas, {df.shape[1]} columnas")
            print(f"   üî§ Encoding: {encoding_usado}")
            
            if filas_vacias > 0:
                print(f"   ‚ö†Ô∏è  {filas_vacias} filas completamente vac√≠as")
                resultados['advertencias'].append(f"{archivo.name}: {filas_vacias} filas vac√≠as")
            
            if cols_vacias > 0:
                print(f"   ‚ö†Ô∏è  {cols_vacias} columnas completamente vac√≠as")
                resultados['advertencias'].append(f"{archivo.name}: {cols_vacias} columnas vac√≠as")
            
            # Guardar normalizado en UTF-8
            archivo_salida = carpeta_salida / f"normalizado_{archivo.name}"
            df.to_csv(archivo_salida, index=False, encoding='utf-8')
            
            print(f"   ‚úÖ Procesado y guardado como: {archivo_salida.name}")
            resultados['exitosos'].append(archivo.name)
            
        except Exception as e:
            print(f"   ‚ùå Error: {str(e)}")
            resultados['errores'].append(f"{archivo.name}: {str(e)}")
    
    # Reporte final
    print(f"\nüìä REPORTE FINAL:")
    print(f"   ‚úÖ Exitosos: {len(resultados['exitosos'])}")
    print(f"   ‚ö†Ô∏è  Con advertencias: {len(resultados['advertencias'])}")
    print(f"   ‚ùå Con errores: {len(resultados['errores'])}")
    
    if resultados['errores']:
        print(f"\n‚ùå ERRORES ENCONTRADOS:")
        for error in resultados['errores']:
            print(f"   ‚Ä¢ {error}")
    
    return resultados

# Crear carpeta de salida
carpeta_normalizados = DATA_DIR / "normalizados"

# Procesar todos los archivos de ejemplo
resultado_proceso = procesar_archivos_masivo(DATA_DIR, carpeta_normalizados)

print("\nüíº Aplicaci√≥n en COMFENALCO:")
print("   - Este proceso se ejecutar√≠a autom√°ticamente cada d√≠a")
print("   - Los archivos normalizados se cargar√≠an a la base de datos")
print("   - Los errores se reportar√≠an al equipo t√©cnico")

## 6Ô∏è‚É£ Casos de error y soluciones

### ‚ö†Ô∏è Errores m√°s comunes en sistemas de salud:

1. **UnicodeDecodeError**: Archivo con encoding incorrecto
2. **Caracteres de reemplazo**: ÔøΩ ÔøΩ ÔøΩ en lugar de acentos
3. **P√©rdida de informaci√≥n**: Nombres truncados
4. **Inconsistencia**: Mismo paciente con diferentes nombres

### ü§î Pregunta reflexiva:
**¬øCu√°l de estos errores consideran m√°s grave para la operaci√≥n de una EPS?**

In [None]:
# Simulador de errores comunes y sus soluciones
def simular_errores_comunes():
    """
    Simula y resuelve errores t√≠picos de encoding en sistemas m√©dicos.
    """
    print("üö® SIMULADOR DE ERRORES COMUNES")
    print("================================")
    
    # Error 1: UnicodeDecodeError
    print("\n1. ERROR: UnicodeDecodeError")
    print("   Situaci√≥n: Intentar leer archivo Latin1 como UTF-8")
    
    archivo_latin1 = DATA_DIR / "afiliados_latin1.csv"
    
    print("   ‚ùå Forma incorrecta:")
    try:
        # Esto causar√° problemas
        df_error = pd.read_csv(archivo_latin1, encoding='utf-8')
        print("   (No deber√≠a llegar aqu√≠)")
    except UnicodeDecodeError as e:
        print(f"      UnicodeDecodeError: {str(e)[:100]}...")
    
    print("\n   ‚úÖ Soluci√≥n correcta:")
    df_correcto, encoding = leer_csv_robusto(archivo_latin1, mostrar_proceso=False)
    print(f"      Archivo le√≠do correctamente con {encoding}")
    print(f"      Primer nombre: {df_correcto['nombres'].iloc[0]}")
    
    # Error 2: Caracteres de reemplazo
    print("\n2. ERROR: Caracteres de reemplazo (ÔøΩ)")
    print("   Situaci√≥n: Forzar lectura con errors='replace'")
    
    print("   ‚ùå Resultado problem√°tico:")
    try:
        df_reemplazos = pd.read_csv(archivo_latin1, encoding='utf-8', errors='replace')
        print(f"      Nombre con reemplazos: {df_reemplazos['nombres'].iloc[1]}")
        print("      üëÄ ¬øNotan los caracteres extra√±os?")
    except Exception as e:
        print(f"      Error: {e}")
    
    print("\n   ‚úÖ Soluci√≥n: Usar encoding correcto desde el inicio")
    df_sin_problemas = pd.read_csv(archivo_latin1, encoding='latin1')
    print(f"      Nombre correcto: {df_sin_problemas['nombres'].iloc[1]}")
    
    # Error 3: Detecci√≥n incorrecta
    print("\n3. PROBLEMA: Detecci√≥n autom√°tica fallida")
    print("   Situaci√≥n: chardet detecta mal el encoding")
    
    # Crear archivo problem√°tico
    texto_problematico = "Jos√©,Mar√≠a,√Ångel\n25,30,28\n"
    archivo_problema = DATA_DIR / "problema_deteccion.csv"
    
    with open(archivo_problema, 'w', encoding='latin1') as f:
        f.write(texto_problematico)
    
    # Detectar (puede fallar)
    with open(archivo_problema, 'rb') as f:
        muestra = f.read()
    deteccion = chardet.detect(muestra)
    
    print(f"   üîç chardet detect√≥: {deteccion['encoding']} ({deteccion['confidence']*100:.1f}% confianza)")
    print(f"   üìù Encoding real: latin1")
    
    if deteccion['confidence'] < 0.7:
        print("   ‚ö†Ô∏è  Baja confianza - requiere verificaci√≥n manual")
    
    print("\n   ‚úÖ Soluci√≥n: Pipeline con m√∫ltiples intentos")
    print("      1. Usar detecci√≥n autom√°tica si confianza > 70%")
    print("      2. Si falla, probar UTF-8")
    print("      3. Si falla, probar Latin1")
    print("      4. Como √∫ltimo recurso, usar 'replace'")

simular_errores_comunes()

# CHECKPOINT 4 - FINAL
print("\n" + "="*60)
print("‚úÖ CHECKPOINT FINAL: Revisi√≥n completa")
print("üë®‚Äçüè´ ¬øTodos comprenden los 3 tipos de errores mostrados?")
print("ü§î ¬øCu√°l creen que es m√°s com√∫n en su trabajo diario?")
print("üíº En COMFENALCO: Estos errores pueden afectar la facturaci√≥n")
print("üéØ Objetivo alcanzado: Saben detectar y corregir problemas de encoding")
print("="*60)

## 7Ô∏è‚É£ Implementaci√≥n en sistemas EPS

### Contexto Real - Implementaci√≥n pr√°ctica en COMFENALCO:

#### üè• Casos de uso espec√≠ficos:
1. **RIPS (Reportes integrales)**: Caracteres especiales en diagn√≥sticos
2. **BDUA (Base √∫nica de afiliados)**: Nombres con tildes y √±
3. **Intercambio con IPS**: Archivos de diferentes sistemas
4. **Reportes Supersalud**: Formato estricto UTF-8
5. **Facturaci√≥n**: Nombres exactos para validaci√≥n

### ü§î Pregunta reflexiva final:
**¬øC√≥mo implementar√≠an esto en su flujo de trabajo actual?**

In [None]:
# Clase para implementaci√≥n empresarial
class ManejadorEncodingEPS:
    """
    Clase para manejo robusto de encoding en sistemas EPS.
    Lista para usar en producci√≥n en COMFENALCO.
    """
    
    def __init__(self, carpeta_logs=None):
        self.encodings_comunes = ['utf-8', 'latin1', 'cp1252', 'ascii']
        self.carpeta_logs = carpeta_logs or Path('logs')
        self.carpeta_logs.mkdir(exist_ok=True)
        
        # Configurar logging
        self.log_procesamiento = []
    
    def leer_archivo_seguro(self, ruta_archivo):
        """Lectura robusta con logging detallado."""
        inicio = datetime.now()
        
        try:
            # Detecci√≥n autom√°tica
            with open(ruta_archivo, 'rb') as f:
                muestra = f.read(10000)
            
            deteccion = chardet.detect(muestra)
            encoding_detectado = deteccion['encoding']
            confianza = deteccion['confidence']
            
            # Intentar lectura
            df = pd.read_csv(ruta_archivo, encoding=encoding_detectado)
            
            # Log exitoso
            log_entry = {
                'archivo': ruta_archivo.name,
                'timestamp': inicio.isoformat(),
                'encoding_detectado': encoding_detectado,
                'confianza': confianza,
                'filas': df.shape[0],
                'columnas': df.shape[1],
                'estado': 'EXITOSO',
                'tiempo_procesamiento': (datetime.now() - inicio).total_seconds()
            }
            
            self.log_procesamiento.append(log_entry)
            return df, log_entry
            
        except Exception as e:
            # Log de error
            log_entry = {
                'archivo': ruta_archivo.name,
                'timestamp': inicio.isoformat(),
                'error': str(e),
                'estado': 'ERROR',
                'tiempo_procesamiento': (datetime.now() - inicio).total_seconds()
            }
            
            self.log_procesamiento.append(log_entry)
            raise
    
    def generar_reporte(self):
        """Genera reporte de procesamiento para auditor√≠a."""
        if not self.log_procesamiento:
            return "No hay datos de procesamiento"
        
        df_log = pd.DataFrame(self.log_procesamiento)
        
        reporte = {
            'total_archivos': len(df_log),
            'exitosos': len(df_log[df_log['estado'] == 'EXITOSO']),
            'errores': len(df_log[df_log['estado'] == 'ERROR']),
            'tiempo_total': df_log['tiempo_procesamiento'].sum(),
            'encodings_detectados': df_log['encoding_detectado'].value_counts().to_dict() if 'encoding_detectado' in df_log.columns else {}
        }
        
        return reporte

# Demostrar uso empresarial
print("üíº IMPLEMENTACI√ìN PARA COMFENALCO")
print("=================================")

manejador = ManejadorEncodingEPS()

# Procesar archivos con logging
archivos_ejemplo = list(DATA_DIR.glob("afiliados_*.csv"))

print(f"Procesando {len(archivos_ejemplo)} archivos con logging empresarial...\n")

for archivo in archivos_ejemplo:
    try:
        df, log = manejador.leer_archivo_seguro(archivo)
        print(f"‚úÖ {archivo.name}: {log['filas']} filas, encoding {log['encoding_detectado']}")
    except Exception as e:
        print(f"‚ùå {archivo.name}: Error - {str(e)[:50]}...")

# Generar reporte final
reporte = manejador.generar_reporte()
print(f"\nüìä REPORTE DE PROCESAMIENTO:")
for key, value in reporte.items():
    print(f"   {key}: {value}")

print("\nüéØ BENEFICIOS PARA COMFENALCO:")
print("   ‚úÖ Procesamiento autom√°tico y confiable")
print("   üìã Logs detallados para auditor√≠a")
print("   üîç Detecci√≥n temprana de problemas")
print("   üìà M√©tricas de calidad de datos")
print("   ‚ö° Reducci√≥n de tiempo manual")

## 8Ô∏è‚É£ Ejercicios pr√°cticos con datos reales

### üèÉ‚Äç‚ôÇÔ∏è Ejercicio 1: Detecci√≥n y correcci√≥n
**Contexto**: Han llegado 3 archivos de diferentes IPS con problemas de encoding.
1. Detecta autom√°ticamente el encoding de cada archivo
2. Lee los datos correctamente
3. Identifica qu√© nombres tienen problemas
4. Genera un reporte de calidad

### üèÉ‚Äç‚ôÄÔ∏è Ejercicio 2: Migraci√≥n masiva
**Contexto**: Migrar 50 archivos hist√≥ricos de Latin1 a UTF-8.
1. Crea una funci√≥n de migraci√≥n por lotes
2. Incluye validaci√≥n antes y despu√©s
3. Genera reporte de archivos problem√°ticos
4. Implementa rollback en caso de errores

### üèÉ‚Äç‚ôÇÔ∏è Ejercicio 3: Pipeline de producci√≥n
**Contexto**: Crear sistema autom√°tico para COMFENALCO.
1. Pipeline que procese archivos diarios autom√°ticamente
2. Sistema de alertas para archivos problem√°ticos
3. Dashboard con m√©tricas de calidad
4. Integraci√≥n con base de datos

### üèÉ‚Äç‚ôÄÔ∏è Ejercicio 4: Caso real RIPS
**Contexto**: Procesar archivos RIPS con diagn√≥sticos en espa√±ol.
1. Manejar c√≥digos CIE-10 con descripci√≥n
2. Validar que no se pierdan caracteres especiales
3. Generar archivo para Supersalud en UTF-8
4. Crear reporte de validaci√≥n

In [None]:
# Plantilla para resolver ejercicios
def plantilla_ejercicios():
    """
    Espacio para que los participantes resuelvan los ejercicios.
    """
    print("‚úçÔ∏è ESPACIO PARA EJERCICIOS PR√ÅCTICOS")
    print("====================================")
    
    print("\nüèÉ‚Äç‚ôÇÔ∏è Ejercicio 1: Detecci√≥n y correcci√≥n")
    print("# Su c√≥digo aqu√≠:")
    print("# archivos_problema = [archivo1, archivo2, archivo3]")
    print("# for archivo in archivos_problema:")
    print("#     encoding, confianza = detectar_encoding_archivo(archivo)")
    
    print("\nüèÉ‚Äç‚ôÄÔ∏è Ejercicio 2: Migraci√≥n masiva")
    print("# Su c√≥digo aqu√≠:")
    print("# def migrar_lote(archivos_origen, carpeta_destino):")
    print("#     # Implementar migraci√≥n con validaci√≥n")
    
    print("\nüèÉ‚Äç‚ôÇÔ∏è Ejercicio 3: Pipeline de producci√≥n")
    print("# Su c√≥digo aqu√≠:")
    print("# class PipelineComfenalco:")
    print("#     def procesar_diario(self):")
    print("#         # Implementar procesamiento autom√°tico")
    
    print("\nüèÉ‚Äç‚ôÄÔ∏è Ejercicio 4: Caso real RIPS")
    print("# Su c√≥digo aqu√≠:")
    print("# def procesar_rips(archivo_entrada, archivo_salida):")
    print("#     # Validar diagn√≥sticos CIE-10")
    print("#     # Mantener caracteres especiales")
    
    # Checklist de verificaci√≥n
    checklist = [
        "‚òê Ejercicio 1: Detecci√≥n autom√°tica implementada",
        "‚òê Ejercicio 2: Migraci√≥n masiva con validaci√≥n",
        "‚òê Ejercicio 3: Pipeline autom√°tico funcional",
        "‚òê Ejercicio 4: Procesamiento RIPS validado"
    ]
    
    print(f"\n‚úÖ CHECKLIST DE VERIFICACI√ìN:")
    for item in checklist:
        print(f"   {item}")
    
    print(f"\nüéØ CRITERIOS DE √âXITO:")
    print(f"   ‚Ä¢ No se pierden caracteres especiales")
    print(f"   ‚Ä¢ Manejo robusto de errores")
    print(f"   ‚Ä¢ Logging adecuado para auditor√≠a")
    print(f"   ‚Ä¢ Aplicabilidad real en COMFENALCO")

plantilla_ejercicios()

## ‚úÖ Resumen del Notebook

### üéØ Objetivos alcanzados:
1. ‚úÖ **Comprensi√≥n profunda** de codificaci√≥n de caracteres
2. ‚úÖ **Resoluci√≥n pr√°ctica** de problemas con nombres colombianos
3. ‚úÖ **Herramientas robustas** para detecci√≥n autom√°tica
4. ‚úÖ **Pipeline empresarial** listo para producci√≥n
5. ‚úÖ **Casos de error** y sus soluciones

### üè• Aplicaci√≥n directa en COMFENALCO:
- **Procesamiento RIPS**: Sin p√©rdida de caracteres especiales
- **Intercambio con IPS**: Manejo autom√°tico de diferentes encodings
- **Reportes Supersalud**: Formato UTF-8 garantizado
- **Migraci√≥n de datos**: Sistema legacy ‚Üí moderno
- **Validaci√≥n diaria**: Detecci√≥n temprana de problemas

### üîß Herramientas implementadas:
- Detector autom√°tico de encoding
- Lector robusto de archivos
- Convertidor seguro entre formatos
- Pipeline de procesamiento masivo
- Sistema de logging empresarial

### ‚ö†Ô∏è Errores cr√≠ticos prevenidos:
- **UnicodeDecodeError**: Archivos no legibles
- **Caracteres perdidos**: Nombres truncados
- **Datos corruptos**: Informaci√≥n irrecuperable
- **Inconsistencias**: Mismo paciente, nombres diferentes

### üöÄ Pr√≥ximos pasos:
- **M√≥dulo II:** Conexi√≥n avanzada con bases de datos
- **M√≥dulo III:** Validaci√≥n y limpieza de datos m√©dicos
- **M√≥dulo IV:** Automatizaci√≥n de reportes

---

**üí° Mensaje clave**: En el sector salud, un nombre mal codificado puede significar un paciente no encontrado. Con estas herramientas, COMFENALCO puede procesar datos de cualquier fuente sin perder informaci√≥n cr√≠tica.