<a href="https://colab.research.google.com/github/ccarballo50/anonim-meddocan/blob/main/ANONIM_Clinico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ANONIM v2.0 – Demostración técnica (TFM)

**Autor:** César Carballo Cardona  
**Trabajo Fin de Máster:** Inteligencia Artificial aplicada a la anonimización de texto clínico  
**Repositorio:** https://github.com/ccarballo50/anonim-meddocan  

---

### Objetivo de este notebook

Este cuaderno tiene como finalidad **demostrar de forma reproducible y transparente** el funcionamiento del sistema ANONIM desarrollado en este TFM.

El notebook **NO entrena modelos**, sino que:
1. Carga el código final desarrollado.
2. Carga el modelo entrenado previamente.
3. Aplica el sistema de anonimización sobre textos clínicos de ejemplo.
4. Muestra los resultados obtenidos.

Está diseñado específicamente para **evaluación académica por parte del tutor**.


## Flujo general del notebook

Este notebook está estructurado en las siguientes etapas:

**Celda 2.** Preparación del entorno y descarga del repositorio.  
**Celda 3.** Instalación de dependencias necesarias.  
**Celda 4.** Carga del modelo de anonimización entrenado.  
**Celda 5.** Definición de textos clínicos de ejemplo (sintéticos).  
**Celda 6.** Aplicación del sistema ANONIM sobre los textos.  
**Celda 7.** Visualización y comprobación de los resultados.

Cada celda incluye únicamente el código imprescindible para facilitar la evaluación.


In [1]:
# ===============================================================
# Celda 2. Preparación del entorno
# ===============================================================

# Se clona el repositorio oficial del proyecto ANONIM desde GitHub

!git clone https://github.com/ccarballo50/anonim-meddocan.git
%cd anonim-meddocan




Cloning into 'anonim-meddocan'...
remote: Enumerating objects: 269, done.[K
remote: Counting objects: 100% (50/50), done.[K
remote: Compressing objects: 100% (50/50), done.[K
remote: Total 269 (delta 26), reused 1 (delta 0), pack-reused 219 (from 3)[K
Receiving objects: 100% (269/269), 115.56 MiB | 18.25 MiB/s, done.
Resolving deltas: 100% (90/90), done.
/content/anonim-meddocan


In [2]:
# ===============================================================
# Celda 3. Instalación de dependencias
# ===============================================================


# Se instalan las librerías necesarias para ejecutar el sistema ANONIM

!pip install -r requirements.txt





Collecting es-core-news-md@ https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (from -r requirements.txt (line 6))
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m11.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting spacy==3.8.7 (from -r requirements.txt (line 1))
  Downloading spacy-3.8.7-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (27 kB)
Collecting transformers==4.44.2 (from -r requirements.txt (line 7))
  Downloading transformers-4.44.2-py3-none-any.whl.metadata (43 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.7/43.7 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting torch==2.3.1 (from -r requirements.txt (line 8))
  Downloading torch-2.3.1-cp312-cp312-manylinux1_x86_64.whl

## Carga del modelo de anonimización

El modelo utilizado corresponde a un modelo NER entrenado con spaCy
sobre el corpus MEDDOCAN, ampliado y adaptado en este TFM.

El entrenamiento completo se describe en la memoria del TFM y en la
carpeta `/training` del repositorio, pero **no se ejecuta en este notebook**
por motivos de reproducibilidad y tiempo de ejecución.


In [3]:
# ===============================================================
# Celda 4. Descarga y carga del modelo entrenado (Release v2.0.1)
# ===============================================================


# 1) Descarga el model-best.zip desde GitHub Releases
# 2) Lo descomprime en models/model-best/
# 3) Carga el modelo con spaCy

import os
import zipfile
import urllib.request
import spacy

MODEL_ZIP_URL = "https://github.com/ccarballo50/anonim-meddocan/releases/download/v2.0.1/model-best.zip"
MODEL_DIR = "models/model-best"
ZIP_PATH = "models/model-best.zip"

os.makedirs("models", exist_ok=True)

# Descargar solo si no existe ya
if not os.path.exists(ZIP_PATH):
    print("Descargando modelo desde Releases...")
    urllib.request.urlretrieve(MODEL_ZIP_URL, ZIP_PATH)
    print("✅ Descarga completada:", ZIP_PATH)
else:
    print("✅ Zip ya existe:", ZIP_PATH)

# Descomprimir solo si no existe el directorio de modelo
if not os.path.exists(MODEL_DIR):
    print("Descomprimiendo modelo...")
    with zipfile.ZipFile(ZIP_PATH, "r") as z:
        z.extractall("models")
    print("✅ Modelo descomprimido en:", MODEL_DIR)
else:
    print("✅ Directorio de modelo ya existe:", MODEL_DIR)

# Cargar modelo spaCy
nlp = spacy.load(MODEL_DIR)
print("✅ Modelo cargado correctamente desde:", MODEL_DIR)





Descargando modelo desde Releases...
✅ Descarga completada: models/model-best.zip
Descomprimiendo modelo...
✅ Modelo descomprimido en: models/model-best
✅ Modelo cargado correctamente desde: models/model-best


## Textos clínicos de ejemplo

Los siguientes textos son **ejemplos sintéticos**, creados únicamente
para demostrar el funcionamiento del sistema.

No contienen datos reales de pacientes ni información sensible,
cumpliendo con la normativa de protección de datos (RGPD / LOPDGDD).


In [4]:
# ===============================================================
# Celda 5. Definición de textos clínicos de ejemplo
# ===============================================================


texts = [
    "Paciente varón de 54 años, ingresado el 12/03/2024. DNI 12345678A. Vive en Madrid.",
    "Mujer de 37 años valorada en Urgencias. Teléfono de contacto 600123456.",
]


## Aplicación del sistema ANONIM

En esta etapa se aplica el modelo NER entrenado para detectar
entidades sensibles y generar una versión anonimizada del texto clínico.


In [5]:
# ===============================================================
# Celda 6. Aplicación del sistema de anonimización
# ===============================================================


# Aplicación del sistema ANONIM (enfoque híbrido: NER + reglas)
# 1) spaCy NER (modelo entrenado) detecta entidades complejas en contexto
# 2) Reglas regex cubren identificadores típicos (DNI, teléfono) para robustez

import re

# Regex robustos (España)
RE_DNI = re.compile(r"\b\d{8}[A-Z]\b", re.IGNORECASE)             # 12345678A
RE_NIE = re.compile(r"\b[XYZ]\d{7}[A-Z]\b", re.IGNORECASE)        # X1234567L
RE_TEL = re.compile(r"\b(?:\+34\s*)?(?:6|7|8|9)\d{8}\b")          # 600123456 / +34 600123456

def anonymize_with_spacy_and_rules(text, nlp):
    # --- 1) Reglas (primero) ---
    # Aplicarlas primero evita que un NER “rompa” offsets de números largos,
    # y asegura cobertura aunque no se hayan anotado en el entrenamiento.
    out = text
    out = RE_DNI.sub("[DNI]", out)
    out = RE_NIE.sub("[NIE]", out)
    out = RE_TEL.sub("[TELEFONO]", out)

    # --- 2) NER (después) ---
    doc = nlp(out)
    for ent in sorted(doc.ents, key=lambda x: x.start_char, reverse=True):
        out = out[:ent.start_char] + f"[{ent.label_}]" + out[ent.end_char:]
    return out

anonimized_texts = [anonymize_with_spacy_and_rules(t, nlp) for t in texts]





## Resultados obtenidos

A continuación se muestran los textos originales y su versión anonimizada,
permitiendo comprobar visualmente el correcto funcionamiento del sistema.


In [6]:
# ===============================================================
# Celda 7. Visualización de resultados
# ===============================================================


for original, anon in zip(texts, anonimized_texts):
    print("TEXTO ORIGINAL:")
    print(original)
    print("\nTEXTO ANONIMIZADO:")
    print(anon)
    print("\n" + "-"*80 + "\n")



TEXTO ORIGINAL:
Paciente varón de 54 años, ingresado el 12/03/2024. DNI 12345678A. Vive en Madrid.

TEXTO ANONIMIZADO:
Paciente [SEXO_SUJETO_ASISTENCIA] de [EDAD_SUJETO_ASISTENCIA], ingresado el [FECHAS]. DNI [DNI]. Vive en [TERRITORIO].

--------------------------------------------------------------------------------

TEXTO ORIGINAL:
Mujer de 37 años valorada en Urgencias. Teléfono de contacto 600123456.

TEXTO ANONIMIZADO:
[SEXO_SUJETO_ASISTENCIA] de [EDAD_SUJETO_ASISTENCIA] valorada en Urgencias. Teléfono de contacto [TELEFONO].

--------------------------------------------------------------------------------



**Conclusión**

**Este notebook demuestra que el sistema ANONIM desarrollado en este TFM:**

*   Es reproducible.
*   Puede ejecutarse en un entorno estándar (Google Colab).
*   Detecta y anonimiza correctamente entidades clínicas sensibles.
*   Cumple con criterios de transparencia y evaluación académica.


El detalle metodológico completo se describe en la memoria del Trabajo Fin de Máster.

---



In [7]:
# ===============================================================
# Celda 8. Subida de un archivo Excel y visualización de contenido
# ===============================================================


# El usuario sube un .xlsx desde su ordenador y lo cargamos en un DataFrame

from google.colab import files
import pandas as pd

uploaded = files.upload()  # el usuario sube el Excel
excel_path = next(iter(uploaded.keys()))
print("✅ Archivo recibido:", excel_path)

df = pd.read_excel(excel_path)
print("✅ Excel cargado. Dimensiones:", df.shape)


# Mostramos las primeras filas para comprobar que se ha leído correctamente

display(df.head(10))


Saving detalles_informes_urg_prueba.xlsx to detalles_informes_urg_prueba.xlsx
✅ Archivo recibido: detalles_informes_urg_prueba.xlsx
✅ Excel cargado. Dimensiones: (3, 11)


Unnamed: 0,Fecha / Hora de Visita,Fecha / Hora de Alta,Edad,Sexo,Antecedentes:,Historia actual:,Exploración física:,Resumen de pruebas complementarias:,Evolución y comentarios:,Diagnóstico principal :,Tratamiento:
0,01/01/2025 00:54,01/01/2025 01:33,43 años,Mujer,Enfermedades previas:\n- Dislipidemia\nAnteced...,"Mujer de 43 años; ANA RAMIREZ, con DNI 5608767...","Frecuencia cardiaca(lat/min):82, Saturación de...",,,Dolor inguinal izquierdo de 1 año de evolución...,Fármacos:\n-Paracetamol 1 gramo cada 8 horas s...
1,01/01/2025 00:18,01/01/2025 01:55,43 años,Varón,Enfermedades previas:\nNo enfermedades previas...,"Varón de 43 años, que vive en la calle Menorca...","Frecuencia cardiaca(lat/min):120, Saturación d...",Imagen:\nRx torax: se compara con la de ayer. ...,,Disnea asociado a traumatismo costal sin datos...,Fármacos:\n- Alternar paracetamol cada 8 horas...
2,,,,,"Vive con su hermano Mario Zancada, en la calle...",,,,,,


In [8]:
# ===============================================================
# Celda 9. Limpieza básica del DataFrame
# ===============================================================

# - Normaliza nombres de columnas
# - Elimina columnas tipo "Unnamed"
# - Convierte NaN a ""
# - (Opcional) recorta espacios de texto

import numpy as np

# 1) Normalizar nombres de columnas
df.columns = [str(c).strip() for c in df.columns]

# 2) Eliminar columnas vacías "Unnamed: ..."
df = df.loc[:, ~df.columns.str.match(r"^Unnamed")]

# 3) Reemplazar NaN por cadena vacía
df = df.replace({np.nan: ""})

# 4) (Opcional) recortar espacios si son strings
for col in df.columns:
    if df[col].dtype == object:
        df[col] = df[col].astype(str).str.strip()

print("✅ Limpieza completada. Dimensiones:", df.shape)
display(df.head(5))


✅ Limpieza completada. Dimensiones: (3, 11)


Unnamed: 0,Fecha / Hora de Visita,Fecha / Hora de Alta,Edad,Sexo,Antecedentes:,Historia actual:,Exploración física:,Resumen de pruebas complementarias:,Evolución y comentarios:,Diagnóstico principal :,Tratamiento:
0,01/01/2025 00:54,01/01/2025 01:33,43 años,Mujer,Enfermedades previas:\n- Dislipidemia\nAnteced...,"Mujer de 43 años; ANA RAMIREZ, con DNI 5608767...","Frecuencia cardiaca(lat/min):82, Saturación de...",,,Dolor inguinal izquierdo de 1 año de evolución...,Fármacos:\n-Paracetamol 1 gramo cada 8 horas s...
1,01/01/2025 00:18,01/01/2025 01:55,43 años,Varón,Enfermedades previas:\nNo enfermedades previas...,"Varón de 43 años, que vive en la calle Menorca...","Frecuencia cardiaca(lat/min):120, Saturación d...",Imagen:\nRx torax: se compara con la de ayer. ...,,Disnea asociado a traumatismo costal sin datos...,Fármacos:\n- Alternar paracetamol cada 8 horas...
2,,,,,"Vive con su hermano Mario Zancada, en la calle...",,,,,,


In [11]:
# ===============================================================
# Celda 10. Selección interactiva de columnas a anonimizar (sin escribir)
# ===============================================================

# El usuario selecciona directamente desde una lista (multi-selección) y confirma con un botón.

import ipywidgets as widgets
from IPython.display import display, clear_output

# Widget de selección múltiple
cols_widget = widgets.SelectMultiple(
    options=list(df.columns),
    value=(),
    description='Columnas:',
    disabled=False,
    layout=widgets.Layout(width='95%', height='260px')
)

# Botón de confirmación
btn_confirm = widgets.Button(
    description="✅ Confirmar selección",
    button_style="success"
)

out = widgets.Output()

display(cols_widget, btn_confirm, out)

cols_to_anonymize = []  # aquí guardaremos la selección final

def on_confirm_clicked(b):
    global cols_to_anonymize
    cols_to_anonymize = list(cols_widget.value)
    with out:
        clear_output()
        if not cols_to_anonymize:
            print("⚠️ No has seleccionado ninguna columna.")
        else:
            print("✅ Columnas seleccionadas:")
            for c in cols_to_anonymize:
                print(" -", c)

btn_confirm.on_click(on_confirm_clicked)






SelectMultiple(description='Columnas:', layout=Layout(height='260px', width='95%'), options=('Fecha / Hora de …

Button(button_style='success', description='✅ Confirmar selección', style=ButtonStyle())

Output()

In [10]:
# ===============================================================
# Celda 11. Anonimización masiva sobre las columnas seleccionadas
# ===============================================================


# Para cada columna elegida, crea otra columna con sufijo _ANON

from tqdm.auto import tqdm

def safe_anonymize_cell(x):
    text = "" if x is None else str(x)
    if not text.strip():
        return ""
    return anonymize_with_spacy_and_rules(text, nlp)  # usa tu función híbrida

for col in cols_to_anonymize:
    new_col = f"{col}_ANON"
    tqdm.pandas(desc=f"Anonimizando {col}")
    df[new_col] = df[col].progress_apply(safe_anonymize_cell)

print("✅ Anonimización completada.")
display(df[[*cols_to_anonymize, *(f"{c}_ANON" for c in cols_to_anonymize)]].head(5))


✍️ Escribe el/los nombres EXACTOS de las columnas a anonimizar, separados por coma:
> Antecedentes,Historia actual


ValueError: ❌ Estas columnas no existen en el Excel: ['Antecedentes', 'Historia actual']
Revisa el listado de la Celda 11 y copia/pega el nombre exacto.

In [12]:
# ===============================================================
# Celda 12. Exportación del Excel anonimizado y descarga
# ===============================================================

# Se guarda un nuevo archivo .xlsx y se descarga automáticamente

from google.colab import files

output_path = "excel_anonimizado_ANONIM.xlsx"
df.to_excel(output_path, index=False)

print("✅ Archivo exportado:", output_path)
files.download(output_path)


Anonimizando Antecedentes::   0%|          | 0/3 [00:00<?, ?it/s]

Anonimizando Historia actual::   0%|          | 0/3 [00:00<?, ?it/s]

✅ Anonimización completada.


Unnamed: 0,Antecedentes:,Historia actual:,Antecedentes:_ANON,Historia actual:_ANON
0,Enfermedades previas:\n- Dislipidemia\nAnteced...,"Mujer de 43 años; ANA RAMIREZ, con DNI 5608767...",Enfermedades previas:\n- Dislipidemia\nAnteced...,[SEXO_SUJETO_ASISTENCIA] de [EDAD_SUJETO_ASIST...
1,Enfermedades previas:\nNo enfermedades previas...,"Varón de 43 años, que vive en la calle Menorca...",Enfermedades previas:\nNo enfermedades previas...,[SEXO_SUJETO_ASISTENCIA] de [EDAD_SUJETO_ASIST...
2,"Vive con su hermano Mario Zancada, en la calle...",,"Vive con su [FAMILIARES_SUJETO_ASISTENCIA], en...",


In [13]:
# ===============================================================
# Celda 13. Resumen final del proceso
# ===============================================================

# Se presenta un resumen compacto del procesamiento realizado sobre el Excel

n_filas, n_cols = df.shape
n_cols_anon = len(cols_to_anonymize)
n_celdas_anon = n_filas * n_cols_anon

print("📊 RESUMEN DEL PROCESO DE ANONIMIZACIÓN\n")
print(f"• Filas procesadas: {n_filas}")
print(f"• Columnas totales en el Excel: {n_cols}")
print(f"• Columnas anonimizadas: {n_cols_anon}")
print(f"• Nombres de columnas anonimizadas: {cols_to_anonymize}")
print(f"• Celdas de texto anonimizadas: {n_celdas_anon}")
print("\n✅ Proceso completado correctamente.")


✅ Archivo exportado: excel_anonimizado_ANONIM.xlsx


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Conclusión

Este notebook demuestra que el sistema ANONIM desarrollado en este TFM:
- Es reproducible.
- Puede ejecutarse en un entorno estándar (Google Colab).
- Detecta y anonimiza correctamente entidades clínicas sensibles.
- Cumple con criterios de transparencia y evaluación académica.

El detalle metodológico completo se describe en la memoria del Trabajo Fin de Máster.
