**Analítica de datos en salud**

---

***Tarea No. 2: Aplicación de Extracción de Información***

Presentado por:

* 2400452 - Jennifer Benavides Castillo
* 2400479 - Cristhian David Cruz Millán
* 2400794 - Sergio Alejandro Fierro Ospitia
* 2400478 - Edwin Andrés Lasso Rosero

#Entregable 1:

Extraer automáticamente entidades clínicas relevantes —como diagnósticos, síntomas, tratamientos o condiciones— desde historias clínicas de pacientes con cáncer de mama, utilizando un modelo de Reconocimiento de Entidades Nombradas (NER) entrenado con lenguaje biomédico.

###Sirve para:

* Automatizar la lectura y análisis de documentos clínicos en texto libre.

* Identificar información médica clave mediante un modelo NLP preentrenado.

* Generar una base de datos estructurada (CSV) que facilita su uso posterior en:      

 * Análisis clínico individual o poblacional.

 * Investigación médica.

 * Desarrollo de sistemas inteligentes de apoyo a decisiones clínicas

In [None]:
#SE INSTALA LIBRERÍA PARA NLP Y MANEJO DE DATOS

#pip install transformers datasets nltk pandas
!pip install chardet # chardet para detectar la codificación de archivos de texto




**Importación de librerías necesarias para procesamiento de texto, carga de modelos preentrenados y manejo de archivos y codificaciones. También descarga recursos de tokenización**

In [None]:
import os
import torch
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
from pathlib import Path
import nltk
import re
import chardet
nltk.download("punkt") #Descarga tokenizador
nltk.download("punkt_tab")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [None]:
#Acceso a drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


**ACCESOS A RUTAS DE REPOSITORIOS / DEFINICIÓN DE ARGUMENTOS**

In [None]:
nltk.download("punkt")
from nltk.tokenize import sent_tokenize

#Ruta al modelo de NER en HuggingFace
NER_MODEL = "anvorja/breast-cancer-biomedical-ner-sp-1"

#Ruta a la carpeta local con las historias clínicas
PATH_HISTORIAS = Path("/content/drive/MyDrive/Notas_Cancer_Mama")

#Dispositivo (GPU o CPU)
DEVICE = 0 if torch.cuda.is_available() else -1

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
#DEFINICIOÓN DE FUNCIÓN: Cargar el modelo NER

def cargar_modelo_ner(model_name: str):
    """Carga el modelo NER y devuelve un pipeline listo para usar."""
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    model = AutoModelForTokenClassification.from_pretrained(model_name)
    ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple", device=DEVICE)
    return ner_pipeline

In [None]:
#DEFINICIÓN FUNCIÓN: Leer texto de archivo y separar en oraciones

def leer_historia_clinica(path_archivo):
    """Lee el contenido de una historia clínica detectando automáticamente el encoding."""
    # Detectar encoding primero
    with open(path_archivo, 'rb') as f:
        raw_data = f.read()
        resultado = chardet.detect(raw_data)
        encoding_detectado = resultado['encoding'] #Encoding lenguaje que se utiliza para traducir de lenguaje humano a lenguaje de computadora

    # Leer con el encoding detectado
    with open(path_archivo, encoding=encoding_detectado, errors="replace") as f:
        texto = f.read()

    oraciones = sent_tokenize(texto)
    return oraciones


In [None]:
# DEFINICIÓN FUNCIÓN: Extracción de entidades con modelo NER

def extraer_entidades_historia(ner_pipeline, oraciones, patient_id):
    """Procesa oraciones con el modelo NER y muestra las entidades encontradas."""
    resultados = []
    for oracion in oraciones:
        entidades = ner_pipeline(oracion)
        for entidad in entidades:
            resultados.append({
                "patient_id": patient_id,
                "sentence": oracion,
                "entity": entidad["word"],
                "label": entidad["entity_group"],
                "score": round(entidad["score"], 3)
            })
    return resultados

In [None]:
#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 / TOKEN ACCESO A HUGGING FACE

from huggingface_hub import login
login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

**EJECUTAR EL PIPELINE NER SOBRE TODAS LAS HISTORIAS CLÍNICAS .TXT Y OBTENCIÓN DE RESUMEN DE ENTIDADES DETECTADAS POR PACIENTE**

In [None]:
#EJECUCIÓN

if __name__ == "__main__":
    print("Cargando modelo NER...")
    ner_pipeline = cargar_modelo_ner(NER_MODEL) #Cargue de modelo

    print(f"Procesando archivos en: {PATH_HISTORIAS.resolve()}")
    archivos = list(PATH_HISTORIAS.glob("*.txt"))

    todos_resultados = []

    for archivo in archivos:
        patient_id = archivo.stem  #Usa el nombre del archivo como ID
        print(f"\n Procesando historia clínica: {archivo.name}")
        oraciones = leer_historia_clinica(archivo)
        resultados = extraer_entidades_historia(ner_pipeline, oraciones, patient_id)
        todos_resultados.extend(resultados)

        #Mostrar resumen por paciente
        for r in resultados:
            print(f"[{r['patient_id']}] ({r['label']}) {r['entity']} ← {r['sentence']}")

    print(f"\n Extracción completada. Total de entidades detectadas: {len(todos_resultados)}")

Cargando modelo NER...


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
Device set to use cuda:0


Procesando archivos en: /content/drive/MyDrive/Notas_Cancer_Mama

 Procesando historia clínica: 1126737.txt


You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


[1126737] (AGE) 44 años ← Mujer de 44 años diagnosticada de Carcinoma ductal infiltrante de mama derecha cT2N0M0 (estadio IIA) G2.
[1126737] (OCURRENCE_EVENT) diagnosticada ← Mujer de 44 años diagnosticada de Carcinoma ductal infiltrante de mama derecha cT2N0M0 (estadio IIA) G2.
[1126737] (CANCER_CONCEPT) Carcinoma ductal infiltrante de mama derecha ← Mujer de 44 años diagnosticada de Carcinoma ductal infiltrante de mama derecha cT2N0M0 (estadio IIA) G2.
[1126737] (TNM) cT2N0M0 ← Mujer de 44 años diagnosticada de Carcinoma ductal infiltrante de mama derecha cT2N0M0 (estadio IIA) G2.
[1126737] (STAGE) estadio IIA ← Mujer de 44 años diagnosticada de Carcinoma ductal infiltrante de mama derecha cT2N0M0 (estadio IIA) G2.
[1126737] (STAGE) G2. ← Mujer de 44 años diagnosticada de Carcinoma ductal infiltrante de mama derecha cT2N0M0 (estadio IIA) G2.
[1126737] (BIOMARKER) RE 100% ← RE 100% RP < 5% KI 70% HER2 + en diciembre de 2016.
[1126737] (BIOMARKER) RP < 5% ← RE 100% RP < 5% KI 70% HER2 

In [None]:
import pandas as pd

#Guardar resultados en archivo
df_resultados = pd.DataFrame(todos_resultados)
df_resultados.to_csv("entidades_extraidas.csv", index=False)
print("Resultados_entidades_extraidas.csv")


Resultados_entidades_extraidas.csv


In [None]:
from google.colab import files
files.download("entidades_extraidas.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>