## Integrantes
### Fernando Valencia

# 📌 Entregable 1 – Extracción de Entidades con Modelo NER de Cáncer de Mama

Se implementa un script en Python que carga el modelo preentrenado [`anvorja/breast-cancer-biomedical-ner-sp-1`](https://huggingface.co/anvorja/breast-cancer-biomedical-ner-sp-1) para detectar entidades clínicas en historias de cáncer de mama. Las historias clínicas son leídas desde archivos de texto y procesadas línea por línea usando un pipeline de NER con Hugging Face.



In [None]:
# Instalación de librerías necesarias
!pip install -U transformers
!pip install torch



# 📂 Carga de historias clínicas desde Google Drive

Se monta Google Drive en el entorno de Colab y se accede a la carpeta que contiene los archivos de texto con historias clínicas. Cada archivo es leído línea por línea, y se almacenan únicamente las líneas no vacías en la lista `historias`, la cual contiene todas las frases que serán procesadas posteriormente por los modelos de análisis.


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import os
carpeta_historias = "/content/drive/MyDrive/Analitica en Salud/Negación"

In [None]:
archivos = os.listdir(carpeta_historias)
print(len(archivos))

106


In [None]:
historias = []
for archivo in archivos:
  ruta_completa = os.path.join(carpeta_historias, archivo)
  with open(ruta_completa, "r") as f:
    for linea in f:
      if linea.strip():
        historias.append(linea.strip())

In [None]:
historias[0:10]

['PRIMERA CONSULTA DE ONCOLOGÍA MÉDICA.',
 'Antecedentes Personales:- Alergia a Fluconazol.',
 '- No HTA.',
 'No DM.',
 'No DL.',
 '- Niega habitos toxicos.- Candidiasis recurrentes- Iqx: ninguna.',
 'MEDICACIÓN- No medicación habitual.',
 'Muje de 59 años remitida desde oncología con Adenocarcinoma ductal infiltrante de mama izquierda, moderadamente diferenciado de 2 cm, intervenido mediante mastectomía radical izquierda el 20/06/1991.',
 '-Carcinoma lobulillar in situ residual de 2 cm en mama dcha, intervenida el 16/04/2003 mediante mastectomía radical derecha.',
 'Recidiva pulmonar y pleural confirmada con AP en el 2012.']

In [None]:
from huggingface_hub import login
login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

Token has not been saved to git credential helper.


# 🤖 Carga del modelo NER de cáncer de mama

Se carga el modelo preentrenado `anvorja/breast-cancer-biomedical-ner-sp-1` desde Hugging Face, diseñado para reconocer entidades biomédicas en textos relacionados con cáncer de mama. Se inicializa un pipeline de reconocimiento de entidades nombradas (NER), utilizando una estrategia de agregación `"simple"` para combinar tokens subpalabra en entidades completas.


In [None]:
from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline

# Cargar el tokenizer y el modelo
model_name = "anvorja/breast-cancer-biomedical-ner-sp-1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# Crear pipeline de NER
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")


Device set to use cpu


# 🧾 Extracción de entidades con el modelo NER

Se procesan las historias clínicas utilizando el pipeline de NER previamente cargado. Para cada línea del texto, se extraen las entidades reconocidas y se almacenan junto con la línea original en una lista llamada `resultados_ner`, que contiene los resultados estructurados para su análisis posterior.


In [None]:
# Procesar las historias clínicas con el modelo NER
resultados_ner = []

for i, historia in enumerate(historias):
    entidades = ner_pipeline(historia)
    resultados_ner.append({
        "linea": historia,
        "entidades": entidades
    })

In [None]:
for r in resultados_ner:
    print(f"\nTexto: {r['linea']}")
    for ent in r['entidades']:
        print(f"  → {ent['word']} ({ent['entity_group']}) [{ent['start']}-{ent['end']}]")



Texto: PRIMERA CONSULTA DE ONCOLOGÍA MÉDICA.
  → ONCOLOGÍA MÉDICA (CLINICAL_SERVICE) [20-36]

Texto: Antecedentes Personales:- Alergia a Fluconazol.
  → Alergia a Fluconazol (ALLERGIES) [26-46]

Texto: - No HTA.
  → No HTA (COMORBIDITY) [2-8]

Texto: No DM.
  → No DM (COMORBIDITY) [0-5]

Texto: No DL.
  → No DL (COMORBIDITY) [0-5]

Texto: - Niega habitos toxicos.- Candidiasis recurrentes- Iqx: ninguna.
  → Candidiasis recurrentes (GINECOLOGICAL_HISTORY) [26-49]

Texto: MEDICACIÓN- No medicación habitual.

Texto: Muje de 59 años remitida desde oncología con Adenocarcinoma ductal infiltrante de mama izquierda, moderadamente diferenciado de 2 cm, intervenido mediante mastectomía radical izquierda el 20/06/1991.
  → 59 años (AGE) [8-15]
  → remitida (OCURRENCE_EVENT) [16-24]
  → oncología (CLINICAL_SERVICE) [31-40]
  → Adenocarcinoma ductal infiltrante de mama izquierda (CANCER_CONCEPT) [45-96]
  → intervenido (OCURRENCE_EVENT) [134-145]
  → mastectomía radical izquierda (SURGERY) [155-18