# GPTChallenge: diagnóstico a partir de HCE

Vamos a trabajar con el corpus CodEsp (textos de historial clínico etiquetados con sus códigos CIE-10 Diagnóstico)

In [1]:
import pandas as pd
import os, re
import numpy as np

pd.options.display.max_colwidth = None

In [2]:
#los códigos están en un TSV con un código por línea
train_diag = pd.read_csv("data/train/train.tsv", sep="\t", header=None, names=["archivo", "codigo"])
train_diag.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8316 entries, 0 to 8315
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   archivo  8316 non-null   object
 1   codigo   8316 non-null   object
dtypes: object(2)
memory usage: 130.1+ KB


In [3]:
train_diag['codigo'].value_counts()

codigo
r52        163
r69        150
r50.9      142
i10        116
r59.9       95
          ... 
d37.030      1
c79.71       1
g25.0        1
l76.3        1
n81.2        1
Name: count, Length: 2194, dtype: int64

In [5]:
#cogemos la categoría superior de cada código y las agrupamos
train_diag['cat'] = train_diag['codigo'].str.extract(r'(\w\d\d)')
print(train_diag['cat'].value_counts())
train_diag['cat'].nunique()

cat
r52    163
r10    163
r59    160
r69    150
r50    144
      ... 
c31      1
d62      1
s53      1
s34      1
n81      1
Name: count, Length: 918, dtype: int64


918

In [6]:
categories=train_diag['cat'].value_counts()[:10]
top_categorias = categories.index.to_list()
print(top_categorias)

['r52', 'r10', 'r59', 'r69', 'r50', 'r60', 'i10', 'r11', 'n28', 'd49']


In [7]:
#seleccionamos sólo las etiquetas de este subconjunto
train_diag = train_diag[np.isin(train_diag['cat'], top_categorias)]

In [8]:
#cargamos los dos conjuntos de train
path = 'data/train/text_files/'

corpus = []
for f in [f for f in os.listdir(path) if f.endswith('.txt')]:
    with open(os.path.join(path, f), encoding="utf8") as text:
        texto = text.read()
    #buscamos códigos
    file = f[:-4]
    codigos = train_diag.query('archivo==@file')['cat'].to_list()
    codigos = list(set(codigos))
    if codigos:
        corpus.append({
            'archivo': file,
            'texto': texto,
            'codigos': codigos
        })
    
df_train = pd.DataFrame(corpus).set_index('archivo')
df_train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 562 entries, S0004-06142005000700014-1 to S2340-98942015000100005-1
Data columns (total 2 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   texto    562 non-null    object
 1   codigos  562 non-null    object
dtypes: object(2)
memory usage: 13.2+ KB


In [9]:
df_train.sample(3)

Unnamed: 0_level_0,texto,codigos
archivo,Unnamed: 1_level_1,Unnamed: 2_level_1
S1698-69462006000300015-1,"Paciente mujer, 44 años, derivado a nuestra unidad por aumento de volumen en la región cigomática y limitación progresiva de la apertura bucal de 10 meses de evolución. La historia médica no era relevante. El examen físico extraoral muestra asimetría facial por aumento de volumen en la mejilla izquierda, de limites difusos, consistencia ósea, indoloro, con piel de aspecto normal. La apertura bucal era 30 mm. La articulación temporomandibular (ATM) era normal a la palpación, sin ruidos o dolor en apertura. En la ortopantomografía observamos una apófisis coronoides izquierda de mayor tamaño. La hipótesis diagnóstica fue tumor coronoídeo.\n\nSe realizó una incisión por sobre el borde anterior de la rama mandibular, desinsertando todas las inserciones del músculo temporal. Alrededor del aumento de volumen se encontró una pseudocápsula fibrosa, que fue liberada. Se efectuó la coronoidectomía. La apertura bucal se recuperó inmediatamente hasta 43 mm. El postoperatorio se desarrolló sin complicaciones, y la paciente fue dada de alta a las 48 horas.\nEl estudio histopatológico informó la presencia fibras, hueso de neoformación y tejido cartilaginoso hialino. El diagnóstico fue osteocondroma. Los controles posteriores se desarrollaron sin problemas. El alta definitiva fue dada a los 10 meses, con remodelación casi completa de la deformidad de la mejilla.\n\n","[d49, r52]"
S0211-69952014000200012-2,"Una mujer de 50 años, de raza caucásica, con IRC secundaria a poliquistosis renal, inició hemodiálisis en 1987, recibiendo su primer trasplante renal de donante cadáver en 1988. Como complicaciones del trasplante presentó un rechazo agudo tratado con choques de esteroides, globulina antitimocítica (ATG) y anticuerpo monoclonal anti CD3 (OKT3), retornando a hemodiálisis en junio de 2009 tras pérdida del injerto renal por nefropatía crónica. Se diagnosticó una hepatitis «no-A, no-B» en 1987 en relación con politransfusión de hemoderivados, confirmándose posteriormente RNA-VHC positivo (genotipo 1a). En noviembre de 2009, cinco meses después del retorno a diálisis, se inició tratamiento con IFN pegilado α2a, 135 μg semanales, y RBV 200 mg cada 48 horas, con soporte de eritropoyetina oscilante durante todo el tratamiento. En febrero de 2010, comenzó con fiebre y hematuria, por lo que se disminuyó la dosis del tratamiento antiviral y se realizó embolización del injerto renal ante la sospecha de rechazo agudo del injerto no funcionante. Se reanudó el tratamiento con IFN y RBV a la dosis inicial, que hubo de ser suspendido en la semana 40 por la aparición de un eritema exudativo multiforme sin respuesta a tratamiento corticoideo. La paciente presentó una respuesta viral rápida con carga indetectable en la cuarta semana de tratamiento y RVS posterior. En julio de 2011, recibió su segundo trasplante renal de donante cadáver. Actualmente mantiene función renal normal y carga viral negativa.\n\n","[r50, n28]"
S0211-57352007000200017-1,"T. I. es una mujer de 38 años que llegó a nuestra unidad, derivada desde la unidad de quemados de otro centro hospitalario de Barcelona, por un cuadro psicótico. La paciente sufrió quemaduras tras un incendio en su domicilio que precisaron un mes de ingreso en dicha unidad.\nLa paciente no refería antecedentes personales ni familiares de enfermedad mental. Asimismo negó consumo de tóxicos. Como antecedentes somáticos únicamente destacaban: parto por cesárea hace cinco meses, infección de la herida quirúrgica; y quemaduras de segundo y tercer grado por el mencionado incendio.\nEn la psicobiografía de la paciente destacaba que era natural de Casablanca (Marruecos) y la sexta de nueve hermanos (5 varones y 4 mujeres). Estuvo escolarizada hasta los veinte años con buen rendimiento (colegio y liceo, más 2 años de formación complementaria). El ajuste socio-laboral en su país era correcto (diversos empleos temporales como azafata, dependienta, monitora de deporte, etc.). Se casó en su país hace un año y medio por acuerdo familiar (antes nunca había tenido pareja ni amigos de sexo masculino) y un mes después se trasladó a vivir a la provincia de Girona (España), donde residía con su marido, su cuñado y la mujer de éste. Desde su matrimonio la paciente se dedicaba a las tareas del hogar. Su primer hijo (un varón) nació hace cinco meses en un parto complicado.\nHace dos meses se produjo un incendio en su domicilio en circunstancias no aclaradas que provocó su entrada en la unidad de quemados de un centro hospitalario. Al ingreso en nuestra Unidad la paciente se encontraba vigil, consciente y desorientada témporo-espacialmente. El contacto con la paciente era psicótico; su discurso era parco, en voz baja y con tono de voz monótono. Refería un delirio de perjuicio y paranoide que no nos especificó. Se mostraba desconfiada. Refería hipotimia, distimia de miedo, así como alucinaciones auditivas en forma de ""ruidos"". En la exploración se evidenció una deficiente memoria de fijación.\nEn las sucesivas entrevistas con la paciente (varias de ellas con ayuda de una traductora) ésta refirió que hacia los dos meses posteriores al parto inició un trastorno del estado de ánimo que oscilaba entre tristeza o llanto y ánimo elevado. Progresivamente apareció un delirio de perjuicio hacia ella y su hijo, así como alucinaciones auditivas en forma de voces que la criticaban y daban órdenes. En relación a dicha clínica psicótica la paciente explicaba angustia y miedo intenso a sufrir daño (ella o su hijo) así como su aislamiento voluntario como medida de protección. Al explorar las horas previas al incendio, durante el mismo y en su estancia en la unidad de quemados, la paciente explicó fluctuación del nivel de conciencia y pérdida de memoria, por lo que no se pudo descartar la sospecha de un suicidio ampliado en el contexto del cuadro alucinatorio-delirante.\nDurante su estancia en la unidad de agudos se instauró tratamiento farmacológico con Haloperidol hasta 11.5 mg/d (con reducción progresiva de la dosis), Amisulpride (hasta 800 mg/d) y Clonacepam. A las pocas horas del ingreso ya se mostraba vigil, consciente y orientada. Los primeros días la paciente aún permanecía temerosa y suspicaz, sin salir apenas de su habitación. Lentamente fue mejorando el contacto, el afecto y los síntomas psicóticos; de forma progresiva desaparecieron las alucinaciones y fue tomando distancia del contenido delirante hasta lograr criticarlo. Fue adaptándose poco a poco a la dinámica de la unidad. Se consideró clave para el tratamiento y recuperación de la paciente facilitar el contacto temprano y continuado con su hijo y los permisos al hogar familiar; de hecho, el contacto materno-filial precoz fue un importante factor que aceleró la recuperación de la paciente. Los permisos transcurrieron sin incidencias y la familia colaboró adecuadamente en todo momento.\nAl alta la paciente se mostraba eutímica, tranquila, libre de psicopatología psicótica positiva y era capaz de hacerse cargo de su hijo (aunque persistía el cuadro amnésico secundario al cuadro confusional). La paciente y su familia plantearon la posibilidad de realizar su convalecencia en Marruecos, lo que consideramos beneficioso ya que sería atendida por profesionales con su mismo idioma y cultura y contaría con el apoyo de su familia de origen; pero se destacó la importancia de desplazarse con su hijo para que el traslado fuese realmente terapéutico.\n\n",[r69]


## Cargar los textos del conjunto de test

In [29]:
#los códigos están en un TSV con un código por línea
test_diag = pd.read_csv("data/test/test.tsv", sep="\t", header=None, names=['archivo'])
test_diag.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 192 entries, 0 to 191
Data columns (total 1 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   archivo  192 non-null    object
dtypes: object(1)
memory usage: 1.6+ KB


In [32]:
path = 'data/test/text_files/'

# Lista para almacenar los textos y sus códigos correspondientes
corpus = []

# Itera sobre los archivos de texto en el directorio
for f in [f for f in os.listdir(path) if f.endswith('.txt')]:
    with open(os.path.join(path, f), encoding="utf8") as text:
        texto = text.read()
    
    # Extrae el código del nombre del archivo
    file = f[:-4]
    
    # Agrega el texto al corpus
    corpus.append({
        'archivo': file,
        'texto': texto
    })

# Crea un DataFrame a partir del corpus
df_test = pd.DataFrame(corpus).set_index('archivo')

In [33]:
df_test.sample(3)

Unnamed: 0_level_0,texto
archivo,Unnamed: 1_level_1
S1130-01082008000100010-1,"Paciente varón de 65 años, fumador de 20-40 cigarrillos/día y con antecedente de ulcus duodenal. Había sido intervenido 5 años previamente por neoplasia estenosante de unión recto-sigmoidea (adenocarcinoma estadio B de Dukes, T3N0M0, estadio III-A AJCC), practicándosele resección anterior, seguida de anastomosis término-terminal mediante sutura mecánica utilizando la técnica del doble grapado. El postoperatorio de dicha intervención cursó sin complicaciones y el paciente fue seguido en consulta cada 6 meses, realizándose anualmente colonoscopia y ecografía. La imagen endoscópica de la región perianastomótica resultó normal en todas las revisiones, incluyendo la última, realizada el año anterior (a los 4 años de la intervención).\nA los 5 años de la intervención, el paciente comienza con deposiciones blandas, dolorimiento abdominal intermitente en hipogastrio y posteriormente rectorragias, por lo que es ingresado en el servicio de medicina interna, realizándosele un TAC abdominal, que no reveló hallazgos patológicos, y colonoscopia, en la que se observa una estenosis a 10 cm del margen anal que impide el paso del endoscopio. Se realiza biopsia en la que no se aprecian signos histopatológicos de enfermedad maligna y que es informada como úlcera inespecífica.\n\nDado que los marcadores tumorales séricos estaban en niveles normales, y ante la ausencia de otros signos de neoplasia, se decidió repetir la endoscopia y realizar un enema opaco. La nueva endoscopia y biopsia mostraron idénticos hallazgos a los previos. En el enema opaco se observó estenosis de colon de aspecto irregular y de 8 cm de longitud, no pudiendo descartarse con dicha imagen la posibilidad de una estenosis maligna. Ante la falta de pruebas conclusivas de recidiva tumoral, se decide un periodo de tratamiento con enemas de corticoides (budesonida, 2 mg en enema, 2 veces al día), con el fin de reducir la inflamación y poder así completar la exploración endoscópica.\n\nPasado un mes, con el paciente asintomático, se repite la endoscopia, encontrándose una mucosa inflamatoria y ulcerada, tapizando una estenosis de 6-8 cm de longitud que ya se logra atravesar con el endoscopio, sin observarse signos de neoplasia y siendo el resto del colon de aspecto normal. Las biopsias que se tomaron mostraron signos inflamatorios inespecíficos.\nLa estenosis es juzgada como de origen isquémico y, dado que el paciente está totalmente asintomático, se decide seguimiento periódico.\nA los 6 meses de seguimiento, se detectan alteraciones electrocardiográficas, por las cuales se solicita consulta al cardiólogo. Por ergometría y coronariografía se encuentran irregularidades en descendente anterior proximal media, grave afectación del ostium del ramo diagonal, estenosis del 80% del ramo obtuso marginal y estenosis del 80% en coronaria derecha media. Se decide dilatación e implantación de un doble stent coronario, tras lo cual desaparecieron las alteraciones electrocardiográficas.\nTras 16 meses de seguimiento, el paciente presenta tránsito normal y se encuentra asintomático.\n\n"
S0210-48062004000500009-1,"Se trata de un paciente de 70 años, el cual refiere sintomatología de tracto urinario inferior en forma de inicio de aumento de frecuencia miccional nocturna, ligera disuria, así como leve disminución del calibre miccional.\nAnte esta sintomatología prostática incipiente, es remitido a su urólogo de zona, el cual realiza un tacto rectal (adenoma II), y solicita una determinación de PSA y una ecografía abdominal para la siguiente consulta.\nEl paciente mostraba como únicos antecedentes una intervención sobre el ojo izquierdo como consecuencia de un traumatismo, y en el plano urológico una ureterolitectomía del tercio superior del uréter hacía 35 años en otro centro, a través de una lumbotomía.\nEn la siguiente consulta, y encontrándose el paciente totalmente asintomático, se determina en el estudio ecográfico la existencia de una masa parahiliar en el riñón izquierdo de unos 6 cm de diámetro, un riñón derecho normal, una próstata de 35 cc, así como un PSA dentro de los rangos normales.\nAnte estos hallazgos y la sospecha de una tumoración renal, se realiza un TAC con el resultado de imagen parapiélica izquierda, de 5-6 cm de diámetro, de aspecto sólido, que se extiende desde el hilio renal hasta por debajo del polo inferior, con compresión del riñón y con un dudoso plano graso de separación con el mismo, calcificaciones en su interior y muy baja vascularización.\n\nCon el diagnóstico de masa renal se realiza un estudio de extensión que resulta negativo, planteándose la revisión quirúrgica y exéresis de la masa y/o nefrectomía según hallazgos.\nQuince días después se lleva a cabo una lumbotomía izquierda.\nUna vez iniciadas las maniobras de disección renal, se identifica claramente la masa comprimiendo riñón, pero con claro plano de disección entre ambos. Dada las dudas de la naturaleza de la masa, se realiza una biopsia intraoperatoria obteniéndose fibras textiles.\nAnte la evidencia de que se estaba ante una gasa de la intervención previa, se realiza la exéresis de la totalidad de la tumoración conservando la unidad renal.\nUna vez realizada la exéresis de la masa, ésta es abierta encontrándose en su interior fragmentos deshilachados de una o varias gasas, con material de aspecto caseoso a su alrededor.\n\nEl análisis anatomopatológico de la pared de la tumoración hablaba de material hialino con tendencia a la colagenización, y reacción inflamatoria sobre todo a expensas de histiocitos.\n"
S0376-78922014000200012-1,"Varón de 48 años de edad, diabético de larga evolución, mal controlado, que se presenta en el Servicio de Urgencias de nuestro hospital con un cuadro de 5 días de evolución caracterizado por dolor, edema y aumento de temperatura en párpado superior e inferior izquierdos,\nsegún relata secundarios a trauma contuso que condicionó una dermoabrasión de poca trascendencia inicialmente.\nA su ingreso, es valorado por Oftalmología y diagnosticado de un cuadro de celulitis preseptal. A las 8 horas de su ingreso desarrolla una escara necrótica en el tejido involucrado. Durante el primer día de internamiento se le practicó aseo quirúrgico y desbridamiento de la totalidad del tejido necrótico. Se envía material a cultivo bacteriológico, identificando Streptococo Pyogenes. De acuerdo a dicho resultado, el paciente fue valorado por Infectología y se inició tratamiento con Meropenem, Vancomicina, Clindamicina y Anfotericina.\n\nDurante el segundo día de internamiento fue sometido a valoración por parte de la Clínica de Heridas del Servicio de Dermatología y se inició tratamiento con terapia de presión negativa, a 125 mmHg de forma contínua, con el objetivo de controlar el exudado, favorecer la granulación y disminuir el espacio muerto. Esta terapia fue suspendida 3 días después (al quinto día de internamiento) por progresión del eritema hacia la porción palpebral contralateral. El paciente continuó a cargo de Oftalmología y Dermatología, siendo tratado con curas a base de solución fisiológica e isodine y cubierto con parches de alginato, procedimiento mediante el cual se logró controlar el proceso infeccioso.\n\nA los 15 días de internamiento, fue valorado por Cirugía Plástica y Reconstructiva, objetivando la pérdida cutánea de la totalidad del párpado superior, pérdida parcial de músculo orbicular y elevador (este último se encontraba desinsertado), buen tejido de granulación y pérdidas focales de conjuntiva.\n\nUn mes después de la valoración inicial, el paciente fue intervenido quirúrgicamente realizándose desbridamiento del tejido de granulación hasta lograr el cierre palpebral parcial, identificando placa tarsal íntegra. Realizamos colgajos locales para cerrar defectos en conjuntiva, cantotomía lateral, injerto de espesor total en canto medial y colgajo frontal músculocutaneo derecho que fijamos al remanente súpero-externo del músculo orbicular del párpado.\n\nCuatro semanas después, llevamos a cabo la sección del pedículo y el adelgazamiento del colgajo frontal, viendo que el paciente presentaba movimiento palpebral dependiente de la miorrafia del frontal con el remanente del orbicular del párpado.\n\nEl paciente persistió con un mayor volumen y eversión del párpado reconstruido, por lo que 2 meses después realizamos un nuevo adelgazamiento del colgajo y corregimos el lagoftalmos mediante cantopexia lateral, liberando el ligamento palpebral y reinsertándolo en el reborde orbitario.\n\nTras 2 años de evolución, presenta cobertura del globo ocular con cierre y apertura palpebral completos, sin repercusión visual. No ha requerido nuevo tratamiento quirúrgico.\n\n"


## Binarizar las etiquetas

In [13]:
# para entrenar un clasificador multi-etiqueta generamos una matriz binaria de las etiquetas
from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
y_train = mlb.fit_transform(df_train['codigos'])

#Guardamos las clases utilizadas en el conjunto de train
clases = mlb.classes_
num_classes = clases.shape
print(num_classes[0])

10


## Procesamiento del lenguaje natural

## Modelos

## Guardar predicciones de Test