# Identificación de tratamientos
Usando Spacy para entidades nombradas
// significado de anotaciones: https://spacy.io/api/annotation#named-entities

In [1]:
#Carga de librerías
import pandas as pd
from pandas import read_csv
import spacy
from spacy import displacy
nlp = spacy.load("en")
import string
import re
import codecs

In [2]:
def read_data(raw_clinical_note):
    print("Loading data")
    data = read_csv(raw_clinical_note, header=0,na_filter=True)
    return data

def load_stopwords(filepath):
    stopwords = []
    for line in codecs.open(filepath, encoding = "utf-8"):
        stopwords.append(line.rstrip().lower())
    return stopwords

def clean_text(raw_notas):
    print("Cleaning notes")
    notas = []
    for sen in range (0,len(raw_notas)):
        nota = re.sub(r'\W', ' ', str(raw_notas[sen]))# Remove all the special characters
        nota = re.sub(r'[0-9]','', nota) #elimina números del 0 al 9
        nota = re.sub(r'\s+[a-zA-Z]\s+', ' ', nota) # remove all single characters
        nota = re.sub(r'\^[a-zA-Z]\s+', ' ', nota)# Remove single characters from the start
        #nota = re.sub(r'^b\s+', '', nota)# Removing prefixed 'b
        nota = nota.replace("!@#$%^&*()[]{};:,./<>?\|`~-=_+", ' ')
        nota = nota.replace('_',' ')
        nota = re.sub(r'\s+', ' ', nota, flags=re.I)# Substituting multiple spaces with single space
        nota = nota.lower()# Converting to Lowercase
        notas.append(nota)
    return notas

In [3]:
stop_path = '../data_sedesa/stopwords.txt'
note_pah = '../data_sedesa/covid_observaciones.csv'
note_stop = '../data_sedesa/covid_stop.csv'
stopwords = load_stopwords(stop_path) #carga de stopwords

#Eliminamos stopwords y guardamos el archivo
with open(note_pah,'r') as inFile, open(note_stop,'w') as outFile:
    for line in inFile.readlines():
        print(" ".join([word for word in line.lower().split()
                        if word not in stopwords]), file=outFile)

In [4]:
#Limpieza de texto
raw_clinical_note = read_data(note_stop) #load data
notas_cleaned = clean_text(raw_clinical_note['observaciones'])
#print(notas_cleaned)

Loading data
Cleaning notes
['sospechoso cov pronostico malo plazo establecido riesgo alto manejo avanzado via aérea ', 'sospecha covid has crisis ansiedad', 'cumple criterios hospitalizacion', 'referie unidad hopitalaria contar espacio su atencion', 'caso sospechoso covid leve datos alarma envia domicilio aislamiento datos alarma cita abierta urgencia', 'infeccion vias respiratorias pbe covid ', 'faringitis pb bacteriana has descontrolada sospéchopso covid ', 'antecedente portador seropositivo vih control clinica condesa convivencia extranjeros alta domicilio pendiente prueba confirmación iner ', 'con sintomatología pb covid ', 'ingresa paciente masculino calidad cadaver', 'refiere hospital general iztapalapa su manejo pertinente', 'realizó pba covid cs tlattenco resultado positivo reporte verbal ', 'infeccion vias respiratorias pble neumonia atipica pble covid ñ', 'diagnostico medico ingreso pb covid ', 'infeccion vias respiratorias', 'refiere hospital covid contar este momento espac

In [5]:
notas_string = ' '.join(map(str, notas_cleaned)) #convertimos de list a string
doc = nlp(notas_string)

for ent in doc.ents:
    #print(ent.text, ent.start_char, ent.end_char, ent.label_)
    if ent.label_ != 'TIME' and ent.label_ != 'DATE' and ent.label_ != 'ORDINAL':
        print(ent.text, ent.label_)

sospechoso cov ORG
establecido riesgo PERSON
alto manejo avanzado PERSON
aérea ORG
sospecha NORP
ansiedad NORP
hopitalaria contar ORG
covid leve PERSON
aislamiento datos PERSON
alarma cita PERSON
pb bacteriana GPE
sintomatología pb PERSON
iztapalapa su manejo PERSON
realizó pba covid PERSON
neumonia atipica LOC
diagnostico medico ORG
su hospitalización GPE
insuficiencia respiratoria PERSON
aceptan referencia hospital ORG
norte GPE
unidad GPE
bajas GPE
otra unidad ORG
citibanamex hospital ORG
enrique cabrera hospital juarez ORG
ajusco medio PERSON
bajas GPE
enfermedad covid PERSON
enfermedad puolmonar obstructiva cronica exacerbada EVENT
colon remitido está FAC
medicina interna PERSON
estaba realizando viaje crucero ORG
zona sudamérica PERSON
referido balbuena síntomas covid PERSON
los últimos GPE
casos ORG
sintomatología respiratoria hospital ORG
abc ORG
las hrs ORG
envia LOC
unidad GPE
notas médicas ORG
toxicologico venustiano carranza PERSON
calle diagnósticos ORG
cov ORG
descartar l

fiebre ORG
resp app negados alergiucos negados PRODUCT
cilndrico megalias PERSON
normolieno ruidos cardiacos ritmicvos PERSON
antibiótico GPE
paracetamol tab mg días PERSON
mhd idncian NORP
abierta aurgencias PERSON
edad GPE
único ORG
importancia refiere PERSON
tratamietno NORP
confirmada covid PERSON
sa exploración PERSON
encuentra ORG
edad niega padecimiento crónico degenerativos FAC
menciona GPE
covid inicia PERSON
ruidos cardiacos PERSON
intensidad agreagdos PERSON
lsaida PERSON
agreagdos resto PERSON
exploraci datos comentar signos PERSON
tele tórax PERSON
datos patológicos egresa PERSON
edad GPE
bajas neumonia atipica sofa punto news ORG
vida tuvo deterioro respiratorio ingresando PERSON
ras hemodibnamicamente PRODUCT
medias PERSON
acoplada ORG
alto peep saturacion PRODUCT
lo solicita gasometria ORG
realizar ajuste parametros PERSON
minuto metas PERSON
foley obtienen cc PERSON
manejo PERSON
cloroquina azitromicina oseltamivir PERSON
pronosticas GPE
psi ORG
diagnostica insuficienc

piel tegumentos PERSON
aumento mecánica PERSON
frecuencia abdomen PERSON
simétricas íntegras NORP
ede ORG
vida encuentra PERSON
casos covi calcuala news ORG
puntos lo PERSON
además cumple PERSON
inicia manejo PERSON
bomba GPE
antibiótico GPE
neuroaminidasa sulfato PERSON
vitamina solicita FAC
solicitan GPE
bajas NORP
sexta decada vida PERSON
reporte leucocitos neutrofilos PERSON
hemoglobina hematocrito plaquetas PERSON
cloro PERSON
hiponatremia hipocloremia PERSON
reajustan GPE
paciente presenta PERSON
respuesta inflamatoria PERSON
cuadro infeccioso calcula ORG
embargo encuentra PERSON
asi solicitan PERSON
covid notifican los PERSON
guias manejo covid reporta PERSON
matutina GPE
años cursando los PERSON
diagnósticos ORG
bajas news puntos probable ORG
mm PERSON
minuto frecuencia PERSON
edad GPE
piel PERSON
integro NORP
normorreflécticas mucosa PERSON
hidratada GPE
cilíndrico megalias PERSON
normodinámico ruidos adecuada FAC
intensidad GPE
simétricas integras LOC
pulsos ORG
reflejos oste

cov dice notas ORG
inicia padecimiento PERSON
térmica cuantificada EVENT
medico ORG
siguiente hospital ORG
paracetamol mg PERSON
sintomatología progresa PERSON
baja GPE
necesidad oxigeno PERSON
ajusco medio PERSON
edad mecánico proveniente instituto EVENT
haber contacto PERSON
hermana GPE
contaba diagnostico PERSON
tos CARDINAL
fiebre ORG
malestar ORG
lo PERSON
médico particular dio tratamiento PERSON
antibioticoterapia desconoce PERSON
cuadro gripal lo PERSON
medico PERSON
otorga ORG
mejoria agrega ceraleatos PERSON
lo PERSON
paciente le realiza PERSON
menciona medidas generales PERSON
patologicos importancia PERSON
incmnsz dias PERSON
tos ORG
fiebre ORG
malestar GPE
su ingreso encuentró ORG
ta sato PERSON
ambiente hisopado covid PERSON
de ferritina GPE
unidad GPE
vigilancia ingresando PERSON
saturando durante PERSON
estancia ORG
unidad requerido oxigeno suplementario aire ambiente EVENT
su esposa PERSON
citlali perez zarate PERSON
edad GPE
trasladado hospital FAC
medio inicia PERSON
