# Library

In [3]:
import pandas as pd
import numpy as np
import os
import re
import collections
import unidecode
import nltk
from nltk.corpus import stopwords
import itertools 
from nltk.tokenize import word_tokenize
from string import punctuation
from functools import reduce
import seaborn as sns
from abbreviations import schwartz_hearst

In [4]:
pd.set_option('display.max_colwidth', 100)

In [5]:
%matplotlib inline
from matplotlib import pyplot as plt

# Functions

In [6]:
def read_texts(path):
    data = []
    file_name = os.listdir(path)

    for name in file_name:
        if name.endswith('.txt'):
            with open(path + name,encoding="utf8") as f:
                text = f.read()
                data.append({'nombre':name.replace('.txt',''), 'texto':text})

    df = pd.DataFrame(data)
    return df

In [7]:
nltk.download('stopwords')
swords = list(set(stopwords.words('spanish')))

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/egarcia/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [8]:
def clean_text(string):
    """
    A method to clean text 
    """
    
    # Removing the punctuations
    for x in string.lower(): 
        if x in punctuation:
            if x != '/':
                string = string.replace(x, "")
            else:
                string = string.replace(x, " ")
    
    string = unidecode.unidecode(string)

#     # Converting the text to lower
#     string = string.lower()

    # Removing stop words
    string = ' '.join([word for word in string.split() if word not in swords])

    # Cleaning the whitespaces
    string = re.sub(r'\s+', ' ', string).strip()

    return string 

In [9]:
def distance_levenshtein(str1, str2):
    d=dict()
    for i in range(len(str1)+1):
        d[i]=dict()
        d[i][0]=i
    for i in range(len(str2)+1):
        d[0][i] = i
    for i in range(1, len(str1)+1):
        for j in range(1, len(str2)+1):
            d[i][j] = min(d[i][j-1]+1, d[i-1][j]+1, d[i-1][j-1]+(not str1[i-1] == str2[j-1]))
    return d[len(str1)][len(str2)]

In [10]:
def normalize_lf(row):
    leven2 = []
    for i in row:
        for j in row:
            if i != j:
                long = max(len(i),len(j))
                ratio = distance_levenshtein(i,j)/long
                if ratio < 0.2:
                    leven2.append(j)
    if leven2:
        leven2 = set(leven2)
        lista = []
        for i in leven2:
            val = frec[frec['index'] == i]['long_form'].iloc[0]
            lista.append((i, val))
        lista = set(lista)
        most_freq = sorted(set(lista), key=lambda x: x[1], reverse = True)[0][0]
        sust = {}
        for i in set(leven2):
            sust[i] = most_freq
        
        return sust
    else:
        pass
    

In [11]:
def get_label(row):
    if row['long_form_x'] == row['long_form_y']:
        return 1
    else:
        return 0

In [12]:
def offsetA(row):
    return row['texto'].find(row['Mention_A'])
    
def offsetB(row):
    return row['texto'].find(row['Mention_B'])

def offsetB_end(row):
    return row['texto'].find(row['Mention_B']) + len(row['Mention_B'])

def offsetA_end(row):
    return row['Mention_A_StartOffset'] + len(row['Mention_A'])

In [67]:
def offset(row):
    return row['texto'].find(row['abrev'])

def offsetend(row):
    return row['StarOffset']+len(row['abrev'])

# Load Data

### Testing

220 clinical cases.

In [42]:
testing_abbr = pd.read_csv("../../acronym_disambiguation_tfm/data/ibereval_data/testing_set/clinical_cases.abbreviations.testing_set.tsv", sep = '\t')

In [43]:
#testing_abbr = testing_abbr.rename(columns = {'# Document_ID': 'doc_id'})

In [44]:
testing_abbr.head()

Unnamed: 0,# Document_ID,StartOffset,EndOffset,Abbreviation,Definition,Definition_lemmatized
0,S0212-71992005000500009-1,533,537,/mm3,milímetro cúbico,milímetro cúbico
1,S1130-14732005000200003-1,1857,1858,µ,micro,micro
2,S0211-69952013000200018-1,2512,2514,µg,microgramo,microgramo
3,S0212-16112004000400007-1,4558,4560,µg,microgramo,microgramo
4,S1137-66272014000300016-1,1112,1114,µg,microgramo,microgramo


In [45]:
testing_raw = read_texts("../../acronym_disambiguation_tfm/data/ibereval_data/testing_set/testing_set.raw_text/")

In [46]:
testing_raw.head()

Unnamed: 0,nombre,texto
0,S1130-01082008001000010-1,"Varón de 43 años originario de Marruecos, que ingresó en nuestro servicio por cuadro de 4 días d..."
1,S0004-06142009000400011-1,Varón de 75 años con antecedentes de EPOC moderado sin otros antecedentes médicos de interés. En...
2,S0376-78922011000200004-1,Mujer de 44 años de edad con antecedentes médicos de insuficiencia renal crónica en tratamiento ...
3,S1137-66272014000300016-1,Mujer de 36 años sin antecedentes médicos o epidemiológicos de interés que es ingresada en la Un...
4,S1130-01082008000800019-1,"Recientemente, atendimos en nuestro hospital a un varón de 46 años, con antecedente de síndrome ..."


### Trainning

318 clinical cases

In [47]:
train_abbr = pd.read_csv("../../acronym_disambiguation_tfm/data/ibereval_data/trainning_set/clinical_cases.abbreviations.training_set.tsv", sep = '\t')

In [48]:
#train_abbr = train_abbr.rename(columns = {'# Document_ID': 'doc_id'})

In [49]:
train_abbr.Definition.nunique()

908

In [50]:
train_abbr.head()

Unnamed: 0,# Document_ID,StartOffset,EndOffset,Abbreviation,Definition,Definition_lemmatized
0,S0210-48062004000500008-1,1650,1652,ml,mililitro,mililitro
1,S0210-48062004000500008-1,708,709,l,litro,litro
2,S0210-48062004000500008-1,704,707,mEq,miliequivalente,miliequivalente
3,S0210-48062004000500008-1,677,681,pCO2,presión parcial de co2,presión parcial de co2
4,S0210-48062004000500008-1,2287,2290,HLA,human leucocyte antigen,human leucocyte antiger


In [108]:
train_abbr = train_abbr.dropna()

In [111]:
train_abbr.to_csv("../../datasets/trainning_set/clinical_cases.abbreviations.training_set.tsv", sep = '\t', index = False)

In [54]:
train_raw = read_texts("../../acronym_disambiguation_tfm/data/ibereval_data/trainning_set/training_set.raw_text/")

In [55]:
#train_raw = train_raw.rename(columns = {'nombre': 'doc_id'})

In [56]:
train_raw.head()

Unnamed: 0,nombre,texto
0,S1130-01082006000100014-1,"Se trata de una mujer de 35 años, con antecedentes familiares de enfermedad de Crohn y sin antec..."
1,S1130-01082009000300015-1,"Varón de 70 años, fumador, con enfisema pulmonar y vitíligo al que en mayo de 2001 se realizó un..."
2,S0210-56912010000200009-1,Se trata de una mujer de 70 años con antecedentes de HTA y diagnosticada recientemente de neopla...
3,S1130-01082008000900014-1,Varón de 41 años diagnosticado de adenocarcinoma medianamente diferenciado implantado sobre esóf...
4,S0210-48062004000500008-1,Paciente de 29 años de edad que acude al Servicio de Urgencias de nuestro Hospital ante la prese...


## Subtrack 2: Regex to extract acronym

In [57]:
nltk.download('stopwords')
swords = list(set(stopwords.words('spanish')))
swords = swords + ['I','II','III','VI','VII','VIII','IX', 'X', 'x']

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/egarcia/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [58]:
patron1 = r'[A-Z]{2,8}' #Letras mayúsculas entre 2 y 8. Probar (\s|\()[A-Z]{2,8}
patron2 = r'\s[a-z]{1,2}\s' #Entre 2 y 3 letras minusculas entre espacios
patron3 = r'\b[aA-zZ]{1,4}\-[aA-zZ]{1,4}\b' #mayúsuclas o minúsculas entre guiones
patron4 = r'\b\w{2}\b\/' #medidas antes de un signo /
patron5 = r'\/\b\w{2}\b' #medidas después de un signo /
patron6 = r'[aA-zZ]{1,4}[A-Z]+[a-z]*[1-4]*'
patron7 = r'\b\w{1,3}\s[0-9]{1,3}\b' #letras y numeros separadas por espacio
patron8 = r'\b\w{1,3}[-]\w{1,3}\b' #tras y numeros separas por guión
patron9= r'\b[aA-zZ]{1,3}[0-9]{1,3}\b' #letras con numeros todo junto
#patron8 = r'\/[a-z]*[A-Z]*'
#patron6 = r'[1-9]\s*[aA-zZ]{1,4}\/\b[aA-zZ]{1,4}\b' #Palabras divididas por / solo cuando las palabras no exceden de 4 caracteres


# create a list with them
regexes = [ patron1, patron2, patron3, patron4, patron5, patron6, patron7, patron8, patron9]
for i in regexes:
    generic_re = re.compile("%s|%s|%s|%s|%s|%s|%s|%s|%s" % (patron1, patron2, patron3, patron4, patron5, patron6, patron7, patron8, patron9))

In [59]:
train_raw['texto_clean'] = train_raw['texto'].str.split().map(lambda x: ' '.join([w for w in x if w not in swords]))

In [60]:
train_raw['abrev'] = train_raw['texto_clean'].map(lambda x: generic_re.findall(x))

In [61]:
train_raw.head()

Unnamed: 0,nombre,texto,texto_clean,abrev
0,S1130-01082006000100014-1,"Se trata de una mujer de 35 años, con antecedentes familiares de enfermedad de Crohn y sin antec...","Se trata mujer 35 años, antecedentes familiares enfermedad Crohn antecedentes patológicos interé...","[FID, A 2, IMC, /60, /dl, 700 84, GOT, GPT, GT, /dl, mg/, mg/, mm3 90, A 5, LCR]"
1,S1130-01082009000300015-1,"Varón de 70 años, fumador, con enfisema pulmonar y vitíligo al que en mayo de 2001 se realizó un...","Varón 70 años, fumador, enfisema pulmonar vitíligo mayo 2001 realizó colonoscopia diarrea, dolor...","[ cm , cm , pg/, pg/, mg , TC, cm , cm , cm , pg/, mg , cm , cm ]"
2,S0210-56912010000200009-1,Se trata de una mujer de 70 años con antecedentes de HTA y diagnosticada recientemente de neopla...,"Se trata mujer 70 años antecedentes HTA diagnosticada recientemente neoplasia recto bajo, tratad...","[HTA, UCI, VM, VMNI, oC, /dl, /μl, VM, oC, TC, BAL, PCR, CMV, BAL, PCR, VHS, /kg, /8h]"
3,S1130-01082008000900014-1,Varón de 41 años diagnosticado de adenocarcinoma medianamente diferenciado implantado sobre esóf...,Varón 41 años diagnosticado adenocarcinoma medianamente diferenciado implantado esófago Barrett ...,"[ mm , CRE, mm , mm , EE, UU, mmHg, mmHg]"
4,S0210-48062004000500008-1,Paciente de 29 años de edad que acude al Servicio de Urgencias de nuestro Hospital ante la prese...,Paciente 29 años edad acude Servicio Urgencias Hospital presencia erección levemente dolorosa di...,"[ u , pCO2, mmHg, HCO, mEq, mg/, ml , mg , 20-30, ml , 414 109, HLA]"


In [62]:
train_track2 = train_raw.explode('abrev')

In [63]:
train_track2['abrev'] = train_track2['abrev'].str.replace('[!"#$%&*+,-./:;<=>?@^_`{|}~]','')

  train_track2['abrev'] = train_track2['abrev'].str.replace('[!"#$%&*+,-./:;<=>?@^_`{|}~]','')


In [64]:
train_track2.head()

Unnamed: 0,nombre,texto,texto_clean,abrev
0,S1130-01082006000100014-1,"Se trata de una mujer de 35 años, con antecedentes familiares de enfermedad de Crohn y sin antec...","Se trata mujer 35 años, antecedentes familiares enfermedad Crohn antecedentes patológicos interé...",FID
0,S1130-01082006000100014-1,"Se trata de una mujer de 35 años, con antecedentes familiares de enfermedad de Crohn y sin antec...","Se trata mujer 35 años, antecedentes familiares enfermedad Crohn antecedentes patológicos interé...",A 2
0,S1130-01082006000100014-1,"Se trata de una mujer de 35 años, con antecedentes familiares de enfermedad de Crohn y sin antec...","Se trata mujer 35 años, antecedentes familiares enfermedad Crohn antecedentes patológicos interé...",IMC
0,S1130-01082006000100014-1,"Se trata de una mujer de 35 años, con antecedentes familiares de enfermedad de Crohn y sin antec...","Se trata mujer 35 años, antecedentes familiares enfermedad Crohn antecedentes patológicos interé...",60
0,S1130-01082006000100014-1,"Se trata de una mujer de 35 años, con antecedentes familiares de enfermedad de Crohn y sin antec...","Se trata mujer 35 años, antecedentes familiares enfermedad Crohn antecedentes patológicos interé...",dl


In [78]:
train_track2 = train_track2[~train_track2.abrev.isnull()]

In [79]:
train_track2['StartOffset'] = train_track2.apply(offset, axis = 1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train_track2['StartOffset'] = train_track2.apply(offset, axis = 1)


In [84]:
train_track2['StartOffset'] = train_track2.apply(offset, axis = 1)
train_track2['EndOffset'] = train_track2.apply(offsetend, axis = 1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train_track2['StartOffset'] = train_track2.apply(offset, axis = 1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train_track2['EndOffset'] = train_track2.apply(offsetend, axis = 1)


In [87]:
train_track2 = train_track2[['nombre','StartOffset', 'EndOffset' ,'abrev','texto']]

In [96]:
train_track2 = train_track2.rename(columns = {'nombre':'# Document_ID', 'abrev':'Abbreviation'})

In [97]:
train_track2['Definition']= 'hola'
train_track2['Definition_lemmatized']= 'hola'

In [100]:
train_track2.head()

Unnamed: 0,# Document_ID,StartOffset,EndOffset,Abbreviation,Definition,Definition_lemmatized
0,S1130-01082006000100014-1,192,195,FID,hola,hola
0,S1130-01082006000100014-1,-1,2,A 2,hola,hola
0,S1130-01082006000100014-1,1144,1147,IMC,hola,hola
0,S1130-01082006000100014-1,1193,1195,60,hola,hola
0,S1130-01082006000100014-1,1414,1416,dl,hola,hola


In [99]:
train_track2 = train_track2[['# Document_ID', 'StartOffset', 'EndOffset', 'Abbreviation','Definition', 'Definition_lemmatized']]

In [118]:
train_track2[train_track2['# Document_ID']== 'S1130-01082008000800010-1']

Unnamed: 0,# Document_ID,StartOffset,EndOffset,Abbreviation,Definition,Definition_lemmatized
193,S1130-01082008000800010-1,160,163,TSH,hola,hola
193,S1130-01082008000800010-1,498,502,cm,hola,hola
193,S1130-01082008000800010-1,645,648,TAC,hola,hola
193,S1130-01082008000800010-1,-1,2,8 4,hola,hola


In [117]:
train_abbr[train_abbr['# Document_ID']== 'S1130-01082008000800010-1']

Unnamed: 0,# Document_ID,StartOffset,EndOffset,Abbreviation,Definition,Definition_lemmatized
2060,S1130-01082008000800010-1,251,252,C,peak c,peak c
2061,S1130-01082008000800010-1,160,163,TSH,thyroid-stimulating hormone,thyroid-stimulating hormoner
2062,S1130-01082008000800010-1,645,648,TAC,tomografía axial computarizada,tomografía axial computarizado
2063,S1130-01082008000800010-1,693,695,cm,centímetro,centímetro
2064,S1130-01082008000800010-1,1138,1140,cm,centímetro,centímetro
2065,S1130-01082008000800010-1,499,501,cm,centímetro,centímetro


## Write data

In [101]:
train_track2.to_csv('../data/track_2_train_abrev.tsv', sep = '\t', index = False)