## Identify candidate complex words according to corpus frequency

In [2]:
import re
import sys
import spacy

In [3]:
# Load frequency data from corpus (lowercase frequency word list)
corpus_freq_list = "/Users/Leonardo 1/Documents/Trabajo/CORPES-XXI/CORPES_091_fre_general_norm_minusc.txt"

FreqData = {}

with open(corpus_freq_list, 'r', encoding="utf-8") as f:
    Lines = f.readlines()
    for line in Lines:
        line.strip()
        word, _, freq = re.search("^([^\t]+)\t([^\t]+)\t([^\t]+)",line).group(1,2,3)
        if word and freq and freq.isdigit() and word not in FreqData.keys():
            FreqData[word] = freq


In [4]:
def get_word_frequency(word, FreqHash):
    
    ''' Return word frequency from corpus data; if no occurrence in corpus, return 0 '''
    
    word = word.lower()
    
    if word in FreqHash.keys():
        
        return FreqHash[word]
    
    else:
    
        return 0
    

In [5]:
def check_word(word):
    
    ''' Checks if a word is a digit, contains a punctuaction character or a space due to tokenization error '''
    
    # Do not check space characters or punctuation signs
    exclusion_chars = ["%", "\n", "\t", "≥", "≤", "/"]
    
    # Do not check numbers
    if str(word).isdigit():
         
        return False 
    
    elif word.is_punct:
        
        return False
    
    for char in exclusion_chars:
        
        if (char in word.text):
            
            return False
    
    return True
    
        
        

In [6]:
nlp = spacy.load('es_core_news_md')


def sentences_spacy(text, nlp_model):
    
    ''' Split text into sentences (returns a list) '''
    
    doc = nlp_model(text)
    
    Sentences = [sentence for sentence in doc.sents]
    
    return Sentences


def tokenize_spacy(text,nlp_model):

    ''' Given a text from an opened file, tokenizes it with Spacy '''
    
    original_text = text
    
    doc = nlp_model(text)
    
    Tokens={}
    
    for i,token in enumerate(doc):

        # Starting offset: token.idx
        # Ending offset:
        end = str(int(token.idx) + int(len(token.text)))
        
        Tokens[i] = { 'token': token, 'start': token.idx, 'end': end }
        
    return Tokens


In [27]:
texto_prueba = '''Cáncer de próstata grado 2 confirmado histológicamente, tratado con prostatectomía radical (PR). Se podrá incluir a pacientes sin linfadenectomía.'''


In [28]:
Sentences = sentences_spacy(texto_prueba,nlp)
Sentences

[Cáncer de próstata grado 2 confirmado histológicamente, tratado con prostatectomía radical (PR).,
 Se podrá incluir a pacientes sin linfadenectomía.]

In [29]:
for sentence in Sentences:
    
    print(sentence.text)
    
    Tokens = tokenize_spacy(sentence.text,nlp)
    
    for t in Tokens:
        
        token = Tokens[t]['token']

        # Do not check numbers, spaces or punctuation signs
        if check_word == True:
        
            freq_value = get_word_frequency(str(token),FreqData)
        
            # print(token,freq_value,sep="\t")
            # Frequency value as threshold to filter 
            score = 100
            
            if (int(freq_value) <= score):
                
                print(str(token),freq_value,Tokens[t]['start'],Tokens[t]['end'])
            

Cáncer de próstata grado 2 confirmado histológicamente, tratado con prostatectomía radical (PR).
Se podrá incluir a pacientes sin linfadenectomía.


### Processing a document

In [7]:
with open("2021-002864-36.txt", 'r', encoding='utf8') as f:
    
    Lines = f.readlines()
    
    for line in Lines:
    
        Sentences = sentences_spacy(line,nlp)
        
        for sentence in Sentences:
            
            print(sentence.text)
    
            Tokens = tokenize_spacy(sentence.text,nlp)

            for t in Tokens:

                token = Tokens[t]['token']
                
                if check_word(token) == True:
                        
                    freq_value = get_word_frequency(str(token),FreqData)

                    # print(token,freq_value,sep="\t")
                    # Frequency value as threshold to filter 
                    score = 100

                    if (int(freq_value) <= score):

                        print(str(token),"\tFrecuencia:",freq_value,"\tOffsets:",Tokens[t]['start'],Tokens[t]['end'])
                    

Ensayo prospectivo, aleatorizado, doble ciego, controlado con placebo y multicéntrico de fase IIb para evaluar la eficacia y seguridad del mocravimod como tratamiento adyuvante y de mantenimiento en la leucemia mieloide aguda (LMA) en pacientes adultos sometidos a un trasplante alogénico de células madre hematopoyéticas (TCMH)
aleatorizado 	Frecuencia: 59 	Offsets: 20 32
IIb 	Frecuencia: 50 	Offsets: 94 97
mocravimod 	Frecuencia: 0 	Offsets: 139 149
adyuvante 	Frecuencia: 69 	Offsets: 167 176
mieloide 	Frecuencia: 57 	Offsets: 211 219
LMA 	Frecuencia: 51 	Offsets: 227 230
alogénico 	Frecuencia: 13 	Offsets: 279 288
hematopoyéticas 	Frecuencia: 54 	Offsets: 306 321
TCMH 	Frecuencia: 0 	Offsets: 323 327




Ensayo de fase IIb controlado con placebo para evaluar la eficacia y seguridad del mocravimod como tratamiento adyuvante y de mantenimiento en la leucemia mieloide aguda (LMA) en pacientes sometidos a un trasplante alogénico de células madre hematopoyéticas (TCMH) (Estudio Mo-TRANS)
I