# Χαρακτηρισμός δεδομένων με αυτόματο τρόπο

Στόχος είναι να χαρακτηρίσουμε με "έξυπνο" τρόπο το σύνολο των κειμένων με τις οντότητες που περιέχει το καθένα (και τις θέσεις αυτών στο κείμενο) ώστε να μπορέσουν να χρησιμοποιηθούν σε επόμενο στάδιο για την εκπαίδευση του Named Entity Recognizer. Αυτή η επισήμανση μπορεί να γίνει με αυτόματο τρόπο, πραγματοποιώντας αναζήτηση στα κείμενα με βάση γνωστές οντότητες που μας ενδιαφερούν στην παρούσα εργασία (βότανα, όργανα ανθρώπινου σώματος κλπ.).

Φτιάχνουμε 4 αρχεία txt, σε κάθενα από τα οποία βρίσκεται αποθηκευμένη μία λίστα με όρους που θα χρησιμοποιηθούν στην αναζήτηση. Στα αρχεία organs και plants βρίσκονται λέξεις που αποτελούν οντότητες των αντίστοιχων κατηγοριών ενώ στα αρχεία multiword_organs και multiword_plants βρίσκονται πάλι γνωστές οντότητες αυτών των κατηγοριών που αποτελούνται από παραπάνω από μία λέξεις.

Για να ταιριάξουμε τους όρους αναζήτησης στις λίστες που διαβάσαμε από τα txt, θα χρειαστεί διασπάσουμε τα κείμενα σε λέξεις (tokens). Αυτό γίνεται με τον tokenizer της spaCy για τα Ελληνικά. Επειδή όμως οι λέξεις μπορεί να βρίσκονται σε διάφορες πτώσεις πρέπει να κάνουμε lemmatization ή stemming τόσο στους όρους αναζήτησης όσο και στις λέξεις των κειμένων, ώστε να είναι επιτυχημένο το string matching που θα ακολουθήσει. 

Δοκιμάσαμε το lemmatizer της spaCy τόσο από το small όσο και από το medium model που διατίθενται για την ελληνική γλώσσα. Αν και το medium απέδωσε καλύτερα, γενικά η λημματοποίηση δεν είχε όσο ικανοποιητικά αποτελέσματα θα θέλαμε. Στα αποτελέσματα παρέμεναν διαφορετικές πτώσεις και πολλές φορές λανθασμένες παραποιήσεις της αρχικής λέξης, όπως θα δούμε στη συνέχεια. Για αυτό στραφήκαμε στη βιβλιοθήκη greek_stemmer που κάνει αποκατάληξη στα Ελληνικά, όπως λέει και το όνομά της. Συγκρίναμε τις δύο μεθόδους σε διάφορα παραδείγματα και όπως φαίνεται παρακάτω ο greek-stemmer αποδίδει καλύτερα και τα αποτελέσματά του φαίνονται να οδηγούν σε καλύτερο string matching αργότερα.

Και στις δύο μεθόδους παρατηρήθηκε ότι οι τόνοι μπορεί να οδηγούσαν σε διαφορετικά αποτελέσματα για την ίδια ρίζα, οπότε πρέπει να αφαιρεθούν προτού προχωρήσουμε με τη διαδικασία. Επίσης, η εναλλαγή πεζών κεφαλαίων κάποιες φορές οδήγησε σε διαφορετικά αποτελέσματα, οπότε επιλέχθηκε να μετατραπούν όλες οι λέξεις σε μία από τις δύο μορφές. Μάλιστα, ο greek-stemmer φαίνεται να λειτουργεί μόνο με κεφαλαία οπότε επιλέχθηκε αυτή η μετατροπή.

Οι μικρές διαφορές στις πτώσεις και στις καταλήξεις θα μπορούσαν να αντιμετωπιστούν εφαρμόζοντας fuzzy string matching, με υψηλό κατώφλι χαλάρωσης. Ωστόσο υπάρχουν περιπτώσεις όπου απαιτούνταν χαμηλότερο κατώφλι για να ταιριάξουν δυο λέξεις με κοινή ρίζα ενώ ένα πολύ ψηλό επαρκούσε για να ταιριάξουν δύο τελειώς διαφορετικές λέξεις, όπως φαίνεται και στο παρακάτω παράδειγμα. Τέτοια προβλήματα εξακολούθησαν να υπάρχουν, πιο σπάνια βέβαια, ακόμα και όταν συνδυάστηκε η λημματοποίηση του spaCy με fuzzy string matching.

Παρακάτω φαίνονται κάποια παραδείγματα που μας οδήγησαν σε αυτές τις αποφάσεις.

In [1]:
from fuzzywuzzy import process, fuzz
print(fuzz.ratio('έντερα', 'εντέρου'))
print(fuzz.ratio('καρδιά', 'καρυδιά'))

46
92


In [2]:
import spacy
import el_core_news_md
nlp = el_core_news_md.load()

In [3]:
from greek_stemmer import GreekStemmer
stemmer = GreekStemmer()

Παρακάτω παραθέτουμε κάποια παραδείγματα όπου φαίνεται η σύγκριση της λημματοποίησης με spaCy και της αποκατάληξης με greek_stemmer.

In [4]:
t = nlp('καρδια ΚΑΡΔΙΑ Καρδια καρδιας Καρδιας ΚΑΡΔΙΑΣ καρδιες ΚΑΡΔΙΕΣ καρδιων Καρδιων ΚΑΡΔΙΩΝ'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΚΑΡΔΙΑ καρδιας ΚΑΡΔ
ΚΑΡΔΙΑ καρδιας ΚΑΡΔ
ΚΑΡΔΙΑ καρδιας ΚΑΡΔ
ΚΑΡΔΙΑΣ καρδια ΚΑΡΔ
ΚΑΡΔΙΑΣ ΚΑΡΔΙΑΣ ΚΑΡΔ
ΚΑΡΔΙΑΣ ΚΑΡΔΙΑΣ ΚΑΡΔ
ΚΑΡΔΙΕΣ ΚΑΡΔΙΕΣ ΚΑΡΔ
ΚΑΡΔΙΕΣ ΚΑΡΔΙΕΣ ΚΑΡΔ
ΚΑΡΔΙΩΝ ΚΑΡΔΙΩΝ ΚΑΡΔ
ΚΑΡΔΙΩΝ καρδιων ΚΑΡΔ
ΚΑΡΔΙΩΝ καρδιων ΚΑΡΔ


In [5]:
t = nlp('εντερα Εντερα εντερων ΕΝΤΕΡΑ Εντερων εντερων ΕΝΤΕΡΩΝ εντερο Εντερο ΕΝΤΕΡΟ εντερου Εντερου ΕΝΤΕΡΟΥ εντερου'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΕΝΤΕΡΑ εντερα ΕΝΤΕΡ
ΕΝΤΕΡΑ εντερα ΕΝΤΕΡ
ΕΝΤΕΡΩΝ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΑ εντερα ΕΝΤΕΡ
ΕΝΤΕΡΩΝ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΩΝ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΩΝ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΟ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΟ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΟ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΟΥ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΟΥ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΟΥ εντερο ΕΝΤΕΡ
ΕΝΤΕΡΟΥ εντερο ΕΝΤΕΡ


In [6]:
t = nlp('ουροποιητικο ουροποιητικου ουροποιητικου ουροποιητικου ΟΥΡΟΠΟΙΗΤΙΚΟΥ Ουροποιητικο'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΟΥΡΟΠΟΙΗΤΙΚΟ ουροποιητικος ΟΥΡΟΠΟΙΗΤ
ΟΥΡΟΠΟΙΗΤΙΚΟΥ ουροποιητικο ΟΥΡΟΠΟΙΗΤ
ΟΥΡΟΠΟΙΗΤΙΚΟΥ ουροποιητικο ΟΥΡΟΠΟΙΗΤ
ΟΥΡΟΠΟΙΗΤΙΚΟΥ ουροποιητικο ΟΥΡΟΠΟΙΗΤ
ΟΥΡΟΠΟΙΗΤΙΚΟΥ ουροποιητικο ΟΥΡΟΠΟΙΗΤ
ΟΥΡΟΠΟΙΗΤΙΚΟ ουροποιητικος ΟΥΡΟΠΟΙΗΤ


In [7]:
t = nlp('ενδοκρινεις Ενδοκρινεις Ενδοκρινων ΕΝΔΟΚΡΙΝΩΝ ενδοκρινων ενδοκρινης Ενδοκρινης ΕΝΔΟΚΡΙΝΗΣ'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΕΝΔΟΚΡΙΝΕΙΣ ενδοκρινεις ΕΝΔΟΚΡΙΝ
ΕΝΔΟΚΡΙΝΕΙΣ ενδοκρινεις ΕΝΔΟΚΡΙΝ
ΕΝΔΟΚΡΙΝΩΝ ενδοκρινος ΕΝΔΟΚΡΙΝ
ΕΝΔΟΚΡΙΝΩΝ ενδοκρινος ΕΝΔΟΚΡΙΝ
ΕΝΔΟΚΡΙΝΩΝ ενδοκρινος ΕΝΔΟΚΡΙΝ
ΕΝΔΟΚΡΙΝΗΣ ΕΝΔΟΚΡΙΝΗΣ ΕΝΔΟΚΡΙΝ
ΕΝΔΟΚΡΙΝΗΣ ΕΝΔΟΚΡΙΝΗΣ ΕΝΔΟΚΡΙΝ
ΕΝΔΟΚΡΙΝΗΣ ΕΝΔΟΚΡΙΝΗΣ ΕΝΔΟΚΡΙΝ


In [8]:
t = nlp('ωοθηκες Ωοθηκες ΩΟΘΗΚΕΣ ωοθηκων ωοθηκη Ωοθηκων ΩΟΘΗΚΩΝ Ωοθηκη ωοθηκες ωοθηκες ωοθηκες ωοθηκες ωοθηκες'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΩΟΘΗΚΕΣ ωοθηκα ΩΟΘΗΚ
ΩΟΘΗΚΕΣ ωοθηκα ΩΟΘΗΚ
ΩΟΘΗΚΕΣ ωοθηκα ΩΟΘΗΚ
ΩΟΘΗΚΩΝ ωοθηκων ΩΟΘΗΚ
ΩΟΘΗΚΗ ωοθηκη ΩΟΘΗΚ
ΩΟΘΗΚΩΝ ωοθηκων ΩΟΘΗΚ
ΩΟΘΗΚΩΝ ωοθηκων ΩΟΘΗΚ
ΩΟΘΗΚΗ ωοθηκη ΩΟΘΗΚ
ΩΟΘΗΚΕΣ ωοθηκα ΩΟΘΗΚ
ΩΟΘΗΚΕΣ ωοθηκα ΩΟΘΗΚ
ΩΟΘΗΚΕΣ ωοθηκα ΩΟΘΗΚ
ΩΟΘΗΚΕΣ ωοθηκα ΩΟΘΗΚ
ΩΟΘΗΚΕΣ ωοθηκα ΩΟΘΗΚ


In [9]:
t = nlp('ρινικος ρινικη Ρινικη ΡΙΝΙΚΗ ρινικες ΡΙΝΙΚΕΣ ρινικες ρινικες ρινικες'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΡΙΝΙΚΟΣ ρινικος ΡΙΝ
ΡΙΝΙΚΗ ρινικη ΡΙΝ
ΡΙΝΙΚΗ ρινικη ΡΙΝ
ΡΙΝΙΚΗ ρινικη ΡΙΝ
ΡΙΝΙΚΕΣ ΡΙΝΙΚΕΣ ΡΙΝ
ΡΙΝΙΚΕΣ ΡΙΝΙΚΕΣ ΡΙΝ
ΡΙΝΙΚΕΣ ΡΙΝΙΚΕΣ ΡΙΝ
ΡΙΝΙΚΕΣ ΡΙΝΙΚΕΣ ΡΙΝ
ΡΙΝΙΚΕΣ ΡΙΝΙΚΕΣ ΡΙΝ


In [10]:
t = nlp('σμηγματογονος σμηγματογονοι Σμηγματαγονοι σμηγματογονων ΣΜΗΓΜΑΤΟΓΟΝΩΝ'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΣΜΗΓΜΑΤΟΓΟΝΟΣ ΣΜΗΓΜΑΤΟΓΟΝΟΣ ΣΜΗΓΜΑΤΟΓΟΝ
ΣΜΗΓΜΑΤΟΓΟΝΟΙ ΣΜΗΓΜΑΤΟΓΟΝΟΙ ΣΜΗΓΜΑΤΟΓΟΝ
ΣΜΗΓΜΑΤΑΓΟΝΟΙ σμηγματαγονοι ΣΜΗΓΜΑΤΑΓΟΝ
ΣΜΗΓΜΑΤΟΓΟΝΩΝ ΣΜΗΓΜΑΤΟΓΟΝΩΝ ΣΜΗΓΜΑΤΟΓΟΝ
ΣΜΗΓΜΑΤΟΓΟΝΩΝ ΣΜΗΓΜΑΤΟΓΟΝΩΝ ΣΜΗΓΜΑΤΟΓΟΝ


In [11]:
t = nlp('αγκιναρα αγκιναρες ΑΓΚΙΝΑΡΕΣ αγκιναρων Αγκιναρας'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΑΓΚΙΝΑΡΑ αγκιναρας ΑΓΚΙΝΑΡ
ΑΓΚΙΝΑΡΕΣ αγκιναρε ΑΓΚΙΝΑΡ
ΑΓΚΙΝΑΡΕΣ αγκιναρε ΑΓΚΙΝΑΡ
ΑΓΚΙΝΑΡΩΝ αγκιναρων ΑΓΚΙΝΑΡ
ΑΓΚΙΝΑΡΑΣ αγκιναρας ΑΓΚΙΝΑΡ


In [12]:
t = nlp('Ανηθος ανηθου ανηθο ΑΝΗΘΟ'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΑΝΗΘΟΣ ανηθος ΑΝΗΘ
ΑΝΗΘΟΥ ανηθο ΑΝΗΘ
ΑΝΗΘΟ ανηθο ΑΝΗΘ
ΑΝΗΘΟ ανηθο ΑΝΗΘ


In [13]:
t = nlp('Δαμασκηνια δαμασκηνα ΔΑΜΑΣΚΗΝΟ δαμασκηνων Δαμασκηνου δμασκηνιας'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΔΑΜΑΣΚΗΝΙΑ δαμασκηνια ΔΑΜΑΣΚΗΝ
ΔΑΜΑΣΚΗΝΑ δαμασκηνα ΔΑΜΑΣΚΗΝ
ΔΑΜΑΣΚΗΝΟ δαμασκηνο ΔΑΜΑΣΚΗΝ
ΔΑΜΑΣΚΗΝΩΝ δαμασκηνο ΔΑΜΑΣΚΗΝ
ΔΑΜΑΣΚΗΝΟΥ δαμασκηνου ΔΑΜΑΣΚΗΝ
ΔΜΑΣΚΗΝΙΑΣ δμασκηνιας ΔΜΑΣΚΗΝ


In [14]:
t = nlp('κρεμμυδι Κρεμμυδα κρεμμυδια κρεμμυδιων Κρεμμυδιου'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΚΡΕΜΜΥΔΙ ΚΡΕΜΜΥΔΙ ΚΡΕΜΜΥΔ
ΚΡΕΜΜΥΔΑ κρεμμυδο ΚΡΕΜΜΥΔ
ΚΡΕΜΜΥΔΙΑ κρεμμυδια ΚΡΕΜΜΥΔ
ΚΡΕΜΜΥΔΙΩΝ κρεμμυδιων ΚΡΕΜΜΥΔ
ΚΡΕΜΜΥΔΙΟΥ κρεμμυδιου ΚΡΕΜΜΥΔ


In [15]:
t = nlp('κυστη κυστης κυστεως κυστων κυστες κυστεις'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΚΥΣΤΗ κυστη ΚΥΣΤ
ΚΥΣΤΗΣ κυστη ΚΥΣΤ
ΚΥΣΤΕΩΣ κυστεως ΚΥΣΤ
ΚΥΣΤΩΝ ΚΥΣΤΩΝ ΚΥΣΤ
ΚΥΣΤΕΣ κυστα ΚΥΣΤ
ΚΥΣΤΕΙΣ κυστει ΚΥΣΤ


In [16]:
t = nlp('αδενας αδενων αδενα'.upper())
for token in t:
    print(token.text,token.lemma_,stemmer.stem(token.text))

ΑΔΕΝΑΣ αδενας ΑΔΕΝ
ΑΔΕΝΩΝ αδενο ΑΔΕΝ
ΑΔΕΝΑ αδενας ΑΔΕΝ


In [18]:
import pandas as pd
import numpy as np

import spacy
import el_core_news_md
nlp = el_core_news_md.load()
stop_words = nlp.Defaults.stop_words
stop_words |= {'.',',',';','?',':','!',' ','&','/','ή','-','(',')','[',']','{','}','"','"','`','~','\xa0'}

from greek_stemmer import GreekStemmer
stemmer = GreekStemmer()

def search_terms_from_txt(filename, encoding):
    """
    Reads the content of a txt file and produces a list of strings 
    -in our case a list of search terms- separated by comma.

    Parameters
    ----------
    filename : str
        the path (relative or absolute) of the txt file 
        which contains search terms
    encoding : str
        the encoding of the txt file which contains search terms

    Returns
    -------
    list
        a list of strings - search terms (mutliword or singleword)
    """
    with open(filename,'r',encoding=encoding) as f:
        content = f.readlines()
    content = [x.strip() for x in content] 
    for term in content:
        search_terms = term.split(',')
    return search_terms




def stemming(word):
    """
    Implements stemming and preparation before it for a given word.
    Preparation involves removing accents and capitalizing letters.

    Parameters
    ----------
    word : str
        the word that is about to be stemmed

    Returns
    -------
    str
        the stem of the given word at uppercase letters
    """
    return stemmer.stem(word.replace('ά', 'α').replace('έ', 'ε').replace('ή', 'η').replace('ί', 'ι').replace('ό', 'ο')
                        .replace('ύ', 'υ').replace('ώ', 'ω').replace('ϊ', 'ι').replace('ϋ', 'υ').replace('ΐ', 'ι')
                        .replace('ΰ', 'υ').replace('Ά', 'Α').replace('Έ', 'Ε').replace('Ή', 'Η').replace('Ί', 'Ι')
                        .replace('Ό', 'Ο').replace('Ύ', 'Υ').replace('Ϊ', 'Ι').replace('Ϋ', 'Υ').upper())





def multiword_terms_look_up_list(search_terms_list):
    """
    Given a list of search terms where each of them contains
    multiple words, produces a list of lists with the stems
    of their tokens.

    Parameters
    ----------
    search_terms_list : list
        the list that contains the multiword search terms

    Returns
    -------
    list
        a list of lists, each of them containing the stems of 
        the tokens of one multiword search term
    """
    look_up_list_parts = []
    for term in search_terms_list:
        stem_parts = [stemming(part) for part in term.split(' ')]
        look_up_list_parts +=[stem_parts]
    return look_up_list_parts




def singleword_terms_look_up_list(search_terms_list):
    """
    Given a list of singleword search terms, produces a list of 
    lists with their stems.

    Parameters
    ----------
    search_terms_list : list
        the list that contains the singleword search terms

    Returns
    -------
    list
        a list of the stems of the elements of the given list
    """
    return list(np.unique([stemming(term) for term in search_terms_list]))




def text_to_tokens_stems(text):
    """
    Given a text, produces a list of its stemmed tokens, excluding
    the stop words.

    Parameters
    ----------
    text : str
        the given text that is about to be tokenized

    Returns
    -------
    list
        a list of tuples that contain the tokens of the given text,
        the stemmed text of them (str), the start position (int) 
        and the end position (int) of them in te text and a boolean 
        variable which indicates whether the token has been already
        identified as a part of an entity or not
    """
    text2 = nlp(text)
    tokens_list = []
    # keep token, text of token, start and end index of token in text 
    # and whether it belongs to an entity or not
    for token in text2:
        tokens_list += [(token, token.text, token.idx, token.idx + len(token), False)]
    # remove stop words
    tokens = [(a,b,c,d,e) for (a,b,c,d,e) in tokens_list if not(a.is_stop or (a.lower_ in stop_words) 
                                                                or (a.lemma_ in stop_words))]
    # preparation and stemming of each token
    final_tokens = [(a, stemming(b), c, d,e) for (a,b,c,d,e) in tokens]
    return final_tokens




def annotation(input_csv_filename, known_entities_with_labels, output_csv_filename):
    """
    Annotates the texts in an input csv file with their entities.
    The entities are detected through a search process using 
    predefined already known entities and their labels. The 
    annotated data are stored in a new output csv file.

    Parameters
    ----------
    input_csv_file : str
        the path (relative or absolute) of the file that contains
        the texts
        
    known_entities_with_labels : list
        list of tuples each of them referring to a category of entities
        each tuple contains a path of a txt file with singleword
        search terms - known entities (str), a path of a txt file with
        multiword search terms - known entities (str) and the label of
        the category of entities that they belong (str)
        
    output_csv_filename : str
        the path (relative or absolute) of the output file where the
        annotated data will be stored        
    """
    df_texts = pd.read_csv(input_csv_filename)
    df_texts['entities'] = np.empty((len(df_texts), 0)).tolist()
    
    entities_lists = [(multiword_terms_look_up_list(search_terms_from_txt(multiword_list_filename, 'utf-8')), 
                       singleword_terms_look_up_list(search_terms_from_txt(singleword_list_filename, 'utf-8')), label) 
                      for (singleword_list_filename, multiword_list_filename, label) in known_entities_with_labels]
            
    # for each text
    for k in range(df_texts.shape[0]):
        entities = []
        text = df_texts.iloc[k]['text']
        #tokenization and stemming of the text
        text_tokens = text_to_tokens_stems(text)
        
        # firstly annotation of multiword entities 
        for (multiword_look_up_list, _, label) in entities_lists:
            for i in range(len(text_tokens)):
                (token, token_string, start_pos, end_pos, annotated) = text_tokens[i]
                for terms_list in multiword_look_up_list:
                    match = True
                    for j in range(len(terms_list)):
                        # string matching for each token in a multiword entity-search term
                        (_,b,_,next_end_pos,_) = text_tokens[i+j]
                        if b != terms_list[j]:
                            match = False
                            break
                    if match:
                        for l in range(len(terms_list)):
                            token_list = list(text_tokens[i+l])
                            #set annotated=True for each token in the entity 
                            # to avoid double annotation as a singleword entity as well
                            token_list[4] = True     
                            text_tokens[i+l] = tuple(token_list)
                        entities += [(start_pos, next_end_pos, label)]
        
        # annotation of singleword entities 
        for (_, singleword_look_up_list, label) in entities_lists:
            for (token, token_string, start_pos, end_pos, annotated) in text_tokens:
                for term in singleword_look_up_list:
                    if  token_string == term and not annotated:
                        entities += [(start_pos, end_pos, label)]

        df_texts.at[k,'entities'] = df_texts.iloc[k]['entities'] + entities
        
    df_texts.to_csv(output_csv_filename, index=False)

Σε πρώτη φάση θα ασχοληθούμε μόνο με τα κείμενα από τη σελίδα "Προϊόντα της Φύσης".

In [19]:
annotation('../data/proionta_tis_fisis_votana.csv',[('../data/organs.txt', '../data/multiword_organs.txt', 'ORGAN'),
                                                    ('../data/plants.txt', '../data/multiword_plants.txt', 'PLANT')], 
          '../data/proionta_tis_fisis_votana_annotated.csv')

Είναι σημαντικό πως πρέπει να κρατήσουμε τη θέση , βασικά την αρχή και το τέλος κάθε token. Αυτό είναι απαραίτητο, καθώς στα χαρακτηρισμένα δεδομένα πέρα από τις οντότητες που περιέχονται σε ένα κείμενο πρέπει να υπάχρουν και οι θέσεις εμφάνισης αυτών.

Επίσης, για να επιταχυνθεί η διαδικασία και να αποφευχθεί το ταίριασμα κάποιου όρου αναζήτησης με μία stop word, οι τελευταίες απορρίπτονται πριν αρχίσει η διαδικασία της αναζήτησης. Με αυτόν τον τρόπο γλιτώνουμε κάποιες άσκοπες συγκρίσεις.

Επίσης, φροντίζουμε να εντοπίσουμε πρώτα τις οντότητες που αποτελούνται από παραπάνω λέξεις και μετά θα επισημάνουμε τις υπόλοιπες εφόσον δεν ανήκουν σε κάποια από τις προηγούμενες. Αυτό γίνεται γιατί ως οντότητες υπάρχουν π.χ. τόσο η "χοληδόχος κύστη" όσο και η "χοληδόχος" σκέτο. Αν αναγνωριζόταν πρώτα η μονολεξική οντότητα, η άλλη δε θα εντοπιζόταν ποτέ.

Τέλος, για να λάβουμε καλύτερα αποτελέσματα δε λάβαμε υπόψη μας κάποιες οντότητες. Πιο συγκεκριμένα, αφαιρέθηκαν οι αμυγδαλές ως όργανο του λεμφικού συστήματος για να μην υπάρχει conflict με τις αμυγδαλιές και τα αμύγδαλα ως οντότητες των βοτάνων, τα οποία εμφανίζονταν πολύ συχνότερα. Επίσης, αφαιρέσαμε τη λέυκα και το βήχιο από τα βότανα, καθώς υπήρχε μπέρδεμα με το λευκό χρώμα και το βήχα, τα οποία επίσης εμφανίζονται πολύ πιο συχνά. Ακόμα, αφαιρέθηκε ο θύμος αδένας από το σύστημα ενδοκρινών και το λεμφικό σύστημα, καθώς στα κείμενο ο θύμος συναντάται μόνο ως αρχαία ονομασία του θυμαριού. Ακόμα, οι σύνδεσμοι μόνο μία φορά εμφανίζονταν με την επιθυμητή σημασία που σχετίζεται με το ανθρώπινο σώμα και όλες τις άλλες με άλλη καθημερινή σημασία. Τέλος, από τα βότανα αφαιρέθηκε και η φούσκα, γιατί υπάρχει και στο ανθρώπινο σώμα.