# Named entity recognition

Named entity recognition (NER) is a subtask of information extraction that seeks to locate and classify elements in text into pre-defined categories such as the names of persons, organizations, locations. This tutorial shows how to use the model trained in the process of this bachelor's thesis. The model is trained on 19th century court parish protocols.

### 0. Prequisites

In [9]:
import os

from preprocessing_protocols import preprocess_text
from estnltk import Text

### 1. Load the NerTagger and use the settings of the pre-trained model directory

The model directory given to the `NerTagger()` function should contain a `settings.py` file and a `model.bin` file.

In [3]:
from estnltk.taggers import NerTagger

nertagger = NerTagger('model')

### 2. Create a text object and preprocess the text with the included preprocessing module

In [6]:
# Read in a protocol from a .txt file
with open('protocol.txt', 'r', encoding='UTF-8') as in_f:
    unprocessed_text = in_f.read()

In [7]:
unprocessed_text

'Jüri Soots kaebab hra A. Kurikofi kui Peeter Widrikse kuratori wastu, kõrtsi rentimise kauba murdmise pärast.\n\nA. Kurikof wastab, et ta ennast siin kohtu ees selle kaebtuse peale sisse ei lase.\n\nEt Peeter Widriks kui Talina linna kodaniku seisuse liige, siia kohtu alla ei puutu, kaebtus ka mõisa walitsuse wastu käib. Tehti otsuseks: seda kaebtust siin kohtu ees mitte seletamise ala wõtta.\n\nOtsus sai kuulutud.\n'

In [11]:
text = Text(unprocessed_text)
text = preprocess_text(text)

In [12]:
text

text
"Jüri Soots kaebab hra A. Kurikofi kui Peeter Widrikse kuratori wastu, kõrtsi rentimise kauba murdmise pärast.A. Kurikof wastab, et ta ennast siin kohtu ees selle kaebtuse peale sisse ei lase.Et Peeter Widriks kui Talina linna kodaniku seisuse liige, siia kohtu alla ei puutu, kaebtus ka mõisa walitsuse wastu käib. Tehti otsuseks: seda kaebtust siin kohtu ees mitte seletamise ala wõtta.Otsus sai kuulutud."

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,7
tokens,,,,False,77
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,77
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,77


### 3. Tag the text with the NerTagger

In [13]:
nertagger.tag(text)

text
"Jüri Soots kaebab hra A. Kurikofi kui Peeter Widrikse kuratori wastu, kõrtsi rentimise kauba murdmise pärast.A. Kurikof wastab, et ta ennast siin kohtu ees selle kaebtuse peale sisse ei lase.Et Peeter Widriks kui Talina linna kodaniku seisuse liige, siia kohtu alla ei puutu, kaebtus ka mõisa walitsuse wastu käib. Tehti otsuseks: seda kaebtust siin kohtu ees mitte seletamise ala wõtta.Otsus sai kuulutud."

layer name,attributes,parent,enveloping,ambiguous,span count
sentences,,,words,False,7
tokens,,,,False,77
compound_tokens,"type, normalized",,tokens,False,0
words,normalized_form,,,True,77
morph_analysis,"normalized_text, lemma, root, root_tokens, ending, clitic, form, partofspeech",words,,True,77
ner,nertag,,words,False,5


### 4. Check the ner tags

In [14]:
text.ner

layer name,attributes,parent,enveloping,ambiguous,span count
ner,nertag,,words,False,5

text,nertag
"['Jüri', 'Soots']",PER
"['A', '.', 'Kurikofi']",PER
"['Peeter', 'Widrikse']",PER
"['A', '.', 'Kurikof']",PER
"['Peeter', 'Widriks']",PER
