# Text search in PageXML files

There are built-in function for:

- keyword/keyphrase in context search
- term similarity search

In [1]:
from pagexml.parser import parse_pagexml_file
import pagexml.helper.text_helper as text_helper

data_dir = '../data'
filepath = f'{data_dir}/example.xml'

lines = text_helper.LineReader(pagexml_files=[filepath])

for line in lines:
    print(line)


{'id': 'r1l1', 'text': None}
{'id': 'r2l1', 'text': 'f. 1.'}
{'id': 'r2l2', 'text': 'Inventaris ende beschrijvinge van'}
{'id': 'r2l3', 'text': 'naerbeschreven Cleedinge van'}
{'id': 'r2l4', 'text': 'Linne ende Wollen, Item huijsraet'}
{'id': 'r2l5', 'text': 'naergelaten by Janneken de Veel'}
{'id': 'r2l6', 'text': 'oude Vrijster alhier overleden;'}
{'id': 'r2l7', 'text': 'die volgens hare dispositie van'}
{'id': 'r2l8', 'text': "uterste wille, door d' eersame"}
{'id': 'r2l9', 'text': None}
{'id': 'r2l10', 'text': 'Sr. hans van Essen Bouckhouder'}
{'id': 'r2l11', 'text': 'vande Westinde. Compe. alhier In'}
{'id': 'r2l12', 'text': 'Amstm. versonden sullen werden'}
{'id': 'r2l13', 'text': 'naer Ryssel aen Beatricx de'}
{'id': 'r2l14', 'text': 'Veel suster vande voorn. Janneken'}
{'id': 'r2l15', 'text': 'de Veel sa: Beschreven door'}
{'id': 'r2l16', 'text': 'mij Henrick Schaeff Nots etc.'}
{'id': 'r2l17', 'text': 'in presentie vande ondergess.'}
{'id': 'r2l18', 'text': 'getuijgen. desen 1

## Finding a term in the text of scans as keyword in context

In [2]:
for match in text_helper.find_term_in_context('goede', lines):
    print(match['context'])



            Twaelf kragen soo goede als quade
      Twaelf slaeplakens. soo goede als quade
          divertse bloem, soo goede
                soo quade als goede
                soo quade als goede
                soo quade als goede


In [3]:
# You can determine the context size
for match in text_helper.find_term_in_context('goede', lines, context_size=2):
    print(match['context'])



         kragen soo goede als quade
   slaeplakens. soo goede als quade
         bloem, soo goede
          quade als goede
          quade als goede
          quade als goede


In [4]:
# You can search for phrases as well as words
for match in text_helper.find_term_in_context('soo goede', lines, context_size=2):
    print(match['context'])



      Twaelf kragen soo goede als quade
Twaelf slaeplakens. soo goede als quade
    divertse bloem, soo goede


## Finding words similar to a target word

With the SkipGram similarity class words from PageXML scans can be indexed on character n-grams with skips, to allow search for words similar to a target word.

In [5]:
from pagexml.parser import parse_pagexml_file
scan = parse_pagexml_file(pagexml_file=filepath)
words = scan.get_words()

skip_sim = text_helper.SkipgramSimilarity(ngram_length=2, skip_length=1, terms=words)

skip_sim.rank_similar('goed')

[('goede', 0.8451542547285165),
 ('grote', 0.33806170189140655),
 ('oude', 0.19999999999999996),
 ('ende', 0.19999999999999996),
 ('boven', 0.16903085094570328),
 ('kragen', 0.14907119849998599),
 ('bloem,', 0.14907119849998599),
 ('werden', 0.14907119849998599)]