## Text Search in Line Format Files

**Note**: This tutorial follows and depends on the tutorial on [Reading PageXML files from archives](./Demo-reading-pagexml-files-from-archive.ipynb). It assumes you have downloaded the PageXML archives and derived line format files from them. 

In this tutorial, some basic text search functionalities are demonstrated:

- `find_term_in_context` allows you to search for words or phrases in a set of PageXML documents and to see them in their surrounding context.


In [35]:
import pagexml.helper.text_helper as text_helper

line_file = '../data/line_format-NL-AsnDA_0114.11.tsv.gz'

reader = text_helper.LineReader(pagexml_line_files=line_file)

for line in reader:
    # print a line to remind us of what a line looks like
    print(line)
    break

{'doc_id': 'NL-AsnDA_0114.11_1_0001.jpg', 'textregion_id': 'r1', 'line_id': 'r1l1', 'text': 'Eerste blad'}


In [2]:
from collections import Counter
import re

word_freq = Counter()

for line in reader:
    if line['text'] is None:
        continue
    words = [token for token in re.split(r'\W+', line['text']) if token != '']
    word_freq.update(words)

In [3]:
len(word_freq), sum(word_freq.values())

(46856, 237704)

In [6]:
for word, freq in word_freq.most_common(50):
    if len(word) < 6:
        continue
    print(f"{word: <20}{freq: >8}")

gulden                  3911
wonende                 1252
honderd                 1245
twintig                 1013
getuigen                 862
notaris                  815
worden                   771
vijftig                  733
gemeente                 602


In [34]:
for match in text_helper.find_term_in_context('getuigen', reader):
    print(match['context'])



      en mede ondergeleekende getuigen
               te Uessen, als getuigen vinals de
           comparanten met de getuigen
      en mede ondergeteekende getuigen
                te Assen, als getuigen
           comparanten met de getuigen nevens
                 bij zijn der getuigen aan
      en mede ondergeteeeende getuigen
               ondergetulende getuigen, overgegaan te den
               in bijzijn der getuigen
                te Assen, als getuigen even
                Een hebben de getuigen nevens mij Notaris
                te Aisen, als getuigen even als de
           comparanten met de getuigen neven
                          als getuigen aan ns notaris
                Een hebben de getuigen nevens mij Notaris
               in bijzijn der getuigen aan
                te Assen, als getuigen aan mij Notaris
                Een hubben de getuigen nevens my dsetarin
      en mede ondergeteekende getuigen
      en mede ondergeteekende getuigen
                          

                       in der getuigen in honden van
                      ymoemde getuigen. En hebten de
      en mede ondergeteekende getuigen
      in tegenwoordigheid der getuigen en van
                te Assen, als getuigen
           comparanten mit de getuigen neven
              voor notaris en getuigen te ver
         en mede dergeteeende getuigen
                te Assen, als getuigen even
            lasthebben met de getuigen
                 na te noemen getuigen
                  te Asen als getuigen
      in tegenwoordigheid der getuigen
                              getuigen
      wordigheid der genoemde getuigen, welke getei
            comparant, met de getuigen en
                 te Asen, als getuigen even als de
      en mede ondergeteekende getuigen
               te Eissen, als getuigen
           comparanten met de getuigen ne
                           de getuigen overgegaan tot den
                 bij zijn der getuigen
                te Assen, als getuigen 

            genwoodigheid der getuigen, van gelezen en
                     heid der getuigen aan den comparant
              twee nagenoemen getuigen
                te Assen, als getuigen, aan den notaaris
              erflater met de getuigen en den nota
                te Assen, als getuigen evenald
                              getuigen nevud mij Notaris
      en wede ondergeteekende getuigen, overgegaan
               in bijzijn der getuigen
                  te Arsen an getuigen enne
          teskundigen, met de getuigen en mij notars
                     te nemen getuigen
               dergeteekeende getuigen, overgegaan tot den
               in bijzijn der getuigen
                 te Vssen als getuigen evenal
                ten hubben de getuigen nevens mij Notarris
                te Arten, als getuigen, nmals de o
            worpunnten met de getuigen en mij
         noemen, mij bekenden getuigen
                 te Assen als getuigen, verschenen
      in tegenwoordig

In [14]:
match_freq = Counter()

for match in text_helper.find_term_in_context('*honder*', reader):
    match_freq.update([match['term_match']])

for match, freq in match_freq.most_common(10):
    if len(match) < 6:
        continue
    print(f"{match: <20}{freq: >8}")

honderd                 1244
Achttienhonderd           86
Negentienhonderd          82
tienhonderd               50
negentienhonderd          47
achttienhonderd           23
honder                    22
zeshonderd                17
vierhonderd               14
Achthonderd                8
