<a href="https://colab.research.google.com/github/iued-uni-heidelberg/corpustools/blob/main/S101lemHYstanzaOCRv02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Armenian lemmatization with Stanza
https://github.com/iued-uni-heidelberg/corpustools/blob/main/S101lemHYstanzaOCRv01.ipynb


In [None]:
import os, sys, re


## downloading evaluation sets
- 420 words: test with about 420 words of Armenian text
- Armenian "Brown-type" corpus b

In [None]:
### optional
!wget https://heibox.uni-heidelberg.de/f/ce6096da570f47b99500/?dl=1
### optional
!mv index.html?dl=1 evaluation-set-v01.txt

In [None]:
!wget https://heibox.uni-heidelberg.de/f/a847a12bffd4491f9070/?dl=1
!mv index.html?dl=1 TED2020-dehy-hy-aa

In [None]:
### downloading Armenian Wikipedia
!wget https://heibox.uni-heidelberg.de/f/d1f866a61bd545318213/?dl=1
!mv index.html?dl=1 hywiki-20221101-pages-articles.txt.gz
!gunzip hywiki-20221101-pages-articles.txt.gz

--2023-03-20 08:45:40--  https://heibox.uni-heidelberg.de/f/d1f866a61bd545318213/?dl=1
Resolving heibox.uni-heidelberg.de (heibox.uni-heidelberg.de)... 129.206.7.113
Connecting to heibox.uni-heidelberg.de (heibox.uni-heidelberg.de)|129.206.7.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://heibox.uni-heidelberg.de/seafhttp/files/12517929-9d0e-47db-a15e-844e700ac3db/hywiki-20221101-pages-articles.txt.gz [following]
--2023-03-20 08:45:40--  https://heibox.uni-heidelberg.de/seafhttp/files/12517929-9d0e-47db-a15e-844e700ac3db/hywiki-20221101-pages-articles.txt.gz
Reusing existing connection to heibox.uni-heidelberg.de:443.
HTTP request sent, awaiting response... 200 OK
Length: 193021637 (184M) [application/octet-stream]
Saving to: ‘index.html?dl=1’


2023-03-20 08:45:52 (15.7 MB/s) - ‘index.html?dl=1’ saved [193021637/193021637]



In [None]:
!wc hywiki-20221101-pages-articles.txt

  2446411  56341171 803098410 hywiki-20221101-pages-articles.txt


## Installing stanza

In [None]:
!pip install spacy-stanza

In [None]:
import stanza
import spacy_stanza




### testing English stanza (optional)

In [None]:
# optional
# Download the stanza model if necessary
stanza.download("en")

# Initialize the pipeline
nlp = spacy_stanza.load_pipeline("en")

doc = nlp("Barack Obama was born in Hawaii. He was elected president in 2008.")
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.dep_, token.ent_type_)
print(doc.ents)

### downloading and testing Armenian stanza

In [None]:
stanza.download("hy")


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.5.0.json:   0%|   …

INFO:stanza:Downloading default packages for language: hy (Armenian) ...


Downloading https://huggingface.co/stanfordnlp/stanza-hy/resolve/v1.5.0/models/default.zip:   0%|          | 0…

INFO:stanza:Finished downloading models and saved to /root/stanza_resources.


In [None]:
nlp_hy = spacy_stanza.load_pipeline("hy")

In [None]:
### optional
doc = nlp_hy("ՄԱՐԴՈՒ ԻՐԱՎՈՒՆՔՆԵՐԻ ՀԱՄԸՆԴՀԱՆՈՒՐ ՀՌՉԱԿԱԳԻՐ. ՆԵՐԱԾԱԿԱՆ. Քանզի մարդկային ընտանիքի բոլոր անդամներին ներհատուկ արժանապատվությունըև հավասար ու անօտարելի իրավունքները աշխարհի ազատության, արդարության ու խաղաղության հիմքն են.")

In [None]:
### optional
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.dep_, token.ent_type_)


### full analysis of the file (optional)
- includes dependency parsing

In [None]:
### optional
with open('/content/TED2020-dehy-hy-aa', 'r', encoding='utf-8') as infile, open('/content/TED2020-dehy-hy-aa-ANALYSIS-full-v01.txt', 'w') as outfile:
    # read sample.txt an and write its content into sample2.txt
    outfile.write("{token.text}\t{token.lemma_}\t{token.pos_}\t{token.dep_}\t{parentLem}\t{LAncestors}\n")
    for line in infile:
        line = line.strip()
        doc = nlp_hy(line)
        # outfile.write(line + '\n')
        for token in doc:
            LAncestors = list(token.ancestors)
            print(str(LAncestors))
            try:
                SLAncestors = str(list(token.ancestors))
                parent = LAncestors[0]
                parentLem = parent.lemma_
            except:
                parentLem = "NONE"
            outfile.write(f"{token.text}\t{token.lemma_}\t{token.pos_}\t{token.dep_}\t{parentLem}\t{SLAncestors}\n")
 

 

In [None]:
### optional : check output 
!head -n 50 TED2020-dehy-hy-aa-ANALYSIS-full-v01.txt

head: cannot open 'TED2020-dehy-hy-aa-ANALYSIS-full-v01.txt' for reading: No such file or directory


### function for lemmatization

In [None]:
def parseFile(iFileName, oFileName, nlp_model = nlp_hy):
    with open(iFileName, 'r', encoding='utf-8') as infile, open(oFileName, 'w') as outfile:
        # read sample.txt an and write its content into sample2.txt
        outfile.write("{token.text}\t{token.pos_}\t{token.lemma_}\n")
        c = 0
        for line in infile:
            c+=1
            if c%10 == 0: print(str(c))
            line = line.strip()
            doc = nlp_model(line)
            # outfile.write(line + '\n')
            for token in doc:
                LAncestors = list(token.ancestors)
                # print(str(LAncestors))
                try:
                    SLAncestors = str(list(token.ancestors))
                    parent = LAncestors[0]
                    parentLem = parent.lemma_
                except:
                    parentLem = "NONE"
                outfile.write(f"{token.text}\t{token.pos_}\t{token.lemma_}\n")
        outfile.flush()
    return


### command to lemmatize the file

In [None]:
# 1000 lines, runs in 2 minutes...
parseFile('/content/TED2020-dehy-hy-aa', '/content/TED2020-dehy-hy-aa--lemmatization-v01.txt', nlp_hy)

In [None]:
# takes a lot of time, do not run it, just use as a template, split the file first and run several processes...
parseFile('hywiki-20221101-pages-articles.txt', 'hywiki-20221101-pages-articles.vert', nlp_hy)

## Checking OCR errors
### wikipedia lemmatized --> frequency dictionary 

In [None]:
!wget https://heibox.uni-heidelberg.de/f/5b3213f991f84ca496ba/?dl=1
!mv index.html?dl=1 hywiki-20221101-pages-articles-v03.vert

In [None]:
!wc hywiki-20221101-pages-articles-v03.vert

 2735467  8206467 75483279 hywiki-20221101-pages-articles-v03.vert


In [None]:
!wget https://heibox.uni-heidelberg.de/f/350790e66ca24efdab1a/?dl=1
!mv index.html?dl=1 hy-texts-vert.tgz 
!tar xvzf hy-texts-vert.tgz

In [None]:
!wget https://heibox.uni-heidelberg.de/f/d601ceb0af5a4671a8e7/?dl=1
!mv index.html?dl=1 Parfum_Arm_ABBY.txt

In [None]:
!wc Parfum_Arm_ABBY.txt

In [None]:
parseFile('Parfum_Arm_ABBY.txt', 'Parfum_Arm_ABBY.vert.txt', nlp_hy)

In [None]:
!wc Parfum_Arm_ABBY.vert.txt

  83890  251594 2098541 Parfum_Arm_ABBY.vert.txt


In [None]:
!wget https://heibox.uni-heidelberg.de/f/743a1a57a37c42d8b585/?dl=1
!mv index.html?dl=1 Parfum_Armenian_uncorrected.txt


In [None]:
!wc Parfum_Armenian_uncorrected.txt

 13592  72207 854251 Parfum_Armenian_uncorrected.txt


In [None]:
# dealing with Armenian OCR output with line breaks (is it correct?)

FName = 'Parfum_Armenian_uncorrected.txt'
FNameOut = 'Parfum_Armenian.txt'

FIn = open(FName, 'r')
FOut = open(FNameOut, 'w')

for SLine in FIn:
    SLine = SLine.strip()
    if SLine == '': 
        FOut.write('\n\n')
        continue
    if SLine[-1] == '-':
        SLine2write = SLine[:-1]
        FOut.write(SLine2write)
        continue

    FOut.write(SLine + ' ')
FOut.flush()



In [None]:
!wc Parfum_Armenian.txt

  6126  69006 849250 Parfum_Armenian.txt


In [None]:
# runs for approximately 10 minutes, 6126 lines, 83828 words
parseFile('Parfum_Armenian.txt', 'Parfum_Armenian.vert.txt', nlp_hy)

10
20
30
40
50
60


  doc = self._ensure_doc(text)
Words: ["'", 'Շարցնում', 'են', "'", 'ինչ', '՞', 'է', 'եղել', 'նրա', 'հետ', ':']
Entities: []
  doc = self._ensure_doc(text)
Words: ['-', 'ինչ', '՛', 'էնա', 'անում', 'դանակով', ':']
Entities: []
  doc = self._ensure_doc(text)


70
80
90
100
110


Words: ['-', 'Նրա', 'համար', 'վնասակար', 'չի', 'լինի', ',', '-', 'շշպռեց', 'Ժաննան', ',', '-', 'իսկ', 'ինձ', 'համար', 'կլինի', ':', 'Ես', 'նիհարել', 'եմ', 'տասը', 'ֆունտ', ',', 'չնայած', 'կերել', 'եմ', 'երեք', 'հոգու', 'փոխարեն', ':', 'Իսկ', 'հանուն', 'ինչի', ':', 'Հանուն', 'շաբաթական', 'երեք', '<UNK>րանկի', '՛']
Entities: [('Ժաննան', 'PERSON', 38, 44), ('տասը', 'CARDINAL', 82, 86), ('երեք', 'CARDINAL', 110, 114), ('երեք', 'CARDINAL', 164, 168)]
  doc = self._ensure_doc(text)


120


Words: ['-', 'Բայց', 'մյուս', 'կողմից', ',', 'լավ', 'չէ', 'երեխային', 'դես', 'ու', 'դեն', 'նետել', ':', 'Ով', '՛', 'գիտի', ',', 'օգտակար', 'կլինի', '՝', 'նրան', 'արդյոք', 'այդ', 'կաթը', ':', 'Մանկիկը', ',', 'հասկանում', 'ես', ',', 'սովորել', 'է', 'քո', 'կրծքի', 'հոտին', 'ու', 'քո', 'սրտի', 'բաբախյունին', ':']
Entities: [('Մանկիկը', 'PERSON', 102, 109)]
  doc = self._ensure_doc(text)


130
140


Words: ['-', 'Ապա', 'որքան', '՞', 'ես', 'պահանջում', ',', '-', '-', 'գոռաց', 'Տերյեն', ':', '-', 'Հինգ', 'ֆրանկը', 'նման', 'չնչին', 'գործի', 'դիմաց', ',', 'ինչպիսին', 'նորածնին', 'կերակրելն', 'է', ',', 'մի', 'կույտ', 'փող', 'է', ':']
Entities: [('Տերյեն', 'PERSON', 35, 41), ('Հինգ', 'CARDINAL', 44, 48)]
  doc = self._ensure_doc(text)
Words: ['-', 'Բայց', 'ինչու', '՛', ',', 'սիրելիս', ',', '-', 'ասաց', 'Տերյեն', 'ն', 'կրկին', 'մատով', 'շուռումուռ', 'տվեց', 'զամբյուղի', 'պարունակությունը', ':', 'չէ', '՞', 'որ', 'սա', 'հիասքանչ', 'մանկիկ', 'է', ':', 'Այնքան', 'վարդագույն', 'է', ',', 'լաց', 'չի', 'լինում', ',', 'հանգիստ', 'է', 'քնում', ',', 'ն', 'կնքված', 'էլ', 'է', ':']
Entities: [('Տերյեն', 'PERSON', 30, 36)]
  doc = self._ensure_doc(text)


150


Words: ['խամարդ', ',', 'ն', 'դեռնս', 'չի', 'տնօրինում', 'ամբողջապես', 'ճնավորված', 'հոգուն', ':', 'Հետնաբար', ',', 'սատանայի', 'համար', 'այն', '`', 'հետաքրքրություն', 'չի', 'ներկայացնում', ':', 'Միգուցենա', 'արդեն', 'խոսում', '՛', 'է', ':', 'Միգուցե', 'նրա', 'մոտ', 'ջղաճգութու', '՞', 'է', ':', 'Միգուցե']
Entities: []
  doc = self._ensure_doc(text)


160


Words: ['`', '-', 'Դետեսնում', 'ես', ':', 'Ահա', 'այն', 'նախանշանը', ':', 'Եթենա', '՞', 'դիվահար', 'լիներ', ',', 'ապա', 'նրանից', 'գարշահոտ', 'կփչեր', ':']
Entities: [('Դետեսնում', 'GPE', 3, 12)]
  doc = self._ensure_doc(text)


170
180


Words: ['-', 'Որովհետն', 'նա', 'առողջ', 'է', ',', '-', 'գոռաց', 'Տերյեն', ',', '-', 'նա', 'առողջ', 'է', ',', 'այդ', 'պատճառով', 'էլ', 'հոտ', 'չունի', ':', 'Հոտ', 'ունեն', '`', 'միայն', 'հիվանդ', 'երեխաները', ',', 'դա', 'բոլորին', 'է', 'հայտնի', ':', 'Օրինակ', ',', 'եթե', 'երեխան', 'ջրծաղիկ', 'ունի', ',', 'նրանից', 'ձիու', 'թրիքի', 'հոտ', 'է', 'գալիս', ',', 'իսկ', 'եթե', 'քութեշ', ',', 'ապա', 'հին', 'խնձորի', ',', 'իսկ', 'թոքախտավոր', 'երեխայից', 'սոխի', 'հոտ', 'է', 'գալիս', ':', 'Սա', 'առողջ', 'է', '.', 'ահա', 'ն', 'բոլորը', ':', 'Այդ', 'դեպքում', 'ինչու', '՛', 'պետք', 'է']
Entities: [('Որովհետն', 'PERSON', 2, 10), ('Տերյեն', 'PERSON', 30, 36)]
  doc = self._ensure_doc(text)


190


Words: ['նրանից', 'գարշահոտ', 'գա', ':', 'Միթե', '՛', 'քո', 'սեփական', 'երեխաներից', 'գարշահոտ', 'է', 'գալիս', ':']
Entities: []
  doc = self._ensure_doc(text)


200
210


Words: ['Ն', '-', 'Ահա', ',', '-', 'ասաց', 'բավարարված', 'Տերյեն', 'ու', 'ձեռքերը', 'կրկին', 'ծալեց', 'թիկունքում', ':', 'Կնշանակի', '՝', 'սատանայի', 'հետ', 'կապված', 'խոսքը', 'մենք', 'ետ', 'ենք', 'վերցնում', ':', 'Լավ', ':', 'Իսկ', 'հիմա', 'բարի', 'եղիր', 'ինձ', 'բացատրել', 'ինչ', '՞', 'հոտ', 'է', 'գալիս', 'կրծքի', 'նորածիններից', ',', 'եթե', 'նրանցից', 'գալիս', 'է', 'այնպիսի', 'հոտ', ',', 'որ', '`', 'պիսին', ',', 'քո', 'կարծիքով', ',', 'պետք', 'է', 'գա', ':', 'Դե', ':']
Entities: [('Տերյեն', 'PERSON', 26, 32)]
  doc = self._ensure_doc(text)
Words: ['ՍՏ', '-', 'Ինչ', 'է', 'նշանակում', '«', 'լավ', '»', ',', '-', 'ողջ', 'ուժով', 'գոռաց', 'նրա', '`', 'վրա', 'Տերյեն', '-', '-', 'Միթե', '՛', 'քիչ', 'են', 'այնպիսի', 'բաները', ',', 'որոնք', 'լավ', '`', 'հոտ', 'ունեն', ':', 'Փնջով', 'նարդո', 'լավ', 'հոտ', 'ունի', ':', 'Ապուրի', 'միսը', 'լավ', 'հոտ', 'ունի', ':', 'Արաբական', 'այգիները', 'լավ', 'հոտ', 'ունեն', ':', 'Ես']
Entities: [('Տերյեն', 'PERSON', 55, 61), ('Արաբական', 'NORP', 168, 176)]
 

220
230
240
250


Words: ['-', 'Ինչպես', 'կարամել', '՛', ',', '-', 'հարցրեց', 'նա', '՝', 'ձգտելով', 'կրկին', 'վերադառնալ', 'խիստ', 'խոսելաոճին', ':', '-', 'Կարամել', ':', 'Ինչ', '՞', 'ես', 'հասկանում', 'կարամելից', ':', 'Գոնե', 'մի', 'անգամ', 'կերել', '՛', 'ես', ':']
Entities: []
  doc = self._ensure_doc(text)


260


Words: ['մինչդեռ', 'սեփական', 'բանականությունից', 'օգտվելու', 'համար', 'մարդուն', 'անհրաժեշտ', 'է', 'ինքնավստահություն', 'ու', 'հանգիստ', ':', 'Սակայն', 'նա', 'ամենավճռական', 'ձնով', 'պայքարում', 'էր', 'հասարակ', 'ժողովրդի', 'սնահավատության', 'դեմ', ':', 'Կախարդանքն', 'ու', 'խաղաթղթով', 'գուշակությունը', ',', 'հմայիխերի', 'կրումը', ',', 'չար', 'աչքից', 'ազատվելը', ',', 'ոգիների', 'կախարդանթները', ',', 'լիալուսնի', 'պահին', 'աճպարարությունները', '...', 'Ինչով', '՛', 'ասես', 'չէին', 'զբաղվում', 'այդ', 'մարդիկ', ':', 'Նրան', 'խորապես', 'հուսահատեգնում', 'էր', ',', 'որ', 'նմանատիպ', 'հեթանոսական', 'ավանդույթները', 'քրիստոնեական', 'կրոնի', 'առավել', 'քան', 'հազարամյա', 'գոյությունից', 'հետո', 'դեռնս', 'արմատախիլ', 'չէին', 'արվել', ':', 'Միաժամանակ', ',', 'այսպես', 'կոչված', ',', 'դիվահարության', 'ու', 'սատանայի', 'հետ', 'կապերի', 'դեպքերի', 'մեծ', 'մասը', 'էլ', 'ավելի', 'մոտիկից', 'ուսումնասիրման', 'ժամանակ', 'ներկայանում', 'էին', 'որպես', 'սնոտիապաշտական', 'ներկայացումներ', ':', 'Ճիշտ', 'է

270


Words: ['`', 'մնահավատությոն', 'է', ',', 'որն', 'արժանի', 'է', 'վայրի', 'հեթանոսա', '`', 'կան', 'ժամանակներին', ',', 'երբ', 'մարդիկ', 'ապրում', 'էին', 'կենդանիների', 'պես', ',', 'երբ', 'նրանց', 'տեսողությունն', 'այնքան', 'թույլ', 'էր', ',', "'", 'որ', 'չէին', 'տարբերում', 'գույները', ',', 'բայց', 'գտնում', 'էին', ',', 'որ', 'լսում', 'են', 'արյան', 'հոտը', ',', 'որ', 'կարող', 'են', 'հոտի', 'օգնությամբ', 'տարբերել', 'սուն', 'բարեկամից', ',', 'որ', 'իրենց', 'հոտն', 'առնում', 'են', 'հսկա', '՛մարդակերներն', 'ու', 'դարճորյակ', 'գայլերը', ',', 'որ', 'իրենց', 'որսով', 'են', 'զբաղված', 'վրիժառության', 'աստվածուհիները', ',', 'ն', '.', 'այդ', '`', 'խսկպատճառով', 'իրենց', 'նողկալի', 'աստվածներին', 'խարույկՄ', 'ների', 'վրա', 'այրված', 'գարշահոտ', 'մարդկային', 'զոհեր', 'էին', 'մա', '"', '`', 'տուցում', ':', 'Սարսափելի', 'է', ':', '«', 'Հիմարը', 'քթով', 'է', 'տեսնում', 'ավելի', 'սն', 'աչքերով', '»', ',', 'ն', 'հավանաբար', ',', 'աստվածատուր', 'բաՄ', '.', 'նականռթյան', 'լույսը', 'հազար', 'տարի', 'նս', 

280
290
300
310


Words: ['խցկեց', 'շատ', 'խոր', ',', 'այնպես', 'որ', ',', 'նորածնի', 'բարակ', 'շիկահեր', 'մազիկները', 'խուտուտ', 'տվեցին', 'նրա', 'ռունգերը', ',', 'հոտոտեց', 'երեխայի', 'գլուխը', 'հուսալով', 'ինչ', '-', 'որ', 'հոտ', 'ներշնչել', ':', 'Նա', 'այնքան', 'էլ', 'լավ', 'չէր', 'պատկերացնում', ',', 'թե', 'ինչպիսի', 'հոտ', 'պետք', 'է', 'ունենան', 'նորածինների', 'գլուխները', ':', 'Բնականաբար', ',', 'ոչ', 'կարամելի', 'հոտ', ',', 'այդ', 'մեկը', 'պարզից', 'պարզ', 'էր', '.', 'չէ', "'", 'որ', 'կարամեխ', 'այրված', 'շաքար', 'է', ',', 'ն', 'ինչպես', 'կարող', 'է', 'նորածինը', ',', 'որը', 'մինչ', 'այժմ', 'միայն', 'կաթ', 'էր', 'խմում', ',', 'այրված', 'շաքարի', 'հոտ', 'ունենալ', ':', 'Նրանից', 'կարող', 'էր', 'կաթի', 'հոտ', 'գալ', 'ծծմոր', 'կաթի', ':', 'Բայց', 'նրանից', 'կաթի', 'հոտ', 'չէր', 'գալիս', ':', 'Նրանից', 'կարող', 'էր', 'մազերի', 'հոտ', 'գալ', ',', 'մաշկի', 'ու', 'մազերի', ',', 'ն', ',', 'միգուցե', ',', 'մի', 'քիչ', 'մանկան', 'քրտնքի', 'հոտ', ':', 'Տերյեն', 'հոտոտեց', 'ն', 'այնուհետն', 'համոզեց', 'իրե

320


Words: ['ճեռքը', 'փոքրիկ', 'ն', 'գեղեցիկ', ',', 'դուրս', 'էր', 'ցցվել', 'կափարիչի', 'տակից', 'ու', 'ցնցվում', 'էր', 'այտի', 'ուղղությամբ', ':', 'Տերյեն', 'գորովալից', 'ժպտաց', 'ու', 'հանկարծ', 'իրեն', 'շատ', 'հարմարավետ', 'զգաց', ':', 'Ինչ', '-', 'որ', 'մի', 'պահ', 'նա', 'նույնիսկ', 'իրեն', 'թույլ', 'տվեց', 'մի', 'ֆանտաստիկ', 'միտք', ',', 'որ', 'կարծես', 'թե', 'ինքը', 'այդ', 'երեխայի', 'հայրն', 'էր', ':', 'Կարծես', 'թե', 'ինքը', 'դարձել', 'է', 'ոչ', 'թե', 'վանական', ',', 'այլ', 'նորմալ', 'քաղքենի', ',', 'միգուցե', 'ազնիվ', 'արհեստավոր', ',', 'իրեն', 'կին', 'է', 'գտել', 'մի', 'այնպիսի', 'տաքուկ', 'կին', ',', 'որից', 'բրդի', 'ու', 'կաթի', 'հոտ', 'է', 'գալիս', ',', 'ն', 'նրանք', 'ծնել', 'են', 'որդի', ',', 'ն', 'ահա', 'ինքը', 'նրան', '`', 'օրորում', 'է', 'իր', 'սեփական', 'ծնկների', 'վրա', 'իր', 'սեփական', 'երեխային', '՝', 'ղու', '՛', '-', 'ղու', '՛', '-', 'ղու', '՛', '.', 'այդ', 'միտքը', 'հաճույք', 'էր', 'պատճառում', ':', 'Նրանում', 'ինչ', '-', 'որ', 'սփոփիչ', 'ներշնչանք', 'կար', ':', 'Հայ

330


Words: ['Եվ', 'այդ', 'պահին', 'նորածինը', 'սկսեց', 'ճչալ', ':', 'Նա', 'կկոցեց', 'աչքերը', ',', 'լայն', 'բացեց', 'իր', 'կարմիր', 'բուկը', 'ն', 'այնքան', 'զզվելի', 'ու', 'ականջ', 'ծակող', 'ձայնով', 'ծղրտաց', ',', 'որ', 'Տերյեի', 'արյունը', 'երակներում', 'սառեց', ':', 'Նա', 'առաջ', 'պարզած', 'ձեռքով', 'ցնցում', 'էր', 'զամբյուղն', 'ու', 'գոռում', '՝', 'ղու', '՛', '-', 'ղու', '՛', '-', 'ղու', '՛', ',', 'որպեսզի', 'երեխային', 'ստիպի', 'լռել', ',', 'բայց', 'վերջինս', 'ավելի', 'բարճր', 'էր', 'ոռնում', '.', 'նրա', 'դեմքը', 'կապտել', 'էր', ',', 'ն', 'նա', 'կարծես', 'պատրաստ', 'էր', 'ոռնոցից', 'պայթել', ':']
Entities: [('Տերյեի', 'PERSON', 128, 134)]
  doc = self._ensure_doc(text)


340
350


Words: ['Տիկին', 'Գայարը', ',', 'չնայած', 'դեռ', 'երեսուն', 'տարեկան', 'էլ', 'չկար', ',', 'արդեն', 'ապրել', 'էր', 'իր', 'կյանքը', ':', 'Նրա', 'արտաքինը', 'համապատասխանում', 'էր', 'տարիքին', ',', 'բայց', 'միաժամանակ', 'նա', 'իր', 'տարիքից', 'երկու', ',', 'երեք', ',', 'հարյուրապատիկ', 'անգամ', 'ավելի', 'մեծ', 'տեսք', 'ուներ', ',', 'նման', 'էր', 'աղջկա', 'մումիայի', ',', 'բայց', 'ներքուստ', 'արդեն', 'վաղուց', 'մեռած', 'էր', '.', 'փոքր', 'հասակում', 'հայրը', 'վառարանի', 'կրակխառնիչով', 'հարվածել', 'էր', 'նրա', 'ճակատին', '՝', 'ուղիղ', 'քթարմատից', 'վերն', ',', 'ն', 'այդ', 'Ժամանակվանից', 'նա', 'կորցրել', 'էր', 'հոտառությունը', ',', 'ինչպես', 'նան', 'մարդկային', 'ջերմության', 'ու', 'սառնության', 'ցանկացած', 'զգացում', 'ն', ',', 'ընդհանրապես', ',', 'ցանկացած', 'ուժեղ', 'զգացում', ':', 'Այդ', 'մեկ', 'հարվածով', 'նրա', 'մեջ', 'սպանվել', 'էին', 'ն', 'քնքշությունը', ',', 'ն', 'զզվանքը', ',', 'ն', 'ուրախությունը', ',', 'ն', '.', 'հուսահատությունը', ':', 'Ավելի', 'ուշ', ',', 'համատեղ', 'ապրելով', 

360
370
380
390
400
410
420
430
440
450
460
470
480
490
500


Words: ['`', 'հիշեցնել', 'իր', 'պարտքի', 'մասին', ':', '«', 'Քաղաքավարության', 'համար', 'նա', 'մեկ', 'շաբաթ', 'սպասեց', ',', 'ու', 'երբ', 'պակասող', 'փո', '`', 'ղերը', 'այդպես', 'էլ', 'չփոխանցվեցին', ',', 'նա', 'բռնեց', 'տղայի', 'ձեռ|', '2', 'ունրա', 'հետ', 'գնաց', 'քաղաք', ':', 'Տ', ':', '`', 'Գետից', 'ոչ', 'հեռու', 'Մորտելյերի', 'փողոցի', 'վրա', ',', 'ապրում', 'էր', 'րա', 'ծանոթը', 'Գրիմալ', 'ազգանունով', 'կաշեգործը', ',', 'որին', 'աշՆ', '1', 'խատանքի', 'համար', 'մշտապես', 'պետք', 'էին', 'լինում', 'տղաներ', '2', 'Հ', 'ոչ', 'թե', 'որպես', 'աշ', 'սկերտներ', 'կամ', 'ենթավարպետներ', ',', 'այլ', 'որՏՅ', ':', 'պես', 'իխե', 'աշխատուժ', ':', 'չէ', '՞', 'որ', 'այդ', 'արհեստի', 'մեջ', 'հարկ', 'էր', '`', 'լինում', 'կատարել', 'կյանքի', 'համար', 'այն', 'աստիճան', 'վտանգավոր', 'գործողություններ', 'մորթափառից', 'մաքրել', 'նեխող', 'գազանների', 'մորթիները', ',', 'միմյանց', 'խառնել', 'դաբաղման', 'թուն', '.', 'ՐԵ', ':', 'ներկանյութերի', 'լուծույթները', ',', 'թափել', 'կսկծոր', 'գործված', 'քիմիական', 'Նյ

510
520
530
540
550
560
570
580
590
600
610
620
630
640
650
660
670
680
690
700
710
720
730
740
750
760
770
780
790
800
810


Words: ['Գրգռվածությունից', 'նա', 'քիչ', 'էր', 'մնում', 'վատանար', ':', 'Նա', 'դեռնս', 'նույնիսկ', 'չէր', 'էլ', 'պարզել', 'որտեղից', 'է', 'ընդհանրապես', 'գալիս', 'այդ', 'բուրմունքը', ':', 'Երբեմն', 'թեթն', 'քամիների', 'միջն', 'ընդմիջումները', 'տնում', 'էին', 'րոպեներ', ',', 'ն', 'ամեն', 'անգամմնա', '՛', 'վրա', 'հարձակվում', 'էր', 'սահմռկեցուցիչ', 'սարսափը', ',', 'որ', 'ինքը', 'հավերժորեն', 'կորցրեց', 'այն', ':', 'Ի', 'վերջո', ',', 'նա', 'հանգեց', 'այն', 'փրկարար', 'հետնությանը', ',', 'որ', 'քամին', 'իրեն', 'է', 'հասնում', 'գետի', 'մյուս', 'ափից', '՝', 'հարավարնելյան', 'ուղղությամբ', 'ինչ', '-', 'որ', 'տեղից', ':']
Entities: []
  doc = self._ensure_doc(text)


820
830
840
850
860
870
880
890
900
910
920
930
940
950
960
970
980
990


Words: ['Այն', 'հանգամանքը', ',', 'որ', 'այս', 'հոյակապության', 'սկզբում', 'կանգնած', 'էր', 'սպանությունը', ',', 'նա', ',', 'եթե', 'ընդհանրապես', 'գիտակցում', 'էր', 'դա', ',', 'ընդունում', 'էր', 'խոր', 'անտարբերությամբ', ':', 'Մարե', 'փողոցի', 'աղջկա', 'արտաքինը', 'նրա', 'դեմքը', ',', 'նրա', 'մարմինը', ',', 'Գրենույն', 'արդեն', 'չէր', 'կարողանում', 'վերհիշել', ':', 'չէ', '՞', 'որ', 'պահպանել', 'էր', 'լավագույնը', ',', 'ինչը', 'նա', 'խլեց', 'ու', 'սեփականացրեց', '.', 'նրա', 'բուրմունքի', 'էությունը', ':']
Entities: [('Մարե փողոցի', 'FACILITY', 141, 152), ('Գրենույն', 'PERSON', 192, 200)]
  doc = self._ensure_doc(text)


1000
1010
1020
1030
1040
1050
1060
1070


Words: ['10', '-', 'Շենյե', ',', '-', 'կանչեց', 'Բալդինին', 'իր', 'փոքրիկ', 'գրասենյակից', ',', 'որտեղ', 'նա', ',', 'աչքերը', 'փակ', 'դռանը', 'հառած', ',', 'մի', 'քանի', 'ժամ', 'քարացած', 'կանգնած', 'էր', ',', '-', 'հագեք', 'ճեր', 'կեղծամը', ':', 'Ուճիթապտղի', 'յուղի', 'տակառիկների', 'ն', 'կախված', 'բայոնյան', 'ապխտած', 'ազդրերի', 'միջն', 'հայտնվեց', 'Շենյեն', '՝', 'Բալդինիի', 'ենթավարպետը', 'նույնպես', 'արդեն', 'մի', 'ծեր', 'մարդ', ',', 'չնայած', 'տիրոջից', 'ավելի', 'երիտասարդ', ',', 'ու', 'քայլեց', 'առաջ', 'դեպի', 'առավել', 'նրբաճաշակ', 'կահավորված', 'կրպակի', 'շինությունը', ':', 'Նա', 'սերթուկի', 'գրպանից', 'դուրս', 'բերեց', 'իր', 'կեղծամը', 'ն', 'քաշեց', 'գլուխը', ':', "'", '-', 'Պարոն', 'Բալդինի', ',', 'դուք', 'դոււս', '՛', 'եք', 'գնում', ':', '`', 'ԾՈջ', '-', 'ասաց', 'Բալդինին', ',', '-', 'ես', 'մի', 'երկու', 'ժամով', 'առանձնանում', 'եմ', 'իմ', 'աշխատասենյակում', 'ու', 'ցանկանում', 'եմ', ',', 'որ', 'ինճ', 'բացարճակապես', 'ոչ', 'ոք', 'չանհանգստացնի', ':', 'ա', 'ՄԶ', 'հասկանում', '

1080


Words: ['այն', ',', 'ինչը', 'նա', 'պահանջում', 'է', ',', 'իսկ', 'պատրաստված', 'է', 'Սեն', '-', 'Անդրե', '-', 'դեզ', '-', 'Ար', 'փողոցի', 'այն', 'բթամիտի', 'կողմից', '...', 'ինչպես', '՛', 'էր', 'անունը', '...']
Entities: [('Սեն-Անդրե-դեզ-Ար փողոցի', 'FACILITY', 43, 66)]
  doc = self._ensure_doc(text)
Words: ['Բալդինի', 'Այո', ',', 'Պելիսյե', ':', 'Ճիշտ', 'է', ':', 'Այդպես', 'են', 'նրան', '՝', 'այդ', 'բթամիտին', 'անվանում', ':', '«', 'Ամուրն', 'ու', 'Պսիքեն', '»', 'Պելիսյեից', '։', 'Դուք', 'գիտեք', '՛', 'այդ', 'օծանելիքը', ':']
Entities: [('Բալդինի', 'PERSON', 0, 7), ('Պելիսյե', 'PERSON', 13, 20), ('«Ամուրն ու Պսիքեն» Պելիսյեից', 'ORGANIZATION', 69, 97)]
  doc = self._ensure_doc(text)


1090


Words: ['Բալդինի', 'Գռեհիկկ', '՞', ':']
Entities: [('Բալդինի Գռեհի՞կ', 'PERSON', 0, 15)]
  doc = self._ensure_doc(text)


1100


Words: ['Բալդինի', 'Իրոք', '՛', ':', 'Իսկ', 'էլ', 'ինչ', '՞', 'կա', 'այնտեղ', ':']
Entities: [('Բալդինի', 'PERSON', 0, 7)]
  doc = self._ensure_doc(text)


1110
1120
1130
1140
1150
1160


Words: ['ալքիմիկոս', 'է', ',', 'ասում', 'են', 'մարդիկ', '.', 'լավ', 'է', ',', 'թող', 'այդպես', 'էլ', 'մտածեն', ':', 'Այն', 'մասին', ',', 'որ', 'իր', 'արվեստն', 'արհեստ', 'է', ',', 'ինչպես', 'ն', 'ցանկացած', 'ուրիշը', ',', 'գիտեր', 'միայն', 'ինքը', ',', 'Ա', 'դրանում', 'էր', 'նրա', 'հպարտությունը', ':', 'Նա', 'չէր', 'էլ', 'ցանկանում', 'գյուտարար', 'լինել', ':', 'Գյուտարարությունը', 'բավական', 'կասկածելի', 'է', ',', 'գտնում', 'էր', 'Բալդինին', ',', 'քանի', 'որ', 'այն', 'մշտապես', 'նշանակում', 'է', 'կանոնների', 'խախտում', ':', 'Նա', 'ամեննին', 'էլ', 'չէր', 'պատրաստվում', 'կոմս', 'Վերամոնի', 'համար', 'նոր', 'օծանելիք', 'հնարել', ':', 'Համենայնդեպս', ',', 'Շենյեն', 'հարկադրված', 'չի', 'լինի', 'իրեն', 'համոզել', 'Պելիսյեից', '«', 'Ամուրն', 'ու', 'Պսիքեն', '»', 'ձեռք', 'բերել', ':', 'Նա', 'արդեն', 'ձեռք', 'էր', 'բերել', 'այդ', 'օծանելիքները', ':', 'Ահա', 'դրանք', ',', 'պատուհանի', 'մոտի', 'գրասեղանի', 'վրա', '՝', 'հղկած', 'խցանով', 'փոքրիկ', 'ապակե', 'սրվակների', 'մեջ', ':', 'Նա', 'դրանք', 'գ

1170


Words: ['«', 'Խոնջանքով', '»', ',', 'մշկային', 'գերհագեցած', 'բուրմունքով', ':', 'Բոլորին', 'հանկարծ', 'տիրում', 'էր', 'մուշկի', 'հոտով', 'բուրելու', 'գազանային', 'ցանկությունը', ',', 'ն', 'Բալդինիին', 'ոչինչ', 'չէր', 'մնում', ',', 'քան', 'իր', 'հազրեվարդը', 'վերամշակել', 'գլուխը', 'լվանալու', 'համար', 'ջրի', 'ու', 'նարդոսը', 'կարել', 'բույրաբարձիկի', 'մեջ', ':', 'Դրա', 'փոխարեն', ',', 'երբ', 'հաջորդ', 'տարի', 'նա', 'պատվիրեց', 'համապատասխան', 'քանակությամբ', 'մուշկ', ',', 'մշկահոտ', 'ցիբետին', 'ու', 'կողբենու', 'շիթ', ',', 'Պելիսյեի', 'խելքին', 'փչեց', 'հորինել', '«', 'Անտառային', 'ծաղիկ', '»', 'անվանումով', 'օծանելիք', ',', 'ն', 'այն', 'անմիջապես', 'հաջողություն', 'նվաճեց', ':', 'Գիշերային', 'երկարատն', 'փորձերի', 'գնով', 'կամ', 'խելագար', 'գումարներով', 'լրտեսներին', 'կաշառելով', '՝', 'Բալդինին', 'ի', 'վերջո', 'պարզեց', ',', 'թե', 'ինչից', 'է', 'բաղկացած', '«', 'Անտառային', 'ծաղիկները', '»', ',', 'իսկ', 'Պելիսյեն', 'արդեն', 'կրկին', 'աչքի', 'ընկավ', 'այս', 'անգամ', '«', 'Թուրքական',

1180
1190
1200
1210


Words: ['Եվ', 'կամ', 'վերցնենք', 'խանգարվածությունը', 'արագության', 'վրա', ':', 'Ինչու', '՛', 'անհրաժեշտ', 'եղավ', 'այդքան', 'շատ', 'նոր', 'ճանապարհներ', 'անցկացնել', ':', 'Ինչի', '՞', 'համար', 'են', 'այդ', 'նոր', 'կամուրջները', ':', 'Ինչի', 'համար', ':', 'Որպեսզի', 'մեկ', 'շաբաթում', 'Լիոն', '՞', 'հասնեն', ':', 'Իսկ', 'ինչ', '՞', 'օգուտ', 'կա', 'դրանից', ':', 'Ում', 'համար', 'Է', 'դա', 'օգտավետ', ':', 'Ում', '՞', 'է', 'պետք', 'գլուխը', 'կոտրելով', 'սլանալ', 'Ատլանտյան', 'օվկիանոսով', ':', 'Մեկ', 'ամիս', 'անց', 'Ամերիկայում', 'հայտնվելու', 'համար', '՛', ':', 'Բայց', 'չէ', '՞', 'որ', 'մարդիկ', 'հազարամյակներ', 'շարունակ', 'հրաշալիորեն', 'բավարարվում', 'էին', 'առանց', 'այդ', 'աշխարհամասի', ':', 'Ինչ', '՞', 'է', 'կորցրել', 'նախնադարյան', 'անտառում', 'հնդկացիների', 'կամ', 'սնամորթների', 'մոտ', 'քաղաքակիրթ', 'մարդը', ':', 'Անգամ', 'Հյուսիս', 'նրանք', 'հասան', '՝', 'Լապլանդիա', ',', 'որտեղ', 'հավերժական', 'սառույց', 'է', ',', 'Ա', 'որտեղ', 'ապրում', 'են', 'վայրի', 'մարդիկ', ',', 'ովքեր', 'հո

1220
1230
1240
1250
1260
1270
1280
1290
1300
1310
1320
1330
1340
1350
1360
1370


Words: ['-', 'Հրաշալի', 'է', ',', 'հրաշալի', '...', '-', 'մրթմրթաց', 'նա', '՝', 'ագահաբար', 'հոտոտելով', ':', '-', '"', 'Նրանում', '.', 'ուրախություն', 'կա', ',', 'նա', 'չքնաղ', 'է', '՝', 'ինչպես', 'մեղեդին', ',', 'նա', 'ուղղակի', 'ստեղծում', 'է', 'լավ', 'տրամադրություն', '...', 'Ինչ', '՞', 'անհեթեթություն', 'է', '՝', 'լավ']
Entities: []
  doc = self._ensure_doc(text)


1380


Words: ['<UNK>իծաղեի', '՛', 'է', 'նման', 'ճարտասանությունը', '.', '«', 'Մեղեդի', 'է', ':', 'Ուրախություն', 'է', ':', 'Չքնաղ', 'է', ':', 'Բարձրացնում', 'է', 'տրամադրությունը', '»', ':', 'Հիմարություն', ':', 'Մանկական', 'հիմարություն', ':', 'Րոպեական', 'տպավորություն', ':', 'Շին', 'սխալ', ':', 'Խառնվածքի', 'հարց', ':', 'Ամենայն', 'հավանականությամբ', '՝', 'իտալական', 'ժա']
Entities: [('իտալական', 'NORP', 216, 224)]
  doc = self._ensure_doc(text)
Words: ['`', '`', 'վորությամբ', ':', 'չէ', '՞', 'որ', 'դա', 'ոսկե', 'կանոն', 'է', ',', 'Բալդինի', ',', 'այ', 'դու', '՝', 'ծեր', 'ոչխարի', 'գլուխ', ':', 'Երբ', 'հոտ', 'ես', 'քաշում', '՝', 'հոտ', 'քաշիր', ',', 'իսկ', 'դատիր', 'հետո', ':', '«', 'Ամուրն', 'ու', 'Պսիքեն', '»', '-', 'ը', 'շարքային', 'օծաելիք', 'չէ', ':', 'Բավական', 'հաջող', 'արտադրանք', 'է', ':', 'Ճարպկորեն', 'թխված', 'անշնորհք', 'ապրանք', ':', 'Եթե', 'չասենք', 'կեղծիք', ':', 'Իսկ', 'կեղծիքից', 'բացի', ',', 'ուրիշ', 'էլ', 'ինչ', '՞', 'կարելի', 'Է', 'սպասել', 'Պելիսյեի', 'նման', 'մարդուց

1390
1400


Words: ['Երկրորդ', 'կանոնն', 'ասում', 'է', '.', 'օծանելիքն', 'ապրում', 'է', 'Ժամանակի', 'մեջ', ',', 'նա', 'ունի', 'իր', 'երիտասարդությունը', ',', 'իր', 'հասունությունն', 'ու', 'ծերությունը', ':', 'Եվ', 'եթե', 'միայն', 'այդ', 'բոլոր', 'երեք', 'տարիքներում', 'միատեսակ', 'հաճելի', 'բուրմունք', 'Է', 'արճակում', ',', 'այն', 'կարելի', 'է', 'համարել', 'հաջողված', ':', 'չէ', '՞', 'որ', 'արդեն', 'քանիցս', 'եղել', 'է', 'այնպես', ',', 'որ', 'մեր', 'կողմից', 'պատրաստված', 'խառնուրդն', 'առաջին', 'փորձի', 'Ժամանակ', 'բուրում', 'էր', 'հրաշալի', 'թարմությամբ', ',', 'կարճ', 'ժամանակ', 'անց', 'նեխած', 'մրգահոտերով', ',', 'ն', 'ի', 'վերջո', '՝', 'արդեն', 'չափից', 'դուրս', 'զզվելի', 'մաքուր', 'մուշկի', 'հոտով', ',', 'քանի', 'որ', 'մենք', 'անցել', 'էինք', 'նրա', 'չափաբաժնի', 'նորմից', ':', 'Ընդհանուր', 'առմամբ', 'մուշկի', 'հետ', 'պետք', 'Է', 'զգուշությամբ', 'վարվել', ':', 'Մեն', '-', 'միակ', 'կաթիլը', 'կարող', 'է', 'հասցնել', 'աղետալի', 'հետնանքների', ':', 'Հնուց', 'եկող', 'սխալ', ':', 'Ով', 'գիտի', ',', '

1410
1420
1430


Words: ['Բայց', 'նրա', 'ճեռքը', 'մեխանիկորեն', 'շարունակում', 'էր', 'հազար', 'անգամ', 'փորձված', 'նրբագեղ', 'շարժումով', 'Ժանյակավոր', 'թաշկինակը', 'թրջել', 'օծանելիքով', ',', 'այն', 'թափ', 'տալ', 'ու', 'արագ', 'անցկացնել', 'դեմքի', 'կողքով', ',', 'ն', 'ամեն', 'անգամ', 'մեխանիկորեն', 'իր', 'մեջ', 'էր', 'ներշնչում', 'բուրմունքով', 'ներթափանցված', 'օդի', 'չափաբաժինը', ',', 'որպեսզի', 'արվեստի', 'բոլոր', 'կանոններով', 'շունչը', 'պահելով', 'կատարի', 'երկարատն', 'արտաշնչում', ':', 'Ի', 'վերջո', ',', 'քիթն', 'ազատեց', 'նրան', 'այդ', 'տանջանքից', '.', 'ալերգիկ', 'ձնով', 'ներսից', 'ուռչելով', '՝', 'կարծես', 'խցանվեց', 'մեղրամոմե', 'խցանով', ':', 'Այժմ', 'արդեն', 'ընդհանրապես', 'չէր', 'կարող', 'որնէ', 'հոտ', 'զգալ', 'ու', 'հազիվ', 'էր', 'կարողանում', 'շնչել', ':', 'Քիթը', 'լցված', 'էր', ',', 'ինչպես', 'ծանր', 'հարբուխի', 'Ժամանակ', ',', 'իսկ', 'աչքերի', 'անկյուններում', 'արտասուքի', 'կաթիլներ', 'էին', 'հայտնվել', ':', 'Փառք', 'Աստծու', ':', 'Այժմ', 'կարելի', 'է', 'հանգիստ', 'խղճով', 'աշխատանքը'

1440
1450
1460
1470
1480
1490
1500
1510
1520
1530
1540


Words: ['Նա', 'ետ', 'քաշեց', 'սողնակը', ',', 'բացեց', 'ծանր', 'դուռը', 'ու', 'ոչինչ', 'չտեսավ', ':', 'Մթությունն', 'ամբողջությամբ', 'կլանեց', 'մոմի', 'լույսը', ':', 'Հետոնա', '՞', 'աստիճանաբար', 'նշմարեց', 'երեխայի', 'կամ', 'տղայի', 'փոքրիկ', 'կերպար', 'ձեռքին', 'ինչ', '-', 'որ', 'առարկա', ':']
Entities: []
  doc = self._ensure_doc(text)
Words: ['-', 'Քեզ', 'ինչ', '՞', 'է', 'պետք', ':']
Entities: []
  doc = self._ensure_doc(text)


1550
1560
1570
1580
1590
1600
1610
1620
1630
1640
1650
1660
1670
1680


Words: ['-', 'Դուք', 'ուզում', 'եք', 'այծի', 'մորթիները', 'բուրումնեա', '՛', 'դարձնել', ',', 'վարպետ', 'Բալդինի', ':', 'Այս', 'մորթիները', ',', 'որոնք', 'ես', 'եմ', 'ճեզ', 'բերել', ',', 'դուք', 'դրանց', '՞', 'եք', 'ցանկանում', 'բուրմունք', 'հաղորդել', ',', '-', 'շշնջաց', 'Գրենույը', 'կարծես', 'ի', 'գիտություն', 'չընդունելով', 'Բալդինիի', 'պատասխանը', ':']
Entities: [('Բալդինի', 'PERSON', 62, 69), ('Գրենույը', 'PERSON', 162, 170), ('Բալդինիի', 'PERSON', 203, 211)]
  doc = self._ensure_doc(text)
Words: ['-', 'Պելիսյեի', '«', 'Ամուրն', 'ու', 'Պսիքեն', '»', '-', 'ով', '՛', ',', '-', 'հարցրեց', 'Գրենույն', 'ու', 'ավելի', 'շատ', 'խոնարհվեց', ':']
Entities: [('Պելիսյեի', 'PERSON', 2, 10), ('Պսիքեն', 'PERSON', 22, 28), ('Գրենույն', 'PERSON', 44, 52)]
  doc = self._ensure_doc(text)


1690


Words: ['Այդ', 'պահին', 'Բալդինիի', 'մարմնով', 'սարսափի', 'թեթն', 'ջղաձգություն', 'անցավ', ':', 'Ոչ', 'այն', 'պատճառով', ',', 'որ', 'ինքը', 'հարգրեց', 'իրեն', '՝', 'որտեղից', '՛', 'է', 'այս', 'տղային', 'ամեն', 'ինչ', 'այդպիսի', 'ճշտությամբ', 'հայտնի', ',', 'այլ', 'ուղղակի', 'այն', 'պատճառով', ',', 'որ', 'ատելի', 'օծանելիքի', 'անունը', ',', 'որի', 'բաղադրությունը', 'այսօր', 'նա', ',', 'ի', 'խայտառակություն', 'իրեն', ',', 'չկարողացավ', 'պարզել', ',', 'բարձրաձայն', 'հնչեցվեց', ':']
Entities: [('Բալդինիի', 'PERSON', 10, 18)]
  doc = self._ensure_doc(text)
Words: ['-', 'ինչպես', '՛', 'քո', 'գլխում', 'նման', 'աբսուրդային', 'գաղափար', 'ծագեց', ',', 'որ', 'ես', 'ուրիշների', 'օծանելիքն', 'եմ', 'օգտագործում', ',', 'որպեսզի', '...']
Entities: []
  doc = self._ensure_doc(text)
Words: ['-', 'Այդպես', ',', '-', 'ասաց', 'Բալդինին', ',', 'որը', 'բացարձակապես', 'գնցված', 'էր', 'խոսակցության', '՝', 'դեպի', 'ճշգրիտի', 'ոլորտ', 'նման', 'շրջադարձով', ':', '-', 'էլ', '՛', 'ինչ', ':']
Entities: [('Բալդինին',

1700


Words: ['-', 'Բուրավետ', 'բալասանի', 'յուղը', '՛', ':']
Entities: []
  doc = self._ensure_doc(text)


1710


Words: ['աներ', 'սարսափելի', 'աշխատանք', ',', 'թերնս', 'ավելի', 'վատ', ',', 'քան', 'մասերի', 'պարզունակ', 'նույնականացումը', '.', 'չէ', '՞', 'որ', 'պետք', 'էր', 'չափել', ',', 'ու', 'կշռել', ',', 'ու', 'գրառել', ',', 'ն', 'ընդ', 'որում', '՝', 'լինել', 'չափազանց', 'ուշադիր', ',', 'քանզի', 'նվազագույն', 'անզգուշությունը', 'կաթոցիչի', 'դողդողոցը', ',', 'սխալը', 'կաթիխերը', 'հաշվելիս', ',', 'կարող', 'էր', 'ամեն', 'ինչ', 'կործանել', ':', 'Իսկ', 'յուրաքանչյուր', 'չհաջողված', 'փորճ', 'սարսափելի', 'թանկ', 'էր', 'նստում', ':', 'Յուրաքանչյուր', 'փչացված', 'խառնուրդ', 'արժեր', 'մի', 'փոքրիկ', 'ունեցվածք', '...', 'Նրա', 'մոտ', 'ցանկություն', 'առաջացավ', 'փորձել', 'այս', 'փոքրիկ', 'մարդուն', ',', 'ցանկություն', 'առաջացավ', 'նրան', 'հարցնել', '«', 'Ամուրն', 'ու', 'Պսիքեն', '»', '-', 'ի', 'ճշգրիտ', 'բանաճնի', 'մասին', ':', 'Եթե', 'նա', 'գիտի', 'այն', 'մեկ', 'գրամի', 'ու', 'մեկ', 'կաթիլի', 'ճշգրտությամբ', ',', 'կնշանակի', 'ակնհայտորեն', 'խաբեբա', 'է', ',', 'որն', 'ինչ', '-', 'որ', 'ձնով', 'կարողացել', 

1720
1730
1740
1750
1760
1770


Words: ['բուրավետ', 'բալասանից', ',', 'վարդի', 'յուղից', 'ու', 'մեխակից', ',', 'ինչպես', 'նան', 'բերգամոտից', 'ու', 'հազրեվարդի', 'լուծամզվածքից', 'ն', 'այխ', ':', 'Դա', 'պարզելու', 'համար', 'պետք', 'է', ',', 'ինչպես', 'ասում', 'են', ',', 'ունենալ', 'բավականին', 'նուրբ', 'հոտառություն', ',', 'ու', 'լիովին', 'հնարավոր', 'է', ',', 'որ', 'Աստված', 'քեզ', 'բավականին', 'նուրբ', 'հոտառություն', 'Է', 'տվել', ',', 'ինչպես', 'ն', 'շատ', 'ուրիշ', 'մարդկանց', '՝', 'հատկապես', 'քո', 'տարիքում', ':', 'Սակայն', 'օծանագործի', 'համար', ',', '-', 'ն', 'այստեղ', 'նա', 'վեր', 'պարզեց', 'մատն', 'ու', 'դուրս', 'ցցեց', 'կուրծքը', ',', 'սակայն', 'օծանագործի', 'համար', 'քիչ', 'է', 'ուղղակի', 'նուրբ', 'հոտառություն', 'ունենալը', ':', 'Նրան', 'անհրաժեշտ', 'Է', 'տասնամյակների', 'ընթացքում', 'վարժեցված', ',', 'անկաշառ', 'աշխատող', 'հոտառական', 'օրգան', ',', 'որը', 'թույլ', 'կտա', 'վստահորեն', 'կռահել', 'նույնիսկ', 'ամենաբարդ', 'հոտերը', ',', 'դրանց', 'բաղադրությունն', 'ու', 'համաչափությունները', ',', 'ինչպես', 'ն

1780
1790
1800
1810
1820


Words: ['`', 'ղատոմսն', 'իմ', 'քթի', 'մեջ', 'է', ':', '<UNK>առնեմ', '՞', 'դրանք', 'ձեզ', 'համար', ',', 'Հ', ':', 'մետր', ',', 'խառնեմ', ':', 'Ն', '`', '-', 'Այսինքն', '՝', 'ինչպես', '՛', ',', '-', 'բացականչեց', 'Բալդինին', 'ավելի', 'Բարեր', ',', 'քան', 'պատշաճ', 'էր', 'նրան', ',', 'ն', 'մոմը', 'մոտեցրեց', 'թզուկի', 'դեմքին', '-', '-', 'Այսինքն', '՝', 'ինչպես', '՛', 'խառնել', ':', 'Գրենույն', 'առաջին', 'անգամ', 'ետ', 'չընկրկեց', ':', 'Զ', '-', 'Ախր', 'դրանք', 'բոլորն', 'այստեղ', 'են', '՝', 'այդ', 'հոտերը', ',', 'որոնք', '18', 'պեոտլ', 'են', ',', 'դրանք', 'բոլորը', 'կան', 'այս', 'սենյակում', ',', 'ասաց', 'նա', '`', 'Ակրկին', 'մատն', 'ուղղեց', 'դեպի', 'մթությունը', ':', 'Վարդի', 'յուղն', '`', '.', 'ահա', 'անտեղ', 'է', ':', 'Իսկ', 'այնտեղ', 'նարնջի', 'գույնը', ':', 'Իսկ', 'այն', '`', 'տեղ', 'մեխակը', ':', 'Իսկ', 'այնտեղ', '՝', 'հազրեվարդը', '...']
Entities: [('Բալդինին', 'PERSON', 101, 109), ('առաջին', 'ORDINAL', 209, 215), ('18', 'CARDINAL', 285, 287), ('Ակրկին', 'PERSON', 340, 346)]
  do

1830
1840


Words: ['-', 'Դու', 'կարծում', 'ես', ',', 'որ', 'ես', 'քեզ', 'թույլ', 'կտամ', 'տնօրինել', 'իմ', 'արհեստանոցը', ':', 'Բնահյութերը', ',', 'որոնք', 'մի', 'ողջ', 'ունեցվածք', 'ար<UNK>են', '՞', ':']
Entities: []
  doc = self._ensure_doc(text)
Words: ['`', '-', '<UNK>ահ', '՛', ':', '-', 'Բալդինին', 'կտրուկ', 'դուրս', 'փչեց', 'իր', 'մեջ', 'եղած', 'շունչը', ':', 'Այնուհետն', 'թոքերը', 'լցրեց', 'օդով', ',', 'երկար', 'նայեց', 'սարդանման', 'Գրենույին', 'ն', 'մտորեց', ':', '«', 'Ըստ', 'էության', '՝', 'միթե', '՛', '`', 'միննույն', 'չէ', ',', '-', 'մտածեց', 'նա', ',', '-', 'այսպես', 'թե', 'այնպես', 'վաղն', 'ամեն', 'ինչ', 'ավարտվելու', 'է', ':', 'Ես', ',', 'իհարկե', ',', 'գիտեմ', ',', 'որ', 'նա', 'չի', 'կարող', 'անել', 'այն', ',', 'ինչը', 'խոստանում', 'է', ',', 'դա', 'բացառվում', 'է', ',', 'այլապես', 'նա', 'ավելի', 'մեծ', 'համբավ', 'կունենար', ',', 'քան', 'մեծն', 'Ֆրանժիպանին', ':', 'Բայց', 'ինչու', 'սեփական', 'աչքերով', 'չհամոզվեմ', 'նրանում', ',', 'ինչը', 'գիտեմ', ':', 'Միգուցե', 'հանկարծ', 'մի', '

1850
1860
1870
1880
1890
1900
1910
1920
1930
1940
1950


Words: ['-', 'Ձեզ', 'համար', 'որքան', '՞', 'պատրաստեմ', ',', 'մետր', ',', '-', 'հարցրեց', 'Գրենույը', ':']
Entities: [('Գրենույը', 'PERSON', 45, 53)]
  doc = self._ensure_doc(text)
Words: ['-', 'որքան', '՞', ',', 'ինչը', '՞', ',', '-', 'հարցրեց', 'Բալդինին', ',', 'ով', 'դեռ', 'չէր', 'ավարտել', 'իր', 'խոսքը', ':']
Entities: [('Բալդինին', 'PERSON', 26, 34)]
  doc = self._ensure_doc(text)


1960


Words: ['-', 'Այս', 'օծանելիքից', '՝', 'որքան', '՞', ',', '-', '-', 'խռպոտ', 'հարցրեց', 'Գրենույը', ':', '-', 'որքան', '՞', 'է', 'ձեզ', 'պետք', 'դրանից', ':', 'Կուզեք', '՛', 'մինչն', 'եզրը', 'լցնեմ', 'այ', 'այն', 'մեծ', 'ամանը', ':', '-', 'Եվ', 'նա', 'մատնացույց', 'արեց', 'երեք', 'լիտրից', 'ոչ', 'պակաս', 'տարողությամբ', 'խառնամանը', ':']
Entities: [('Գրենույը', 'PERSON', 42, 50), ('երեք լիտրից', 'QUANTITY', 145, 156)]
  doc = self._ensure_doc(text)
Words: ['-', 'Ոչ', ',', 'պետք', 'չի', ',', '-', 'սարսափած', 'բացականչեց', 'Բալդինին', '.', 'նրա', 'այդ', 'գոռոցի', 'մեջ', 'կար', 'վախ', '՝', 'որչափ', 'խոր', 'արմատացած', ',', 'նույնչափ', 'էլ', 'տարերային', 'վախ', 'շռայլության', 'հանդեպ', ',', 'վախ', 'իր', 'սեփականության', 'համար', ':', 'Բայց', ',', 'կարծես', 'ամաչելով', 'այդ', 'ինքնամերկացնող', 'գոռոցից', ',', 'նա', 'անմիջապես', 'էլ', 'մռնչաց', ',', '-', 'չհամարձակվես', 'ինձ', 'ընդհատել', ':', '-', 'Այնուհետն', 'մի', 'քիչ', 'հանգստացավ', 'ն', 'շարունակեց', 'թեթնակի', 'հեգնական', 'ձայնով', ':

1970
1980
1990
2000
2010
2020
2030
2040
2050


Words: ['`', 'քո', 'պարզունակ', 'բթամտությունը', 'ցույց', 'են', 'տալիս', ',', 'որ', 'դու', '`', 'ոչինչ', 'չես', 'հասկանում', ',', 'դու', 'բարբարոս', 'ես', 'ու', 'անտաշ', ',', 'դրա', '`', 'հետ', 'էլ', 'գոնջոտ', ',', 'լկտի', ',', 'փսլնքոտ', ':', 'Դու', 'ի', 'վիճակի', 'չես', 'լիմոնադ', 'խառնել', ',', 'քեզ', 'չի', 'կարելի', 'սովորական', 'մատուտակի', '`', 'ջրի', 'վաճառք', 'վստահել', ',', 'իսկ', 'դու', 'խցկվում', 'ես', 'օծանագործի', '`', 'գործի', 'մեջ', ':', 'Գոհ', 'եղիր', ',', 'ուրախացիր', 'ու', 'շնորհակալ', 'եղիր', ',', '`', 'որ', 'քո', 'տերը', 'քեզ', 'դեռ', 'մոտ', 'է', 'թողնում', 'դաբաղման', 'լուծույլ', 'բիչեվ', 'չհամարձակվես', ',', 'լսում', '՛', 'ես', ',', 'երբեք', 'չհամարճակվես', '`', 'օծանագործի', 'դռան', 'շեմն', 'անցնել', ':', 'լ', '`', 'Այդպես', 'էր', 'խոսում', 'Բալդինին', ':', 'Եվ', 'մինչ', 'նա', 'խոսում', 'էր', ',', ':', 'ակա', 'տարածությունը', 'լցվեց', '«', 'Ամուրն', 'ու', 'Պսիքեն', '»', '-', 'ի', '`', 'բուրմունքով', ':', 'Բուրմունքի', 'մեջ', 'կա', 'համոզչություն', ',', 'որն', '5'

2060
2070
2080
2090
2100
2110
2120
2130
2140


Words: ['ակելով', 'թաշկինակը', 'սեղմել', 'քթին', ',', 'կարծես', 'ուզում', 'էր', 'ով', 'պաշտպանվել', 'իր', 'հոգու', 'վրաանո', '՛', 'հարձակումից', ':']
Entities: []
  doc = self._ensure_doc(text)


2150


Words: ['-', 'Դուք', 'չեք', '՛', 'ցանկանում', 'փորձանմուշ', 'վերցնել', ',', '-', '-', 'կրկին', 'կարկաչող', 'ճայնով', 'ասաց', 'Գրենույը', ',', '-', 'միթե', '՛', 'չեք', 'ուզում', ',', 'վարպետ', ':', 'Միթե', '՛', 'չեք', 'փորձի', ':']
Entities: [('Գրենույը', 'PERSON', 71, 79)]
  doc = self._ensure_doc(text)


2160
2170
2180
2190
2200
2210
2220


In [None]:
!wc Parfum_Armenian.vert.txt

  83828  251460 2055080 Parfum_Armenian.vert.txt


## Downloading full Armenian corpus

In [None]:
!wget https://heibox.uni-heidelberg.de/f/c977e87cf2b244e6801b/?dl=1
!mv index.html?dl=1 KorpusARM.tgz

In [None]:
!tar xvzf KorpusARM.tgz

In [None]:
!mkdir KorpusARM1

In [None]:
mkdir KorpusARM1/stage01

In [None]:
# concatenating files
!cat korpusARM/hyFiktion/* >KorpusARM1/stage01/hyFiktion.txt
!cat korpusARM/hyNatur/* >KorpusARM1/stage01/hyNatur.txt
!cat korpusARM/hyRecht/* >KorpusARM1/stage01/hyRecht.txt

In [None]:
!mkdir KorpusARM1/stage02

In [None]:
# function for Armenian line breaks:

def correctLineBreaksHY(FName, FNameOut):
    FIn = open(FName, 'r')
    FOut = open(FNameOut, 'w')
    countHyphens = 0
    for SLine in FIn:
        SLine = SLine.strip()
        if SLine == '': 
            FOut.write('\n\n')
            continue
        if SLine[-1] == '-':
            SLine2write = SLine[:-1]
            FOut.write(SLine2write)
            countHyphens +=1
            continue
        FOut.write(SLine + ' ')
    FOut.flush()
    print(str(countHyphens) + ' hyphens corrected')
    return



In [None]:
correctLineBreaksHY('KorpusARM1/stage01/hyFiktion.txt', 'KorpusARM1/stage02/hyFiktion.txt')
correctLineBreaksHY('KorpusARM1/stage01/hyNatur.txt', 'KorpusARM1/stage02/hyNatur.txt')
correctLineBreaksHY('KorpusARM1/stage01/hyRecht.txt', 'KorpusARM1/stage02/hyRecht.txt')

In [None]:
!wc KorpusARM1/stage02/hyFiktion.txt
!wc KorpusARM1/stage02/hyNatur.txt
!wc KorpusARM1/stage02/hyRecht.txt

In [None]:
!mkdir KorpusARM1/stage03

In [None]:
# runs for about 47 minutes; alternatively, excecute one of the following cells to download parsed archived corpus
parseFile('KorpusARM1/stage02/hyFiktion.txt', 'KorpusARM1/stage03/hyFiktion.vert.txt', nlp_hy)
parseFile('KorpusARM1/stage02/hyNatur.txt', 'KorpusARM1/stage03/hyNatur.vert.txt', nlp_hy)
parseFile('KorpusARM1/stage02/hyRecht.txt', 'KorpusARM1/stage03/hyRecht.vert.txt', nlp_hy)

In [None]:
!tar cvzf KorpusARM1_stage03.tgz KorpusARM1/stage03/

KorpusARM1/stage03/
KorpusARM1/stage03/hyNatur.vert.txt
KorpusARM1/stage03/hyRecht.vert.txt
KorpusARM1/stage03/hyFiktion.vert.txt


In [None]:
# alternative: download Lemmatized corpus
!wget https://heibox.uni-heidelberg.de/f/095d2385bad74f2b8ffd/?dl=1
!mv index.html?dl=1 KorpusARM1_stage03.tgz
!tar xvzf KorpusARM1_stage03.tgz

In [None]:
!wc /content/KorpusARM1/stage03/hyFiktion.vert.txt
!wc /content/KorpusARM1/stage03/hyNatur.vert.txt
!wc /content/KorpusARM1/stage03/hyRecht.vert.txt



 115616  346846 2690663 /content/KorpusARM1/stage03/hyFiktion.vert.txt
  83271  249801 2110874 /content/KorpusARM1/stage03/hyNatur.vert.txt
 102399  307197 2970463 /content/KorpusARM1/stage03/hyRecht.vert.txt


In [None]:
!cat /content/KorpusARM1/stage03/* >/content/KorpusARM1/stage03all.vert.txt

In [None]:
!wc /content/KorpusARM1/stage03all.vert.txt

 301286  903844 7772000 /content/KorpusARM1/stage03all.vert.txt


## Creating dictionaries from parsed files

In [None]:
DWiki = {}
with open("hywiki-20221101-pages-articles-v03.vert", 'r') as f:
    for line in f:
        line = line.rstrip()
        try:
            DWiki[line] +=1
        except:
            DWiki[line] = 1


In [None]:
DText = {}
with open("Parfum_Armenian.vert.txt", 'r') as f:
    for line in f:
        line = line.rstrip()
        try:
            DText[line] +=1
        except:
            DText[line] = 1


## Functions for comparing texts with Wiki corpus

In [None]:
def lines2dict(SFIn):
    DText = {}
    with open(SFIn, 'r') as f:
        for line in f:
            line = line.rstrip()
            try:
                DText[line] +=1
            except:
                DText[line] = 1
    print(len(DText))
    return DText

In [None]:
def compareDicts(DText, DWiki, lenText, lenWiki):
    DFreqDiff = {} # dictionary of frequency differences
    # lenWiki = 2735468
    # lenText = 83829
    c = 0
    for key, val in sorted(DText.items(), key=lambda item: item[1], reverse=True):
        c+=1
        valText = val + 1
        relText = valText / lenText
        try:
            valWiki = DWiki[key] + 1
        except:
            valWiki = 1
        relWiki = valWiki / lenWiki

        diffValue = relText / relWiki
        DFreqDiff[key] = diffValue
    
    print(len(DFreqDiff))
    return DFreqDiff

In [None]:
def printCompareDict(DFreqDiff, DText, DWiki, SFOut):
    fOut = open(SFOut, 'w')
    countEntries = 0
    for key, val in sorted(DFreqDiff.items(), key=lambda item: item[1], reverse=True):
        countEntries += 1
        try:
            frqText = DText[key] + 1
        except:
            frqText = 1

        try:
            frqWiki = DWiki[key] + 1
        except:
            frqWiki = 1
        fOut.write(f'{key}\t{val}\t{frqText}\t{frqWiki}\n')
    fOut.flush()
    print(countEntries)
    return


In [None]:
DWikiX = lines2dict('/content/hywiki-20221101-pages-articles-v03.vert')

227720


In [None]:
DhyFiktion = lines2dict('/content/KorpusARM1/stage03/hyFiktion.vert.txt')
DhyNatur = lines2dict('/content/KorpusARM1/stage03/hyNatur.vert.txt')
DhyRecht = lines2dict('/content/KorpusARM1/stage03/hyRecht.vert.txt')
DhyAll = lines2dict('/content/KorpusARM1/stage03all.vert.txt')

20969
21806
11064
43675


In [None]:
DFreqDiffWikiFiktion = compareDicts(DhyFiktion, DWikiX, 115616, 2735468)
DFreqDiffWikiNatur = compareDicts(DhyNatur, DWikiX, 83271, 2735468)
DFreqDiffWikiRecht = compareDicts(DhyRecht, DWikiX, 102399, 2735468)
DFreqDiffWikiAll = compareDicts(DhyAll, DWikiX, 301286, 2735468)

20969
21806
11064
43675


In [None]:
!mkdir KorpusARM1/stage04

In [None]:
printCompareDict(DFreqDiffWikiFiktion, DhyFiktion, DWikiX, '/content/KorpusARM1/stage04/hyFiktion.tsv.txt')
printCompareDict(DFreqDiffWikiNatur, DhyNatur, DWikiX, '/content/KorpusARM1/stage04/hyNatur.tsv.txt')
printCompareDict(DFreqDiffWikiRecht, DhyRecht, DWikiX, '/content/KorpusARM1/stage04/hyRecht.tsv.txt')
printCompareDict(DFreqDiffWikiAll, DhyAll, DWikiX, '/content/KorpusARM1/stage04all.tsv.txt')

In [None]:
# Dowloading the file with corrections
!wget https://heibox.uni-heidelberg.de/f/14706c04a4024b2f937d/?dl=1
!mv index.html?dl=1 Pilot-Corrections-all.tsv
!wc Pilot-Corrections-all.tsv


In [None]:
def readCorrections(colNumberOri, colNumberCorrect, SFIn, SFOut = None):
    LTWrongCorrect = []
    DWrongCorrect = {}
    FOut = open(SFOut, 'w')
    with open(SFIn, 'r') as FIn:
        count = 0
        for SLine in FIn:
            count += 1
            if count == 1: continue
            SLine = SLine.strip()
            LLine = SLine.split('\t')
            SWrong = LLine[colNumberOri]
            SCorrect = LLine[colNumberCorrect]
            if SWrong != '' and SCorrect != '' and SWrong != SCorrect:
                TWrongCorrect = (f'[{SWrong}]', f'[{SCorrect}]')
                LTWrongCorrect.append(TWrongCorrect)
                if SWrong in DWrongCorrect.keys():
                    SCorrect1 = DWrongCorrect[SWrong]
                    if SCorrect1 != SCorrect:
                        print(SWrong + '\t' + SCorrect1 + '\t' + SCorrect)
                DWrongCorrect[SWrong] = SCorrect
    if SFOut:
        for SWrong, SCorrect in LTWrongCorrect:
            FOut.write(f'{SWrong}\t{SCorrect}\n')    
        FOut.flush()
    print(len(DWrongCorrect))

    return LTWrongCorrect, DWrongCorrect

In [None]:
def readCorrectionsFrq(colNumberOri, colNumberCorrect, colNumberFrq, SFIn, SFOut = None):
    LTWrongCorrect = []
    DWrongCorrect = {}
    FOut = open(SFOut, 'w')
    with open(SFIn, 'r') as FIn:
        count = 0
        for SLine in FIn:
            count += 1
            if count == 1: continue
            SLine = SLine.strip()
            LLine = SLine.split('\t')
            SWrong = LLine[colNumberOri]
            SCorrect = LLine[colNumberCorrect]
            SFrq = LLine[colNumberFrq]
            if SWrong != '' and SCorrect != '' and SWrong != SCorrect:
                TWrongCorrect = (f'[{SWrong}]', f'[{SCorrect}]', f'{SFrq}')
                LTWrongCorrect.append(TWrongCorrect)
                if SWrong in DWrongCorrect.keys():
                    SCorrect1 = DWrongCorrect[SWrong]
                    if SCorrect1 != SCorrect:
                        print(SWrong + '\t' + SCorrect1 + '\t' + SCorrect)
                DWrongCorrect[SWrong] = SCorrect
    if SFOut:
        for SWrong, SCorrect, SFrq in LTWrongCorrect:
            FOut.write(f'{SWrong}\t{SCorrect}\t{SFrq}\n')    
        FOut.flush()
    print(len(DWrongCorrect))

    return LTWrongCorrect, DWrongCorrect

In [None]:
LTWrongCorrectWord, DWrongCorrectWord = readCorrections(1, 4, '/content/Pilot-Corrections-all.tsv', SFOut = 'Pilot-Corrections-all-WordForm.tsv')
LTWrongCorrectLemma, DWrongCorrectLemma = readCorrections(3, 6, '/content/Pilot-Corrections-all.tsv', SFOut = 'Pilot-Corrections-all-Lemma.tsv')


In [None]:
print(LTWrongCorrectWord)
print(LTWrongCorrectLemma)

[('[մերճակա]', '[մերձակա]'), ('[առջն]', '[առջև]'), ('[թեթնություն]', '[թեթևություն]'), ('[Եթենա]', '[եթե նա]'), ('[ննա]', '[նա]'), ('[ճեռքերն]', '[ձեռքից]'), ('[ճայն]', '[ձայն]'), ('[ճեռքով]', '[ձեռքով]'), ('[այլնս]', '[այլևս]'), ('[ետնի]', '[ետևի]'), ('[կեղնները]', '[կեղևները]'), ('[ճկան]', '[ձկան]'), ('[ննա]', '[նա]'), ('[բանաձնի]', '[բանաձևի]'), ('[ճեր]', '[ձեր]'), ('[առնտրական]', '[առևտրական]'), ('[արնելյան]', '[արևելյան]'), ('[կուղնորվի]', '[կուղևորվի]'), ('[նս]', '[ևս]'), ('[հետնեց]', '[հետևել]'), ('[նուխիսկ]', '[նույնիսկ]'), ('[երնույթ]', '[երևույթ]'), ('[քրտնքով]', '[քրտինքով]'), ('[արվարճանում]', '[արվարձանում]'), ('[անճամբ]', '[անձամբ]'), ('[ճայնը]', '[ձայնը]'), ('[ճգվում]', '[ձգվում]'), ('[ճիու]', '[ձիու]'), ('[դարճնում]', '[դարձնում]'), ('[ուղնորվում]', '[ուղևորվում ]'), ('[իջնանատան]', '[իջևանատան]'), ('[ճգտում]', '[ձգտում]'), ('[դրսնորում]', '[դրսևորում]'), ('[արվարճանի]', '[արվարձանի]'), ('[ետնում]', '[ետևում]'), ('[ճնավորված]', '[ձևավորված]'), ('[Հետնաբար]', '[հետևաբար]

In [None]:
LTWrongCorrectWordF, DWrongCorrectWordF = readCorrectionsFrq(1, 4, 9, '/content/Pilot-Corrections-all.tsv', SFOut = 'Pilot-Corrections-all-WordForm.tsv')
LTWrongCorrectLemmaF, DWrongCorrectLemmaF = readCorrectionsFrq(3, 6, 9, '/content/Pilot-Corrections-all.tsv', SFOut = 'Pilot-Corrections-all-Lemma.tsv')

ինճ	ինձ	ինչ
առջնից	առջև	առջևից
ինճ	ինչ	ինձ
172
ինճ	ինչ	ես
գիտել	գիտենալ	իմանալ
206


In [None]:
print(LTWrongCorrectWordF)
print(LTWrongCorrectLemmaF)

[('[մերճակա]', '[մերձակա]', '4'), ('[առջն]', '[առջև]', '4'), ('[թեթնություն]', '[թեթևություն]', '4'), ('[Եթենա]', '[եթե նա]', '4'), ('[ննա]', '[նա]', '4'), ('[ճեռքերն]', '[ձեռքից]', '4'), ('[ճայն]', '[ձայն]', '4'), ('[ճեռքով]', '[ձեռքով]', '4'), ('[այլնս]', '[այլևս]', '4'), ('[ետնի]', '[ետևի]', '4'), ('[կեղնները]', '[կեղևները]', '4'), ('[ճկան]', '[ձկան]', '4'), ('[ննա]', '[նա]', '4'), ('[բանաձնի]', '[բանաձևի]', '4'), ('[ճեր]', '[ձեր]', '4'), ('[առնտրական]', '[առևտրական]', '4'), ('[արնելյան]', '[արևելյան]', '4'), ('[կուղնորվի]', '[կուղևորվի]', '4'), ('[նս]', '[ևս]', '4'), ('[հետնեց]', '[հետևել]', '4'), ('[նուխիսկ]', '[նույնիսկ]', '4'), ('[երնույթ]', '[երևույթ]', '4'), ('[քրտնքով]', '[քրտինքով]', '4'), ('[արվարճանում]', '[արվարձանում]', '4'), ('[անճամբ]', '[անձամբ]', '4'), ('[ճայնը]', '[ձայնը]', '4'), ('[ճգվում]', '[ձգվում]', '4'), ('[ճիու]', '[ձիու]', '4'), ('[դարճնում]', '[դարձնում]', '4'), ('[ուղնորվում]', '[ուղևորվում ]', '4'), ('[իջնանատան]', '[իջևանատան]', '4'), ('[ճգտում]', '[ձգտո

In [None]:
printCompareDict(DFreqDiffWikiFiktion, DhyFiktion, DWikiX, '/content/KorpusARM1/stage04/hyFiktion.tsv.txt')
printCompareDict(DFreqDiffWikiNatur, DhyNatur, DWikiX, '/content/KorpusARM1/stage04/hyNatur.tsv.txt')
printCompareDict(DFreqDiffWikiRecht, DhyRecht, DWikiX, '/content/KorpusARM1/stage04/hyRecht.tsv.txt')
printCompareDict(DFreqDiffWikiAll, DhyAll, DWikiX, '/content/KorpusARM1/stage04all.tsv.txt')

20969
21806
11064
43675


In [None]:
!mkdir /content/KorpusARM1/stage05

In [None]:
def printCompareDictWCorrections(DFreqDiff, DText, DWiki, DWrongCorrectWord, DWrongCorrectLemma, SFOut):
    fOut = open(SFOut, 'w')
    countEntries = 0
    countCorrLem = 0
    countCorrWord = 0
    for key, val in sorted(DFreqDiff.items(), key=lambda item: item[1], reverse=True):
        countEntries += 1
        try:
            frqText = DText[key] + 1
        except:
            frqText = 1

        try:
            frqWiki = DWiki[key] + 1
        except:
            frqWiki = 1
        
        SWordCorr = ''
        SLemCorr = ''
        SPoSCorr = ''
        try:
            LFieldsKey = key.split('\t')
            if len(LFieldsKey) == 3:
                SWord = LFieldsKey[0]
                SLem = LFieldsKey[2]
                if SWord in DWrongCorrectWord.keys():
                    SWordCorr = DWrongCorrectWord[SWord]
                    countCorrWord +=1

                if SLem in DWrongCorrectLemma.keys():
                    SLemCorr = DWrongCorrectLemma[SLem]
                    countCorrLem +=1
        except:
            pass
        
        fOut.write(f'{key}\t{val}\t{SWordCorr}\t{SPoSCorr}\t{SLemCorr}\t{frqText}\t{frqWiki}\n')
    fOut.flush()
    print(countEntries, countCorrWord, countCorrLem)
    return


In [None]:
printCompareDictWCorrections(DFreqDiffWikiFiktion, DhyFiktion, DWikiX, DWrongCorrectWord, DWrongCorrectLemma, '/content/KorpusARM1/stage05/hyFiktion.tsv.txt')
printCompareDictWCorrections(DFreqDiffWikiNatur, DhyNatur, DWikiX, DWrongCorrectWord, DWrongCorrectLemma, '/content/KorpusARM1/stage05/hyNatur.tsv.txt')
printCompareDictWCorrections(DFreqDiffWikiRecht, DhyRecht, DWikiX, DWrongCorrectWord, DWrongCorrectLemma, '/content/KorpusARM1/stage05/hyRecht.tsv.txt')
printCompareDictWCorrections(DFreqDiffWikiAll, DhyAll, DWikiX, DWrongCorrectWord, DWrongCorrectLemma, '/content/KorpusARM1/stage05all.tsv.txt')

20969 145 440
21806 94 292
11064 50 117
43675 181 550


## files to annotate:
https://heibox.uni-heidelberg.de/d/8e44baf95ccb4c728a63/


### checking if there is a frequency difference for an entry

In [None]:
DFreqDiff = {} # dictionary of frequency differences
lenWiki = 2735468
lenText = 83829
c = 0
for key, val in sorted(DText.items(), key=lambda item: item[1], reverse=True):
    c+=1
    valText = val + 1
    relText = valText / lenText
    try:
        valWiki = DWiki[key] + 1
    except:
        valWiki = 1
    relWiki = valWiki / lenWiki

    diffValue = relText / relWiki
    DFreqDiff[key] = diffValue


In [None]:
fOut = open('Parfum_Armenian-freq-diff.txt', 'w')
for key, val in sorted(DFreqDiff.items(), key=lambda item: item[1], reverse=True):
    try:
        frqText = DText[key] + 1
    except:
        frqText = 1

    try:
        frqWiki = DWiki[key] + 1
    except:
        frqWiki = 1
    fOut.write(f'{key}\t{val}\t{frqText}\t{frqWiki}\n')
fOut.flush()

In [None]:
cat texts-vert/* >text-vert-all.vert.txt

In [None]:
!wc text-vert-all.vert.txt

 112723  338169 3062358 text-vert-all.vert.txt


In [None]:
DText2 = {}
with open("text-vert-all.vert.txt", 'r') as f:
    for line in f:
        line = line.rstrip()
        try:
            DText2[line] +=1
        except:
            DText2[line] = 1

In [None]:
DFreqDiff2 = {} # dictionary of frequency differences
lenWiki = 2735468
lenText = 112723
c = 0
for key, val in sorted(DText2.items(), key=lambda item: item[1], reverse=True):
    c+=1
    valText = val + 1
    relText = valText / lenText
    try:
        valWiki = DWiki[key] + 1
    except:
        valWiki = 1
    relWiki = valWiki / lenWiki

    diffValue = relText / relWiki
    DFreqDiff2[key] = diffValue


In [None]:
fOut = open('text-vert-all-freq-diff.txt', 'w')
for key, val in sorted(DFreqDiff2.items(), key=lambda item: item[1], reverse=True):
    try:
        frqText = DText2[key] + 1
    except:
        frqText = 1

    try:
        frqWiki = DWiki[key] + 1
    except:
        frqWiki = 1
    fOut.write(f'{key}\t{val}\t{frqText}\t{frqWiki}\n')
fOut.flush()

## Reading corrected file and discovering rewrite rules
- common prefix; common suffix
- remaining string to rewrite


In [None]:
# Dowloading the file with corrections
!wget https://heibox.uni-heidelberg.de/f/82b78c77a7bd4eff955d/?dl=1
!mv index.html?dl=1 Parfum_Armenian-freq-diff-all.tsv

In [None]:
!head -n 40 Parfum_Armenian-freq-diff-all.tsv

In [None]:
!wc Parfum_Armenian-freq-diff-all.tsv

In [None]:
!mv Parfum_Armenian-freq-diff-all.tsv Parfum_Armenian-freq-diff-all-v01.tsv

In [None]:
# Dowloading the file with corrections
!wget https://heibox.uni-heidelberg.de/f/14706c04a4024b2f937d/?dl=1
!mv index.html?dl=1 Parfum_Armenian-freq-diff-all.tsv

In [None]:
!wc Parfum_Armenian-freq-diff-all.tsv

  325  2864 26793 Parfum_Armenian-freq-diff-all.tsv


In [None]:
!head -n 40 Parfum_Armenian-freq-diff-all.tsv

In [None]:
!tail -n 40 Parfum_Armenian-freq-diff-all.tsv

In [None]:
LTWrongCorrectW, DWrongCorrectW = readCorrections(1, 4, '/content/Parfum_Armenian-freq-diff-all.tsv', SFOut = 'Parfum_Armenian-freq-diff-WrCoWForm.tsv')
LTWrongCorrectL, DWrongCorrectL = readCorrections(3, 6, '/content/Parfum_Armenian-freq-diff-all.tsv', SFOut = 'Parfum_Armenian-freq-diff-WrCoLems.tsv')
LTWrongCorrectWf, DWrongCorrectWf = readCorrectionsFrq(1, 4, 9, '/content/Parfum_Armenian-freq-diff-all.tsv', SFOut = 'Parfum_Armenian-freq-diff-WrCoWFormF.tsv')
LTWrongCorrectLf, DWrongCorrectLf = readCorrectionsFrq(3, 6, 9, '/content/Parfum_Armenian-freq-diff-all.tsv', SFOut = 'Parfum_Armenian-freq-diff-WrCoLemsF.tsv')

ինճ	ինձ	ինչ
առջնից	առջև	առջևից
ինճ	ինչ	ինձ
172
ինճ	ինչ	ես
գիտել	գիտենալ	իմանալ
206
ինճ	ինձ	ինչ
առջնից	առջև	առջևից
ինճ	ինչ	ինձ
172
ինճ	ինչ	ես
գիտել	գիտենալ	իմանալ
206


In [None]:
print(LTWrongCorrectW)
print(LTWrongCorrectL)
print(LTWrongCorrectWf)
print(LTWrongCorrectLf)

[('[մերճակա]', '[մերձակա]'), ('[առջն]', '[առջև]'), ('[թեթնություն]', '[թեթևություն]'), ('[Եթենա]', '[եթե նա]'), ('[ննա]', '[նա]'), ('[ճեռքերն]', '[ձեռքից]'), ('[ճայն]', '[ձայն]'), ('[ճեռքով]', '[ձեռքով]'), ('[այլնս]', '[այլևս]'), ('[ետնի]', '[ետևի]'), ('[կեղնները]', '[կեղևները]'), ('[ճկան]', '[ձկան]'), ('[ննա]', '[նա]'), ('[բանաձնի]', '[բանաձևի]'), ('[ճեր]', '[ձեր]'), ('[առնտրական]', '[առևտրական]'), ('[արնելյան]', '[արևելյան]'), ('[կուղնորվի]', '[կուղևորվի]'), ('[նս]', '[ևս]'), ('[հետնեց]', '[հետևել]'), ('[նուխիսկ]', '[նույնիսկ]'), ('[երնույթ]', '[երևույթ]'), ('[քրտնքով]', '[քրտինքով]'), ('[արվարճանում]', '[արվարձանում]'), ('[անճամբ]', '[անձամբ]'), ('[ճայնը]', '[ձայնը]'), ('[ճգվում]', '[ձգվում]'), ('[ճիու]', '[ձիու]'), ('[դարճնում]', '[դարձնում]'), ('[ուղնորվում]', '[ուղևորվում ]'), ('[իջնանատան]', '[իջևանատան]'), ('[ճգտում]', '[ձգտում]'), ('[դրսնորում]', '[դրսևորում]'), ('[արվարճանի]', '[արվարձանի]'), ('[ետնում]', '[ետևում]'), ('[ճնավորված]', '[ձևավորված]'), ('[Հետնաբար]', '[հետևաբար]

In [None]:
# functions to compare two strings
import os
def getCmnPrefix(S1, S2):
    common = os.path.commonprefix([S1, S2])
    return common


def getCmnSuffix(S1,S2):
    S1r = S1[::-1]
    S2r = S2[::-1]
    commonR = getCmnPrefix(S1r, S2r)
    common = commonR[::-1]
    return common

def getDifInfix(S1, S2, LContext = 0, RContext = 0):
    IPLen = len(getCmnPrefix(S1, S2))
    # print('IPLen', IPLen)
    ISLen = len(getCmnSuffix(S1, S2))
    # print('ISLen', ISLen)
    diffInfix1 = S1[IPLen-LContext:-1*(ISLen)+RContext]
    # print('S1', S1, IPLen-LContext, -1*(ISLen)+RContext)
    diffInfix2 = S2[IPLen-LContext:-1*(ISLen)+RContext]
    # print('S2', S2, IPLen-LContext, -1*(ISLen)+RContext)
    return(diffInfix1, diffInfix2)

def getDifSuffix(S1, S2, LContext = 0):
    # used if common suffix == ''
    IPLen = len(getCmnPrefix(S1, S2))
    # print('IPLen', IPLen)
    ISLen = len(getCmnSuffix(S1, S2))
    # print('ISLen', ISLen)
    if ISLen == 0:
        diffSuffix1 = S1[IPLen-LContext:]
        diffSuffix2 = S2[IPLen-LContext:]
    else:
        diffSuffix1 = ''
        diffSuffix2 = ''
    return(diffSuffix1, diffSuffix2)

def getDifPrefix(S1, S2, RContext = 0):
    # used if common suffix == ''
    IPLen = len(getCmnPrefix(S1, S2))
    # print('IPLen', IPLen)
    ISLen = len(getCmnSuffix(S1, S2))
    # print('ISLen', ISLen)
    if IPLen == 0:
        diffPrefix1 = S1[:-1*(ISLen)+RContext]
        diffPrefix2 = S2[:-1*(ISLen)+RContext]
    else:
        diffPrefix1 = ''
        diffPrefix2 = ''
       
    return(diffPrefix1, diffPrefix2)

def getDiff(S1, S2, LContext = 0, RContext = 0):
    IPLen = len(getCmnPrefix(S1, S2))
    ISLen = len(getCmnSuffix(S1, S2))
    if IPLen and ISLen:
        diff1 = S1[IPLen-LContext:-1*(ISLen)+RContext]
        diff2 = S2[IPLen-LContext:-1*(ISLen)+RContext]
    elif IPLen: # there is a common prefix, find different suffixes
        diff1 = S1[IPLen-LContext:]
        diff2 = S2[IPLen-LContext:]
    elif ISLen: # there is a common suffix, find different prefixes
        diff1 = S1[:-1*(ISLen)+RContext]
        diff2 = S2[:-1*(ISLen)+RContext]
    else:
        diff1 = S1
        diff2 = S2
    return (diff1, diff2)



In [None]:
# first attempt, not used...
'''
def getDifInfix2X(S1, S2, LContext = 0, RContext = 0):
    IPLen = len(getCmnPrefix(S1, S2))
    ISLen = len(getCmnSuffix(S1, S2))

    if LContext and RContext:
        diffInfix1 = S1[IPLen-LContext:-1*(ISLen)+RContext]
        diffInfix2 = S2[IPLen-LContext:-1*(ISLen)+RContext]
        print('both')
    elif LContext:
        diffInfix1 = S1[IPLen-LContext:-1*(ISLen)]
        diffInfix2 = S2[IPLen-LContext:-1*(ISLen)]
        print('left')
    elif RContext:
        diffInfix1 = S1[IPLen:-1*(ISLen+RContext)]
        diffInfix2 = S2[IPLen:-1*(ISLen+RContext)]
        print('right')
    else:
        diffInfix1 = S1[IPLen:-1*ISLen]
        diffInfix2 = S2[IPLen:-1*ISLen]
        print('no-context')

    return(diffInfix1, diffInfix2)



def getDifPrefix(S1, S2, RContext = 0):
    # used if common prefix == ''
    IPLen = len(getCmnPrefix(S1, S2))
    # print('IPLen', IPLen)
    ISLen = len(getCmnSuffix(S1, S2))
    # print('ISLen', ISLen)



'''

In [None]:
# testing
P12 = getCmnPrefix('перепливи', 'перелови')
S12 = getCmnSuffix('перепливи', 'перелови')
# I1, I2 = getDifInfix('перепливи', 'перелови')
# print(P12, S12)
# print(I1, I2)

I1, I2 = getDifInfix('перепливи', 'перелови', LContext = 0, RContext = 0)
print(I1, I2)

S1, S2 = getDifSuffix('розгубився', 'розгубивсь', LContext = 0)
print(S1, S2)
S1, S2 = getDifSuffix('розгубився', 'розгубивс', LContext = 0)
print(S1, S2)

S1, S2 = getDifPrefix('вловив', 'зловив', RContext = 0)
print(S1, S2)
S1, S2 = getDifPrefix('ловив', 'зловив', RContext = 0)
print(S1, S2)

print('new version....')
I1, I2 = getDiff('перепливи', 'перелови', LContext = 1, RContext = 1)
print(I1, I2)

S1, S2 = getDiff('розгубився', 'розгубивсь', LContext = 1)
print(S1, S2)
S1, S2 = getDiff('розгубився', 'розгубивс', LContext = 1)
print(S1, S2)

S1, S2 = getDiff('вловив', 'зловив', RContext = 1)
print(S1, S2)
S1, S2 = getDiff('ловив', 'зловив', RContext = 1)
print(S1, S2)



пли ло
я ь
я 
в з
 з
new version....
еплив елов
ся сь
ся с
вл зл
л зл


In [None]:
FOut = open('Parfum_Armenian-freq-diff-Changes2.txt', 'w')

DChanges = {}
for SWrong, SRight in LTWrongCorrectW:
    P12 = getCmnPrefix(SWrong, SRight)
    S12 = getCmnSuffix(SWrong, SRight)
    I1, I2 = getDiff(SWrong, SRight, LContext = 2, RContext =2)
    try:
        DChanges[(I1, I2)] += 1
    except:
        DChanges[(I1, I2)] = 1

    print(SWrong, '(' , P12, '<', I1, '|', I2, '>', S12, ')', SRight)
    FOut.write(f'{SWrong} ( {P12} < {I1} | {I2} > {S12} ) {SRight}\n')

for SWrong, SRight in LTWrongCorrectL:
    P12 = getCmnPrefix(SWrong, SRight)
    S12 = getCmnSuffix(SWrong, SRight)
    I1, I2 = getDiff(SWrong, SRight, LContext = 2, RContext = 2)
    try:
        DChanges[(I1, I2)] += 1
    except:
        DChanges[(I1, I2)] = 1

    print(SWrong, '(' , P12, '<', I1, '|', I2, '>', S12, ')', SRight)
    FOut.write(f'{SWrong} ( {P12} < {I1} | {I2} > {S12} ) {SRight}\n')
FOut.flush()


FOut = open('Parfum_Armenian-freq-diff-ChangeDict2.txt', 'w')
for key, value in sorted(DChanges.items(), key=lambda item: item[1], reverse=True):
    L, R = key
    FOut.write(f'{L}\t{R}\t{value}\n')

FOut.flush()


In [None]:
## the same with integration of frq information:
FOut = open('ChangesF2.txt', 'w')

DChanges = {}
for SWrong, SRight, SFrq in LTWrongCorrectWf:
    try:
        IFrq = int(SFrq)
    except:
        IFrq = 1
    P12 = getCmnPrefix(SWrong, SRight)
    S12 = getCmnSuffix(SWrong, SRight)
    I1, I2 = getDiff(SWrong, SRight, LContext = 2, RContext =2)
    try:
        DChanges[(I1, I2)] += IFrq
    except:
        DChanges[(I1, I2)] = IFrq

    print(SWrong, '(' , P12, '<', I1, '|', I2, '>', S12, ')', SRight)
    FOut.write(f'{SWrong} ( {P12} < {I1} | {I2} > {S12} ) {SRight}\n')

for SWrong, SRight, SFrq in LTWrongCorrectLf:
    try:
        IFrq = int(SFrq)
    except:
        IFrq = 1
    P12 = getCmnPrefix(SWrong, SRight)
    S12 = getCmnSuffix(SWrong, SRight)
    I1, I2 = getDiff(SWrong, SRight, LContext = 2, RContext = 2)
    try:
        DChanges[(I1, I2)] += IFrq
    except:
        DChanges[(I1, I2)] = IFrq

    print(SWrong, '(' , P12, '<', I1, '|', I2, '>', S12, ')', SRight)
    FOut.write(f'{SWrong} ( {P12} < {I1} | {I2} > {S12} ) {SRight}\n')
FOut.flush()


FOut = open('ChangeDictF2.txt', 'w')
for key, value in sorted(DChanges.items(), key=lambda item: item[1], reverse=True):
    L, R = key
    if L != '' and R != '' and L != R:
        FOut.write(f'{L}\t{R}\t{value}\n')

FOut.flush()

In [None]:
# !cat /content/ChangeDictF1.txt | tail -n+2 >/content/ChangeDictF1a.txt
# !cat /content/ChangeDictF2.txt | tail -n+2 >/content/ChangeDictF2a.txt


In [None]:
# !mv /content/ChangeDictF1.txt /content/KorpusARM1/
# !mv /content/ChangeDictF2.txt /content/KorpusARM1/


In [None]:
!cat ChangeDict* >ChangesDFAll.txt

In [None]:
# all substrings of a string
# https://www.geeksforgeeks.org/python-get-all-substrings-of-given-string/

'''
# Python3 code to demonstrate working of
# Get all substrings of string
# Using list comprehension + string slicing
 
# initializing string
test_str = "Geeks"
 
# printing original string
print("The original string is : " + str(test_str))
 
# Get all substrings of string
# Using list comprehension + string slicing
res = [test_str[i: j] for i in range(len(test_str))
          for j in range(i + 1, len(test_str) + 1)]
 
# printing result
print("All substrings of string are : " + str(res))

'''

In [None]:
# now we read wikipedia file into a frq dictionary, and generate all substrings for each string, and create a frq dictionary of substrings

def corp2tokLim2frqDict(SFIn):
    DFrq = {}
    with open(SFIn) as FIn:
        for SLine in FIn:
            SLine = SLine.rstrip()
            # LLine = SLine.split('\t')
            LLine = re.split('[ ,:\.;\-\(\)\?\!\[\]]+', SLine)
            for tok in LLine:
                tokLim = f'[{tok}]'
                try:
                    DFrq[tokLim]+=1
                except:
                    DFrq[tokLim]=1
    return DFrq

def printFrqDict(DFrq, SFOut):
    FOut = open(SFOut, 'w')
    count = 0
    for key, val in sorted(DFrq.items(), key=lambda item: item[1], reverse=True):
        count+=1
        FOut.write(f'{count}\t{key}\t{val}\n')
    FOut.flush()

In [None]:
# runs 1 min
DTokLimFrqWikipedia = corp2tokLim2frqDict('/content/hywiki-20221101-pages-articles.txt')
printFrqDict(DTokLimFrqWikipedia, 'hywiki-20221101-frq-dict.txt')

In [None]:
!wc hywiki-20221101-frq-dict.txt

 2586453  7759467 78654850 hywiki-20221101-frq-dict.txt


In [None]:
!head -n 40 hywiki-20221101-frq-dict.txt

In [None]:
def readChangesLeft2dict(SFIn):
    DFrq = {}
    DRepl = {}
    with open(SFIn) as FIn:
        for SLine in FIn:
            SLine = SLine.rstrip()
            LLine = SLine.split('\t')
            try:
                L = LLine[0]
                R = LLine[1]
                SFrq = LLine[2]
                IFrq = int(SFrq)
                DFrq[L]=IFrq
                DRepl[L]= R

            except:
                pass

    return DFrq, DRepl


In [None]:
DFrqChangesL, DFrqChangesReplacements = readChangesLeft2dict('/content/ChangesDFAll.txt')
printFrqDict(DFrqChangesL, 'ChangesDFLeftAll.txt')

In [None]:
# initializing string
test_str = "Geeks"
 
# printing original string
print("The original string is : " + str(test_str))
 
# Get all substrings of string
# Using list comprehension + string slicing
res = [test_str[i: j] for i in range(len(test_str))
          for j in range(i + 1, len(test_str) + 1)]
 
# printing result
print("All substrings of string are : " + str(res))

The original string is : Geeks
All substrings of string are : ['G', 'Ge', 'Gee', 'Geek', 'Geeks', 'e', 'ee', 'eek', 'eeks', 'e', 'ek', 'eks', 'k', 'ks', 's']


In [None]:
def frqDict2substrDict(DFrq,FrqThreshold=0):
    DFrqSubStr = {}
    for test_str, frq in DFrq.items():
        if frq <= FrqThreshold: continue
        LSubStr = [test_str[i: j] for i in range(len(test_str)) for j in range(i + 1, len(test_str) + 1)]
        for el in LSubStr:
            try:
                DFrqSubStr[el] += frq
            except:
                DFrqSubStr[el] = frq
    return DFrqSubStr

In [None]:
# runs approx 1.5 min
DFrqSubstringsWiki = frqDict2substrDict(DTokLimFrqWikipedia, FrqThreshold = 1)
printFrqDict(DFrqSubstringsWiki, '/content/hywiki-20221101-frq-dict-substrings.txt')

In [None]:
!wc /content/hywiki-20221101-frq-dict-substrings.txt

 12755762  38267464 361186819 /content/hywiki-20221101-frq-dict-substrings.txt


In [None]:
!head -n 40 /content/hywiki-20221101-frq-dict-substrings.txt

In [None]:
FOutLeft = open('ChangesDLeftNinWiki.txt', 'w')
for L, frqL in sorted(DFrqChangesL.items(), key=lambda item: item[1], reverse=True):
    if L not in DFrqSubstringsWiki.keys():
        try:
            R = DFrqChangesReplacements[L]
        except:
            R = 'NONE'
        FOutLeft.write(f'{L}\t{R}\t{str(frqL)}\n')

FOutLeft.flush()