# Reflexive Verbs

Gotta love the lack of documentation about obscure languages. Lets scrape the conjugation rules from the internet.

## First scrape a bunch of reflexive verb tables

In [2]:
from bs4 import BeautifulSoup
import requests
from pprint import pprint

def get_soup(suffix, base_url='https://en.wiktionary.org'):
    return BeautifulSoup(requests.get(base_url + suffix).text, 'lxml')

words = {}

base_soup = get_soup('/wiki/Category:Latvian_verbs')
for word_soup in base_soup.find_all('div', class_='mw-content-ltr')[0].find_all('a', href=True):
    if word_soup.has_attr('title'):
        try:
            conjug_soup = get_soup(word_soup['href']).find_all('table', class_='inflection-table')
            data = [
                [
                    {"string":ele.text.strip(),
                     "type": "th",
                     "rowspan": int(ele['rowspan']) if ele.has_attr('rowspan') else 1,
                     "colspan": int(ele['colspan']) if ele.has_attr('colspan') else 1}
                    for ele in row.find_all('th')
                    #if ele.text.strip()
                ] + [
                    {"string":ele.text.strip(),
                     "type": "td",
                     "rowspan": int(ele['rowspan']) if ele.has_attr('rowspan') else 1,
                     "colspan": int(ele['colspan']) if ele.has_attr('colspan') else 1}
                    for ele in row.find_all('td')
                    #if ele.text.strip()
                ]
                for row in conjug_soup[0].find_all('tr')
            ]
            words[word_soup.text] = data
        except:
            pass
#pprint(words)

In [3]:
print(len(words))

203


## Try to extract out how the stem is used

In [4]:
import matplotlib.pyplot as plt
import numpy as np

def find_stem(word, word_block):
    conjugated_forms = ''.join([
        col['string']
        for row in word_block
        for col in row
        if col['type'] == 'td'
    ])
    
    stem_length_weight = 2.5
    occurances = np.array([
        conjugated_forms.count(word[:i]) * (i+1)**stem_length_weight
        for i in range(len(word))
    ])
    
    return word[:np.argmax(occurances)], word[np.argmax(occurances):]

def replace_stem(word_block, stem):
    return [
        [ 
            { key: 
                value.replace(stem, '_'*4) 
                if key == 'string' else value
                for key, value in col.items() }
            if col['type'] == 'td' else col
            for col in row
        ]
        for row in word_block
    ]

rule_blocks = {}
for word in words:
    stem, ending = find_stem(word, words[word])
    rule_blocks[f'[{stem}]{ending}'] = replace_stem(words[word], stem)

#pprint(rule_blocks)

Collapse down the rules

In [5]:
summarized_rules = [
    # ([words, ...], rule_block)
]
for word, rule in rule_blocks.items():
    try:
        index = list(zip(*summarized_rules))[1].index(rule)
        summarized_rules[index][0].append(word)
    except:
        summarized_rules.append(([word], rule))

## Now we can display our stem table

In [8]:
from IPython.core.display import display, HTML

def make_html(table_json):
    soup = BeautifulSoup('<table></table>', 'lxml')
    table = soup.table
    for row in table_json:
        tr = soup.new_tag('tr')
        for col in row:
            td = soup.new_tag(col['type'], **col)
            td.string = col['string']
            tr.append(td)
        table.append(tr)
    return str(soup)

for words, rule in sorted(summarized_rules, key=lambda x: -len(x[0])):
    if len(words) > 5:
        print(', '.join(words))
        display(HTML(make_html(rule)))

[vēro]t, [ievēro]t, [mērcē]t, [baro]t, [abstrahē]t, [akcentē]t, [aktivizē]t, [aktualizē]t, [apbrīno]t, [apvieno]t, [atvaino]t, [audzē]t, [auklē]t, [biedē]t, [bloķē]t, [brokasto]t, [burbuļo]t, [bučo]t, [centralizē]t, [centrē]t, [dabū]t, [deaktivizē]t, [dejo]t, [demokratizē]t, [deso]t, [diskutē]t, [domā]t, [dzemdē]t, [dzīvo]t, [ejakulē]t, [elpo]t, [fotografē]t, [garšo]t, [gatavo]t, [gādā]t, [indē]t, [iniciē]t, [inspirē]t, [intonē]t, [iztulko]t, [jautā]t, [kaplē]t, [kapā]t, [klepo]t, [konstatē]t, [kārto]t, [lido]t, [maksā]t, [mazgā]t, [meklē]t, [mezglo]t, [mežģī]t, [modernizē]t


Unnamed: 0_level_0,INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),IMPERATIVE (pavēles izteiksme)
Unnamed: 0_level_1,Unnamed: 1_level_1,Present (tagadne),Past (pagātne),Future (nākotne),IMPERATIVE (pavēles izteiksme)
1st pers. sg.,es,____ju,____ju,____šu,—
2nd pers. sg.,tu,____,____ji,____si,____
3rd pers. sg.,"viņš, viņa",____,____ja,____s,lai ____
1st pers. pl.,mēs,____jam,____jām,____sim,____sim
2nd pers. pl.,jūs,____jat,____jāt,"____siet, ____sit",____jiet
3rd pers. pl.,"viņi, viņas",____,____ja,____s,lai ____
,,,,,
RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),PARTICIPLES (divdabji),PARTICIPLES (divdabji),PARTICIPLES (divdabji)
Present,Present Active 1 (Adj.),Present Active 1 (Adj.),____jot,____jot,____jošs
Past,Present Active 2 (Adv.),Present Active 2 (Adv.),esot ____jis,esot ____jis,____dams


[main]īt, [apmain]īt, [atstāst]īt, [baid]īt, [dal]īt, [dar]īt, [gaid]īt, [groz]īt, [izdar]īt, [izskat]īt, [klaus]īt, [laiz]īt, [las]īt, [lāp]īt, [man]īt, [māc]īt, [mān]īt


Unnamed: 0_level_0,INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),IMPERATIVE (pavēles izteiksme)
Unnamed: 0_level_1,Unnamed: 1_level_1,Present (tagadne),Past (pagātne),Future (nākotne),IMPERATIVE (pavēles izteiksme)
1st pers. sg.,es,____u,____īju,____īšu,—
2nd pers. sg.,tu,____i,____īji,____īsi,____i
3rd pers. sg.,"viņš, viņa",____a,____īja,____īs,lai ____a
1st pers. pl.,mēs,____ām,____ījām,____īsim,____īsim
2nd pers. pl.,jūs,____āt,____ījāt,"____īsiet, ____īsit",____iet
3rd pers. pl.,"viņi, viņas",____a,____īja,____īs,lai ____a
,,,,,
RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),PARTICIPLES (divdabji),PARTICIPLES (divdabji),PARTICIPLES (divdabji)
Present,Present Active 1 (Adj.),Present Active 1 (Adj.),____ot,____ot,____ošs
Past,Present Active 2 (Adv.),Present Active 2 (Adv.),esot ____ījis,esot ____ījis,____īdams


[zvēr]ēt, [prec]ēt, [cer]ēt, [mīl]ēt, [aizstāv]ēt, [atbild]ēt, [drīkst]ēt, [dzird]ēt, [grib]ēt, [kust]ēt, [līdz]ēt, [min]ēt


Unnamed: 0_level_0,INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),IMPERATIVE (pavēles izteiksme)
Unnamed: 0_level_1,Unnamed: 1_level_1,Present (tagadne),Past (pagātne),Future (nākotne),IMPERATIVE (pavēles izteiksme)
1st pers. sg.,es,____u,____ēju,____ēšu,—
2nd pers. sg.,tu,____i,____ēji,____ēsi,____i
3rd pers. sg.,"viņš, viņa",____,____ēja,____ēs,lai ____
1st pers. pl.,mēs,____am,____ējām,____ēsim,____ēsim
2nd pers. pl.,jūs,____at,____ējāt,"____ēsiet, ____ēsit",____iet
3rd pers. pl.,"viņi, viņas",____,____ēja,____ēs,lai ____
,,,,,
RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),PARTICIPLES (divdabji),PARTICIPLES (divdabji),PARTICIPLES (divdabji)
Present,Present Active 1 (Adj.),Present Active 1 (Adj.),____ot,____ot,____ošs
Past,Present Active 2 (Adv.),Present Active 2 (Adv.),esot ____ējis,esot ____ējis,____ēdams


[aicin]āt, [audzin]āt, [bagātin]āt, [biedin]āt, [biezin]āt, [cepin]āt, [dancin]āt, [dievin]āt, [drošin]āt, [jautrin]āt, [kurin]āt, [mazin]āt


Unnamed: 0_level_0,INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),IMPERATIVE (pavēles izteiksme)
Unnamed: 0_level_1,Unnamed: 1_level_1,Present (tagadne),Past (pagātne),Future (nākotne),IMPERATIVE (pavēles izteiksme)
1st pers. sg.,es,____u,____āju,____āšu,—
2nd pers. sg.,tu,____i,____āji,____āsi,____i
3rd pers. sg.,"viņš, viņa",____a,____āja,____ās,lai ____a
1st pers. pl.,mēs,____ām,____ājām,____āsim,____āsim
2nd pers. pl.,jūs,____āt,____ājāt,"____āsiet, ____āsit",____iet
3rd pers. pl.,"viņi, viņas",____a,____āja,____ās,lai ____a
,,,,,
RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),PARTICIPLES (divdabji),PARTICIPLES (divdabji),PARTICIPLES (divdabji)
Present,Present Active 1 (Adj.),Present Active 1 (Adj.),____ot,____ot,____ošs
Past,Present Active 2 (Adv.),Present Active 2 (Adv.),esot ____ājis,esot ____ājis,____ādams


[aizar]t, [apcep]t, [atar]t, [atcep]t, [cep]t, [iear]t, [iecep]t, [izar]t, [izcep]t


Unnamed: 0_level_0,INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),IMPERATIVE (pavēles izteiksme)
Unnamed: 0_level_1,Unnamed: 1_level_1,Present (tagadne),Past (pagātne),Future (nākotne),IMPERATIVE (pavēles izteiksme)
1st pers. sg.,es,____u,____u,____šu,—
2nd pers. sg.,tu,____,____i,____si,____
3rd pers. sg.,"viņš, viņa",____,____a,____s,lai ____
1st pers. pl.,mēs,____am,____ām,____sim,____sim
2nd pers. pl.,jūs,____at,____āt,"____siet, ____sit",____iet
3rd pers. pl.,"viņi, viņas",____,____a,____s,lai ____
,,,,,
RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),PARTICIPLES (divdabji),PARTICIPLES (divdabji),PARTICIPLES (divdabji)
Present,Present Active 1 (Adj.),Present Active 1 (Adj.),____ot,____ot,____ošs
Past,Present Active 2 (Adv.),Present Active 2 (Adv.),esot ____is,esot ____is,____dams


[melo]t, [ceļo]t, [danco]t, [eksistē]t, [joko]t, [karo]t, [kāsē]t


Unnamed: 0_level_0,INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),IMPERATIVE (pavēles izteiksme)
Unnamed: 0_level_1,Unnamed: 1_level_1,Present (tagadne),Past (pagātne),Future (nākotne),IMPERATIVE (pavēles izteiksme)
1st pers. sg.,es,____ju,____ju,____šu,—
2nd pers. sg.,tu,____,____ji,____si,____
3rd pers. sg.,"viņš, viņa",____,____ja,____s,lai ____
1st pers. pl.,mēs,____jam,____jām,____sim,____sim
2nd pers. pl.,jūs,____jat,____jāt,"____siet, ____sit",____jiet
3rd pers. pl.,"viņi, viņas",____,____ja,____s,lai ____
,,,,,
RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),PARTICIPLES (divdabji),PARTICIPLES (divdabji),PARTICIPLES (divdabji)
Present,Present Active 1 (Adj.),Present Active 1 (Adj.),____jot,____jot,____jošs
Past,Present Active 2 (Adv.),Present Active 2 (Adv.),esot ____jis,esot ____jis,____dams


[aizlie]gt, [bei]gt, [ieslē]gt, [izslē]gt, [jē]gt, [lie]gt, [lū]gt


Unnamed: 0_level_0,INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),INDICATIVE (īstenības izteiksme),IMPERATIVE (pavēles izteiksme)
Unnamed: 0_level_1,Unnamed: 1_level_1,Present (tagadne),Past (pagātne),Future (nākotne),IMPERATIVE (pavēles izteiksme)
1st pers. sg.,es,____dzu,____dzu,____gšu,—
2nd pers. sg.,tu,____dz,____dzi,____gsi,____dz
3rd pers. sg.,"viņš, viņa",____dz,____dza,____gs,lai ____dz
1st pers. pl.,mēs,____dzam,____dzām,____gsim,____gsim
2nd pers. pl.,jūs,____dzat,____dzāt,"____gsiet, ____gsit",____dziet
3rd pers. pl.,"viņi, viņas",____dz,____dza,____gs,lai ____dz
,,,,,
RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),RENARRATIVE (atstāstījuma izteiksme),PARTICIPLES (divdabji),PARTICIPLES (divdabji),PARTICIPLES (divdabji)
Present,Present Active 1 (Adj.),Present Active 1 (Adj.),____dzot,____dzot,____dzošs
Past,Present Active 2 (Adv.),Present Active 2 (Adv.),esot ____dzis,esot ____dzis,____gdams
