In [28]:
import pandas as pd

def create_tidy_dataframe(text, infinitive=None):
    subjects = [
        "Aš",
        "Tu",
        "Jis/ji",
        "Mes",
        "Jūs",
        "Jie/jos",
    ]
    tenses = [
        "Present tense",
        "Past tense",
        "Future tense",
        "Conditional mood",
        "Imperative mood",
        "Past freq. tense",
    ]
    
    # Check if all subjects and tenses are present in the text
    for subject in subjects:
        if subject not in text:
            print(f'subject not found: {subject}')
            raise ValueError
    for tense in tenses:
        if tense not in text:
            print(f'tense not found: {tense}')
            raise ValueError

    if infinitive is None:
        print("what verb is being conjugated?")
        raise ValueError

    # Split the text into lines
    lines = text.strip().split('\n')

    # Initialize lists to store the tidy data
    subject_list = []
    tense_list = []
    conjugation_list = []

    # Initialize the current tense and subject index
    current_tense = ""
    subject_index = 0

    # Iterate over each line
    for line in lines:
        if line in tenses:
            current_tense = line.lower().replace(".", "").replace(" ", "_")
            subject_index = 0
        elif line in subjects:
            # Skip the lines containing only subjects
            continue
        else:
            if current_tense == "imperative_mood":
                if subject_index == 0:
                    subject_list.append("tu")
                    tense_list.append(current_tense)
                    conjugation_list.append(line)
                elif subject_index == 1:
                    subject_list.append("jūs")
                    tense_list.append(current_tense)
                    conjugation_list.append(line)
                subject_index += 1
            else:
                if subject_index < len(subjects):
                    subject = subjects[subject_index].lower()
                    if "/" in subject:
                        for sub in subject.split("/"):
                            subject_list.append(sub)
                            tense_list.append(current_tense)
                            conjugation_list.append(line)
                    else:
                        subject_list.append(subject)
                        tense_list.append(current_tense)
                        conjugation_list.append(line)
                subject_index += 1

    # Create a tidy DataFrame
    df = pd.DataFrame({
        'subject': subject_list,
        'tense': tense_list,
        'conjugation': conjugation_list
    })
    df['infinitive'] = infinitive
    return df

In [29]:
buti = """Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Present tense
esu
esi
yra
esame
esate
yra
Past tense
buvau
buvai
buvo
buvome
buvote
buvo
Future tense
būsiu
būsi
bus
būsime
būsite
bus
Conditional mood
būčiau
būtum
būtų
būtumėme
būtumėte
būtų
Tu
Jūs
Imperative mood
būk
būkite
Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Past freq. tense
būdavau
būdavai
būdavo
būdavome
būdavote
būdavo
"""

In [30]:
bdf = create_tidy_dataframe(buti,  "būti")

In [31]:
bdf

Unnamed: 0,subject,tense,conjugation,infinitive
0,aš,present_tense,esu,būti
1,tu,present_tense,esi,būti
2,jis,present_tense,yra,būti
3,ji,present_tense,yra,būti
4,mes,present_tense,esame,būti
5,jūs,present_tense,esate,būti
6,jie,present_tense,yra,būti
7,jos,present_tense,yra,būti
8,aš,past_tense,buvau,būti
9,tu,past_tense,buvai,būti


In [25]:
matyti = """Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Present tense
matau
matai
mato
matome
matote
mato
Past tense
mačiau
matei
matė
matėme
matėte
matė
Future tense
matysiu
matysi
matys
matysime
matysite
matys
Conditional mood
matyčiau
matytum
matytų
matytume
matytute
matytų
Tu
Jūs
Imperative mood
matyk
matykite
Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Past freq. tense
matydavau
matydavai
matydavo
matydavome
matydavote
matydavo
"""

In [26]:
mdf = create_tidy_dataframe(matyti, "matyti")

In [27]:
mdf

Unnamed: 0,subject,tense,conjugation,infinitive
0,aš,present_tense,matau,matyti
1,tu,present_tense,matai,matyti
2,jis,present_tense,mato,matyti
3,ji,present_tense,mato,matyti
4,mes,present_tense,matome,matyti
5,jūs,present_tense,matote,matyti
6,jie,present_tense,mato,matyti
7,jos,present_tense,mato,matyti
8,aš,past_tense,mačiau,matyti
9,tu,past_tense,matei,matyti


In [32]:
meg = """Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Present tense
mėgstu
mėgsti
mėgsta
mėgstame
mėgstate
mėgsta
Past tense
mėgau
mėgai
mėgo
mėgome
mėgote
mėgo
Future tense
mėgsiu
mėgsi
mėgs
mėgsime
mėgsite
mėgs
Conditional mood
mėgčiau
mėgtum
mėgtų
mėgtume
mėgtute
mėgtų
Tu
Jūs
Imperative mood
mėk
mėkite
Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Past freq. tense
mėgdavau
mėgdavai
mėgdavo
mėgdavome
mėgdavote
mėgdavo
"""
megdf = create_tidy_dataframe(meg, "mėgti")

In [33]:
megdf

Unnamed: 0,subject,tense,conjugation,infinitive
0,aš,present_tense,mėgstu,mėgti
1,tu,present_tense,mėgsti,mėgti
2,jis,present_tense,mėgsta,mėgti
3,ji,present_tense,mėgsta,mėgti
4,mes,present_tense,mėgstame,mėgti
5,jūs,present_tense,mėgstate,mėgti
6,jie,present_tense,mėgsta,mėgti
7,jos,present_tense,mėgsta,mėgti
8,aš,past_tense,mėgau,mėgti
9,tu,past_tense,mėgai,mėgti


In [34]:
nor = """Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Present tense
noriu
nori
nori
norime
norite
nori
Past tense
norėjau
norėjai
norėjo
norėjome
norėjote
norėjo
Future tense
norėsiu
norėsi
norės
norėsime
norėsite
norės
Conditional mood
norėčiau
norėtum
norėtų
norėtume
norėtute
norėtų
Tu
Jūs
Imperative mood
norėk
norėkite
Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Past freq. tense
norėdavau
norėdavai
norėdavo
norėdavome
norėdavote
norėdavo
"""
nordf = create_tidy_dataframe(nor, 'norėti')

In [35]:
nordf

Unnamed: 0,subject,tense,conjugation,infinitive
0,aš,present_tense,noriu,norėti
1,tu,present_tense,nori,norėti
2,jis,present_tense,nori,norėti
3,ji,present_tense,nori,norėti
4,mes,present_tense,norime,norėti
5,jūs,present_tense,norite,norėti
6,jie,present_tense,nori,norėti
7,jos,present_tense,nori,norėti
8,aš,past_tense,norėjau,norėti
9,tu,past_tense,norėjai,norėti


In [36]:
pra = """Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Present tense
prašau
prašai
prašo
prašome
prašote
prašo
Past tense
prašiau
prašei
prašė
prašėme
prašėte
prašė
Future tense
prašysiu
prašysi
prašys
prašysime
prašysite
prašys
Conditional mood
prašyčiau
prašytum
prašytų
prašytume
prašytute
prašytų
Tu
Jūs
Imperative mood
prašyk
prašykite
Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Past freq. tense
prašydavau
prašydavai
prašydavo
prašydavome
prašydavote
prašydavo
"""

pradf = create_tidy_dataframe(pra, "prašyti")

In [37]:
pradf

Unnamed: 0,subject,tense,conjugation,infinitive
0,aš,present_tense,prašau,prašyti
1,tu,present_tense,prašai,prašyti
2,jis,present_tense,prašo,prašyti
3,ji,present_tense,prašo,prašyti
4,mes,present_tense,prašome,prašyti
5,jūs,present_tense,prašote,prašyti
6,jie,present_tense,prašo,prašyti
7,jos,present_tense,prašo,prašyti
8,aš,past_tense,prašiau,prašyti
9,tu,past_tense,prašei,prašyti


In [39]:
valgyti = """Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Present tense
valgau
valgai
valgo
valgome
valgote
valgo
Past tense
valgiau
valgei
valgė
valgėme
valgėte
valgė
Future tense
valgysiu
valgysi
valgys
valgysime
valgysite
valgys
Conditional mood
valgyčiau
valgytum
valgytų
valgytume
valgytute
valgytų
Tu
Jūs
Imperative mood
valgyk
valgykite
Aš
Tu
Jis/ji
Mes
Jūs
Jie/jos
Past freq. tense
valgydavau
valgydavai
valgydavo
valgydavome
valgydavote
valgydavo
"""
valdf = create_tidy_dataframe(valgyti, "valgyti")

In [40]:
valdf

Unnamed: 0,subject,tense,conjugation,infinitive
0,aš,present_tense,valgau,valgyti
1,tu,present_tense,valgai,valgyti
2,jis,present_tense,valgo,valgyti
3,ji,present_tense,valgo,valgyti
4,mes,present_tense,valgome,valgyti
5,jūs,present_tense,valgote,valgyti
6,jie,present_tense,valgo,valgyti
7,jos,present_tense,valgo,valgyti
8,aš,past_tense,valgiau,valgyti
9,tu,past_tense,valgei,valgyti
