In [1]:
import re
from tqdm.notebook import tqdm

In [2]:
with open('./clean_texts.txt', 'r') as f:
    dirty_corp = f.read()
    
dirty_corp = dirty_corp.split('\n')[:-1]

### Some useful links on articles
$\bullet \href{https://upload.wikimedia.org/wikipedia/commons/e/e9/Ном_%22Тывалап_чугаалажыылыңар%22..pdf}{Поговорим\; по\; Тувински}$

In [3]:
def end_cut(token, ends_list):
    
    for end in ends_list:
        try:
            token_end = token[-len(end):]
            if token_end == end:
                token = token[:-len(end)]
                return token, True
            
        except ValueError as e:
            pass
        
    return token, False

In [4]:
def stemmer(token):
        
    ### Существительные / Nouns
    
    roditelniy = ['тың', 'туң', 'ның', 'нуң', 'дың', 'дуң', 'тиң', 'ниң']
    vinitelniy = ['нү', 'ни']
    datelniy = ['ка', 'ке', 'га', 'ге', 'ба', 'бе']
    initial = ['тан', 'тен', 'дан', 'ден', 'нан', 'нен']
    orudniy = ['биле', 'ла', 'п']
    napravitelniy = ['дыва', 'диве', 'че', 'же', 'дува', 'дүве', 'тува', 'түве']
    mn_chisla = ['лар', 'лер', 'нар', 'нер', 'дар', 'дер', 'тар', 'тер']
    
    all_noun_end = roditelniy + vinitelniy + datelniy +\
                   initial + orudniy + napravitelniy + mn_chisla

    token, exit = end_cut(token, all_noun_end)
    if exit: return token
    
    ### Глаголы / Verbs
    proshedshee = ['кан', 'кен', 'ган', 'ген', 'ан', 'эн', 'маан', 'мээн',
                   'паан', 'пээн', 'баан', 'бээн', 'ваан', 'вээн', 'мен', 'cен', 'бис',
                   'силер', 'нар', 'нер']
    povelit = ['айн', 'ейн', 'ыйн', 'ийн', 'уйн', 'үйн',
               'көр', 'чору',
               'сын', 'син', 'сун', 'сүн', 'зын', 'зин', 'зун', 'зүн',
               'алы', 'эли', 'ылы', 'или', 'улу', 'үлү', 'аалы',
               'ээли', 'ыылы', 'иили', 'уулу', 'үүлү',
               'ңар', 'ңер', 'ыңар', 'иңер', 'уңар', 'үңер',
               'нар', 'нер']
    
    glagol_1_ed = ['сымза', 'сумза', 'симзе', 'сүмзе',
                   'зымза', 'зумза', 'зимзе', 'зүмзе']
    glagol_2_ed = ['сыңза', 'суңза', 'сиёзе', 'сүңзе',
                   'зыңза', 'зуңза', 'зиёзе', 'зүңзе']
    glagol_3_ed = ['са', 'се',
                   'за', 'зе']
    glagol_1_mn = ['сывысса', 'сувусса', 'сивиссе', 'сүвүссе',
                   'зывысса', 'зувусса', 'зивиссе', 'зүвүссе']
    glagol_2_mn = ['сыңарза', 'суңарза', 'сиңерзе', 'сүңерзе',
                   'зыңарза', 'зуңарза', 'зиңерзе', 'зүңерзе']
    glagol_3_mn = ['са', 'се',
                   'за', 'зе']
    
    all_verbs_end = proshedshee + povelit +\
                    glagol_1_ed + glagol_1_mn +\
                    glagol_2_ed + glagol_2_mn +\
                    glagol_3_ed + glagol_3_mn
    
    token, exit = end_cut(token,all_verbs_end)
    if exit: return token
        
    return token

In [5]:
def stem_text(text):
    res_text = ''
    for token in text.split(' '):
        stem_token = stemmer(token)
        res_text += stem_token
        res_text += ' '
        
    res_text = res_text[:-1]
    
    return res_text

In [6]:
clean_corp = []

for raw_str in tqdm(dirty_corp):
    title, text = raw_str.split(',')
    
    clean_title = stem_text(title)
    clean_text = stem_text(text)
    
    clean_corp.append([clean_title, clean_text])

  0%|          | 0/5336 [00:00<?, ?it/s]

### To find stopwords (only russian - tuvan translator)
$\bullet \href{https://upload.wikimedia.org/wikipedia/commons/e/e9/Ном_%22Тывалап_чугаалажыылыңар%22..pdf}{Мини-словарь\; на\; стр. 99}$


$\bullet \href{https://tyvan.ru/}{Русско-тувинский\; переводчик}$

In [9]:
def remove_stopwords(text):
    stopwords_list = ['чүү', 'турган', 'мындыг', 'силер', 'ооң', 'ол', 'кайда', 'каяа', 'олар',
                      'мээң', 'бо', 'аңаа', 'кым', 'мында', 'маңаа', 'эвес', 'база', 'катап', 
                      'ынчаар', 'ынчалдыр', 'мынчаар', 'мынчалдыр', 'болгаш', 'биле', 'чанында',
                      'чоогунда', 'кыйыында', 'чанынга', 'чоогунга', 'кыйыынга', 'дан', 'тан',
                      'тен', 'шыдаар', 'азы', 'ийикпе', 'чок', 'бар', 'чүгле', 'куду', 'өрү', 
                      'талаже', 'солагай', 'бир']
    res_text = ''
    
    for token in text.split(' '):
        if token in stopwords_list:
            pass
        
        else:
            res_text += token
            res_text += ' '
    
    return res_text

In [29]:
clean_corp_final = []

for title, text in tqdm(clean_corp):
    
    clean_title = stem_text(title)
    clean_text = stem_text(text)
    
    clean_corp_final.append([clean_title, clean_text])

  0%|          | 0/5336 [00:00<?, ?it/s]

### Example of cleaner`s work

In [32]:
dirty_corp[0]

'голубцов ларион петрович,голубцов ларион петрович ада чуртуң улуг дайынының киржикчизи чылда төрүттүнген дайын шөлүнче чылдың март де көк хаак с медведевка сумузундан кыйгырткан ада иези биле чурттап турган дугаар гвардейжи полктуң дугаар гвардейжи дивизияның адыгжызы рядовой октябрь та чылда мөчээн раддонен деп пруссияның суурунуң чанында хөөржүткен'

In [34]:
' '.join(clean_corp[0])

'голубцов ларион петрович голубцов ларион петрович ада чур улуг дайыны киржикчизи чылда төрүттүн дайын шөлүн чыл март де көк хаак с медведев сумузун кыйгырт ада иези  чуртта тур дугаар гвардейжи полк дугаар гвардейжи дивизия адыгжызы рядовой октябрь та чылда мөчэ раддо де пруссия сууру чанында хөөржүт'

In [35]:
' '.join(clean_corp_final[0])

'голубцов ларион петрович голубцов ларион петрович ада чур улуг дайыны киржикчизи чылда төрүттүн дайын шөлүн чыл март де көк хаак с медведев суму кыйгырт ада иези  чуртта тур дугаар гвардейжи полк дугаар гвардейжи дивизия адыгжызы рядовой октябрь та чылда мөчэ раддо де пруссия сууру чанында хөөржүт'

In [37]:
with open('./clean_texts_final.txt', 'w') as f:
    for title, text in tqdm(clean_corp_final):
        f.write(','.join([title, text]))
        f.write('\n')

  0%|          | 0/5336 [00:00<?, ?it/s]