# Russian Text Preprocessor Demo

### Environment Setup

In [1]:
import sys
from pathlib import Path
import random

# Path to the root directory of the project
sys.path.append(str(Path(".../code").resolve()))

# Import custom preprocessing and utility functions
from preprocess_ru import (
    clean_text, 
    tokenize_text, 
    remove_stopwords, 
    lemmatize_tokens, 
    process_file
)
from utils_ru import read_text_file, write_text_file

# Import database operation libraries
import sqlite3
import pandas as pd

# File paths
DATA_DIR = Path("../data")
INPUT_FILE = DATA_DIR / "sample_ru.txt"
DB_FILE = DATA_DIR / "processed_results_ru.db"

### Preview Sample Text

In [2]:
lines = read_text_file(INPUT_FILE)
print("Orignal RU Texts:\n")
for line in lines[:5]:
    print("-", line)

Orignal RU Texts:

- Привет, как дела?
- Сегодня хорошая погода.
- Я люблю изучать русский язык.
- Москва — столица России.
- Он не пришёл на встречу.


### Preprocess Sample Text

In [3]:
rand_ind = random.randint(0, len(lines) - 1)
# Pick a line
text = lines[rand_ind]
print(f"Selected Text: {text}")

Selected Text: Почему ты не позвонил мне?


In [4]:
# Clean text
cleaned = clean_text(text)
print(f"Cleaned Text: {cleaned}")

Cleaned Text: почему ты не позвонил мне


In [5]:
# Tokenize text
tokens = tokenize_text(cleaned)
print(f"Tokens: {tokens}")

Tokens: ['почему', 'ты', 'не', 'позвонил', 'мне']


In [6]:
# Remove stopwords
filtered_tokens = remove_stopwords(tokens)
print(f"Filtered Tokens: {filtered_tokens}")

Filtered Tokens: ['почему', 'позвонил']


In [7]:
lemmas = lemmatize_tokens(filtered_tokens)
print(f"Lemmas: {lemmas}")

Lemmas: ['почему', 'позвонить']


### Process and  Store Entire File

In [8]:
process_file(str(INPUT_FILE))
print(f"Processed File Stored in: {DB_FILE}")

Original: Привет, как дела?
Cleaned: привет как дела
Tokens: ['привет', 'дела']
Lemmas: ['привет', 'дело']
----------------------------------------
Original: Сегодня хорошая погода.
Cleaned: сегодня хорошая погода
Tokens: ['сегодня', 'хорошая', 'погода']
Lemmas: ['сегодня', 'хороший', 'погода']
----------------------------------------
Original: Я люблю изучать русский язык.
Cleaned: я люблю изучать русский язык
Tokens: ['люблю', 'изучать', 'русский', 'язык']
Lemmas: ['любить', 'изучать', 'русский', 'язык']
----------------------------------------
Original: Москва — столица России.
Cleaned: москва столица россии
Tokens: ['москва', 'столица', 'россии']
Lemmas: ['москва', 'столица', 'россия']
----------------------------------------
Original: Он не пришёл на встречу.
Cleaned: он не пришёл на встречу
Tokens: ['пришёл', 'встречу']
Lemmas: ['прийти', 'встреча']
----------------------------------------
Processed File Stored in: ..\data\processed_results_ru.db


### Inspect DB Results

In [9]:
# Connect and load data
conn = sqlite3.connect(DB_FILE)
df = pd.read_sql_query("SELECT * FROM processed_ru LIMIT 10;", conn)
conn.close()

df

Unnamed: 0,id,original_text,cleaned_text,tokens,lemmas
0,1,"Привет, как дела?",привет как дела,привет дела,привет дело
1,2,Сегодня хорошая погода.,сегодня хорошая погода,сегодня хорошая погода,сегодня хороший погода
2,3,Я люблю изучать русский язык.,я люблю изучать русский язык,люблю изучать русский язык,любить изучать русский язык
3,4,Москва — столица России.,москва столица россии,москва столица россии,москва столица россия
4,5,Он не пришёл на встречу.,он не пришёл на встречу,пришёл встречу,прийти встреча
5,6,Мы поехали в Санкт-Петербург.,мы поехали в санкт петербург,поехали санкт петербург,поехать санкт петербург
6,7,Ты читаешь эту книгу?,ты читаешь эту книгу,читаешь книгу,читать книга
7,8,Это очень интересная история.,это очень интересная история,это очень интересная история,это очень интересный история
8,9,Они быстро нашли решение.,они быстро нашли решение,быстро нашли решение,быстро найти решение
9,10,Я никогда не видел такого.,я никогда не видел такого,видел такого,видеть такой


### Visualize Token Count

In [10]:
# Simple Analysis
df["token_count"] = df["tokens"].apply(lambda x: len(x.split()))
df[["original_text", "token_count"]]

Unnamed: 0,original_text,token_count
0,"Привет, как дела?",2
1,Сегодня хорошая погода.,3
2,Я люблю изучать русский язык.,4
3,Москва — столица России.,3
4,Он не пришёл на встречу.,2
5,Мы поехали в Санкт-Петербург.,3
6,Ты читаешь эту книгу?,2
7,Это очень интересная история.,4
8,Они быстро нашли решение.,3
9,Я никогда не видел такого.,2
