# Multilingual Text Preprocessor Demo

### Environment Setup

In [18]:
import sys
from pathlib import Path
import random

# Path to the root directory of the project
sys.path.append(str(Path(".../code").resolve()))

# Import custom preprocessing and utility functions
from preprocess_ml import MultilingualPreprocessor
from utils_ml import read_text_file, write_text_file

# Import database operation libraries
import sqlite3
import pandas as pd

# File paths
DATA_DIR = Path("../data")
# Input
INPUT_FILE_EN = DATA_DIR / "sample_en.txt"
INPUT_FILE_DE = DATA_DIR / "sample_de.txt"
INPUT_FILE_RU = DATA_DIR / "sample_ru.txt"
#Output
DB_FILE_EN = DATA_DIR / "processed_results_en.db"
DB_FILE_DE = DATA_DIR / "processed_results_de.db"
DB_FILE_RU = DATA_DIR / "processed_results_ru.db"

### Preview Sample Text

In [19]:
# Pick a sample English file
en_lines = read_text_file(INPUT_FILE_EN)  # Change to INPUT_FILE_DE or INPUT_FILE_RU
print("Original Texts:\n")
for line in en_lines[:5]:
    print("-", line)

Original Texts:

- Artificial intelligence is transforming the world rapidly!
- NASA's new rover landed on Mars in 2021.
- @user I totally disagree — that's not the point. http://example.com
- Big data and ML are changing industries.
- Python, Java, and C++ are popular programming languages.


In [20]:
# Pick a sample English file
de_lines = read_text_file(INPUT_FILE_DE)  # Change to INPUT_FILE_EN or INPUT_FILE_RU
print("Original Texts:\n")
for line in de_lines[:5]:
    print("-", line)

Original Texts:

- Das ist ein sehr interessantes Buch.
- Ich gehe morgen ins Kino.
- Wir haben gestern Fußball gespielt.
- Deutschland hat eine starke Wirtschaft.
- Kannst du mir bitte helfen?


In [21]:
# Pick a sample English file
ru_lines = read_text_file(INPUT_FILE_RU)  # Change to INPUT_FILE_EN or INPUT_FILE_DE
print("Original Texts:\n")
for line in ru_lines[:5]:
    print("-", line)

Original Texts:

- Привет, как дела?
- Сегодня хорошая погода.
- Я люблю изучать русский язык.
- Москва — столица России.
- Он не пришёл на встречу.


### Preprocess Sample Text

In [22]:
# Intialize English Preprocessor
prepro_en = MultilingualPreprocessor("english", "en")

rand_ind = random.randint(0, len(en_lines) - 1)
# Pick a line
text = en_lines[rand_ind]
print(f"Selected Text: {text}")

Selected Text: @user I totally disagree — that's not the point. http://example.com


In [23]:
# Preprocess English Text
# Clean text
cleaned = prepro_en.clean_text(text)
print(f"Cleaned Text: {cleaned}")

# Tokenize text
tokens = prepro_en.tokenize_text(cleaned)
print(f"Tokens: {tokens}")

# Remove stopwords
filtered_tokens = prepro_en.remove_stopwords(tokens)
print(f"Filtered Tokens: {filtered_tokens}")

lemmas = prepro_en.lemmatize_tokens(filtered_tokens)
print(f"Lemmas: {lemmas}")

Cleaned Text: i totally disagree that s not the point
Tokens: ['i', 'totally', 'disagree', 'that', 's', 'not', 'the', 'point']
Filtered Tokens: ['totally', 'disagree', 'point']
Lemmas: ['totally', 'disagree', 'point']


In [24]:
# Intialize German Preprocessor
prepro_de = MultilingualPreprocessor("deutsch", "de")

rand_ind = random.randint(0, len(de_lines) - 1)
# Pick a line
text = de_lines[rand_ind]
print(f"Selected Text: {text}")

Selected Text: Angela Merkel war Bundeskanzlerin.


In [25]:
# Preprocess German Text
# Clean text
cleaned = prepro_de.clean_text(text)
print(f"Cleaned Text: {cleaned}")

# Tokenize text
tokens = prepro_de.tokenize_text(cleaned)
print(f"Tokens: {tokens}")

# Remove stopwords
filtered_tokens = prepro_de.remove_stopwords(tokens)
print(f"Filtered Tokens: {filtered_tokens}")

lemmas = prepro_de.lemmatize_tokens(filtered_tokens)
print(f"Lemmas: {lemmas}")

Cleaned Text: angela merkel war bundeskanzlerin
Tokens: ['angela', 'merkel', 'war', 'bundeskanzlerin']
Filtered Tokens: ['angela', 'merkel', 'bundeskanzlerin']
Lemmas: ['Angela', 'Merkel', 'Bundeskanzlerin']


In [26]:
# Intialize Russian Preprocessor
prepro_ru = MultilingualPreprocessor("русский", "ru")

rand_ind = random.randint(0, len(ru_lines) - 1)
# Pick a line
text = ru_lines[rand_ind]
print(f"Selected Text: {text}")

Selected Text: Я хочу выпить чашку чая.


In [27]:
# Preprocess Russian Text
# Clean text
cleaned = prepro_ru.clean_text(text)
print(f"Cleaned Text: {cleaned}")

# Tokenize text
tokens = prepro_ru.tokenize_text(cleaned)
print(f"Tokens: {tokens}")

# Remove stopwords
filtered_tokens = prepro_ru.remove_stopwords(tokens)
print(f"Filtered Tokens: {filtered_tokens}")

lemmas = prepro_ru.lemmatize_tokens(filtered_tokens)
print(f"Lemmas: {lemmas}")

Cleaned Text: я хочу выпить чашку чая
Tokens: ['я', 'хочу', 'выпить', 'чашку', 'чая']
Filtered Tokens: ['хочу', 'выпить', 'чашку', 'чая']
Lemmas: ['хотеть', 'выпить', 'чашка', 'чай']


### Process and  Store Entire File

In [28]:
# English
prepro_en.process_file(str(INPUT_FILE_EN))
print(f"Processed File Stored in: {DB_FILE_EN}")

Original: Artificial intelligence is transforming the world rapidly!
Cleaned: artificial intelligence is transforming the world rapidly
Tokens: ['artificial', 'intelligence', 'transforming', 'world', 'rapidly']
Lemmas: ['artificial', 'intelligence', 'transform', 'world', 'rapidly']
----------------------------------------
Original: NASA's new rover landed on Mars in 2021.
Cleaned: nasa s new rover landed on mars in 2021
Tokens: ['nasa', 'new', 'rover', 'landed', 'mars', '2021']
Lemmas: ['nasa', 'new', 'rover', 'land', 'mar', '2021']
----------------------------------------
Original: @user I totally disagree — that's not the point. http://example.com
Cleaned: i totally disagree that s not the point
Tokens: ['totally', 'disagree', 'point']
Lemmas: ['totally', 'disagree', 'point']
----------------------------------------
Original: Big data and ML are changing industries.
Cleaned: big data and ml are changing industries
Tokens: ['big', 'data', 'ml', 'changing', 'industries']
Lemmas: ['big'

In [29]:
# German
prepro_de.process_file(str(INPUT_FILE_DE))
print(f"Processed File Stored in: {DB_FILE_DE}")

Original: Das ist ein sehr interessantes Buch.
Cleaned: das ist ein sehr interessantes buch
Tokens: ['interessantes', 'buch']
Lemmas: ['interessant', 'Buch']
----------------------------------------
Original: Ich gehe morgen ins Kino.
Cleaned: ich gehe morgen ins kino
Tokens: ['gehe', 'morgen', 'kino']
Lemmas: ['gehen', 'morgen', 'Kino']
----------------------------------------
Original: Wir haben gestern Fußball gespielt.
Cleaned: wir haben gestern fußball gespielt
Tokens: ['gestern', 'fußball', 'gespielt']
Lemmas: ['gestern', 'fußball', 'spielen']
----------------------------------------
Original: Deutschland hat eine starke Wirtschaft.
Cleaned: deutschland hat eine starke wirtschaft
Tokens: ['deutschland', 'starke', 'wirtschaft']
Lemmas: ['Deutschland', 'stark', 'Wirtschaft']
----------------------------------------
Original: Kannst du mir bitte helfen?
Cleaned: kannst du mir bitte helfen
Tokens: ['kannst', 'bitte', 'helfen']
Lemmas: ['Kannst', 'bitte', 'helfen']
-------------------

In [30]:
# Russian
prepro_ru.process_file(str(INPUT_FILE_RU))
print(f"Processed File Stored in: {DB_FILE_RU}")

Original: Привет, как дела?
Cleaned: привет как дела
Tokens: ['привет', 'дела']
Lemmas: ['привет', 'дело']
----------------------------------------
Original: Сегодня хорошая погода.
Cleaned: сегодня хорошая погода
Tokens: ['сегодня', 'хорошая', 'погода']
Lemmas: ['сегодня', 'хороший', 'погода']
----------------------------------------
Original: Я люблю изучать русский язык.
Cleaned: я люблю изучать русский язык
Tokens: ['люблю', 'изучать', 'русский', 'язык']
Lemmas: ['любить', 'изучать', 'русский', 'язык']
----------------------------------------
Original: Москва — столица России.
Cleaned: москва столица россии
Tokens: ['москва', 'столица', 'россии']
Lemmas: ['москва', 'столица', 'россия']
----------------------------------------
Original: Он не пришёл на встречу.
Cleaned: он не пришёл на встречу
Tokens: ['пришёл', 'встречу']
Lemmas: ['прийти', 'встреча']
----------------------------------------
Processed File Stored in: ..\data\processed_results_ru.db


### Inspect DB Results

In [32]:
# Connect and load English data
conn = sqlite3.connect(DB_FILE_EN)
en_df = pd.read_sql_query("SELECT * FROM processed_en LIMIT 10;", conn)
conn.close()

en_df

Unnamed: 0,id,original_text,cleaned_text,tokens,lemmas
0,1,Artificial intelligence is transforming the wo...,artificial intelligence is transforming the wo...,artificial intelligence transforming world rap...,artificial intelligence transform world rapidly
1,2,NASA's new rover landed on Mars in 2021.,nasa s new rover landed on mars in 2021,nasa new rover landed mars 2021,nasa new rover land mar 2021
2,3,@user I totally disagree — that's not the poin...,i totally disagree that s not the point,totally disagree point,totally disagree point
3,4,Big data and ML are changing industries.,big data and ml are changing industries,big data ml changing industries,big datum ml change industry
4,5,"Python, Java, and C++ are popular programming ...",python java and c are popular programming lang...,python java c popular programming languages,python java c popular programming language
5,6,The quick brown fox jumps over the lazy dog.,the quick brown fox jumps over the lazy dog,quick brown fox jumps lazy dog,quick brown fox jump lazy dog
6,7,COVID-19 vaccines are effective and widely dis...,covid 19 vaccines are effective and widely dis...,covid 19 vaccines effective widely distributed,covid 19 vaccine effective widely distribute
7,8,“Hello world!” is the classic first program fo...,hello world is the classic first program for b...,hello world classic first program beginners,hello world classic first program beginner
8,9,Check out this link: https://www.example.org,check out this link,check link,check link
9,10,Email me at john.doe@example.com for details.,email me at john doe com for details,email john doe com details,email john doe com detail


In [33]:
# Connect and load German data
conn = sqlite3.connect(DB_FILE_DE)
de_df = pd.read_sql_query("SELECT * FROM processed_de LIMIT 10;", conn)
conn.close()

de_df

Unnamed: 0,id,original_text,cleaned_text,tokens,lemmas
0,1,Das ist ein sehr interessantes Buch.,das ist ein sehr interessantes buch,interessantes buch,interessant Buch
1,2,Ich gehe morgen ins Kino.,ich gehe morgen ins kino,gehe morgen kino,gehen morgen Kino
2,3,Wir haben gestern Fußball gespielt.,wir haben gestern fußball gespielt,gestern fußball gespielt,gestern fußball spielen
3,4,Deutschland hat eine starke Wirtschaft.,deutschland hat eine starke wirtschaft,deutschland starke wirtschaft,Deutschland stark Wirtschaft
4,5,Kannst du mir bitte helfen?,kannst du mir bitte helfen,kannst bitte helfen,Kannst bitte helfen
5,6,Die Sonne scheint heute besonders hell.,die sonne scheint heute besonders hell,sonne scheint heute besonders hell,Sonne scheinen heute besonders hell
6,7,Angela Merkel war Bundeskanzlerin.,angela merkel war bundeskanzlerin,angela merkel bundeskanzlerin,Angela Merkel Bundeskanzlerin
7,8,"Ich habe keine Zeit, weil ich lernen muss.",ich habe keine zeit weil ich lernen muss,zeit lernen,Zeit lernen
8,9,„Wo bist du?“ fragte er laut.,wo bist du fragte er laut,fragte laut,fragen laut
9,10,Viele Leute benutzen das Internet täglich.,viele leute benutzen das internet täglich,viele leute benutzen internet täglich,vieler Leute benutzen Internet täglich


In [34]:
# Connect and load Russian data
conn = sqlite3.connect(DB_FILE_RU)
ru_df = pd.read_sql_query("SELECT * FROM processed_ru LIMIT 10;", conn)
conn.close()

ru_df

Unnamed: 0,id,original_text,cleaned_text,tokens,lemmas
0,1,"Привет, как дела?",привет как дела,привет дела,привет дело
1,2,Сегодня хорошая погода.,сегодня хорошая погода,сегодня хорошая погода,сегодня хороший погода
2,3,Я люблю изучать русский язык.,я люблю изучать русский язык,люблю изучать русский язык,любить изучать русский язык
3,4,Москва — столица России.,москва столица россии,москва столица россии,москва столица россия
4,5,Он не пришёл на встречу.,он не пришёл на встречу,пришёл встречу,прийти встреча
5,6,Мы поехали в Санкт-Петербург.,мы поехали в санкт петербург,поехали санкт петербург,поехать санкт петербург
6,7,Ты читаешь эту книгу?,ты читаешь эту книгу,читаешь книгу,читать книга
7,8,Это очень интересная история.,это очень интересная история,это очень интересная история,это очень интересный история
8,9,Они быстро нашли решение.,они быстро нашли решение,быстро нашли решение,быстро найти решение
9,10,Я никогда не видел такого.,я никогда не видел такого,видел такого,видеть такой


### Visualize Token Count

In [35]:
# Simple Analysis
en_df["token_count"] = en_df["tokens"].apply(lambda x: len(x.split()))
en_df[["original_text", "token_count"]]

Unnamed: 0,original_text,token_count
0,Artificial intelligence is transforming the wo...,5
1,NASA's new rover landed on Mars in 2021.,6
2,@user I totally disagree — that's not the poin...,3
3,Big data and ML are changing industries.,5
4,"Python, Java, and C++ are popular programming ...",6
5,The quick brown fox jumps over the lazy dog.,6
6,COVID-19 vaccines are effective and widely dis...,6
7,“Hello world!” is the classic first program fo...,6
8,Check out this link: https://www.example.org,2
9,Email me at john.doe@example.com for details.,5


In [36]:
# Simple Analysis
de_df["token_count"] = de_df["tokens"].apply(lambda x: len(x.split()))
de_df[["original_text", "token_count"]]

Unnamed: 0,original_text,token_count
0,Das ist ein sehr interessantes Buch.,2
1,Ich gehe morgen ins Kino.,3
2,Wir haben gestern Fußball gespielt.,3
3,Deutschland hat eine starke Wirtschaft.,3
4,Kannst du mir bitte helfen?,3
5,Die Sonne scheint heute besonders hell.,5
6,Angela Merkel war Bundeskanzlerin.,3
7,"Ich habe keine Zeit, weil ich lernen muss.",2
8,„Wo bist du?“ fragte er laut.,2
9,Viele Leute benutzen das Internet täglich.,5


In [37]:
# Simple Analysis
ru_df["token_count"] = ru_df["tokens"].apply(lambda x: len(x.split()))
ru_df[["original_text", "token_count"]]

Unnamed: 0,original_text,token_count
0,"Привет, как дела?",2
1,Сегодня хорошая погода.,3
2,Я люблю изучать русский язык.,4
3,Москва — столица России.,3
4,Он не пришёл на встречу.,2
5,Мы поехали в Санкт-Петербург.,3
6,Ты читаешь эту книгу?,2
7,Это очень интересная история.,4
8,Они быстро нашли решение.,3
9,Я никогда не видел такого.,2
