# German Text Preprocessor Demo

### Environment Setup

In [30]:
import sys
from pathlib import Path
import random

# Path to the root directory of the project
sys.path.append(str(Path(".../code").resolve()))

# Import custom preprocessing and utility functions
from preprocess_de import (
    clean_text, 
    tokenize_text, 
    remove_stopwords, 
    lemmatize_tokens, 
    process_file
)
from utils_de import read_text_file, write_text_file

# Import database operation libraries
import sqlite3
import pandas as pd

# File paths
DATA_DIR = Path("../data")
INPUT_FILE = DATA_DIR / "sample_de.txt"
DB_FILE = DATA_DIR / "processed_results_de.db"

### Preview Sample Text

In [31]:
lines = read_text_file(INPUT_FILE)
print("Orignal DE Texts:\n")
for line in lines[:5]:
    print("-", line)

Orignal DE Texts:

- Das ist ein sehr interessantes Buch.
- Ich gehe morgen ins Kino.
- Wir haben gestern Fußball gespielt.
- Deutschland hat eine starke Wirtschaft.
- Kannst du mir bitte helfen?


### Preprocess Sample Text

In [32]:
rand_ind = random.randint(0, len(lines) - 1)
# Pick a line
text = lines[rand_ind]
print(f"Selected Text: {text}")

Selected Text: Ich trinke lieber Tee als Kaffee.


In [33]:
# Clean text
cleaned = clean_text(text)
print(f"Cleaned Text: {cleaned}")

Cleaned Text: ich trinke lieber tee als kaffee


In [34]:
# Tokenize text
tokens = tokenize_text(cleaned)
print(f"Tokens: {tokens}")

Tokens: ['ich', 'trinke', 'lieber', 'tee', 'als', 'kaffee']


In [35]:
# Remove stopwords
filtered_tokens = remove_stopwords(tokens)
print(f"Filtered Tokens: {filtered_tokens}")

Filtered Tokens: ['trinke', 'lieber', 'tee', 'kaffee']


In [36]:
lemmas = lemmatize_tokens(filtered_tokens)
print(f"Lemmas: {lemmas}")

Lemmas: ['trinken', 'lieber', 'Tee', 'Kaffee']


### Process and  Store Entire File

In [37]:
process_file(str(INPUT_FILE))
print(f"Processed File Stored in: {DB_FILE}")

Original: Das ist ein sehr interessantes Buch.
Cleaned: das ist ein sehr interessantes buch
Tokens: ['interessantes', 'buch']
Lemmas: ['interessant', 'Buch']
----------------------------------------
Original: Ich gehe morgen ins Kino.
Cleaned: ich gehe morgen ins kino
Tokens: ['gehe', 'morgen', 'kino']
Lemmas: ['gehen', 'morgen', 'Kino']
----------------------------------------
Original: Wir haben gestern Fußball gespielt.
Cleaned: wir haben gestern fußball gespielt
Tokens: ['gestern', 'fußball', 'gespielt']
Lemmas: ['gestern', 'fußball', 'spielen']
----------------------------------------
Original: Deutschland hat eine starke Wirtschaft.
Cleaned: deutschland hat eine starke wirtschaft
Tokens: ['deutschland', 'starke', 'wirtschaft']
Lemmas: ['Deutschland', 'stark', 'Wirtschaft']
----------------------------------------
Original: Kannst du mir bitte helfen?
Cleaned: kannst du mir bitte helfen
Tokens: ['kannst', 'bitte', 'helfen']
Lemmas: ['Kannst', 'bitte', 'helfen']
-------------------

### Inspect DB Results

In [38]:
# Connect and load data
conn = sqlite3.connect(DB_FILE)
df = pd.read_sql_query("SELECT * FROM processed_de LIMIT 10;", conn)
conn.close()

df

Unnamed: 0,id,original_text,cleaned_text,tokens,lemmas
0,1,Das ist ein sehr interessantes Buch.,das ist ein sehr interessantes buch,interessantes buch,interessant Buch
1,2,Ich gehe morgen ins Kino.,ich gehe morgen ins kino,gehe morgen kino,gehen morgen Kino
2,3,Wir haben gestern Fußball gespielt.,wir haben gestern fußball gespielt,gestern fußball gespielt,gestern fußball spielen
3,4,Deutschland hat eine starke Wirtschaft.,deutschland hat eine starke wirtschaft,deutschland starke wirtschaft,Deutschland stark Wirtschaft
4,5,Kannst du mir bitte helfen?,kannst du mir bitte helfen,kannst bitte helfen,Kannst bitte helfen
5,6,Die Sonne scheint heute besonders hell.,die sonne scheint heute besonders hell,sonne scheint heute besonders hell,Sonne scheinen heute besonders hell
6,7,Angela Merkel war Bundeskanzlerin.,angela merkel war bundeskanzlerin,angela merkel bundeskanzlerin,Angela Merkel Bundeskanzlerin
7,8,"Ich habe keine Zeit, weil ich lernen muss.",ich habe keine zeit weil ich lernen muss,zeit lernen,Zeit lernen
8,9,„Wo bist du?“ fragte er laut.,wo bist du fragte er laut,fragte laut,fragen laut
9,10,Viele Leute benutzen das Internet täglich.,viele leute benutzen das internet täglich,viele leute benutzen internet täglich,vieler Leute benutzen Internet täglich


### Visualize Token Count

In [39]:
# Simple Analysis
df["token_count"] = df["tokens"].apply(lambda x: len(x.split()))
df[["original_text", "token_count"]]

Unnamed: 0,original_text,token_count
0,Das ist ein sehr interessantes Buch.,2
1,Ich gehe morgen ins Kino.,3
2,Wir haben gestern Fußball gespielt.,3
3,Deutschland hat eine starke Wirtschaft.,3
4,Kannst du mir bitte helfen?,3
5,Die Sonne scheint heute besonders hell.,5
6,Angela Merkel war Bundeskanzlerin.,3
7,"Ich habe keine Zeit, weil ich lernen muss.",2
8,„Wo bist du?“ fragte er laut.,2
9,Viele Leute benutzen das Internet täglich.,5
