# Герой нашего времени
## Михаил Юрьевич Лермонтов

In [39]:
# RU source: https://avidreaders.ru/book/geroy-nashego-vremeni.html
# DE source: https://www.projekt-gutenberg.org/lermonto/heldzeit/chap003.html

name = "hero"
src_lan = "ru"
tgt_lan = "de"


working_folder = f"../books/{name}"
src_txt_path = f"{working_folder}/{src_lan.upper()}_{name}.txt"
tgt_txt_path = f"{working_folder}/{tgt_lan.upper()}_{name}.txt"

## Scrape the German book from Projekt Gutenberg as .txt file

In [40]:
import requests
from bs4 import BeautifulSoup

with open(tgt_txt_path, "w") as book:
    for i in range(3):
        chapter_no = str(i+1).zfill(3)
        url = f'https://www.projekt-gutenberg.org/lermonto/heldzeit/chap{chapter_no}.html'
        website = requests.get(url)
        soup = BeautifulSoup(website.content, 'html.parser')
        target = soup.findAll('h3')[0]
        book.write(f"{target.text}\n")
        for sib in target.find_next_siblings():
            if sib.name == "hr":
                break
            else:
                book.write(f"{sib.text}\n")


## Clean the Russian text and run sentence tokenization

In [41]:
import pysbd
import re

src_text = open(src_txt_path).read()
src_text = re.sub('(?<![\r\n])(\r?\n|\r)(?![\r\n])', '', src_text)
src_text = re.sub(' +', ' ', src_text)
seg = pysbd.Segmenter(language=src_lan, clean=True)
src_text = "\n".join(seg.segment(src_text))
src_text = re.sub('\n\'\n', '\'\n', src_text)
src_text = re.sub('\n\.\.', '..', src_text)
src_text = re.sub('\[\d{1,2}\]', '', src_text)

print(f"len chars: {len(src_text)}")
print(f"lines: {len(src_text.splitlines())}")
print(src_text)

len chars: 260261
lines: 3037
ЧАСТЬ ПЕРВАЯ
I
БЭЛА
Я ехал на перекладных из Тифлиса.
Вся поклажа моей тележки состояла из одного небольшого чемодана, который до половины был набит путевыми записками о Грузии.
Большая часть из них, к счастию для вас, потеряна, а чемодан с остальными вещами, к счастию для меня, остался цел.
Уж солнце начинало прятаться за снеговой хребет, когда я въехал в Койшаурскую долину.
Осетин-извозчик неутомимо погонял лошадей, чтоб успеть до ночи взобраться на Койшаурскую гору, и во все горло распевал песни.
Славное место эта долина!
Со всех сторон горы неприступные, красноватые скалы, обвешанные зеленым плющом и увенчанные купами чинар, желтые обрывы, исчерченные промоинами, а там высоко-высоко золотая бахрома снегов, а внизу Арагва, обнявшись с другой безыменной речкой, шумно вырывающейся из черного, полного мглою ущелья, тянется серебряною нитью и сверкает, как змея своею чешуею.
Подъехав к подошве Койшаурской горы, мы остановились возле духана.
 Тут толпилось ш

## Clean the German text and run sentence tokenization

In [42]:
import pysbd
import re

tgt_text = open(tgt_txt_path).read()
seg = pysbd.Segmenter(language=tgt_lan, clean=True)
tgt_text = "\n".join(seg.segment(tgt_text))
tgt_text = re.sub('\n«', '«', tgt_text)

print(f"len chars: {len(tgt_text)}")
print(f"lines: {len(tgt_text.splitlines())}")
print(tgt_text)

len chars: 330855
lines: 3396
Bela.
Ich reiste mit Postpferden aus Tiflis.
Das ganze Gepäck meines Wägelchens bestand aus einem einzigen kleinen Koffer, der zur Hälfte mit Reisenotizen über Georgien vollgestopft war.
Der grösste Teil dieser Notizen ist zum Glück für Sie, meine Leser, verloren gegangen, der Koffer aber mit den übrigen Sachen zum Glück für mich erhalten geblieben.
Die Sonne begann schon, sich hinter dem Schneekamm zu verstecken, als ich das Koyschauer Tal erreichte.
Der Kutscher, ein Ossete, trieb die Pferde unermüdlich an, um vor Einbruch der Nacht den Koyschauer Berg zu erklimmen, und sang aus vollem Halse seine Lieder.
Ein prächtiges Stückchen Erde ist dieses Tal!
Von allen Seiten unbezwingbare Berge, rötliche Felsen, berankt mit grünem Efeu und mit dichten Platanen gekrönt, gelbe Abhänge, von den Spuren des herabgeströmten Wassers bekritzelt und dort hoch, ganz oben der goldene Saum des Schnees; unten aber schlängelt sich als Silberfaden und glänzend wie eine Schlang

## Save files

In [43]:
open(f"{working_folder}/{name}_st.{src_lan}", "w").write(src_text)
open(f"{working_folder}/{name}_st.{tgt_lan}", "w").write(tgt_text)

330855