Skip to content
mkappus1 edited this page Nov 1, 2024 · 10 revisions

Dies ist das Wiki des Kurses Datenmanagement für die MT zum Training neuronaler Übersetzungsysteme, an der Zürcher Hochschule für Angewandte Wissenschaften. Dabei werden alle notwendigen Schritte zum Training eines NMT-Systems besprochen: von der Korpussammlung und Vorverarbeitung bis hin zum Training, der Bewertung und der Integration der Engines in computergestützte Übersetzungsprogramme (CAT-Tools).

Der Kurs ist in wöchentliche Sitzungen gegliedert. Die Bearbeitung der Materialien kann zwischen 2 und 3 Stunden in Anspruch nehmen. Am Ende des Seminars werden die Teilnehmer/innen die Möglichkeit haben, ein echtes System zu trainieren und zu bewerten. Die Teilnehmer/innen können das Sprachenpaar und das Thema ihrer Wahl wählen oder mit den vorgeschlagenen Beispielen arbeiten.

  1. Block: Verfügbare parallele Korpora. Verwendung des Terminals und grundlegender Unix-Anweisungen. Grundlegende Vorverarbeitung von parallelen Korpora.

  2. Block: Erstellung von parallelen Korpora (I). Automatische Alignierung von Dokumenten

  3. Block: Erstellung von parallelen Korpora (II): Herunterladen von Websites.

  4. Block: Erstellung paralleler Korpora (III): Alignment der heruntergeladenen Websites

Inhaltsverzeichnis

Woche 1

Übungen

Dateien unter: https://github.com/mkappus1/DatenmanagementMTHS24/blob/main/Woche1/Aufgaben/Wortliste-de.txt und https://github.com/mkappus1/DatenmanagementMTHS24/blob/main/Woche1/Aufgaben/Wortliste.en.txt

Woche 2

Woche 3: Erstellung von parallelen Korpora (II): Herunterladen von Websites.

Woche 4: Erstellung paralleler Korpora (III). Alignment der heruntergeladenen Websites

Woche 5: Woche 5 Erstellung von vergleichbaren Korpora

Tipps & Tricks

Anhänge

Clone this wiki locally