-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Dies ist das Wiki des Kurses Datenmanagement für die MT zum Training neuronaler Übersetzungsysteme, an der Zürcher Hochschule für Angewandte Wissenschaften. Dabei werden alle notwendigen Schritte zum Training eines NMT-Systems besprochen: von der Korpussammlung und Vorverarbeitung bis hin zum Training, der Bewertung und der Integration der Engines in computergestützte Übersetzungsprogramme (CAT-Tools).
Der Kurs ist in wöchentliche Sitzungen gegliedert. Die Bearbeitung der Materialien kann zwischen 2 und 3 Stunden in Anspruch nehmen. Am Ende des Seminars werden die Teilnehmer/innen die Möglichkeit haben, ein echtes System zu trainieren und zu bewerten. Die Teilnehmer/innen können das Sprachenpaar und das Thema ihrer Wahl wählen oder mit den vorgeschlagenen Beispielen arbeiten.
-
Block: Erstellung von parallelen Korpora (I). Automatische Alignierung von Dokumenten
-
Block: Erstellung von parallelen Korpora (II): Herunterladen von Websites.
-
Block: Erstellung paralleler Korpora (III): Alignment der heruntergeladenen Websites
-
Block Wikipedia (freiwillig)
-
Block: Korpusbereinigung
-
Block: Vorverarbeitung paralleler Korpora für das Training neuronaler Maschinenübersetzungssysteme
- Woche 1: 1. Übersicht
- Woche 1: 2. Empfohlene Lektüre
- Woche 1: 3. Parallele Korpora
- Woche 1: 4. Linux auf Ihrem Computer
- Woche 1: 5. Grundlegende UNIX Befehle
- Woche 1: 6. Grundlegende Korpusvorbereitung mit UNIX-Befehlen
Dateien unter: https://github.com/mkappus1/DatenmanagementMTHS24/blob/main/Woche1/Aufgaben/Wortliste-de.txt und https://github.com/mkappus1/DatenmanagementMTHS24/blob/main/Woche1/Aufgaben/Wortliste.en.txt
- Woche 2. 1. Übersicht
- Woche 2: 2. Vorarbeiten
- Woche 2: 3. Konvertieren von TMX-Dateien in ein Tabellenformat
- Woche 2: 4. Alignment mit LF Aligner
- Woche 2: 5. Automatisches Alignment mit hunalign
- Woche 3: 1. Übersicht
- Woche 3: 2. Lektüre:
- Woche 3: 3. Herunterladen von Websites mit generischen Algorithmen
- Woche 3: 3.1 Einleitung
- Woche 3: 3.2 Sitemap erstellen
- Woche 3: 3.3 Herunterladen der Inhalte der Website (I)
- Woche 3: 3.4 Herunterladen der Inhalte der Website (II) - Trafilatura
- Woche 3: 3.5 Konvertierung in Text - NOCH NICHT BEARBEITEN
- Woche 4: 1. Einleitung
- woche 4: 2. empfohlene Lektüre
- Woche 4: 3. Einige Vorüberlegungen
- Woche 4: 4. Alignment
- Woche 4: 4.1. Segmentierung
- Woche 4: 4.2. Alignment mit hunaling
- Woche 4: 4.3. Auswahl der Segmente
- Woche 5: 1. Übersicht
- Woche 5: 2. Empfohlene Lektüre
- Woche 5: 3. Wikipedia
- Woche 5: 4. Erstellen vergleichbarer Korpora mit CCWikipedia
- Woche 5: 5. Direkte Verwendung von Wikipedia-Dumps
- Woche 5: 5.1 Konvertierung des Dumps in Textdateien
- Woche 5: 5.2. Die Kategorien erforschen
- Woche 6: 1. Einführung
- Woche 6: 2. empfohlene Lektüre
- Woche 6: 3. Koprusbereinigung
- Woche 6: 4. Korpus-Re-Scoring
Woche 7: Vorverarbeitung paralleler Korpora für das Training neuronaler Maschinenübersetzungssysteme
- Woche 7: 1. Einleitung
- Woche 7: 2. empfohlene Lektüre
- Woche 7: 3. Allgemeine Vorverarbeitungsschritte
- Woche 7: 3.1. Tokenisierung
- Woche 7: 3.2. Truecasing
- Woche 7: 3.3. Numerische Ausdrücke
- Woche 7: 3.4. E-Mail und URLS
- Woche 7: 3.5. Unterwörter
- Woche 7: 3.6. Aufteilung des Korpus
- Woche 7: 4. MTUOC-Korpus-Vorverarbeitung
- Woche 7: 5. Guided Alignment -> Nächste Woche