-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Dies ist das Wiki des Kurses Datenmanagement für die MT zum Training neuronaler Übersetzungsysteme, an der Zürcher Hochschule für Angewandte Wissenschaften. Dabei werden alle notwendigen Schritte zum Training eines NMT-Systems besprochen: von der Korpussammlung und Vorverarbeitung bis hin zum Training, der Bewertung und der Integration der Engines in computergestützte Übersetzungsprogramme (CAT-Tools).
Der Kurs ist in wöchentliche Sitzungen gegliedert. Die Bearbeitung der Materialien kann zwischen 2 und 3 Stunden in Anspruch nehmen. Am Ende des Seminars werden die Teilnehmer/innen die Möglichkeit haben, ein echtes System zu trainieren und zu bewerten. Die Teilnehmer/innen können das Sprachenpaar und das Thema ihrer Wahl wählen oder mit den vorgeschlagenen Beispielen arbeiten.
- Woche 1: 1. Übersicht
- Woche 1: 2. Empfohlene Lektüre
- Woche 1: 3. Parallele Korpora
- Woche 1: 4. Linux auf Ihrem Computer
- Woche 1: 5. Grundlegende UNIX Befehle
- Woche 1: 6. Grundlegende Korpusvorbereitung mit UNIX-Befehlen
Dateien unter: https://github.com/mkappus1/DatenmanagementMTHS24/blob/main/Woche1/Aufgaben/Wortliste-de.txt und https://github.com/mkappus1/DatenmanagementMTHS24/blob/main/Woche1/Aufgaben/Wortliste.en.txt
- Woche 2. 1. Übersicht
- Woche 2: 2. Vorarbeiten
- Woche 2: 3. Konvertieren von TMX-Dateien in ein Tabellenformat
- Woche 2: 4. Alignment mit LF Aligner
- Woche 2: 5. Automatisches Alignment mit hunalign
- Woche 3: 1. Übersicht
- Woche 3: 2. Lektüre:
- Woche 3: 3. Herunterladen von Websites mit generischen Algorithmen
- Woche 3: 3.1 Einleitung
- Woche 3: 3.2 Sitemap erstellen
- Woche 3: 3.3 Herunterladen der Inhalte der Website (I)
- Woche 3: 3.4 Herunterladen der Inhalte der Website (II) - Trafilatura
- Woche 3: 3.5 Konvertierung in Text - NOCH NICHT BEARBEITEN