DiBaKo – Digital Barrierefrei Kommunizieren ist ein Projekt der Technischen Hochschule Nürnberg Georg Simon Ohm. Dieses Repository enthält das Frontend für DiBaKo, eine Anwendung, die Menschen mit Behinderungen bei der Teilnahme an Videokonferenzen unterstützt. Dafür werden Text to Speech, Automatic Speech Recognition, Facial Emotion Recognition und Vision Language Models verwendet.
- Text to Speech: Realisiert mit dibako_tts basierend auf Piper TTS.
- Automatic Speech Recognition: Realisiert mit WhisperLiveKit.
- Facial Emotion Recognition: Realisiert mit dibako_fer, basierend auf QCS.
- Vision Language Models: Realisiert mit llama.cpp und SmolVLM2.
- Dieses Repository und dibako_tts, dibako_fer und WhisperLiveKit auschecken/herunterladen
- Die Datei
docker-compose.ymlin diesem Repository anpassen, dann mitdocker compose up -d --builddie Container bauen und starten.
- Den Anweisungen in den jeweiligen Repositories von dibako_tts, dibako_fer und WhisperLiveKit folgen, um die jeweiligen Komponenten zu installieren und zu starten.
npm installim Frontend-Verzeichnis ausführen, um die Abhängigkeiten zu installieren.npm run devausführen, um die Anwendung im Entwicklungsmodus zu starten.
Es wird empfohlen Google Chrome-basierte Browser zu verwenden!
Andere Browser können auch verwendet werden, aber es sind evtl. zusätzliche Konfigurationsschritte nötig. (Besonders in
Bezug auf die Audio-Aufnahme)
Nur Chrome, Edge und Opera können System-Audio aufnehmen.
Auf Linux und MacOS ist das auf Browser-Tabs
beschränkt. (Details zur Kompatibilität hier).
Andere Browser unterstützen keine Audio-Aufnahme und benötigen virtuelle Audio-Geräte:
- Windows z.B. Stereomix oder VB-Cable
- MacOS: z.B. VB-Cable)
- Linux: Skript zum Erstellen aller nötigen virtuellen Geräte ist unter der Hilfeseite in der Anwendung verlinkt.
- ChromeOS: ???
- Windows z.B. VB-Cable
- MacOS: z.B. VB-Cable)
- Linux: Skript zum Erstellen aller nötigen virtuellen Geräte ist unter der Hilfeseite in der Anwendung verlinkt.
- ChromeOS: ???
- Wenn transkribiert werden soll, was man selbst sagt: In den Einstellungen unter "Transkript" das eigene Mikrofon auswählen
- Windows:
- Edge, Chrome, Opera: Keine weiteren Schritte nötig
- Firefox: System-Audio (z.B. Stereomix) auswälhen
- Linux und MacOS
- Edge, Chrome, Opera: Im Idealfall der Videokonferenz über einen anderen Browser-Tab beitreten, dann sind keine weiteren Schritte nötig
- Firefox oder wenn die Videokonferenz über installierte Software (Zoom, Teams, ...) läuft: Virtuelles Audio-Gerät auswählen, das vorher konfiguriert wurde, um System-Audio aufzunehmen
- ChromeOS:
- Edge, Chrome, Opera: Keine weiteren Schritte nötig
- Firefox: ???
- Windows und MacOS:
- In DiBaKo unter "Sprachausgabe" das virtuelles Gerät von VB-Cable auswählen
- In der Videokonferenz-Software das gleiche virtuelle Gerät als Mikrofon auswählen
- Linux:
- In DiBaKo unter "Sprachausgabe" das Gerät "DiBaKo_Virtueller_Lautsprecher" auswählen
- In der Videokonferenz-Software das Gerät "DiBaKo_Virtuelles_Mikrofon" als Mikrofon auswählen
- ChromeOS: ???
- In DiBaKo auf "Videoquelle auswählen" klicken und im Popup des Browsers den Tab oder das Fenster der Videokonferenz-Software auswählen.
- Alle modernen Desktop-Browser unterstützen die Bildschirmaufnahme. Am besten funktioniert es, nur das Fenster bzw. den Tab der Videokonferenz-Software (Teams, Zoom, ...) aufzunehmen.
- Die übrigen Komponenten benötigen keine spezielle Konfiguration und können nach Wunsch angepasst werden.