Telegram Chat Parser & Transcriber

Консольное приложение на Java для парсинга экспортированных чатов Telegram и автоматической расшифровки голосовых сообщений.

О проекте

Данный проект является открытым по лицензии MIT (Подробнее см. в файле LICENSE) в образовательных целях. Я не несу ответственности за согласие использовать мой код в рабочих целях. Образовательная разработка.

Основные возможности

Парсинг HTML: Читает messages.html файлы, экспортированные из Telegram.
Конвертация аудио: Автоматически конвертирует .ogg голосовые сообщения в формат .wav.
Распознавание речи: Использует локальную AI-модель Whisper (large-v3-turbo) для транскрибации аудиофайлов.
Формирование отчёта: Собирает текстовые и расшифрованные сообщения в единый итоговый .txt файл.
Гибкий вывод: Поддерживает сохранение результата в форматах TXT и JSON.

Как составлять файлы result / custom_transcripts.txt

result.txt - требуется для внедрения в парсер общего вывода данных (OutputParse.txt/json) голосовых сообщений конвертированных в текстовый формат.
custom_transcripts.txt - требуется для добавления/изменения голосовых сообщений (в виде текста) поверх result.txt.

Файл result.txt является основным файлом готового конвертирования голосовых сообщений!

custom_transcripts.txt позволяет удобно редактировать определённые ключ -> значения поверх result.txt!

Формат result.txt:

audio_26@17-05-2025_20-51-05.ogg: ваш_текст Ключ обязан соответствовать названию, которое было в html файле к нужному сообщению. Текст может быть любым.

Формат custom_transcripts.txt:

Идентичен как для result.txt.

Конфигурация модели ИИ

На этапе выбора языка голосовых сообщений требуется ввести название языка по стандарту ISO 639-1. К примеру: ru
На этапе выбора самой модели требуется обратиться к репозиторию и ввести название модели в соответствии с данным образцом: ggml-large-v3-turbo.bin

Установка и запуск

Для работы приложения необходимо, чтобы в системе были установлены:

Java 17 (JDK)
Maven
FFmpeg (для конвертации аудио)
GCC 14

Сборка проекта: Для сборки исполняемого JAR-файла выполните в терминале в папке проекта:

bash mvn clean package

Запуск: Запустите собранный JAR-файл из командной строки:

bash java -jar target/telegram-analyzer-1.0-SNAPSHOT-jar-with-dependencies.jar

Используемые технологии

Java 17
Maven
Jsoup - для парсинга HTML.
JAVE2 - для конвертации аудио.
whisper-jni - для интеграции с моделью Whisper.
Logback - для логирования.

План развития

Создание графического интерфейса (GUI) на JavaFX.
Поддержка экспорта из других мессенджеров.
Работа с мессенджерами через их официальные API.
Внедрение различных ИИ моделей (для разных ресурсоёмких задач)
Оптимизация кода

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
src/main		src/main
.gitignore		.gitignore
LICENSE.md		LICENSE.md
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Telegram Chat Parser & Transcriber

О проекте

Основные возможности

Как составлять файлы result / custom_transcripts.txt

Файл result.txt является основным файлом готового конвертирования голосовых сообщений!

custom_transcripts.txt позволяет удобно редактировать определённые ключ -> значения поверх result.txt!

Конфигурация модели ИИ

Установка и запуск

Используемые технологии

План развития

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Telegram Chat Parser & Transcriber

О проекте

Основные возможности

Как составлять файлы result / custom_transcripts.txt

Файл result.txt является основным файлом готового конвертирования голосовых сообщений!

custom_transcripts.txt позволяет удобно редактировать определённые ключ -> значения поверх result.txt!

Конфигурация модели ИИ

Установка и запуск

Используемые технологии

План развития

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages