Проект Sample DeepSeek R1 LLM & WhisperAI

Этот репозиторий содержит демонстрационный проект, показывающий использование:

Whisper LoRA Fine-Tuned для автоматического распознавания речи (ASR) на русском языке.
DeepSeek Meeting Summary для суммаризации расшифровок встреч.

В проект включены небольшой образец датасета, видео для тестирования и эксперименты по дообучению и инференсу моделей.

📂 Структура директории

meeting_key_points_ai/
│── sample_datasets/
│   ├── sample_golos/                  # 10 train + 2 test примеров из датасета Golos
│   ├── sample_meeting/                # 10 примеров из кастомного датасета Meeting
│
│── examples/
│   ├── meeting_video.mp4              # Видеофайл для тестирования моделей
│
│── sample_implementation.ipynb        # Запускает модели на meeting_video.mp4
│── sample_experiments.ipynb           # Дообучает модели на sample_datasets
│
│── real_results/
│   ├── notebooks/
│       ├── implementation.ipynb       # Результаты sample_implementation.ipynb
│       ├── experiments.ipynb          # Результаты sample_experiments.ipynb
│   ├── outputs/                       # CSV-отчёты по экспериментам
│
│── README.md                          # Документация проекта
│── requirements.txt                   # Зависимости
│── .gitignore                         # Исключает ненужные файлы

📊 Датасеты

1. Датасет Golos (подмножество)

Источник: Golos GitHub Repository
Содержание: 10 обучающих примеров + 2 тестовых примера

2. Датасет Meeting (кастомный подмножество)

Основан на: AMI Corpus & ICSI Corpus
Содержание: 10 примеров стенограмм встреч

🎥 Видеофайл для тестирования

Файл examples/meeting_video.mp4 предоставлен для тестирования возможностей моделей по распознаванию речи и суммаризации.

🚀 Использование моделей

Whisper LoRA Fine-Tuned

Модель: UDZH/whisper-small-lora-finetuned-ru
Пример использования:

from huggingface_hub import hf_hub_download
import torch
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# Загрузка модели Whisper LoRA
repo_id = "UDZH/whisper-small-lora-finetuned-ru"
lora_weights_path = hf_hub_download(repo_id=repo_id, filename="whisper_lora_weights.pth")

# Загрузка базовой модели и применение LoRA весов
processor = WhisperProcessor.from_pretrained("openai/whisper-small")
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small").to("cuda")

lora_weights = torch.load(lora_weights_path, map_location="cuda")
model.load_state_dict(lora_weights, strict=False)

DeepSeek Meeting Summary

Модель: UDZH/deepseek-meeting-summary
Пример использования:

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

# Загрузка модели и токенизатора
model = AutoModelForSeq2SeqLM.from_pretrained("UDZH/deepseek-meeting-summary")
tokenizer = AutoTokenizer.from_pretrained("UDZH/deepseek-meeting-summary")

# Пример суммаризации
text = "Пример стенограммы встречи."
inputs = tokenizer(text, return_tensors="pt")
summary = model.generate(**inputs)
print(tokenizer.decode(summary[0], skip_special_tokens=True))

📓 Ноутбуки

1. `sample_implementation.ipynb`

Цель: Запуск моделей на meeting_video.mp4.
Этапы:
1. Извлечение аудио из видео
2. Запуск Whisper LoRA для распознавания речи
3. Запуск DeepSeek Summary для суммаризации
4. Отображение результатов

2. `sample_experiments.ipynb`

Цель: Дообучение моделей на sample_datasets/.
Этапы:
1. Загрузка подмножества Golos и Meeting
2. Дообучение Whisper LoRA на Golos
3. Дообучение DeepSeek Summary на стенограммах встреч
4. Оценка результатов

📈 Результаты экспериментов

Все реальные эксперименты и выводы хранятся в real_results/.

implementation.ipynb → Логи и расшифровки работы на полноразмерных примерах
experiments.ipynb → Логи обучения моделей
outputs/ → CSV-отчёты по производительности моделей

🔧 Установка

1. Установите зависимости

pip install -r requirements.txt

Или установите их напрямую в ноутбуке.

📜 Лицензия

Этот репозиторий распространяется под лицензией MIT License.

👥 Авторы

@UDZH – Дообучение моделей и подготовка датасетов
Uliana Dzhumok – Настройка репозитория и документации (Опционально)

⭐ Благодарности

Отдельное спасибо:

Hugging Face за хостинг моделей
OpenAI за Whisper
DeepSeek за их модели
Создателям датасета Golos
AMI & ICSI Corpus поставщикам
Unsloth за инструменты дообучения

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Проект Sample DeepSeek R1 LLM & WhisperAI

📂 Структура директории

📊 Датасеты

1. Датасет Golos (подмножество)

2. Датасет Meeting (кастомный подмножество)

🎥 Видеофайл для тестирования

🚀 Использование моделей

Whisper LoRA Fine-Tuned

DeepSeek Meeting Summary

📓 Ноутбуки

1. `sample_implementation.ipynb`

2. `sample_experiments.ipynb`

📈 Результаты экспериментов

🔧 Установка

1. Установите зависимости

📜 Лицензия

👥 Авторы

⭐ Благодарности

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
examples		examples
real_results		real_results
sample_datasets		sample_datasets
README.md		README.md
README_en.md		README_en.md
requirements.txt		requirements.txt
sample_experiments.ipynb		sample_experiments.ipynb
sample_implementation.ipynb		sample_implementation.ipynb

UlianaDzhumok/meeting_key_points_ai

Folders and files

Latest commit

History

Repository files navigation

Проект Sample DeepSeek R1 LLM & WhisperAI

📂 Структура директории

📊 Датасеты

1. Датасет Golos (подмножество)

2. Датасет Meeting (кастомный подмножество)

🎥 Видеофайл для тестирования

🚀 Использование моделей

Whisper LoRA Fine-Tuned

DeepSeek Meeting Summary

📓 Ноутбуки

1. sample_implementation.ipynb

2. sample_experiments.ipynb

📈 Результаты экспериментов

🔧 Установка

1. Установите зависимости

📜 Лицензия

👥 Авторы

⭐ Благодарности

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

1. `sample_implementation.ipynb`

2. `sample_experiments.ipynb`

Packages