Skip to content

x-x00/language-classification

Repository files navigation

Language Classification

Dil tespiti için modelleme.

Geliştirme Aşamaları

1. Konuyla ilgili bir web crawler geliştirildi ve ilgili veriler YouTube üzerinden toplandı.

2. Toplanan veriler uzerinde yapılan pre-processing işlemleri:

  • Ses dosyasi mp3 formatindan wav formatina cevrildi.
  • 44.1kHz’den 16kHz’ e resample edildi.
  • Sessiz olan kisimlar filtrelendi.
  • Gurultu azaltildi.
  • Ses normalizasyonu yapildi.
  • 10 saniyelik parcalara bolundu.

3. Modelleme aşamasında 4 farkli transformator modeli kullanildi.

4. Her model için loss-epoch graph, confusion matrix, training time, inference time, accuracy, precision, recall, sensitivity, specificity, f1 score ve roc curve cikarildi.

Sınıflar

Sınıf Veri Sayısı
Arabic 3614
Chinese 4270
English 5132
French 4339
Hindi 5515

Modeller

Kullanilan Modeller Overall Accuracy
Hubert 99.9%
Wav2Vec2 99.8%
SEW 99.8%
UniSpeech 99.8%
AST 99.8%

Linkler

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published