Dil tespiti için modelleme.
1. Konuyla ilgili bir web crawler geliştirildi ve ilgili veriler YouTube üzerinden toplandı.
2. Toplanan veriler uzerinde yapılan pre-processing işlemleri:
- Ses dosyasi mp3 formatindan wav formatina cevrildi.
- 44.1kHz’den 16kHz’ e resample edildi.
- Sessiz olan kisimlar filtrelendi.
- Gurultu azaltildi.
- Ses normalizasyonu yapildi.
- 10 saniyelik parcalara bolundu.
3. Modelleme aşamasında 4 farkli transformator modeli kullanildi.
4. Her model için loss-epoch graph, confusion matrix, training time, inference time, accuracy, precision, recall, sensitivity, specificity, f1 score ve roc curve cikarildi.
| Sınıf | Veri Sayısı |
|---|---|
| Arabic | 3614 |
| Chinese | 4270 |
| English | 5132 |
| French | 4339 |
| Hindi | 5515 |
| Kullanilan Modeller | Overall Accuracy |
|---|---|
| Hubert | 99.9% |
| Wav2Vec2 | 99.8% |
| SEW | 99.8% |
| UniSpeech | 99.8% |
| AST | 99.8% |