# An introduction to audio processing and machine learning using Python

**Word2Vec** - чудово підходить для обробки текстів. Він представляє слова як вектори чисел, а відстань між двома векторами слів визначає, наскільки схожі слова.

### What are audio signals?

**Аудіосигнали** - це сигнали, що вібрують у чутному діапазоні частот. Коли хтось розмовляє, він генерує сигнали тиску повітря; вухо приймає ці перепади тиску повітря і спілкується з мозку. Ось так мозок допомагає людині розпізнати, що сигналом є мова, і зрозуміти, що хтось говорить.

Є багато інструментів MATLAB для виконання обробки аудіо, але не так багато існує в Python. Перш ніж ми розберемося з деякими інструментами, які можна використовувати для обробки аудіосигналів на Python, давайте вивчимо деякі особливості звуку, які застосовуються до обробки звуку та машинного навчання.

![image.png](attachment:image.png)

Деякі особливості та перетворення даних, які важливі для обробки мови та звуку, це 

    1. Mel-frequency cepstral coefficients (MFCCs)
    2. Gammatone-frequency cepstral coefficients (GFCCs)
    3. Linear-prediction cepstral coefficients (LFCCs)
    4. Bark-frequency cepstral coefficients (BFCCs)
    5. Power-normalized cepstral coefficients (PNCCs)
    6. spectrum
    7. cepstrum
    8. spectrogram

and more.

## What are spectrum and cepstrum?

Математично, **spectrum** - це перетворення Фур'є сигналу. Перетворення Фур'є перетворює сигнал часової області в частотну область. Іншими словами, спектр - це частотне представлення доменного сигналу часової області вхідного аудіо.

**Сepstrum** (цепструм) утворюється, приймаючи величину журналу спектра, а потім обернене перетворення Фур'є. Це призводить до отримання сигналу, який не є ні в частотній області (тому що ми взяли обернене перетворення Фур'є), ні в часовій області (тому що ми взяли величину журналу до зворотного перетворення Фур'є). Домен отриманого сигналу називається quefrency.

![image.png](attachment:image.png)

## What does this have to do with hearing?

Причина, що нас хвилює сигнал у частотній області, стосується біології вуха. Багато речей має відбутися, перш ніж ми зможемо обробити та інтерпретувати звук. Одне буває в кохлеї, наповненій рідиною частиною вуха з тисячами крихітних волосків, які з'єднані з нервами. Деякі волоски короткі, а деякі відносно довші.

Більш короткі волоски резонують з більш високими частотами звуку, а довші - резонансом з меншими частотами звуку. Тому вухо - це як природний аналізатор перетворення Фур'є!

![image.png](attachment:image.png)

Ще один факт, що стосується слуху людини, полягає в тому, що, коли звукова частота збільшується вище 1 кГц, наші вуха починають ставати менш вибіркові до частот. Це добре відповідає тому, що називається банком фільтрів Мела.

![image.png](attachment:image.png)

Проходження спектру через банк фільтра Мела з подальшим прийняттям величини журналу та discrete cosine transform (DCT) виробляє цеплу Мела. DCT витягує основну інформацію сигналу та піки. Він також широко використовується в стисканнях JPEG та MPEG. Піки - це суть аудіоінформації. Як правило, перші 13 коефіцієнтів, витягнутих з мельпідмета Мела, називають MFCC.

Вони містять дуже корисну інформацію про аудіо та часто використовуються для навчання моделей машинного навчання.Ще один фільтр, натхненний слухом людини, - це фільтр Gammatone. Цей банк фільтрів використовується як симуляція передньої частини сліпої кишки. Таким чином, він має багато застосувань в обробці мови, оскільки має на меті повторити те, що ми чуємо.

![image.png](attachment:image.png)

GFCC утворюються, пропускаючи спектр через банк фільтрів Gammatone, з подальшим стисненням гучності та DCT. Перші (приблизно) 22 функції називаються GFCC. GFCC мають ряд застосувань для обробки мовлення, таких як ідентифікація динаміків.

Інші функції, корисні для завдань з обробки звуку (особливо мови), включають LPCC, BFCC, PNCC та спектральні особливості, такі як спектральний потік, ентропія, згортання, центроїд, розповсюдження та ентропія енергії.

## Building a classifier

Як швидкий експеримент, спробуємо побудувати класифікатор зі спектральними характеристиками та MFCC, GFCC та комбінацією MFCC та GFCC, використовуючи бібліотеку з відкритим кодом на основі Python під назвою pyAudioProcessing.

Для початку ми хочемо pyAudioProcessing класифікувати звук на три категорії: мова, музика або птахи.

![image.png](attachment:image.png)

Використовуючи невеликий набір даних (50 зразків для тренувань за клас) та без будь-якої тонкої настройки, ми можемо оцінити потенціал цієї класифікаційної моделі для виявлення звукових категорій.

![image.png](attachment:image.png)

Далі спробуємо pyAudioProcessing з проблемою класифікації музичного жанру за допомогою аудіоданих GZTAN та аудіофункцій: MFCC та спектральні функції.