# 8 - Clafisicación de audio


<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/audio_classifier.webp" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Modelos-de-clasificación-de-audio" data-toc-modified-id="1---Modelos-de-clasificación-de-audio-1">1 - Modelos de clasificación de audio</a></span></li><li><span><a href="#2---Modelo-clasificación-de-género-musical" data-toc-modified-id="2---Modelo-clasificación-de-género-musical-2">2 - Modelo clasificación de género musical</a></span></li><li><span><a href="#3---Modelo-de-análisis-de-sentimimento" data-toc-modified-id="3---Modelo-de-análisis-de-sentimimento-3">3 - Modelo de análisis de sentimimento</a></span></li><li><span><a href="#4---Modelo-reconocimiento-de-acentos" data-toc-modified-id="4---Modelo-reconocimiento-de-acentos-4">4 - Modelo reconocimiento de acentos</a></span></li></ul></div>

## 1 - Modelos de clasificación de audio

Los modelos de clasificación de audio son sistemas de inteligencia artificial diseñados para identificar y categorizar distintos tipos de sonidos en grabaciones de audio. Estos modelos se utilizan en una amplia gama de aplicaciones, desde la detección de eventos acústicos hasta el reconocimiento de música y voz. 


**Componentes principales**


1. **Extracción de características**:

    + MFCC (Mel-Frequency Cepstral Coefficients): Una de las técnicas más comunes para la extracción de características en el procesamiento de audio. MFCCs capturan las propiedades espectrales de los sonidos, imitando la forma en que el oído humano percibe el sonido.
    + Espectrogramas: Representaciones visuales de la energía de la señal de audio a través del tiempo en diferentes frecuencias. Los espectrogramas pueden ser usados directamente como entradas para modelos de aprendizaje profundo.
    + Chroma Features: Representaciones que capturan la información tonal de una señal de audio, útil en la clasificación de música.


2. **Modelos de aprendizaje automático**:

    + Redes neuronales convolucionales (CNNs): Utilizadas para analizar los espectrogramas de audio, las CNNs son efectivas en la captura de patrones espaciales y temporales en los datos de audio.
    + Redes neuronales recurrentes (RNNs): Especialmente las LSTM (Long Short-Term Memory), son útiles para manejar secuencias de datos temporales y capturar dependencias a largo plazo en el audio.
    + Transformers: Más recientes en el campo del procesamiento de audio, los Transformers pueden capturar relaciones a largo plazo en las secuencias de audio sin necesidad de procesar los datos de forma secuencial.


3. **Preprocesamiento y normalización**:

    + Normalización del Audio: Ajustar la amplitud del audio para asegurar que todas las muestras tengan niveles de volumen similares.
    + Alineación temporal: Asegurar que las muestras de audio estén alineadas temporalmente, especialmente importante en el reconocimiento de voz y en aplicaciones que requieren sincronización precisa.

<br>

**Tipos de modelos de clasificación de audio**


1. **Reconocimiento automático del habla (ASR)**: Ejemplos incluyen DeepSpeech y los modelos de Google Speech-to-Text. Aplicaciones como transcripción de voz a texto, asistentes virtuales como Alexa y Google Assistant.


2. **Clasificación de géneros musicales**: CNNs entrenadas en espectrogramas de música. Aplicaciones como servicios de streaming de música que organizan y recomiendan canciones por género.


3. **Detección de eventos acústicos**: Redes profundas y métodos basados en CNN. Aplicaciones como sistemas de vigilancia, monitoreo de biodiversidad y detección de fallos en maquinaria.


4. **Identificación de oradores**: Modelos basados en embeddings de voz como los generados por x-vectors. Aplicaciones como seguridad, autenticación biométrica y análisis de conversaciones.


## 2 - Modelo clasificación de género musical

Este [modelo](Yash03813/pingpong-music_genres_classification-finetuned-finetuned-gtzan), entrenado con el dataset [GTZAN](https://huggingface.co/datasets/marsyas/gtzan) y que tiene un peso de unos 400Mb, es capaz de reconocer el género musical de un audio. Usaremos el modelo con el archivo que generamos anteriormente.

In [1]:
# para quitar warnings 

from transformers import logging
logging.set_verbosity_error()

import warnings
warnings.filterwarnings('ignore')

In [2]:
# importamos desde la librería transformers el pipeline

from transformers import pipeline

In [3]:
# definimos la tarea y el modelo

tarea = 'audio-classification'  

modelo = 'Yash03813/pingpong-music_genres_classification-finetuned-finetuned-gtzan'

In [4]:
# iniciamos el modelo, los modelos se descargan en local, en este caso son unos 400Mb

pipe = pipeline(task=tarea, model=modelo)

In [5]:
pipe('../../../files/jazz_sample.wav')

[{'score': 0.9464476704597473, 'label': 'metal'},
 {'score': 0.02261282317340374, 'label': 'rock'},
 {'score': 0.008514848537743092, 'label': 'jazz'},
 {'score': 0.00737546943128109, 'label': 'hiphop'},
 {'score': 0.004858397878706455, 'label': 'classical'}]

## 3 - Modelo de análisis de sentimimento

Podemos usar modelos de audio a audio para realizar un análisis de sentimiento sobre una pieza de audio. Este [modelo](ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition) realiza dicho análisis sobre muestras de voz, tiene un peso de aproximadamaente 1.3Gb.

In [12]:
# definimos la tarea y el modelo

tarea = 'audio-classification'  

modelo = 'ehcalabres/wav2vec2-lg-xlsr-en-speech-emotion-recognition'

In [13]:
# iniciamos el modelo, los modelos se descargan en local, en este caso son unos 1.3Gb

pipe = pipeline(task=tarea, model=modelo)

In [8]:
pipe('audio_cache/test_mixture_3spks.wav')

[{'score': 0.13121157884597778, 'label': 'sad'},
 {'score': 0.12992899119853973, 'label': 'disgust'},
 {'score': 0.12929537892341614, 'label': 'surprised'},
 {'score': 0.12623372673988342, 'label': 'neutral'},
 {'score': 0.1251295506954193, 'label': 'calm'}]

## 4 - Modelo reconocimiento de acentos

También podemos reconocer los distintos acentos de un idioma con este [modelo](dima806/english_accents_classification). Pesa unos 400Mb.

In [9]:
# definimos la tarea y el modelo

tarea = 'audio-classification'  

modelo = 'dima806/english_accents_classification'

In [10]:
# iniciamos el modelo, los modelos se descargan en local, en este caso son unos 400Mb

pipe = pipeline(task=tarea, model=modelo)

In [11]:
pipe('audio_cache/test_mixture_3spks.wav')

[{'score': 0.6732790470123291, 'label': 'indian'},
 {'score': 0.17696593701839447, 'label': 'us'},
 {'score': 0.09264418482780457, 'label': 'england'},
 {'score': 0.028835738077759743, 'label': 'canada'},
 {'score': 0.028275076299905777, 'label': 'australia'}]