# **Práctica 1: Sensado y análisis de audio**

### Ciencia de Datos para Sensores Inteligentes/Tópicos Selectos en Sistemas Interactivos

*Estudiante: Cielo Aholiva Higuera Gutiérrez*

El objetivo de este notebook es implementar un sistema de registro de asistencia basado en el reconocimiento de audio, ofreciendo una alternativa moderna y eficiente al uso tradicional de listas en papel o códigos QR.

En el siguiente script se cargan los modelos entrenados utilizados para la clasificación de audios. El proceso incluye la grabación de audio en tiempo real, seguido de la predicción de la persona que habla, basándose en un conjunto de datos preexistente. Este enfoque permite realizar una predicción inmediata utilizando los datos capturados directamente desde el micrófono.

In [200]:
!pip install pyaudio --quiet
!pip install librosa --quiet
!pip install soundfile --quiet

In [29]:
# Librerias
import pyaudio
import wave
import librosa
import numpy as np
import pickle

### Metodo 1

En el Método 1, se utilizaron grabaciones de audio que contienen la frase "Confirmando mi asistencia" para realizar el análisis y la clasificación.

In [163]:
import joblib
with open('C:\\Users\\Cielo Aholiva\\Documents\\Ciencia de datos\\CDSI2025\\modelo_random_forest_method1.pkl', 'rb') as model_file:
    model = joblib.load(model_file)
print(model)
type(model)

RandomForestClassifier(n_estimators=2, random_state=42)


sklearn.ensemble._forest.RandomForestClassifier

In [173]:
# Función para grabar audio desde el micrófono
def grabar_audio(filename="audio_grabado.wav", duration=5):
    # Configuración de pyaudio
    p = pyaudio.PyAudio()

    # Configuración de la grabación
    channels = 1
    rate = 16000  # Frecuencia de muestreo
    frames_per_buffer = 1024
    format = pyaudio.paInt16

    # Iniciar la grabación
    stream = p.open(format=format,
                    channels=channels,
                    rate=rate,
                    input=True,
                    frames_per_buffer=frames_per_buffer)

    print("Grabando...")

    frames = []

    # Grabar durante la duración especificada
    for i in range(0, int(rate / frames_per_buffer * duration)):
        data = stream.read(frames_per_buffer)
        frames.append(data)

    # Detener la grabación
    print("Grabación terminada.")
    stream.stop_stream()
    stream.close()
    p.terminate()

    # Guardar el archivo grabado
    with wave.open(filename, 'wb') as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(p.get_sample_size(format))
        wf.setframerate(rate)
        wf.writeframes(b''.join(frames))

# Función para extraer características MFCC del archivo de audio
def extraer_mfcc(filename="audio_grabado.wav"):
    # Cargar el audio con librosa
    audio, sr = librosa.load(filename, sr=16000)

    # Extraer los coeficientes MFCC
    mfccs = librosa.feature.mfcc(y=audio, sr=sr, n_mfcc=13)

    # Promediar los MFCC a lo largo del tiempo
    mfccs = np.mean(mfccs, axis=1)

    return mfccs

# Función para cargar el modelo y hacer predicción
def predecir_audio(model, mfccs):
    # Convertir las características en un formato adecuado para el modelo
    mfccs_reshaped = mfccs.reshape(1, -1)

    # Hacer la predicción
    prediccion = model.predict(mfccs_reshaped)
    
    return prediccion[0]


# Grabar el audio
grabar_audio(duration=3)  # Graba un audio de 3 segundos

# Extraer las características MFCC del audio grabado
mfccs = extraer_mfcc("audio_grabado.wav")

# Predecir el nombre de la persona a partir del audio grabado
prediccion = predecir_audio(model, mfccs)

# Mostrar el resultado de la predicción
print(f"Predicción del audio grabado: {prediccion}")

Grabando...
Grabación terminada.
Predicción del audio grabado: AleM




### Metodo 2

En el Método 2, se utilizaron grabaciones de audio que contienen la frase "Asistencia de ${nombre}" para realizar el análisis y la clasificación.

In [181]:
import joblib
with open('C:\\Users\\Cielo Aholiva\\Documents\\Ciencia de datos\\CDSI2025\\modelo_random_forest_method2.pkl', 'rb') as model_file:
    model = joblib.load(model_file)

print(model)
type(model)

RandomForestClassifier(n_estimators=2, random_state=42)


sklearn.ensemble._forest.RandomForestClassifier

In [193]:
# Función para grabar audio desde el micrófono
def grabar_audio(filename="audio_grabado.wav", duration=5):
    # Configuración de pyaudio
    p = pyaudio.PyAudio()

    # Configuración de la grabación
    channels = 1
    rate = 16000  # Frecuencia de muestreo
    frames_per_buffer = 1024
    format = pyaudio.paInt16

    # Iniciar la grabación
    stream = p.open(format=format,
                    channels=channels,
                    rate=rate,
                    input=True,
                    frames_per_buffer=frames_per_buffer)

    print("Grabando...")

    frames = []

    # Grabar durante la duración especificada
    for i in range(0, int(rate / frames_per_buffer * duration)):
        data = stream.read(frames_per_buffer)
        frames.append(data)

    # Detener la grabación
    print("Grabación terminada.")
    stream.stop_stream()
    stream.close()
    p.terminate()

    # Guardar el archivo grabado
    with wave.open(filename, 'wb') as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(p.get_sample_size(format))
        wf.setframerate(rate)
        wf.writeframes(b''.join(frames))

# Función para extraer características MFCC del archivo de audio
def extraer_mfcc(filename="audio_grabado.wav"):
    # Cargar el audio con librosa
    audio, sr = librosa.load(filename, sr=16000)

    # Extraer los coeficientes MFCC
    mfccs = librosa.feature.mfcc(y=audio, sr=sr, n_mfcc=13)

    # Promediar los MFCC a lo largo del tiempo
    mfccs = np.mean(mfccs, axis=1)

    return mfccs

# Función para cargar el modelo y hacer predicción
def predecir_audio(model, mfccs):
    # Convertir las características en un formato adecuado para el modelo
    mfccs_reshaped = mfccs.reshape(1, -1)

    # Hacer la predicción
    prediccion = model.predict(mfccs_reshaped)
    
    return prediccion[0]


# Grabar el audio
grabar_audio(duration=3)  # Graba un audio de 3 segundos

# Extraer las características MFCC del audio grabado
mfccs = extraer_mfcc("audio_grabado.wav")

# Predecir el nombre de la persona a partir del audio grabado
prediccion = predecir_audio(model, mfccs)

# Mostrar el resultado de la predicción
print(f"Predicción del audio grabado: {prediccion}")

Grabando...
Grabación terminada.
Predicción del audio grabado: Mariana




### Metodo 3

En el Método 3, se utilizaron grabaciones de audio totalmente libres para realizar el análisis y la clasificación.

In [197]:
import joblib
with open('C:\\Users\\Cielo Aholiva\\Documents\\Ciencia de datos\\CDSI2025\\modelo_random_forest_method3.pkl', 'rb') as model_file:
    model = joblib.load(model_file)
print(model)
type(model)

RandomForestClassifier(n_estimators=2, random_state=42)


sklearn.ensemble._forest.RandomForestClassifier

In [125]:
# Función para grabar audio desde el micrófono
def grabar_audio(filename="audio_grabado.wav", duration=5):
    # Configuración de pyaudio
    p = pyaudio.PyAudio()

    # Configuración de la grabación
    channels = 1
    rate = 16000  # Frecuencia de muestreo
    frames_per_buffer = 1024
    format = pyaudio.paInt16

    # Iniciar la grabación
    stream = p.open(format=format,
                    channels=channels,
                    rate=rate,
                    input=True,
                    frames_per_buffer=frames_per_buffer)

    print("Grabando...")

    frames = []

    # Grabar durante la duración especificada
    for i in range(0, int(rate / frames_per_buffer * duration)):
        data = stream.read(frames_per_buffer)
        frames.append(data)

    # Detener la grabación
    print("Grabación terminada.")
    stream.stop_stream()
    stream.close()
    p.terminate()

    # Guardar el archivo grabado
    with wave.open(filename, 'wb') as wf:
        wf.setnchannels(channels)
        wf.setsampwidth(p.get_sample_size(format))
        wf.setframerate(rate)
        wf.writeframes(b''.join(frames))

# Función para extraer características MFCC del archivo de audio
def extraer_mfcc(filename="audio_grabado.wav"):
    # Cargar el audio con librosa
    audio, sr = librosa.load(filename, sr=16000)

    # Extraer los coeficientes MFCC
    mfccs = librosa.feature.mfcc(y=audio, sr=sr, n_mfcc=13)

    # Promediar los MFCC a lo largo del tiempo
    mfccs = np.mean(mfccs, axis=1)

    return mfccs

# Función para cargar el modelo y hacer predicción
def predecir_audio(model, mfccs):
    # Convertir las características en un formato adecuado para el modelo
    mfccs_reshaped = mfccs.reshape(1, -1)

    # Hacer la predicción
    prediccion = model.predict(mfccs_reshaped)
    
    return prediccion[0]


# Grabar el audio
grabar_audio(duration=3)  # Graba un audio de 3 segundos

# Extraer las características MFCC del audio grabado
mfccs = extraer_mfcc("audio_grabado.wav")

# Predecir el nombre de la persona a partir del audio grabado
prediccion = predecir_audio(model, mfccs)

# Mostrar el resultado de la predicción
print(f"Predicción del audio grabado: {prediccion}")

Grabando...
Grabación terminada.
Predicción del audio grabado: Cielo


