# Análisis de Componente Independiente en Audio para pasar a Texto

El propósito de éste ejercicio es resolver el llamado problema de la fiesta (cocktail party problem), en donde se tienen varias personas hablando a la vez en una sala y se trata de identificar la voz de cada una, para poder realizar una transcripción de lo que se dice. Empecemos por obtener el audio:

### Audio data

In [1]:
import numpy as np
import IPython.display as ipd
import librosa
import librosa.display

In [2]:
x1, sr1 = librosa.load('data/1.wav', mono=True)
ipd.Audio(x1, rate=sr1)

In [3]:
x2, sr2 = librosa.load('data/2.wav', mono=True)
ipd.Audio(x2, rate=sr2)

In [4]:
x3, sr3 = librosa.load('data/3.wav', mono=True)
ipd.Audio(x3, rate=sr3)

In [5]:
min(len(x1), len(x2), len(x3))

39730

In [6]:
x1=x1[:39730]
x2=x2[:39730]
x3=x3[:39730]

In [7]:
mix=np.c_[x1,x2,x3]

A=np.array([[1, 1, 1], [0.5, 2, 1.0], [1.5, 1.0, 2.0]]) 

X=np.dot(mix, A)

sr_mix=int((sr1+sr2+sr3)/3)


Ahora tenemos 3 señales con 3 voces, como si hubieramos grabado con 3 micros.

In [8]:
ipd.Audio(X.T[0], rate=sr_mix)

In [9]:
ipd.Audio(X.T[1], rate=sr_mix)

In [11]:
ipd.Audio(X.T[2], rate=sr_mix)

Vamos a separarlas con ICA y después vamos a sacar la transcripción...

### ICA (analisis de componente independiente)

In [12]:
from sklearn.decomposition import FastICA

import speech_recognition as sr
r = sr.Recognizer()

In [34]:
ica=FastICA(n_components=3, max_iter=2000, tol=1e-6)
S=ica.fit_transform(X)

In [14]:
S.shape

(39730, 3)

In [33]:
print ('Voz 1')
display(ipd.Audio(S.T[2], rate=sr_mix))
librosa.output.write_wav('data/voz1.wav', S.T[0], sr_mix)

import speech_recognition as sr
r = sr.Recognizer()

hellow=sr.AudioFile('data/3.wav')
with hellow as source:
    audio = r.record(source)
try:
    s = r.recognize_google(audio)
    print("Text: "+s)
except Exception as e:
    print("Exception: "+str(e))

Voz 1


Text: you've been a very good boy


In [26]:
import speech_recognition as sr
r = sr.Recognizer()

hellow=sr.AudioFile('data/1.wav')
with hellow as source:
    audio = r.record(source)
try:
    s = r.recognize_google(audio)
    print("Text: "+s)
except Exception as e:
    print("Exception: "+str(e))

Text: you're funny you're funny
