# Análisis de Componente Independiente en Audio para pasar a Texto

El propósito de éste ejercicio es resolver el llamado problema de la fiesta (cocktail party problem), en donde se tienen varias personas hablando a la vez en una sala y se trata de identificar la voz de cada una, para poder realizar una transcripción de lo que se dice. Empecemos por obtener el audio:

### Audio data

In [1]:
import numpy as np
import IPython.display as ipd
import librosa
import librosa.display

In [2]:
x1, sr1 = librosa.load('data/1.wav', mono=True)
ipd.Audio(x1, rate=sr1)

In [3]:
x2, sr2 = librosa.load('data/2.wav', mono=True)
ipd.Audio(x2, rate=sr2)

In [4]:
x3, sr3 = librosa.load('data/3.wav', mono=True)
ipd.Audio(x3, rate=sr3)

In [5]:
min(len(x1), len(x2), len(x3))

39730

In [6]:
x1=x1[:39730]
x2=x2[:39730]
x3=x3[:39730]

In [7]:
mix=np.c_[x1,x2,x3]

A=np.array([[1, 1, 1], [0.5, 2, 1.0], [1.5, 1.0, 2.0]]) 

X=np.dot(mix, A)

sr_mix=int((sr1+sr2+sr3)/3)


ipd.Audio((x1+x2+x3)/3, rate=sr_mix)

In [8]:
librosa.output.write_wav('data/mix.wav', np.asfortranarray(X), sr_mix)

In [9]:
x, sr = librosa.load('data/mix.wav', mono=True)
ipd.Audio(x, rate=sr)

Ahora tenemos una señal con 3 voces. Vamos a separarlas con ICA y después vamos a sacar la transcripción...

### ICA (analisis de componente independiente)

In [10]:
from sklearn.decomposition import FastICA

In [11]:
y=np.c_[x, x, x]

A=np.array([[1, 1, 1], [0.5, 2, 1.0], [1.5, 1.0, 2.0]]) 

y=np.dot(y, A)

In [12]:
ica=FastICA(n_components=3, max_iter=6000, tol=1e-6)
S=ica.fit_transform(X)

In [13]:
S.shape

(39730, 3)

In [14]:
ipd.Audio(S.T[2], rate=sr)

In [17]:
ipd.Audio(X.T[0], rate=sr)