# **ICA**

En ciencia de datos, el análisis de componentes independientes (ICA) es una técnica de reducción de dimensionalidad que se utiliza para transformar un conjunto de datos de muchas variables en un conjunto de datos de pocas variables. El ICA es similar al PCA, pero se centra en la extracción de componentes que son independientes entre sí, en lugar de componentes que capturan la mayor cantidad de varianza posible.

El ICA se basa en la idea de que las variables en un conjunto de datos a menudo están correlacionadas entre sí, pero no necesariamente de forma lineal. El ICA encuentra una nueva base de variables, llamada componentes independientes, que son linealmente independientes entre sí. Cada componente independiente es una combinación lineal de las variables originales, y está diseñado para capturar la mayor cantidad de independencia posible entre las variables.

El ICA se utiliza en una variedad de aplicaciones de ciencia de datos, incluyendo:

- Visualización: El ICA se puede utilizar para visualizar conjuntos de datos de alta dimensionalidad. Al proyectar los datos en un espacio de dos o tres dimensiones, el ICA puede ayudar a los científicos de datos a identificar patrones y tendencias que no serían visibles en el conjunto de datos original.

- Aprendizaje automático: El ICA se puede utilizar para mejorar el rendimiento de los modelos de aprendizaje automático. Al reducir la dimensionalidad de los datos, el ICA puede ayudar a los modelos a aprender patrones más fácilmente y a generalizar mejor a nuevos datos.

- Preprocesamiento de datos: El ICA se puede utilizar para preparar los datos para su análisis posterior. Al eliminar las variables redundantes o irrelevantes, el ICA puede ayudar a mejorar la precisión y la eficiencia de los algoritmos de análisis de datos.

Un ejemplo de cómo se puede utilizar el ICA en ciencia de datos es el análisis de las características de los vinos. Un conjunto de datos de vinos podría incluir variables como el contenido de alcohol, el pH, el contenido de azúcar y el color. El ICA podría utilizarse para reducir estas variables a un número más manejable, como dos o tres componentes independientes. Estos componentes independientes podrían representar la calidad del vino, el tipo de vino o la región de producción.

El ICA es una herramienta poderosa que puede ser utilizada en una variedad de aplicaciones de ciencia de datos. Al reducir la dimensionalidad de los datos, el ICA puede ayudar a los científicos de datos a identificar patrones y tendencias, mejorar el rendimiento de los modelos de aprendizaje automático y preparar los datos para su análisis posterior.

Diferencias entre PCA e ICA

- El PCA y el ICA son dos técnicas de reducción de dimensionalidad, pero tienen algunas diferencias clave. El PCA se centra en la extracción de componentes que capturan la mayor cantidad de varianza posible en el conjunto de datos. El ICA se centra en la extracción de componentes que son independientes entre sí.

- En términos prácticos, esto significa que el PCA puede ser mejor para la visualización de datos, mientras que el ICA puede ser mejor para el aprendizaje automático. El PCA también es generalmente más fácil de implementar que el ICA.

## Ventajas del ICA

El ICA tiene algunas ventajas sobre el PCA, incluyendo:

- Capacidad para extraer componentes independientes: El ICA es capaz de extraer componentes que son independientes entre sí, lo que puede ser útil para el aprendizaje automático y el preprocesamiento de datos.

- Resistencia a los datos ruidosos: El ICA es más resistente a los datos ruidosos que el PCA.

- Mayor flexibilidad: El ICA es más flexible que el PCA, ya que no requiere que las variables estén correlacionadas linealmente.

## Desventajas del ICA

El ICA también tiene algunas desventajas, incluyendo:

- Dificultad de implementación: El ICA puede ser más difícil de implementar que el PCA.

- Bajo rendimiento en la visualización: El ICA puede no ser tan bueno como el PCA para la visualización de datos.

- En general, el ICA es una técnica de reducción de dimensionalidad poderosa que puede ser utilizada en una variedad de aplicaciones de ciencia de datos.




In [None]:
import matplotlib as plt
import numpy as np
import pylab as pl
from sklearn.decomposition import FastICA
import warnings
warnings.filterwarnings("ignore")
plt.rcParams['figure.figsize'] = [12, 12]

In [None]:
###############################################################################
# Generate sample data
np.random.seed(0)
n_samples = 2000
time = np.linspace(0, 10, n_samples)
s1 = np.sin(2 * time)  # Signal 1 : sinusoidal signal
s2 = np.sign(np.sin(3 * time))  # Signal 2 : square signal
S = np.c_[s1, s2]
S += 0.2 * np.random.normal(size=S.shape)  # Add noise

S /= S.std(axis=0)  # Standardize data
# Mix data
A = np.array([[1, 1], [0.5, 2]])  # Mixing matrix
X = np.dot(S, A.T)  # Generate observations
# Compute ICA
ica = FastICA()
S_ = ica.fit(X).transform(X)  # Get the estimated sources
A_ = ica.mixing_  # Get estimated mixing matrix
#assert np.allclose(X, np.dot(S_, A_.T))

###############################################################################
# Plot results
pl.figure()
pl.subplot(3, 1, 1)
pl.plot(S)
pl.title('True Sources')
pl.subplot(3, 1, 2)
pl.plot(X)
pl.title('Observations (mixed signal)')
pl.subplot(3, 1, 3)
pl.plot(S_)
pl.title('ICA estimated sources')
pl.subplots_adjust(0.09, 0.04, 0.94, 0.94, 0.26, 0.36)
pl.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import signal

from sklearn.decomposition import FastICA, PCA

# #############################################################################
# Generate sample data
np.random.seed(0)
n_samples = 2000
time = np.linspace(0, 8, n_samples)

s1 = np.sin(2 * time)  # Signal 1 : sinusoidal signal
s2 = np.sign(np.sin(3 * time))  # Signal 2 : square signal
s3 = signal.sawtooth(2 * np.pi * time)  # Signal 3: saw tooth signal

S = np.c_[s1, s2, s3]
S += 0.2 * np.random.normal(size=S.shape)  # Add noise

S /= S.std(axis=0)  # Standardize data
# Mix data
A = np.array([[1, 1, 1], [0.5, 2, 1.0], [1.5, 1.0, 2.0]])  # Mixing matrix
X = np.dot(S, A.T)  # Generate observations

# Compute ICA
ica = FastICA(n_components=3)
S_ = ica.fit_transform(X)  # Reconstruct signals
A_ = ica.mixing_  # Get estimated mixing matrix

# We can `prove` that the ICA model applies by reverting the unmixing.
assert np.allclose(X, np.dot(S_, A_.T) + ica.mean_)

# #############################################################################
# Plot results

plt.figure()

models = [X, S, S_]
names = ['Observations (mixed signal)',
         'True Sources',
         'ICA recovered signals']
colors = ['red', 'steelblue', 'orange']

for ii, (model, name) in enumerate(zip(models, names), 1):
    plt.subplot(3, 1, ii)
    plt.title(name)
    for sig, color in zip(model.T, colors):
        plt.plot(sig, color=color)

plt.tight_layout()
plt.show()