Principal componente analysis

In [None]:
from sklearn.decomposition import PCA
import numpy as np
import matplotlib.pyplot as plt

# Creamos datos de ejemplo (puedes usar los tuyos)
# En este caso, generamos una matriz de datos con 3 variables y 100 observaciones
np.random.seed(123)
X = np.random.randn(100, 3)

# Aplicar PCA
pca = PCA(n_components=2, whiten=True)  # Queremos reducir a 2 componentes principales
# whiten True var = 1
X_pca = pca.fit_transform(X)

# Mostrar la cantidad de varianza explicada por cada componente
print("Varianza explicada por cada componente:", pca.explained_variance_ratio_)
print("Valores propios de cada componente:", pca.explained_variance_)
# Graficar los datos en el espacio reducido de los componentes principales
plt.scatter(X_pca[:, 0], X_pca[:, 1])
plt.title('PCA: Primeras dos componentes principales')
plt.xlabel('Componente principal 1')
plt.ylabel('Componente principal 2')
plt.show()

# print("Datos proyectados (nueva representación):", X_pca) #scores

print("Componentes principales (vectores de dirección):", pca.components_)

# Adicionar gráfico de barras para un autovector específico (primer componente principal)
autovector = pca.components_[1]  # Seleccionamos el primer autovector

# Crear gráfico de barras para mostrar los valores del primer componente principal
plt.bar(range(len(autovector)), autovector, color='b', alpha=0.7)
plt.xlabel('Índice de Variable Original')
plt.ylabel('Valor del Autovector (Componente Principal)')
plt.title('Valores del Primer Componente Principal (Autovector)')
plt.xticks(range(len(autovector)), ['Var1', 'Var2', 'Var3'])  # Nombres opcionales de las variables originales
plt.show()

Factor Analisis

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import FactorAnalysis

# Creamos datos de ejemplo
# Aquí se genera una matriz con 100 observaciones y 5 variables
np.random.seed(42)
X = np.random.normal(size=(100, 5))

# Aplicar Análisis Factorial para reducir la dimensionalidad a 2 factores
fa = FactorAnalysis(n_components=2)
X_fa = fa.fit_transform(X)

# Graficar el resultado del análisis factorial
plt.scatter(X_fa[:, 0], X_fa[:, 1])
plt.xlabel('Factor 1')
plt.ylabel('Factor 2')
plt.title('Análisis Factorial (2 Factores)')
plt.show()

# Mostrar los factores obtenidos (cargas factoriales)
print("Cargas factoriales (coeficientes de los factores):\n", fa.components_)


Independent component analysis

In [None]:
import numpy as np
from sklearn.decomposition import FastICA
import matplotlib.pyplot as plt

f = 5  # frecuencia senoide
fs = 50  # frecuencia de muestreo
ta = 1/fs
t = np.arange(0, 1, ta)  # vector de tiempo corregido

# Señal senoide
s1 = np.sin(2 * np.pi * f * t)

# Ruido Gaussiano
a = 0.5  # Define un valor para la amplitud del ruido
s6 = np.random.randn(len(t)) * a

# Señal compuesta
s7 = s1 + s6

# Concatenación de señales
s = np.vstack((s1, s7))  # Mejor usar vstack para concatenar señales en diferentes filas

# Transponer la matriz de señales
S1 = np.transpose(s)

# Matriz de mezcla
M = np.array([[-1, 3], [2, 5]])

# Mezcla de señales
X = np.dot(S1, M.T)  # Multiplicación matricial con np.dot

# Aplicar FastICA
ica = FastICA(n_components=2)
S = ica.fit_transform(X)  # Señales recuperadas por ICA

# Graficar
plt.subplot(3, 2, 1)
plt.plot(t, X[:, 0]) 
plt.title('Mezcla 1')

plt.subplot(3, 2, 2)
plt.plot(t, X[:, 1]) 
plt.title('Mezcla 2')

plt.subplot(3, 2, 3)
plt.plot(t, S[:, 0])
plt.title('Recuperado 1')

plt.subplot(3, 2, 4)
plt.plot(t, S[:, 1])
plt.title('Recuperado 2')

plt.subplot(3, 2, 5)
plt.plot(t, S1[:, 0])
plt.title('Original 1')
plt.xlabel("Tiempo")

plt.subplot(3, 2, 6)
plt.plot(t, S1[:, 1])
plt.title('Original 2')
plt.xlabel("Tiempo")
plt.show()


Sparse coding

In [None]:
import numpy as np
from sklearn.decomposition import DictionaryLearning

# Generamos un banco de datos de ejemplo
# Creamos una matriz de datos X con muestras aleatorias
rng = np.random.RandomState(42)
X = rng.randn(100, 64)  # 100 muestras con 64 características cada una

# Aplicamos Sparse Coding (Dictionary Learning)
dict_learner = DictionaryLearning(n_components=32, transform_algorithm='lasso_lars', transform_alpha=0.1, random_state=0)
X_sparse = dict_learner.fit_transform(X)

# Mostramos el diccionario aprendido y las representaciones sparse de los datos
dictionary = dict_learner.components_  # Diccionario aprendido
print("Diccionario aprendido (shape):", dictionary.shape)
print("Datos esparcidos (shape):", X_sparse.shape)

Non negative matrix factorization 

In [None]:
from sklearn.decomposition import NMF

# Crear datos de ejemplo no negativos
# Generamos una matriz de datos positivos (por ejemplo, representando intensidad)
X_nonneg = np.abs(np.random.normal(size=(100, 5)))

# Aplicar NMF para descomponer la matriz en dos matrices de menor dimensión
nmf = NMF(n_components=2, random_state=42)
W = nmf.fit_transform(X_nonneg)  # Matriz de características latentes
H = nmf.components_              # Matriz de pesos

# Mostrar las matrices de la descomposición
print("Matriz W (Combinación lineal de los componentes):\n", W)
print("\nMatriz H (Componentes latentes):\n", H)

# Graficar la combinación lineal de los componentes
plt.scatter(W[:, 0], W[:, 1])
plt.xlabel('Componente Latente 1')
plt.ylabel('Componente Latente 2')
plt.title('Factorización No Negativa de Matrices (NMF)')
plt.show()


KNN imputation

In [None]:
import numpy as np
import pandas as pd
from sklearn.impute import KNNImputer

# Datos de ejemplo
data = {
    'age': [25, 30, 35, np.nan, 45],
    'salary': [50000, 60000, np.nan, 80000, 100000],
    'experience': [1, 3, np.nan, 7, 9]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Inicializar el imputador KNN con 2 vecinos
imputer = KNNImputer(n_neighbors=1)

# Imputar los valores faltantes
df_imputed = imputer.fit_transform(df)

# Convertir el resultado imputado de nuevo a DataFrame
df_imputed = pd.DataFrame(df_imputed, columns=df.columns)

# Mostrar el resultado
print(df)
print(df_imputed)
