# Introducción

En Machine Learning, muchas veces trabajamos con bases de datos que tienen muchas variables. Esto se conoce como alta dimensionalidad. Pero tener muchas variables puede traer problemas:

- El modelo puede aprender demasiado los datos de entrenamiento (sobreajuste).

- El cálculo se vuelve más lento y costoso.

- Algunas variables pueden estar diciendo lo mismo (redundancia).

Solución: Usamos técnicas de "reducción de dimensionalidad" para simplificar los datos sin perder demasiada información.

# Teoría de Reducción de Dimensionalidad

## ¿Qué es la reducción de dimensionalidad?

Es un proceso para reducir el número de variables (tambien llamadas "características") en un conjunto de datos, manteniendo la mayor cantidad posible de información importante.

Imagina que tienes una tabla con 20 columnas (variables). El objetivo de estas técnicas es transformarlas en 2, 3 o 5 nuevas columnas que sean representaciones de las anteriores, pero que capturen lo más importante.

### Tipos de técnicas

- Análisis de Componentes Principales (ACP o PCA): Para variables cuantitativas (números).

- Análisis de Correspondencias Múltiples (ACM o MCA): Para variables cualitativas (categóricas).
 ---

# Análisis de Componentes Principales (ACP o PCA)

### Objetivo del ACP

Reducir el número de variables cuantitativas originales generando nuevas variables llamadas "componentes principales". Estas componentes son:

- Combinaciones lineales de las variables originales.

- No correlacionadas entre sí (ortogonales).

- Ordenadas según la cantidad de varianza que explican.

## Paso 1: Normalización de datos (estandarización) de los datos

Supongamos que tienes 3 variables: Ingreso, Edad y Gasto. Si no estandarizamos:

- Ingreso puede estar entre 0 y 10.000

- Edad entre 0 y 100

- Gasto entre 0 y 3.000

Como los rangos son distintos, la variable con más escala dominará el ACP.


### Ecuación para estandarizar:

$$
Z_{ij} = \frac{X_{ij} - \bar{X}_j}{s_j}
$$

Donde:

- $X_{ij}$: valor original del individuo $i$ en la variable $j$.
- $\bar{X}_j$: promedio de la variable $j$.
- $s_j$: desviación estándar de la variable $j$.
- $Z_{ij}$: valor estandarizado. Tendrá media 0 y desviación estándar 1.


Normalización: 
[Google](https://developers.google.com/machine-learning/crash-course/numerical-data/normalization?hl=es-419)
[Microsoft](https://learn.microsoft.com/es-es/azure/machine-learning/component-reference/normalize-data?view=azureml-api-2)


## Paso 2: Calcular matriz de covarianzas o de correlaciones

Una vez estandarizados los datos, se calcula una matriz que muestra cuánta relación hay entre cada par de variables.

Ecuación

$$
\mathbf{S} = \frac{1}{n - 1} \mathbf{Z}^T \mathbf{Z}
$$

Donde:

- $\mathbf{Z}$: matriz de datos estandarizados (filas = individuos, columnas = variables).
- $\mathbf{S}$: matriz de covarianza si usamos los valores reales, o matriz de correlación si están estandarizados.

## Paso 3: Calcular autovalores y autovectores

- **Autovalores** ($\lambda$): indican cuánta varianza explica cada componente.
- **Autovectores** ($\mathbf{v}$): indican cómo combinar las variables originales para formar los nuevos componentes.

Se resuelve:

$$
\mathbf{S} \mathbf{v} = \lambda \mathbf{v}
$$

Esto da lugar a tantos componentes como variables originales, pero normalmente solo usamos los que explican la mayor parte de la varianza.


## Paso 4: Calcular los componentes principales

Cada componente es una combinación lineal:

$$
\text{CP}_k = z_1 v_{1k} + z_2 v_{2k} + \dots + z_p v_{pk}
$$

Es decir, multiplicamos cada variable estandarizada $z_j$ por su coeficiente en el autovector $v_{jk}$.

Se obtienen nuevas variables: CP1, CP2, ..., CP$_k$.

## Paso 5: Evaluar la calidad del ACP

1. **Varianza explicada**

$$
\text{Varianza explicada} = \frac{\lambda_k}{\sum_{j=1}^p \lambda_j}
$$

Se interpreta como: "El porcentaje de la información total que representa ese componente".

2. **Varianza acumulada**  
Suma de las varianzas explicadas por los primeros componentes.  
Por ejemplo, si CP1 y CP2 explican juntos el 85% de la varianza, entonces podemos usar solo ellos.

3. **Scree plot**  
Gráfico de los autovalores ordenados. Buscamos el "codo" (el punto donde la varianza deja de ser importante).

4. **Contribuciones**  
- **De variables**: Cuánto aporta cada variable a cada componente.  
- **De individuos**: Cuánto representa un individuo dentro del componente.

# Análisis de Correspondencias Múltiples (ACM / MCA)

¿Cuándo usar ACM?

Cuando nuestras variables son categóricas (no numéricas). Ejemplo:

- Sexo: Hombre / Mujer

- Ciudad: Bogotá / Medellín / Cali

- Producto: A / B / C

## Paso 1: Convertir a variables dummies

Creamos una columna por cada categoría posible. Por ejemplo:

- Sexo:

        Hombre → [1, 0]

        Mujer → [0, 1]

- Ciudad:

        Bogotá → [1, 0, 0]

        Medellín → [0, 1, 0]

        Cali → [0, 0, 1]

Esto crea una matriz binaria llamada "matriz disyuntiva completa".

### Paso 2: Cálculo de perfiles y distancias

Se calcula la proporción de veces que aparece cada categoría en cada fila (individuo).

La **distancia entre dos individuos** se basa en la diferencia en sus perfiles. Se calcula así:

$$
d^2(i, i') = \sum_{j} \frac{1}{f_j} (x_{ij} - x_{i'j})^2
$$

Donde:

- $f_j$: frecuencia de la categoría $j$.
- $x_{ij}$: valor binario (0 o 1) del individuo $i$ en la categoría $j$.

## Paso 3: Descomposición en valores singulares (SVD)

Se aplica la misma idea que en el Análisis de Componentes Principales (ACP), pero sobre los **perfiles**.

$$
\mathbf{X} = \mathbf{U} \mathbf{D} \mathbf{V}^T
$$

- $\mathbf{D}$: matriz diagonal que contiene las "inertias" o varianzas explicadas.

## Paso 4: Evaluación del ACM

**Inercia**

- Es el equivalente a la **varianza** en PCA.
- Mide la **dispersión global** de los perfiles de individuos o categorías.
- Se basa en la **distancia chi-cuadrado**.

Fórmula:

$$
\text{Inercia total} = \frac{\chi^2}{n}
$$

- $\chi^2$: estadístico de chi-cuadrado global de la tabla.
- $n$: número total de observaciones.

> **Interpretación**: Mayor inercia implica relaciones más fuertes entre categorías.


** 2. % de Inercia Explicada**

- Mide **cuánta información** aporta cada eje factorial.
- Ayuda a decidir **cuántos ejes conservar** para representar los datos.

**Fórmula:**

$$
\% \text{Inercia explicada} = \frac{\lambda_k}{\sum \lambda} \times 100
$$

- $\lambda_k$: inercia del eje $k$ (autovalor).
- $\sum \lambda$: inercia total.

> Se visualiza en un gráfico de sedimentación (**scree plot**).


**3. Coordenadas Principales**

- Representan la **nueva posición** de individuos o categorías en los ejes.

**Fórmulas** (con SVD de la matriz centrada):

- Individuos:
  $$
  \mathbf{F} = \mathbf{U} \cdot \boldsymbol{\Sigma}
  $$
- Categorías:
  $$
  \mathbf{G} = \mathbf{V} \cdot \boldsymbol{\Sigma}
  $$

> Útiles para **visualizar asociaciones** y detectar agrupaciones en planos factoriales.

**4. Contribuciones**

- Indican **cuánto aporta** cada individuo o categoría a la construcción de un eje.

**Fórmula:**

$$
\text{CTR}_{ik} = \frac{f_i \cdot F_{ik}^2}{\lambda_k}
$$

- $f_i$: masa (frecuencia relativa) del individuo $i$.
- $F_{ik}$: coordenada del individuo en el eje $k$.
- $\lambda_k$: inercia del eje.

> Valores altos indican **elementos representativos del eje**.


