# **PCA**

**PCA (Análisis de componentes principales)**

**_¿Qué es PCA?_**

Definición formal:

El Análisis de Componentes Principales (PCA) **es una técnica estadística que transforma un conjunto de variables correlacionadas en un nuevo conjunto de variables no correlacionadas, denominadas componentes principales, ordenadas según la cantidad de varianza que explican.**

Objetivo principal:

**Encontrar una representación de los datos en un espacio de menor dimensión que conserve la mayor parte de la información (varianza)** presente en el conjunto original.

Idea central:

**Se busca reorientar el espacio de los datos a través de una rotación (definida por los eigenvectores de la matriz de covarianza) de manera que la primera nueva variable (PC1) capture la mayor varianza, la segunda (PC2) la siguiente mayor, y así sucesivamente.**


### Fundamentos Teóricos y Matemáticos

**Centrado de los datos:**

Antes de aplicar PCA, se centra la data restándole la media de cada variable. Esto asegura que la media de cada variable en el nuevo conjunto sea cero, lo cual es esencial para el cálculo correcto de la varianza y la covarianza.

Matriz de covarianza:
La matriz de covarianza cuantifica cómo varían conjuntamente dos variables. Se define para un conjunto de datos centrado como:

![image.png](attachment:image.png)

donde X es la matriz de datos centrada y nnn es el número de observaciones.

**Eigenvalores y eigenvectores:**

Los eigenvectores de C definen las direcciones (o ejes) en las que los datos tienen mayor varianza.

Los eigenvalores indican la cantidad de varianza explicada por cada uno de esos ejes.

La descomposición espectral de C es:

![image.png](attachment:image.png)

donde Vcontiene los eigenvectores y Λ es una matriz diagonal con los eigenvalores.


**Base ortonormal:**

Se normalizan los eigenvectores para formar una base ortonormal, lo que significa que son mutuamente perpendiculares y tienen norma 1. Esto facilita la proyección y la interpretación de la varianza explicada.

### Aplicaciones del PCA

**Reducción de dimensionalidad:**

PCA se usa para disminuir la cantidad de variables manteniendo la mayor parte de la información, lo que es útil para visualización y para mejorar la eficiencia de algoritmos de machine learning.

**Eliminación de ruido:**

Al concentrar la mayor parte de la varianza en pocas componentes, PCA puede ayudar a separar la señal (información relevante) del ruido.

**Preprocesamiento para modelos predictivos:**

Reducir la dimensionalidad puede prevenir el sobreajuste y mejorar la capacidad de generalización de modelos de clasificación o regresión.


**Visualización y exploración:**

Permite representar datos de alta dimensión en espacios 2D o 3D para identificar relaciones, clusters o patrones.

**Análisis de correlación:**

Ayuda a entender cómo se relacionan las variables originales, al ver cuáles se agrupan en los mismos componentes.

### Consideraciones importantes

**Escalado vs. centrado:**

Es crucial decidir si se debe solo centrar o también escalar (normalizar) los datos. Si las variables están en diferentes escalas, es recomendable estandarizarlas (restar la media y dividir por la desviación estándar).

**Interpretación de los componentes:**

Aunque los componentes principales capturan la varianza, interpretar qué representa cada componente puede no ser trivial, ya que son combinaciones lineales de las variables originales.

**Signo arbitrario de los eigenvectores:**

El signo de los eigenvectores es arbitrario (multiplicar por -1 no cambia la dirección). Lo importante es la línea o subespacio que definen.

**Limitaciones:**

PCA es un método lineal y puede no capturar relaciones complejas o no lineales en los datos.

Además, la reducción de dimensionalidad implica pérdida de información, por lo que se debe encontrar un balance adecuado.

**Sensibilidad a outliers:**

Los outliers pueden afectar significativamente la matriz de covarianza y, por ende, los componentes principales. Es importante evaluar la presencia de valores atípicos.

### Selección del número de componentes

**Varianza explicada:**

Se analiza la proporción de varianza que explica cada componente. Generalmente, se eligen suficientes componentes para alcanzar un umbral (por ejemplo, el 90% o 95% de la varianza total).

**Gráfica de codo:**

Al graficar la varianza explicada acumulada frente al número de componentes, se busca el "codo" en la curva, que indica el punto a partir del cual agregar componentes adicionales tiene rendimientos decrecientes.

**Balance entre complejidad e información:**

Seleccionar menos componentes simplifica el modelo y mejora la interpretabilidad, pero puede sacrificar información relevante.


# **Clustering**

**Clustering** (en español: agrupamiento) es una técnica de machine learning no supervisado que sirve para agrupar cosas parecidas.

Imagina que tienes una caja con botones de diferentes colores y tamaños. Nadie te dice qué tipos hay, pero tú decides organizarlos: los pones en montones según su color y tamaño. Eso es clustering.

¿Para qué sirve?

Agrupar clientes con hábitos de compra similares.

Detectar comunidades en redes sociales.

Identificar patrones en datos sin etiquetas.

Segmentar imágenes (por colores, por ejemplo).

Agrupar ciudades por clima, población, etc.

¿Cómo lo hace?

Un algoritmo de clustering mide qué tan parecidos son los datos. Los que se parecen, los pone en el mismo grupo.

Por ejemplo:

Si tienes personas con altura y peso, el algoritmo puede agruparlas en:

Grupo 1: bajos y delgados

Grupo 2: altos y musculosos

Grupo 3: medianos

Algoritmos populares

**K-means**: El más conocido. Le dices cuántos grupos quieres, y él los forma.

**DBSCAN**: Detecta grupos y también puntos raros (outliers).

**Hierarchical clustering**: Agrupa de forma jerárquica, como un árbol.

¿Qué se necesita?

Un conjunto de datos con varias características (por ejemplo: edad, ingresos, etc.).

Elegir qué algoritmo usar.

Elegir cuántos grupos quieres (a veces se adivina, a veces se calcula con ayuda del "codo").

Se le llama “clustering” a la **formación de grupos o agrupaciones entre muestras o entre variables.**

Los “clusters” **son formados por datos que cumplen una condición de agrupación definida en función de la distancia o una similitud.**

Cuando se elige una distancia como medidad de asociación los grupos formados contendrán individuos parecidos de forma que la distancia entre ellos tiene que ser la menor posible.

Cuando se **elige la similitud (por ejemplo los coeficientes de correlación)** como medidad de asociación los grupos formados contendrán los individuos parecidos de forma que la similaridad entre ellos sea la máxima posible.

**Los agrupamientos no siempre serán los mismos, ya que depende del tipo de dato y también depende del tipo de índice de similitud.**

El análisis de cluster se clasifica en **jerárquicos y no jerárquicos**

![image.png](attachment:image.png)

![image.png](attachment:image.png)

**¿Qué es Single Linkage?**

Es una forma de agrupar donde la distancia entre dos grupos se define como la distancia entre los dos puntos más cercanos, uno de cada grupo.

Los puntos se agrupan primero con sus vecinos más cercanos.

El dendrograma te muestra en qué orden se agrupan los puntos y cuánto se parecen.

Puedes "cortar" el dendrograma a cierta altura para decidir cuántos grupos quieres.

Single linkage

 La interpretación puede ser realizada también por medio dedendrogramas.

 Son estructuras con forma de árbol que sirven para visualizar agrupaciones o relaciones entre variables.

![image.png](attachment:image.png)

**K-Means**

 Método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano.

 Parte de medias arbitrarias.

 Determina el centroide usando el método de la distancia Euclideana