# Explicación Detallada del Análisis de Componentes Principales (PCA) aplicada al proyecto

### Concepto Clave: ¿Qué hace PCA?

Imagina que tienes muchos datos con 18 columnas (o "dimensiones"). Es imposible ver los patrones. PCA es una técnica que toma todos esos datos y los resume en unas pocas dimensiones nuevas, llamadas **Componentes Principales (PCs)**.

Estas nuevas dimensiones (PC1, PC2, etc.) son como "combinaciones inteligentes" de tus variables originales. PCA las crea de tal forma que:

* El **primer componente principal (PC1)** captura la mayor cantidad de información o "varianza" de tus datos.

* El **segundo componente principal (PC2)** captura la mayor cantidad de varianza restante, y así sucesivamente.

* Cada nuevo componente captura menos información que el anterior.

El objetivo es ver si las primeras 2 o 3 PCs pueden resumir la mayor parte de la información de forma útil, permitiéndonos ver patrones.

### Gráfico 1: Varianza Acumulada Explicada

**¿Qué nos dice este gráfico?**

Este gráfico responde a la pregunta: **"¿Cuánta información pierdo si me quedo solo con un número limitado de componentes?"**

* **Observa el eje Y:** Mide el porcentaje de la varianza total explicada. El `1.0` es el 100% de la información original de tus datos.

* **Observa el eje X:** Muestra cuántos componentes principales estás usando.

* **Observa la línea azul:** La curva sube de forma gradual. Si te fijas, para llegar a la línea roja del 90% (`0.90` en el eje Y), tienes que usar ¡alrededor de 100 componentes!

<center><img src = "img/1.png" width = 600 height = 550></center>

**Interpretación:** La información de tus datos está muy "extendida" en muchas dimensiones. No hay solo dos o tres variables que contengan la mayoría de la información importante. Si te quedas solo con 2 componentes, solo conservas una pequeña porción de la información total.

**Conclusión inicial (incompleta):** Este gráfico nos dice que, desde una perspectiva puramente estadística, reducir tus 18 dimensiones a solo 2 no es una buena representación del 100% de tus datos. Esto podría haber hecho que pensaras que PCA no es útil y que K-Means no funcionaría. **¡Pero hay que ver el siguiente gráfico para tener la historia completa!**

### Gráfico 2: Visualización de los Clientes con PCA (2D)

**¿Qué nos dice este gráfico?**

Este gráfico responde a la pregunta: **"Aunque no conserve el 100% de la información, ¿puedo ver patrones en las dos dimensiones más importantes?"**

* **Observa los ejes:** Son el `Componente Principal 1` y el `Componente Principal 2`.

* **Observa los puntos:** Cada punto es uno de tus clientes. Su posición en el gráfico es un resumen de sus 18 características originales.

<center><img src = "img/2.png" width = 650 height = 550></center>

**Interpretación:** A pesar de que los dos componentes solo capturan una parte pequeña de la varianza total, ¡nos muestran algo increíble! Los clientes no forman una sola nube de puntos, sino que se agrupan en **seis *clusters* muy claros y separados**.

**Conclusión final (la historia completa):** El Gráfico 1 nos dio una "mala noticia" sobre la varianza total, pero el Gráfico 2 nos dio la "buena noticia" que realmente importa para el *clustering*. La información más **relevante para la segmentación** de tus clientes sí se encuentra en los dos primeros componentes principales. Esto significa que la estructura de grupos existe y es lo suficientemente fuerte como para ser detectada incluso en estas dimensiones reducidas.

### Gráfico 3: Visualización de Clientes por Género con PCA (2D)

**¿Qué nos dice este gráfico?**

Este gráfico responde a la pregunta: **"¿Son los *clusters* que veo simplemente una división por género?"**

* **Observa los colores:** Los puntos azules son `Male` (masculino) y los puntos verdes son `Female` (femenino).

* **Observa los *clusters*:** Ves que en cada uno de los seis grupos hay una mezcla de puntos azules y verdes.

<center><img src = "img/3.png" width = 650 height = 550></center>

**Interpretación:** El género es una de las 18 características originales, pero este gráfico demuestra que los grupos no se forman únicamente por esta variable. El modelo está usando otras combinaciones de variables (edad, cantidad de compras, método de pago, etc.) para crear una segmentación más profunda y compleja.

**Conclusión:** El *clustering* que obtendrás será más valioso, ya que identificará patrones de comportamiento de compra que van más allá de una simple división demográfica como el género.