# <font color="#3A40A2">📘 4. Reducción de dimensionalidad</font>

**Materia: Ciencia de Datos aplicada a los Negocios - Universidad de San Andrés**

**Autor: [Lucas BALDEZZARI](https://www.linkedin.com/in/lucasbaldezzari/)**

**2025**

> Este material es para fines educativos y no debe ser utilizado para fines comerciales. El contenido pertenece a la *Universidad de San Andrés* y no debe ser reproducido sin el permiso explícito de la institución y del autor de este repositorio quien es [LUCAS BALDEZZARI](https://www.linkedin.com/feed/).

---



## <font color="#004eb3">Temas de la Colab</font>

Para esta clase, los temas que veremos son:

- Aplicaciones de PCA y LDA para entender los fundamentos de funcionamiento cada algoritmo y la importancia de la reducción de dimensionalidad.
- Entender de manera intuitiva, sin necesidad de profundizar en la matemática detrás de cada técnica.
- Entender las diferencias clave entre PCA y LDA, y cómo

Es importante prestar atención a los siguientes íconos o emojis que aparezcan a lo largo de la Colab.

- 📘 **Teoría**: Conceptos teóricos.
- 📚 **Lectura**: Material adicional que puedes consultar para profundizar en el tema.
- 📊 **Ejemplo**: Ejemplo para demostrar y/o reforzar conceptos.
- 🔗 **Enlace**: Recursos externos que puedes visitar para obtener más información.
- ❓ **Pregunta**: Preguntas disparadas a lo largo del contenido para reflexionar sobre los ejemplos y conceptos tratados.
- 💻 **Código**: Indica que la celda de abajo es una celda con código y debe ser ejecutada para ver su contenido.

## 📘 <font color="#00b351">1. Reducción de dimensionalidad</font>

La reducción de dimensionalidad es una técnica utilizada en el aprendizaje automático y ciencia de datos **para reducir el número de variables bajo consideración**, y puede ser dividida en dos tipos: reducción de características y reducción de muestras.

La diferencia entre ambos radica en el enfoque: la reducción de características se centra en seleccionar un subconjunto de las características originales, mientras que la reducción de muestras implica trabajar con un subconjunto de las instancias de datos.

En lo que respecta a la reducción de características, las técnicas de reducción de dimensionalidad nos ayudan a disminuir las dimensiones de los datos a la vez que nos permiten preservar información relevante.

En este curso aprenderemos sobre las técnicas y métodos más comunes para la reducción de dimensionalidad para el caso de reducción de características.

Los objetivos principales de la reducción de dimensionalidad podrían resumirse en los siguentes puntos:

- **Mejora del rendimiento y el entrenamiento del modelo**: Reducir el número de dimensiones puede simplificar los modelos, lo que conduce a un entrenamiento más rápido y una mejor generalización al minimizar el ruido y las características irrelevantes o poco relevantes.
- **Reduce los costes computacionales y de almacenamiento**: Un menor número de dimensiones requiere menos memoria y tiempo de procesamiento, lo que hace que los algoritmos de aprendizaje automático sean más eficientes y factibles para grandes conjuntos de datos.
- **Mejora la visualización de datos**: Los datos de alta dimensión son difíciles de visualizar; la reducción de dimensión los transforma en un espacio de menor dimensión, lo que permite una exploración y comprensión más fáciles de los patrones.
- **Aborda la maldición de la dimensionalidad**: A medida que aumenta el número de características, los datos se vuelven más dispersos, lo que lleva a una degradación del rendimiento. La reducción de dimensión combate esto creando representaciones más compactas.
- **Elimina la información redundante e irrelevante**: Las técnicas de reducción de dimensión identifican y separan la información esencial de las características redundantes o ruidosas, centrándose en las características más destacadas de los datos.
- **Simplifica la complejidad de los datos**: Al representar los datos con menos características, pero más informativas, se reduce la complejidad general del conjunto de datos, lo que facilita el análisis y la interpretación.

## 📘 <font color="#00b351">2. Análisis de Componentes Principales o PCA</font>

El Análisis de Componentes Principales (PCA por sus siglas en inglés) es una técnica de reducción de dimensionalidad que busca transformar un conjunto de variables posiblemente correlacionadas en un conjunto de variables no correlacionadas, llamadas *Componentes Principales*. Estos componentes principales son combinaciones lineales de las variables originales y se ordenan de tal manera que el primer componente retiene la mayor parte de la variabilidad presente en los datos, el segundo componente retiene la segunda mayor cantidad de variabilidad, y así sucesivamente.

### ¿Cómo funciona el PCA?

1. **Estandarización**: Se estandarizan las características para que tengan media cero y varianza uno. Esto es importante porque PCA es sensible a la escala de los datos.
2. **Covarianza**: Se calcula la matriz de covarianza para entender cómo varían las características entre sí.
3. **Valores y vectores propios**: Se obtienen los valores y vectores propios de la matriz de covarianza. Los vectores propios representan las direcciones de máxima varianza, mientras que los valores propios indican la cantidad de varianza en esas direcciones.
4. **Selección de componentes**: Se seleccionan los primeros k vectores propios (componentes principales) que retienen la mayor parte de la varianza.
5. **Proyección**: Finalmente, se proyectan los datos originales en el nuevo espacio definido por los componentes principales seleccionados.

### Ventajas del PCA

- **Reducción de dimensionalidad**: PCA permite reducir el número de características manteniendo la mayor parte de la información.
- **Eliminación de ruido**: Al centrarse en las direcciones de mayor varianza, PCA puede ayudar a eliminar el ruido presente en los datos.
- **Visualización**: Facilita la visualización de datos de alta dimensión al reducirlos a 2 o 3 dimensiones.

### Desventajas del PCA

- **Pérdida de información**: Aunque PCA busca preservar la varianza, siempre hay una pérdida de información al reducir dimensiones.
- **Interpretabilidad**: Los componentes principales son combinaciones lineales de las características originales, lo que puede dificultar la interpretación de los resultados.


💻 Importando librerías 💻

Primero, vamos a importar todas las librerías necesarias. Por favor, ejecuta la celda de código de abajo.

In [None]:
## **** CÓDIGO PYTHON ****

##Clonamos el repositorio para poder usar las funciones
## Esperar unos segundos hasta ver un 100% de descarga
# !git clone https://github.com/lucasbaldezzari/cdan.git

##importamos las funciones a usar
from funciones.dimension_reduction import *
# from funciones.utils import * ##importo funciones a usar

#### 📘 <font color="#00b351">2.1 Intepretando proyecciones en PCA</font>

Lo que debemos entender es que PCA busca *ejes*, también llamados *componentes* que captan la **varianza** en los datos. Estos ejes son direcciones en el espacio de características que maximizan la variabilidad de los datos proyectados en ellos.

In [None]:
plotPCAExamples(figsize=(15,5),n_points=100,std1=1.2,std2=0.2,scalepc1=0.5,scalepc2=1.8,show_labels=False)

📘

En el ejemplo anterior se puede observar que pareciera que hay una relación entre $x_1$ y $x_2$. Además, se puede observar el antes y el después de aplicar PCA. Debemos entender que que la transformación que hace PCA no modifica los datos originales, sino que crea una nueva representación de los datos en un nuevo espacio de características. A su vez, cada componente principal es una combinación lineal de las características originales lo cual tiene ventajas y desventajas.

Como ventaja podemos decir que al combinar características, PCA puede capturar patrones subyacentes en los datos que no son evidentes en las características originales. Sin embargo, como desventaja, esta combinación lineal puede dificultar la interpretación de los componentes principales, ya que no corresponden directamente a las características originales.

Debido a que cada componente principal es una combinación lineal de las características originales, podemos tomar menos componentes principales que características originales, lo cual es una ventaja en términos de reducción de dimensionalidad.

📘

### 📊 **<font color="#d6b302">2.2 Aplicando PCA para visualizar datos</font>**

En este primer ejemplo utilizaremos el set de datos conocido como MNIST.

El MNIST es un conjunto de datos que contiene imágenes de dígitos manuscritos (del 0 al 9) y es ampliamente utilizado para entrenar y evaluar modelos de aprendizaje automático.

Los datos de MNIST consisten en $60000$ imágenes de entrenamiento y $10000$ imágenes de prueba, cada una de las cuales es una imagen en escala de grises de $28\times28$ píxeles. Cada imagen está etiquetada con el dígito correspondiente que representa. En este ejemplo, tomaremos algunos números aleatoriamente y aplicaremos PCA para entender cómo se pueden reducir las dimensiones de estas imágenes mientras se preserva la información relevante.

💻 Graficando algunos números 💻

Vamos a graficar algunos números aleatorios del dataset MNIST. Por favor, ejecuta la celda de código de abajo.

In [None]:
plotSomeNumbers(cmap="gray",figsize=(15,5), seed=42)

---❓--- 

1. ¿Cuál es la dimensión del espacio de características de cada imagen (número) dentro de MNIST?

---❓--- 

💻 Zoom sobre un número 💻

**SIEMPRE** es importante saber cómo están formados nuestros datos. En este caso, cada imagen es una matriz de $28\times28$ píxeles, lo que significa que cada imagen tiene $784$ características (píxeles) si la "aplanamos" en un vector.

En cada píxel de la imagen, el valor que toma representa la intensidad del color en escala de grises. Un $0$ representa el color negro, mientras que un $255$ representa el color blanco. Los valores intermedios representan diferentes tonos entre el blanco y el negro.

Por favor, ejecuta la celda de código de abajo.

In [None]:
r_start=10
r_end=15
makeZoom(r_start=r_start, r_end=r_end)

---❓--- 

1. ¿Cómo se te ocurre que podríamos visualizar la distribución de cada número en un espacio de características de dos dimensiones para ver como se distribuyen los números?

---❓---

💻 Promediando las intensidades de los píxeles 💻

Una posible solución a la respuesta anterior sería tomar algunas de las características de cada imagen y graficar un scatter plot, por ejemplo, podríamos pensar en las intensidades de los píxeles para representar cada número en un espacio de dos dimensiones. Sin embargo, tenemos $256$ valores diferentes de intensidad, ¿cuál sería la mejor opción?, tal vez podríamos tomar el promedio de las intensidades de píxeles de las filas y de las columnas y graficar estas proyecciones en 2D.

Por favor, ejecuta la celda de abajo para ver cómo se "ven" los números en 2D usando los promedios de intensidades de filas vs columnas.

In [None]:
plotMNIST2DUsingMeans()
# plotMNIST2DUsingMeans_px()

😖😩😢💀

Podemos ver que la representación de la información usando los promedios de intensidad de filas y columnas **NO** nos permite diferenciar donde se encuentran los diferentes dígitos en el espacio de características de 2D. Es **importante** saber qué usando estas características no podremos clasificar los números correctamente.

😖😩😢💀

💻 Usando PCA para generar gráfico en 2D 💻

Vamos ahora a usar PCA.

En este caso lo que haremos es aplicar PCA a los datos originales y usar las primeras dos componentes principales para graficar los datos en un espacio de dos dimensiones.

In [None]:
plotMINST2dUsingPCA(figsize=(10,6))

💻 Scatterplot interactivo 💻

Ejecutando la celda de abajo podrás ver un scatterplot interactivo donde cada punto representa una imagen del dataset MNIST proyectada en las dos primeras componentes principales obtenidas mediante PCA. Podes hacer zoom y desplazarte por el gráfico para explorar cómo se distribuyen los diferentes dígitos en este espacio reducido.

In [None]:
plotMNIST2DUsingPCA_px(point_size=8,opacity=0.5,show_axes=False)

---❓--- 

1. En base al gráfico anterior, ¿qué números son más fáciles de separar y cuáles son más difíciles de separar? ¿Por qué crees que es así?
2. ¿Crees que podríamos clasificar con cierto éxito los números usando solo estas dos componentes principales? ¿Por qué? ¿Y si usáramos más componentes?

---❓---

### 📊 **<font color="#d6b302">2.3 Aplicando PCA para reducir dimensiones y preservar información</font>**

La idea de este ejemplo es poder entender cómo PCA preserva información relevante en las componentes principales, a su vez que nos permite reducir la dimensionalidad de los datos.

El algoritmo de PCA *"se entrena"*, es decir, obtiene sus componentes principales, a partir de los datos originales. Hemos visto que podemos proyectar los datos en el espacio de las componentes, sin embargo, <font color="#002ab3">con PCA podemos **reconstruir** el espacio original a partir de menos componentes</font>. Es importante recordar que <font color="#f30010">las componentes principales se ordenan según la cantidad de varianza que explican</font>, a su vez, mayor varianza en el contexto de PCA significa mayor información. Por lo tanto, si tomamos las primeras $K$ componentes principales, estaremos reteniendo la mayor parte de la información presente en los datos originales, y a partir de estas componentes, podríamos reconstruir el espacio de datos origninal, pero eso sí, con cierta pérdida de información.

Recordemos que la cantidad de componentes principales que se pueden obtener es $N$, donde $N$ es la dimensionalidad original de los datos. Ahora bien, nosotros podemos usar una $K$ cantidad de componentes principales, donde $K \leq N$ para reconstruir los datos originales, pero usando solo $K$ componentes principales. De esta manera, si $K < N$, estaremos reduciendo la dimensionalidad de los datos o bien haciendo una compresión de los datos.

Veamos esto.

💻 

Para observar el impacto que tiene de usar más o menos componentes principales, vamos a utilizar diferente cantidades de componentes principales para reconstruir las imágenes originales. De esta manera podremos ver cómo la cantidad de componentes principales afecta la calidad de la reconstrucción.

Por favor, modifica el valor de `num_components` en la celda de código de abajo y ejecuta la celda para ver cómo cambia la calidad de la reconstrucción.

NOTA: Recordar que las imágenes originales tienen $784$ características (píxeles), es decir, el espacio original es de $784$ dimensiones.

💻

In [None]:
num_components = None
digit_to_show = 5
plotDigitReconstruction(num_components=num_components, digit=digit_to_show, figsize=(8,4))

---❓--- 

1. ¿Por qué cuando usamos una cantidad de componentes principales igual a $784$ la imagen reconstruida es idéntica a la original?
2. ¿Qué sucede con la calidad de la reconstrucción a medida que disminuímos la cantidad de componentes principales usadas para la reconstrucción? ¿Por qué?
3. ¿Es posible discernir qué número es en la imagen reconstruida cuando usamos solo $5$ componentes principales? ¿Y con 1?
4. Seleccionando una componente, ¿el número $0$ es posible de reconocer? ¿y el 9?

---❓---

#### **<font color="#d60217"> IMPORTANTE</font>**

Con el ejemplo anterior hemos visto que PCA nos permite reducir la dimensionalidad de los datos mientras preservamos la mayor parte de la información relevante. Sin embargo, es importante tener en cuenta que la reducción de dimensionalidad siempre implica una pérdida de información, y la calidad de la reconstrucción dependerá de la cantidad de componentes principales utilizadas. Cuando reconstruimos los datos a partir de $K$ con $K \leq N$ y $N$ siendo la cantidad de características originales, lo que se hace es **arpoximar** los datos a partir de las $K$ componentes principales seleccionadas, y esta aproximación no será perfecta, es decir, habrá pérdida de información, a menos que usemos todas las componentes principales, es decir, $K = N$.

**¿Qué usamos en problemas de clasificación?**

Por otro lado, en problemas de clasificación, en general, no se usa el espacio reconstruido, sino que se usan las componentes principales como nuevas características para entrenar un modelo de clasificación. Esto se debe a que las componentes principales capturan la mayor parte de la variabilidad en los datos, lo que puede mejorar el rendimiento del modelo al reducir el ruido y las características irrelevantes.

### 📊 **<font color="#d6b302">2.4 Determinando la cantidad óptima de componentes principales</font>**

En este ejemplo usaremos la varianza acumulada para determinar la cantidad óptima de componentes principales a usar.

Recordemos que cada componente principal explica una cierta cantidad de varianza en los datos. La varianza acumulada es la suma de las varianzas explicadas por cada componente principal hasta un cierto punto.

A medida que se agregan más componentes principales, la varianza acumulada aumenta, ya que cada componente adicional contribuye con más varianza explicada. Sin embargo, la tasa de aumento de la varianza acumulada disminuye a medida que se agregan más componentes, lo que indica que las primeras componentes principales capturan la mayor parte de la varianza en los datos.

Ahora bien, en general se considera que una cantidad óptima de componentes principales es aquella que logra explicar un porcentaje significativo de la varianza total, como el 80% al 95%, mientras se mantiene un número manejable de componentes para evitar la sobrecarga computacional y la complejidad del modelo.

💻 Ejecuta la celda de abajo para ver el gráfico de varianza acumulada y determinar la cantidad óptima de componentes principales a usar. 💻

In [None]:
max_components = 100
varianceExplainedPlot(max_components=max_components, figsize=(10,6))

---❓--- 

1. ¿Qué información podes sacar del gráfico de varianza acumulada?
  
---❓---

💻

Analizando la gráfica anterior elegí un número de componentes y usalo en la celda de abajo para reconstruir la imagen del dígito.
Reemplaza el valor *None* por el número de componentes que creaste adecuado.

💻

In [None]:
num_components = None
digit_to_show = 5
plotDigitReconstruction(num_components=num_components, digit=digit_to_show, figsize=(8,4))

---❓--- 

1. ¿Cuánta varianza acumulada has elegido?
2. ¿Crees que con la cantidad de componentes que elegiste se podría clasificar los números con un buen desempeño? ¿Por qué?
3. ¿Qué conclusiones podes sacar sobre la relación entre la cantidad de componentes principales y la calidad de la reconstrucción de las imágenes?
   
---❓---

## 📘 <font color="#00b351">3. Análisis de Discrminante Lineal</font>

LDA es un método de reducción de dimensionalidad del tipo supervisado, el objetivo es maximizar la separabilidad entre clases.

PCA busca las direcciones que capturan la mayor varianza de nuestros datos (mayor información), mientras que LDA busca direcciones que separen mejor los grupos o clases conocidas.

Ejemplo: si tenemos datos con etiquetas (tipos de clientes, productos, o fraude/no fraude), <font color="#00b351">**LDA nos ayuda a encontrar una proyección que separe esos grupos de la forma más clara posible, además de que nos permite reducir las dimensiones de nuestros datos**</font>.

#### ¿Cómo hace LDA para aumentar la separabilidad entre clases?

Se consideran los siguientes criterios de manera simultanea:

- Maximizando la distancia entre dos clases: Esta distancia refiere a la diferencia entre las medias de las clases, es decir, 𝜇_1 y 𝜇_2. ¿Y si tenemos más de dos clases?
- Minimizando la variación o dispersión.

Supongamos que tenemos un set de datos con dos clases. LDA busca aumentar al máximo la separación entre las medias de las clases mientras minimiza la varianza dentro de cada clase. Esto se puede expresar matemáticamente como la maximización de la siguiente razón:

$$ \frac{(\mu_1 - \mu_2)^2}{s_1^2 + s_2^2} $$

Donde $\mu_1$ y $\mu_2$ son las medias de cada clase, respectivamente y $s_1^2$ y $s_2^2$ son las varianzas de cada clase, respectivamente.

### 📊 **<font color="#d6b302">3.1 PCA vs LDA para analizar y separar datos</font>**

Para explicar LDA, usaremos un dataset con precios de casas. Este dataset contiene información sobre diferentes características de las casas, como ser la edad de la casa, qué tan cerca está de algún medio de transporte público, tiendas cercanas, entre otras características, junto con el precio por unidad de área de la casa.

A este set de datos se le ha creado una nueva columna llamada *Categoria* que clasifica los precios de las casas en tres categorías: *Económica*, *Rango-Medio* y *Cara*. Esta categorización nos permitirá analizar los datos y además aplicar LDA para encontrar una proyección que maximice la separación entre estas tres clases.

💻 Ejecuta la celda de abajo para analizar cómo se distribuyen los datos en el **espacio original** 💻 

In [None]:
plotRealEstatePCA()

---❓--- 

1. ¿Qué características se han utilizado para el gráfico anterior?
2. ¿Crees que las categorías serían fáciles de clasificar usando estas dos características? ¿Por qué?
   
---❓---

#### 📊 **<font color="#d6b302">3.2 Aplicando PCA para analizar los datos </font>**

Primero vamos a aplicar PCA para proyectar los datos en dos dimensiones y ver cómo se distribuyen las diferentes categorías de precios de las casas usando las dos primeras componentes principales.

In [None]:
houserWithPCA()

Si prestamos atención al *RESUMEN DE PCA* podemos ver que las dos primeras componentes principales explican aproximadamente el $70\%$ de la varianza total de los datos. Esto significa que al proyectar los datos en estas dos dimensiones, estamos reteniendo una cantidad significativa de la información original.

Ahora bien, podemos ver que tenemos una gran dispersión de puntos en el plano proyectado. Dado que PCA sólo considera la varianza de las características, y no la de las clases o target, no es de extrañar que las diferentes categorías no estén bien separadas en este espacio proyectado y por lo tanto, las tres categorías están mezcladas entre sí.

Veamos si podemos mejorar la separabilidad entre las clases usando LDA.

#### 📊 **<font color="#d6b302">3.3 Aplicando LDA </font>**

Ahora vamos a aplicar LDA para proyectar los datos en dos dimensiones y ver cómo se distribuyen las diferentes categorías de precios de las casas usando las primeras dos componentes de LDA.

Usaremos las mismas características que usamos para PCA y entrenaremos un LDA para encontrar las dos mejores direcciones que maximicen la separabilidad entre las tres categorías de precios de las casas. Graficaremos las proyecciones en 2D de LD1 vs LD2.

💻 Por favor, ejecuta la celda de abajo. 💻

In [None]:
## 💻 Implementación de LDA
houserWithLDA()

---❓--- 

1. ¿Qué podes decir de la separación entre las categorías usando LDA?
2. ¿Qué podes decir acerca de la varianza dentro de cada categoría si la comparamos con PCA?
   
---❓---

## 📊 **<font color="#d6b302">4. PCA vs LDA para clasificar</font>**

En este ejemplo vamos a comparar PCA y LDA en términos de su capacidad para separar y clasificar las diferentes categorías de precios de las casas.

<font color="#aa1602">**NOTA**: En la última clase del curso profundizaremos en el proceso de preparación de los datos, entrenamiento y evaluación de modelos de clasificación.</font>

### 📊 **<font color="#d6b302">4.1 Algunos clasificadores con PCA</font>**

En este primer ejemplo vamos a usar un clasificador SVM para clasificar las casas en las tres categorías mencionadas anteriormente, usando PCA para reducir la dimensionalidad de los datos a dos dimensiones y así poder visualizar los resultados. Usaremos los dos primeros componentes principales obtenidas mediante PCA como nuevas características para entrenar el modelo SVM.

💻 Ejecuta la celda de abajo para entrenar y evaluar los resultados de la clasificación usando **PCA y SVM** 💻 

In [None]:
classifiedUsingPCA(clasificador='SVM', num_comps=2, test_size=0.3)

💻 Ejecuta la celda de abajo para entrenar y evaluar los resultados de la clasificación usando **PCA y Decision Tree** 💻 

In [None]:
classifiedUsingPCA(clasificador='DecisionTree', num_comps=2, test_size=0.3)

---❓--- 

1. En base a los reportes de clasificación y las matrices de confusión, ¿qué método (PCA+SVM o PCA+Decision Tree) crees que funcionó mejor para clasificar las casas en las tres categorías? ¿Por qué?
2. ¿Hay alguna categoría que sea más difícil de clasificar? ¿Cuál es?
   
---❓---

###  📘 4.2 Reporte de clasificación


#### Métricas de evaluación

Es importante saber interpretar los reportes de clasificación y las matrices de confusión para evaluar el desempeño de los modelos de clasificación.

En primer lugar, debemos recordar que estamos trabajando en un problema de clasificación multiclase, en este caso, las clases son *Económica*, *Rango-Medio* y *Cara*. En este contexto, el reporte calcula **por cada una de las clases* las siguientes métricas:

- **Precisión (Precision)**: La precisión es la proporción de verdaderos positivos entre el total de predicciones positivas realizadas por el modelo. En otras palabras, mide cuántas de las predicciones positivas fueron correctas. Una alta precisión indica que el modelo tiene pocos falsos positivos. Se calcula como:

  $$ \text{Precisión} = \frac{\text{Verdaderos Positivos}}{\text{Verdaderos Positivos} + \text{Falsos Positivos}} $$

Esto se puede leer como, "de todo lo que el modelo predijo como clase A, ¿qué fracción era realmente clase A?".

- **Recall**: El recall, también conocido como *"tasa de verdaderos positivos"* o *"sensibilidad"* es la proporción de verdaderos positivos entre el total de casos positivos reales. Mide cuántos de los casos positivos reales fueron correctamente identificados por el modelo. Una alta sensibilidad indica que el modelo tiene pocos falsos negativos. Se calcula como:

  $$ \text{Recall} = \frac{\text{Verdaderos Positivos}}{\text{Verdaderos Positivos} + \text{Falsos Negativos}} $$

Esto se puede leer como, "de todo lo que realmente era clase A, ¿qué fracción fue correctamente identificada?".

- Columna *support*: Indica la cantidad de instancias reales de cada clase en el conjunto de datos de prueba.

#### Una métrica por clase

Podemos ver que tenemos tres filas para cada una de las métricas mencionadas anteriormente, es decir, una fila por cada clase. A modo de ejemplo, en el caso de SVM + PCA tenemos que la clase *Economica* tiene una precisión de $0.69$ y un recall de $0.51$, es decir, de todas las predicciones que el modelo hizo como *Económica*, el $69\%$ fueron correctas, y de todas las casas que realmente eran *Económicas*, el $51\%$ fueron correctamente identificadas por el modelo.

#### Métricas globales

Finalmente tenemos las métricas globales, las cuales son:

- **Accuracy**: La proporción total de aciertos del modelo, que es la proporción de predicciones correctas (tanto verdaderos positivos como verdaderos negativos) entre el total de predicciones realizadas. Se calcula como:

  $$ \text{Accuracy} = \frac{\text{\#Predicciones Correctas}}{\text{\#Total de muestras}} $$

- **Macro avg**: Es el promedio no ponderado de las métricas por clase. Se trata a todas las clases por igual, aunque estén desbalanceadas.
- **Weighted avg**: Es el promedio ponderado de las métricas por clase, teniendo en cuenta el soporte (número de instancias) de cada clase. Esto es útil cuando las clases están desbalanceadas, ya que da más peso a las clases con más instancias.

#### Matriz de confusión

La matriz de confusión es una herramienta que nos permite visualizar el desempeño de un modelo de clasificación. En una matriz de confusión se comparan las predicciones del modelo con las etiquetas reales de las clases y se puede observar cuántas veces el modelo predijo correctamente cada clase y cuántas veces cometió errores.

#### ¿Qué podemos inferir con todo esto? 😀

- Qué clase los clasificadores confunden más. Por ejemplo, baja precisión implican muchos FP; bajo recall implica muchos FN.
- El *Weighted avg* es una métrica útil cuando las clases están desbalanceadas, ya que da más peso a las clases con más instancias.
- Según el problema, deberemos darle más importancia a reducir los FN o los FP, en el primer caso deberemos priorizar el recall, y en el segundo caso la precisión 😎.

### 📊 **<font color="#d6b302">4.1 Algunos clasificadores con LDA</font>**

Ahora realizaremos el mismo procedimiento que hicimos con PCA, pero esta vez usando LDA para reducir la dimensionalidad de los datos a dos dimensiones y así poder visualizar los resultados. Usaremos las dos primeras componentes de LDA como nuevas características para entrenar el modelo SVM y Decision Tree.

Ejecuta la celda de abajo para entrenar y evaluar los resultados de la clasificación usando **LDA y SVM** 💻

In [None]:
classifiedUsingLDA(clasificador='SVM', num_comps=2)

In [None]:
classifiedUsingLDA(clasificador='DecisionTree', num_comps=2)

💻 Comparando matrices de confusión para SVM 💻

Ejecuta las celdas debajo para comparar las matrices de confusión obtenidas usando PCA y LDA con el clasificador SVM.

In [None]:
compararCMs(clasificador="SVM")
compararCMs(clasificador="DecisionTree")

---❓--- 

1. ¿Cuál combinación de técnicas funcionó mejor para clasificar las casas en las tres categorías? ¿Por qué?
2. ¿Hay alguna categoría que sea más difícil de clasificar? ¿Cuál es?
3. Comparando los resultados obtenidos con PCA y LDA, ¿cuál método crees que funcionó mejor para clasificar las casas en las tres categorías? ¿Podrías explicar por qué?

---❓--- 

## 📘 <font color="#00b351">5. Conclusiones</font>

Hemos visto que con PCA podemos reducir la dimensionalidad de los datos mientras preservamos una cantidad significativa de la varianza total. PCA es sumamente útil cuando queremos entender la estructura subyacente de los datos y reducir el ruido, o bien cuando queremos *comprimir* los datos para hacerlos más manejables. Cuando decimos *ciomprimir* nos referimos a que podemos representar los datos originales usando menos dimensiones, lo que puede ser beneficioso para el almacenamiento y la eficiencia computacional.

Sin embargo, PCA no considera las etiquetas de clase, lo que puede resultar en una mezcla de categorías en el espacio proyectado. Esto lo pudimos ver con el set de datos de precios de casas, donde las categorías estaban mezcladas entre sí (ver sección 3.2).

Por otro lado, si observamos la sección 3.3 podemos notar una gran diferencia en la distribución de las categorías entre PCA y LDA. Mientras que en PCA las categorías están mezcladas, en LDA observamos una separación más clara entre las categorías, lo que indica que LDA ha logrado encontrar direcciones en el espacio de características que maximizan la separabilidad entre las clases. Por otro lado, la varianza dentro de cada categoría es menor en LDA en comparación con PCA, lo que sugiere que los puntos dentro de cada clase están más agrupados y son más similares entre sí.