#ID0309 - Aprendizaje Estadístico

### Otoño 2023

### ID0309_Lab_1-5

**Enrique Naredo García**

<font size = 2>
©️ Todos los derechos reservados. All rights reserved.

*Nota: El presente documento es una herramienta diseñada única y exclusivamente para los estudiantes de la asignatura arriba mencionada. Se recuerda no compartir esta información fuera de los integrantes registrados en este curso. La reproducción total o parcial de este documento requiere autorización por escrito del titular del copyright.*
</font>

#Reducción de dimensionalidad

La reducción de dimensionalidad es una técnica crucial en el análisis de datos para simplificar conjuntos complejos de datos y encontrar patrones ocultos.
* Uno de los métodos más efectivos para **reducir la dimensionalidad de datos** mixtos es el Análisis Factorial de Datos Mixtos (FAMD).
* El FAMD es un método de análisis factorial que se utiliza para conjuntos de datos con múltiples tipos de variables, incluyendo variables cuantitativas y cualitativas.
* El FAMD utiliza una matriz de covarianza mixta para estimar las varianzas y covarianzas de los datos, y luego aplica un análisis de valores propios para reducir la dimensionalidad del conjunto de datos.
* El resultado es un conjunto de factores que explican la mayor parte de la variabilidad en los datos originales.

In [1]:
# instalación de librería prince
# que nos proporciona la implementación de FAMD en Python
!pip install prince

Collecting prince
  Downloading prince-0.12.0-py3-none-any.whl (415 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m415.1/415.1 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: prince
Successfully installed prince-0.12.0


In [2]:
# importa librerías
import pandas as pd
from prince import FAMD

In [3]:
# Carga el dataset: Iris
# desde el repositorio de la UCI
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data',
                 header=None, names=['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'])

In [4]:
# función que muestra los primeros n registros.
n = 8
df.head(n)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa


Noten que en este caso se reducen de 4 a 2 dimensiones.

In [5]:
# parametros de FAMD
famd = FAMD(
    # número de dimensiones por usar
    n_components=2,
    # número de iteraciones
    n_iter=3,
    copy=True,
    check_input=True,
    random_state=77,
    engine="sklearn",
    handle_unknown="error"
)

Se aplica FAMD al dataframe

In [6]:
# ajuste del modelo a los datos
famd = famd.fit(df)

Y a continuación podemos apreciar el porcentaje de variación atrapado por cada "valor propio" (eigenvalue).

In [7]:
# resumen de eigenvalues
famd.eigenvalues_summary

Unnamed: 0_level_0,eigenvalue,% of variance,% of variance (cumulative)
component,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,3.383,67.66%,67.66%
1,1.054,21.07%,88.73%


In [8]:
# coordenadas de cada fila
famd.row_coordinates(df).head()

component,0,1
0,-2.462285,-0.562588
1,-2.285625,0.477469
2,-2.548704,0.17647
3,-2.486654,0.404778
4,-2.578481,-0.714069


In [9]:
# coordenadas de cada columna
famd.column_coordinates_

component,0,1
variable,Unnamed: 1_level_1,Unnamed: 2_level_1
sepal_length,0.768708,0.117018
sepal_width,0.215726,0.72438
petal_length,0.98511,0.001258
petal_width,0.937054,0.009413
class,0.952478,0.403351


Muestra gráfico de dispersión.

In [10]:
# gráfico de dispersión
# se pueden cambiar los índices de los componentes
famd.plot(df, x_component=0, y_component=1)

Contribución de cada fila y columna a cada componente.

In [11]:
# contribución de cada fila a cada componente
famd.row_contributions_.sort_values(0, ascending=False)

component,0,1
118,2.200059e-02,0.000709
122,1.721284e-02,0.002902
22,1.694475e-02,0.001877
135,1.614199e-02,0.007468
105,1.566373e-02,0.006726
...,...,...
81,2.316640e-05,0.021753
59,1.892286e-05,0.011465
64,5.106128e-06,0.004247
79,4.115137e-06,0.012289


In [12]:
# contribución de cada columna a cada componente
famd.column_contributions_.style.format('{:.0%}')

component,0,1
variable,Unnamed: 1_level_1,Unnamed: 2_level_1
sepal_length,23%,11%
sepal_width,6%,69%
petal_length,29%,0%
petal_width,28%,1%
class,28%,38%
