<div >
<img src = "figs/ans_banner_1920x200.png" />
</div>

# Introducción al Análisis de Clusters

Este *cuaderno* presenta una introducción al análisis de clusters. El análisis de clusters comprende diversas técnicas y algoritmos diseñados para identificar observaciones o variables similares y clasificarlas en grupos o clusters. El objetivo del *cuaderno* es que aprenda a que nos referimos cuando hablamos de clusters, qué implica buscar grupos similares, qué se entiende por similaridad, y cómo la medimos.

**NO** es necesario editar el archivo o hacer una entrega. Los ejemplos contienen celdas con código ejecutable (`en gris`), que podrá modificar  libremente. Esta puede ser una buena forma de aprender nuevas funcionalidades del *cuaderno*, o experimentar variaciones en los códigos de ejemplo.


Claro, aquí tienes una versión mejorada de la sección:

### Proceso de generación de clusters

En términos generales, la generación de clusters se puede desglosar en tres etapas, que facilitan el entendimiento y la aplicación de esta técnica de análisis:

1. **Preparación de la matriz de datos**:
   
   Comenzamos con una matriz de datos $X_{n \times k}$, donde cada fila representa una observación y cada columna representa una variable. La matriz se muestra a continuación:

\begin{align}
   X_{n \times k} = \begin{pmatrix}
   x_{11} & \dots & x_{1k} \\
   \vdots & \ddots & \vdots \\
   x_{n1} & \dots & x_{nk}
   \end{pmatrix}
\end{align}

2. **Cálculo de la matriz de distancias**:
   
   A continuación, calculamos una matriz de distancia o disimilitud $D_{n \times n}$, que refleja qué tan distintas son las observaciones entre sí. Cada elemento $d_{ij}$ de la matriz indica la distancia entre la observación $i$ y la observación $j$, como se muestra a continuación:

\begin{align}
   D_{n \times n} = \begin{pmatrix}
   d_{11} & \dots & d_{1n} \\
   \vdots & d_{jj} & \vdots \\
   d_{n1} & \dots & d_{nn}
   \end{pmatrix}
\end{align}

3. **Aplicación del algoritmo de clustering**:
   
   Finalmente, aplicamos un algoritmo de clustering para agrupar las observaciones en clusters basados en la matriz de distancias. Los algoritmos de clustering se pueden clasificar en cuatro categorías principales, cada una con un enfoque distintivo:

    - **Algoritmos basados en centroides**: En este enfoque, cada cluster se caracteriza por un centroide, que es un punto central. Los objetos se agrupan en base a su proximidad a estos centroides.
    
    - **Algoritmos basados en conectividad**: Estos algoritmos agrupan objetos asegurando que los datos más cercanos en el espacio de características se asignen al mismo cluster. La estructura resultante puede ser jerárquica, revelando subgrupos dentro de los clusters.
    
    - **Algoritmos basados en densidades**: Este método identifica clusters como áreas de alta densidad de datos, separadas por áreas de baja densidad. Es útil para detectar formas y patrones de clusters irregulares.
    
    - **Algoritmos basados en distribuciones**: Estos algoritmos asumen que los datos de cada cluster siguen una distribución específica, comúnmente la normal, y los objetos se asignan a clusters basándose en la probabilidad de pertenecer a la misma distribución.

Estas etapas plantean interrogantes naturales sobre cómo medir la disimilitud o distancia entre las observaciones y qué algoritmo de clustering es el más adecuado para identificar los grupos. En este *cuaderno* abordaremos la primera pregunta, mientras que en *cuadernos* subsiguientes exploraremos los diferentes algoritmos de clustering.


## Medidas de distancia o disimilitud

Para agrupar eficazmente las observaciones en clusters, es importante calcular primero la distancia o disimilitud entre ellas, con el objetivo de construir la matriz de distancias. Esta distancia mide la cercanía o similitud entre los individuos o variables.

Elegir la medida de distancia o disimilitud adecuada es clave para el éxito del análisis. Aunque existen directrices para seleccionar una medida apropiada, la elección puede ser bastante subjetiva y depende en gran medida del contexto específico y la naturaleza de los datos. Estudiar estas y otras medidas permitirá una selección más informada y adecuada a los requerimientos específicos de cada conjunto de datos y sus características particulares.

### Medidas de distancia entre observaciones

La "medida de distancia" entre dos observaciones \(i\) e \(i'\), denotada como \(d_{ii'}\), debe cumplir con los siguientes axiomas matemáticos:

1. \(d(x_i, x_{i'}) \geq 0\) y \(d(x_i, x_i) = 0\) 
2. \(d(x_i, x_{i'}) = d(x_{i'}, x_i)\)
3. \(d(x_i, x_{i'}) \leq d(x_i, x_{i''}) + d(x_{i'}, x_{i''})\)

Estos axiomas aseguran que la medida de distancia es no negativa, simétrica, y cumple con la desigualdad triangular. La distancia euclidiana es la más conocida para datos cuantitativos. Sin embargo, existen otras medidas de distancia que se utilizarán dependiendo el tipo o la naturaleza de las variables, por lo que los resultados del algoritmo serán sensibles a la elección de la medida.

A continuación, exploraremos las medidas de distancia más utilizadas por tipo de datos:


### Distancia para variables cuantitativas

Las variables cuantitativas son aquellas cuyos valores son números reales que forman un continuo. En el análisis de datos, cuando tratamos con este tipo de variables, la medida de distancia más comúnmente empleada es la distancia euclidiana. Esta distancia se calcula para dos puntos reales de la siguiente manera:

$$
d_{ii'} = d(x_i, x_{i'}) = \sqrt{(x_i - x_{i'})^2}
$$

Este cálculo implica tomar la raíz cuadrada del cuadrado de la diferencia entre los puntos, proporcionando una medida clara y geométrica de la distancia entre ellos.

Para ilustrar cómo se utiliza esta medida en la práctica, vamos a trabajar con un conjunto de datos de ejemplo que incluye información sobre cinco individuos. Este conjunto de datos incluye información sobre características como el sexo, la edad, el nivel de educación y los ingresos. Es importante observar que dentro de este conjunto de datos encontramos diferentes tipos de variables:

- **Variables cuantitativas**: Edad e Ingresos.
- **Variable categórica**: Sexo.
- **Variable ordinal**: Educación.

A continuación, implementaremos un ejemplo en `Python` para calcular la distancia euclidiana entre estos individuos, teniendo en cuenta solo las variables cuantitativas. Este ejercicio nos permitirá entender mejor cómo manipular y calcular distancias en contextos reales donde los datos pueden ser de diferentes tipos.

In [1]:
# Cargamos las librerías a utilizar
import pandas as pd
import math

# Cargamos y visualizamos los datos
datos = pd.read_csv('data/data_eph.csv')
datos.head()

Unnamed: 0,Sexo,Edad,Educacion,Ingresos
0,Hombre,66,Secundario,52500
1,Hombre,70,Secundario,126400
2,Mujer,23,Primario,32400
3,Mujer,20,Universitario,74000
4,Hombre,22,Terciario,39000


La distancia de la **Edad** de la primera observación respecto a la segunda será:
    
$d_{01}= \sqrt{(66-70)^2}$ 

In [2]:
math.sqrt((66-70)**2)

4.0

#### Otros tipos de distancias para variables cuantitativas

Además de la distancia euclidiana, existen varias otras medidas de distancia que pueden ser adecuadas para diferentes contextos y tipos de datos cuantitativos. Estas distancias ofrecen alternativas útiles que pueden ser más apropiadas dependiendo de la estructura específica del conjunto de datos o los objetivos del análisis. Aquí exploramos tres tipos adicionales de distancias:

1. **Distancia de Manhattan (o distancia del taxista)**:
   
   Esta medida es especialmente útil en entornos urbanos o en cuadrículas donde los movimientos se limitan a desplazamientos verticales y horizontales, como las calles de una ciudad. Se define como la suma de las diferencias absolutas entre las coordenadas de dos puntos:

   $$
   d_{ii'} = |x_i - x_{i'}|
   $$

   Es útil cuando se quiere dar igual peso a los desplazamientos horizontales y verticales, sin considerar la ruta diagonal que sugeriría la distancia euclidiana.

2. **Distancia de Minkowski**:
   
   Esta es una generalización de otras distancias métricas, incluyendo la distancia euclidiana y la de Manhattan, y se define de la siguiente manera:

   $$
   d_{ii'} = \left(\sum_{k=1}^n |x_{ik} - x_{i'k}|^p\right)^{\frac{1}{p}}
   $$

   Aquí, \(p\) representa un parámetro que puede ajustarse. Por ejemplo, cuando \(p = 2\), se recupera la distancia euclidiana; cuando \(p = 1\), se obtiene la distancia de Manhattan. Ajustar \(p\) permite controlar cómo la diferencia en cada dimensión afecta la distancia total, con mayores valores de \(p\) aumentando la penalización de las diferencias más grandes.

3. **Distancia de Chebychev**:
   
   Esta distancia se define como el máximo de las diferencias absolutas entre las coordenadas de dos puntos. Es útil en escenarios donde el desplazamiento solo está limitado por el componente más extremo, y se formula como:

   $$
   d_{ii'} = \max_{k} |x_{ik} - x_{i'k}|
   $$

   La distancia de Chebychev puede ser particularmente relevante en aplicaciones de planificación y optimización, donde la restricción más grande dicta la política o la estrategia a seguir.



#### Distancia para variables categóricas ordenadas.

Las variables categóricas ordenadas son aquellas que, aunque categóricas, tienen un orden inherente que puede ser representado numéricamente. Un buen ejemplo de esto es el nivel de educación, que puede variar desde primario hasta universitario, como se muestra en el ejemplo que estás manejando. En este caso, cada nivel educativo se asocia con un número entero que refleja su orden:

\begin{align}
    \left(\begin{array}{c}
    Primario\\
    Secundario\\
    Terciario\\
    Universitario
    \end{array}\right)\rightarrow\left(\begin{array}{c}
    1\\
    2\\
    3\\
    4
    \end{array}\right)
\end{align}


Para medir la distancia entre las categorías de una forma que refleje su orden, podemos transformar estos enteros en una escala más uniforme que tome en cuenta el número total de categorías. Esto se logra mediante la siguiente fórmula:

\begin{align}
    \frac{i-1/2}{M} \,\,\, i=1,...,M
\end{align}

donde $i$ es el índice de la categoría actual y $M$ es el número total de categorías. Esta transformación ayuda a distribuir las categorías de manera uniforme a lo largo de un intervalo [0, 1], facilitando el cálculo de distancias de una manera que respete el orden de las categorías.

  En `Python` esta transformación se puede lograr haciendo:


In [3]:
Edu = datos.loc[:,['Educacion']]
Edu

Unnamed: 0,Educacion
0,Secundario
1,Secundario
2,Primario
3,Universitario
4,Terciario


In [4]:
educacion = ["Primario", "Secundario", "Terciario", "Universitario"]
orden = [1, 2, 3, 4]

Edu = Edu.replace(educacion, orden)
Edu

Unnamed: 0,Educacion
0,2
1,2
2,1
3,4
4,3


In [5]:
Edu = (Edu - 0.5)/len(educacion)
Edu

Unnamed: 0,Educacion
0,0.375
1,0.375
2,0.125
3,0.875
4,0.625


Luego utilizamos las medidas para variables cuantitativas descritas anteriormente.

#### Distancia para variables categóricas no ordenadas.

Las variables categóricas no ordenadas son aquellas que incluyen múltiples categorías sin un orden inherente entre ellas. Por ejemplo, en una variable como el sexo, no hay un orden lógico entre las categorías 'Hombre' y 'Mujer'. La adecuada codificación y medición de distancias entre estas categorías es crucial para su inclusión en modelos de análisis de datos como el clustering.

En el caso de variables binarias, el proceso más común es utilizar el *one-hot encoding*, donde una categoría se representa con el número 1 y la otra con 0. Esto convierte la variable categórica en numérica, facilitando el cálculo de distancias. La medida de distancia más utilizada para estas variables es la **distancia de coincidencia simple**, definida como:


\begin{align}
d_{ii'}=d(x_i,x_{i'})= I(x_i \neq x_{i'})
\end{align}

donde $I(.)$ es la función indicadora que toma valor 1 cuando las variables no coinciden, y 0 en caso contrario. En el ejemplo anterior, si codificamos Hombre como 1 y Mujer como 0 tendríamos:

\begin{align}
d_{01}= 0
\end{align}

y 

\begin{align}
d_{02}= 1
\end{align}

La distancia de la primera observación a la segunda es 0 puesto que ambos son hombres, mientras que de la primera a la tercera es 1 ya que los sexos no coinciden.

Cuando las variables tienen más de dos categorías, se dicotomiza adecuadamente cada una de ellas (con ceros y unos) y luego se utilizan las medidas que definimos anteriormente. Por ejemplo, si una variable contiene el estado civil: Soltero, Casado, Separado. Entonces crearíamos 3 variables dicótomas, una para Soltero, Casado, y Separado:

\begin{align}
\left(\begin{array}{c}
Soltero\\
Casado\\
Soltero\\
Separado\\
Casado
\end{array}\right)\rightarrow\left(\begin{array}{ccc}
Soltero & Casado & Separado\\
1 & 0 & 0\\
0 & 1 & 0\\
1 & 0 & 0\\
0 & 0 & 1\\
0 & 1 & 0
\end{array}\right)
\end{align}

Cada observación es entonces un vector de 0s y 1s que representa su estado civil, y la distancia entre cualquier par de observaciones se calcula sumando las diferencias en cada posición de sus vectores codificados. Esto permite utilizar medidas de distancia estándar como la Euclidiana, Manhattan, o Minkowski para calcular la disimilitud entre observaciones basándose en sus características categóricas no ordenadas.


### Medidas de  distancia entre varias variables.

En la práctica, a menudo nos encontramos que cada observación tiene más de una  variable o atributo $j=1,2,\cdots,p$. Por ende, para estimar la matriz de distancia debemos saber cómo combinar las distancias entre observaciones para múltiples variables.  La manera más habitual de hacerlo con variables cuantitativas es utilizando la distancia euclidiana. En este caso, la distancia entre dos observaciones $i$ e $i'$ que poseen $p$ atributos se calcula como:


\begin{align}
d(x_{i},x_{i'})= \sqrt{\sum_{j=1}^p (x_{ij}- x_{i'j})^2}
\end{align}

Esta fórmula suma las diferencias al cuadrado entre los correspondientes valores de atributo de las dos observaciones, y luego toma la raíz cuadrada del resultado, proporcionando una métrica global de distancia.

Las extensiones de las medidas de distancia mencionadas anteriormente, como la distancia de Manhattan o la de Minkowski, también son aplicables en escenarios multivariados. Sin embargo, es importante tener cuidado con la elección de la medida de distancia, ya que los resultados del análisis pueden ser altamente sensibles a esta elección.

Para ilustrar esto, consideremos el cálculo de la distancia entre el primer y el segundo individuo de un conjunto de datos previamente mencionado, que incluye tanto variables cuantitativas como categóricas. Asumiendo que solo consideramos los atributos cuantitativos para este cálculo, procederíamos de la siguiente manera en `Python`:

In [6]:
datos_cuant=datos.loc[:,['Edad','Ingresos']]
datos_cuant

Unnamed: 0,Edad,Ingresos
0,66,52500
1,70,126400
2,23,32400
3,20,74000
4,22,39000


$d_{01}= \sqrt{(66-70)^2+(52500-126400)^2}$ 

In [7]:
math.sqrt((66-70)**2+(52500-126400)**2)

73900.0001082544

#### Medidas de distancia para múltiples variables dicotómicas y cuantitativas

Cuando se trabaja con múltiples variables, especialmente aquellas que incluyen tanto dicotómicas como cuantitativas, es esencial elegir una medida de distancia adecuada que considere la naturaleza de cada atributo. La **distancia de Jaccard** es una opción popular para variables dicotómicas, dada por la fórmula:


\begin{align}
d_{ii'}=d(x_i,x_{i'})= 1 - \frac{\sum_k I(x_{1k}\, y \,x_{i'k})}{\sum_k I(x_{1k}\, o\, x_{i'k})}
\end{align}


Donde $I$ es la función indicadora, y la fórmula compara la coincidencia y la presencia de características en dos observaciones. Esta medida es particularmente útil cuando las variables no tienen un orden inherente y no son cuantitativas.


#### Combinación de Distancias para Atributos Múltiples

Cuando se combinan distancias para múltiples atributos, una técnica común es utilizar un promedio ponderado de las distancias, permitiendo dar diferentes pesos a diferentes atributos según su relevancia en el análisis:

\begin{align}
d_{ii'}=(x_i, x_{i'})=\sum_{j=1}^p\omega_j\cdot d_j(x_{ij}, x_{i'j});\ \sum_{j=1}^p\omega_j=1
\end{align}


Donde $ \omega_j$ es el peso asignado al atributo $j$-ésimo y $ \sum_{j=1}^p \omega_j = 1 $. Estos pesos pueden elegirse subjetivamente dependiendo de la importancia percibida de cada atributo en relación con el problema específico. La elección de $d_j(x_{ij}, x_{i'j})$ dependerá de la naturaleza de cada atributo, utilizando las medidas adecuadas para variables cuantitativas, categóricas ordenadas y no ordenadas.

La igualdad de los pesos no implica que todos los atributos influyan igualmente en la disimilaridad total. De hecho, la influencia de cada atributo depende de su contribución relativa a la disimilaridad promedio entre todas las observaciones:


\begin{align}
\bar{d}=\frac{1}{N^2}\sum_{i=1}^N\sum_{i'=1}^N d(x_i, x_{i'})=\sum_{j=1}^p\omega_j \cdot \bar{d_j}
\end{align}


Con $\bar{d_j}=\frac{1}{N^2}\sum_{i=1}^N\sum_{i'=1}^N d_j(x_{ij}, x_{i'j})$ siendo la disimilaridad promedio del atributo $j$. Por consiguiente, la influencia relativa de la variable j-ésima es $\omega_j \cdot \bar{d_j}$ y definiendo $\omega_j \sim 1/\bar{d_j}$ se consigue que todos los atributos aporten lo mismo a la disimilaridad.

Por ejemplo, si se tienen $p$ variables cuantitativas y se define el error al cuadrado como medida de distancia para cada coordinada, obtenemos la distancia euclidiana al cuadrado ponderada por pesos:

\begin{align}
d_I(x_i, x_{i'})=\sum_{j=1}^p\omega_j\cdot (x_{ij}-x_{i'j})^2
\end{align}

Note que $\bar{d_j}=\frac{1}{N^2}\sum_{i=1}^N\sum_{i'=1}^N (x_{ij}-x_{i'j})^2=2\cdot var_j$ en donde $var_j$ es la varianza muestral de $x_j$. Luego, la importancia relativa de cada variable es proporcional a la varianza de esta variable en el conjunto de datos. 


#### Distancia de Gower

Finalmente, y quizás el método más popular para medir distancia o disimilaridad es usar la distancia de Gower. Este enfoque se basa en un conjunto de pasos sistemáticos que permiten calcular un score de disimilaridad general que es sensible al tipo de cada variable y maneja de forma efectiva los datos faltantes. El proceso es el siguiente:

1. Definir un score de disimilaridad para cada dos observaciones $i$ e $i'$:

    - Si la variable es cuantitativa:
        \begin{align}
               s_j(x_{ij},x_{i'j})= 1-\frac{|x_{ij}-x_{i'j}|}{n}
        \end{align}

    - Si la variable es categórica: 
         
        \begin{align}
               s_j(x_{ij},x_{i'j})=\begin{cases}
                1 & x_{ij}=x_{i'j}\\
                0 & x_{ij}\neq x_{i'j}
               \end{cases}
        \end{align}
         
             
Note que este score será: $s_{ii'j}=0$ si $x_{ij}$ y $x_{i'j}$ son disimilares, y $0<s_{ii'j}\leq1$ , si no son disimilares.


2. Definir $\delta_{ii'j}=0$ si $x_{ij}$ y $x_{i'j}$  no pueden compararse por datos faltantes, y 1 en caso contrario.

3. Agregar el score de disimilaridad para $i$ e $i'$:
\begin{align}
            s(x_{ij},x_{i'j}) = \frac{\sum_{j=1}^p    s_j(x_{ij},x_{i'j})}{\sum_{j=1}^p\delta_{ii'j}}
\end{align}

Al igual que en el caso anterior, podemos utilizar pesos para reflejar la importancia relativa de las variables:
\begin{align}
         s(x_{ij},x_{i'j}) = \frac{\sum_{j=1}^p   \omega_j s_j(x_{ij},x_{i'j})}{\sum_{j=1}^p \omega_j\delta_{ii'j}}
        \end{align}

#### Correlación entre variables

Dependiendo del tipo de datos y la pregunta que se busque responder, podemos estar interesados no en si las observaciones o variables están cerca una de otras, sino en si sus características están altamente correlacionadas, aunque los valores observados estén muy distantes en términos de distancia euclidiana.

Si queremos identificar clusters de observaciones o variables con los mismos perfiles generales independientemente de sus magnitudes, entonces deberemos utilizar medidas de disimilitud basados en las correlaciones. Por ejemplo, en marketing, podríamos querer identificar clusters de clientes con la misma preferencia en términos de artículos, independientemente del volumen de compra de los artículos.

Los coeficientes de correlación de Pearson y de Spearman son algunos de los  más utilizados.

##### Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson se define como:

\begin{align}
\rho(x_i, x_{i'})=\frac{\sum_k (x_{ik}-\bar{x_i})(x_{i'k}-\bar{x_{i'}})}{\sqrt{\sum_k (x_{ik}-\bar{x_i})^2\sum_j(x_{i'k}-\bar{x_{i'}}^2)}}
\end{align}

en donde $\bar{x_i}=\sum_k x_{ik}/p$. Note que el promedio es sobre las variables y no sobre las observaciones. Si se estandarizan antes las observaciones, entonces 

\begin{align}
\sum_k (x_{ik}-x_{i'k})^2 \propto 2(1-\rho(x_i, x_{i'}))
\end{align}

Por esto los clusters basados en la correlación son equivalentes a los clusters basados en la distancia al cuadrado.

Este coeficiente toma valores entre -1 y 1. Si $\rho(x_i, x_{i'})=0$  implica de que no existe una correlación lineal entre $x_i$ y $ x_{i'}$, mientras que si es -1 hay una correlación lineal negativa, y cuando es 1, una correlación lineal positiva.

Es importante notar que este coeficiente es invariante a las unidades de $x_i$, $x_{i'}$, pero es sensible a los valores atípicos. Esto se puede mitigar utilizando el coeficiente correlación de Spearman en lugar de la correlación de Pearson.

En `Python` este se calcula como:

In [8]:
datos.corr() # Por defecto hace la correlación de Pearson

Unnamed: 0,Edad,Ingresos
Edad,1.0,0.611735
Ingresos,0.611735,1.0


Note que cuando aplicamos el método `.corr()` sobre un `dataframe`, este automáticamente tiene sólo en cuenta las variables numéricas.

##### Coeficiente de correlación de Spearman

El coeficiente de correlación de Spearman es una medida no paramétrica de correlación de rangos y se define como:

\begin{align}
r_s(R(x_i), R(x_{i'}))=\frac{Cov(R(x_i), R(x_{i'}))}{Var(R(x_i))Var(R(x_{i'}))}
\end{align}

en donde $R(.)$ denota el rango de las variables. Este coeficiente también toma valores entre -1 y 1, y coincide con el coeficiente de Pearson si se aplica a los rangos de esas variables. Sin embargo, mientras que la correlación de Pearson mide  relaciones lineales, la correlación de Spearman evalúa las relaciones monótonas (ya sean lineales o no). Hay que notar también, que este coeficiente es robusto a valores atípicos, porque se calcula sobre el rango de las variables, que no se ve afectado por la presencia de valores atípicos.

En `Python` este se calcula como:

In [9]:
datos.corr("spearman")

Unnamed: 0,Edad,Ingresos
Edad,1.0,0.3
Ingresos,0.3,1.0


Otra opción que permite el método `.corr()` es el  coeficiente de correlación de rango de Kendall

In [10]:
datos.corr("kendall")

Unnamed: 0,Edad,Ingresos
Edad,1.0,0.2
Ingresos,0.2,1.0



##  Matriz de distancia o disimilitud.

La matriz de distancia recoge las distancias anteriormente calculadas entre los objetos. Por lo tanto, si estamos midiendo la distancia entre $n$ observaciones, la matriz resultante será de tamaño $n\times n$  y cada elemento $d_{ii'}$ corresponde a la distancia entre  $i$ e $i'$:

\begin{align}
D_{n\times n}=\left(\begin{array}{ccccc}
d_{11} &  & \dots &  & d_{1n}\\
 & \ddots\\
\vdots &  & d_{jj} &  & \vdots\\
 &  &  & \ddots\\
d_{n1} &  & \dots &  & d_{nn}
\end{array}\right)
    \end{align}
    

La mayoría de los algoritmos suponen que la matriz de disimilitud debe ser no negativa y con ceros en la diagonal (es decir que la distancia de un objeto a si mismo es 0).

\begin{align}
D_{n\times n}=\left(\begin{array}{ccccc}
0 &  & \dots &  & d_{1n}\\
 & \ddots\\
\vdots &  & 0 &  & \vdots\\
 &  &  & \ddots\\
d_{n1} &  & \dots &  & 0
\end{array}\right)
    \end{align}
    

Esta matriz se puede transformar para que refleje cercanía-similaridad  o distancia-disimilitud simplemente aplicando una transformación monótona creciente (o decreciente). Adicionalmente es usual suponer que la matriz es simétrica, por lo qué si originalmente esta no lo es, se puede aplicar la transformación $(D+D^T)/2$.

Cabe notar que en algunas aplicaciones como en las ciencias sociales, esta matriz es a veces remplazada por una que contiene entradas subjetivas que reflejan afinidad. Por ejemplo, en experimentos de ciencias sociales, a los participantes se les pide que juzguen qué tan similares son dos objetos. En estos casos hay que ser cuidadoso, pues este tipo de medidas rara vez constituyen una medida de distancia pues no satisfacen la desigualdad triangular $d_{ii'}\leq d_{ik} + d_{i'k}$, para todo $k\in\{1, \cdots, N\}$. Por tal motivo, algunos algoritmos no permiten usar este tipo de matrices.

En `Python` para calcular la matriz necesitamos de `scipy` `distance_matrix`, que por defecto calcula la distancia de Minkowski. Sin embargo, si elegimos $p=2$ esta distancia coincide con la euclidiana:

In [11]:
import numpy as np
from scipy.spatial import distance_matrix

# Seleccionamos solo las columnas que sean numéricas
datos_numericos = datos.select_dtypes(np.number)

# Creamos la matriz de distancias escogiendo p = 2, el cual convierte 
# la distancia Minkowski en la distancia euclidiana
dist = distance_matrix(datos_numericos, datos_numericos, p = 2)

# Para visualizar mejor la matriz de distancia la convertimos en un dataframe
pd.DataFrame(dist)

Unnamed: 0,0,1,2,3,4
0,0.0,73900.000108,20100.045995,21500.049209,13500.071704
1,73900.000108,0.0,94000.01175,52400.023855,87400.013181
2,20100.045995,94000.01175,0.0,41600.000108,6600.000076
3,21500.049209,52400.023855,41600.000108,0.0,35000.000057
4,13500.071704,87400.013181,6600.000076,35000.000057,0.0


#### Matrices de distancia o disimilitud con datos estandarizados.

Un problema de la distancia euclidiana, como medida de similaridad, es su dependencia de las diferentes escalas en que estén medidas las variables. Escalas y rangos de variación diferentes pueden afectar al análisis de clusters. Este problema se soluciona si en vez de calcular la distancia euclidiana con las unidades originales, se calcula con puntuaciones estandarizadas. 

Para ver cómo cambia el cálculo anterior estandaricemos los datos:


In [12]:
mu = datos_numericos.mean()
sigma = datos_numericos.std()
Z = (datos_numericos - mu)/sigma
Z

Unnamed: 0,Edad,Ingresos
0,1.014146,-0.326115
1,1.171378,1.623714
2,-0.676097,-0.856447
3,-0.794021,0.241156
4,-0.715405,-0.682308


In [13]:
dist = distance_matrix(Z, Z, p = 2)
pd.DataFrame(dist)

Unnamed: 0,0,1,2,3,4
0,0.0,1.956158,1.771489,1.895063,1.765849
1,1.956158,0.0,3.09263,2.402969,2.979545
2,1.771489,3.09263,0.0,1.10392,0.17852
3,1.895063,2.402969,1.10392,0.0,0.926805
4,1.765849,2.979545,0.17852,0.926805,0.0


Note que cuando usamos los datos sin estandarizar, la observación más cercana a la primera persona es la quinta. Sin embargo, una vez normalizamos nuestras variables, encontramos que la tercera observación es la más cercana a la primera persona. Esto sucede porque cuando no escalamos nuestras variables, aquellas como la edad aportan muy poco a la distancia en comparación a otras variables como ingreso que tienden a estar en unidades mayores. Esta diferencia será importante al momento de comparar las distancias entre las distintas observaciones y es una decisión subjetiva que deberá tenerse en cuenta.

#### Matrices de proximidad o disimilitud con datos mixtos.

Anteriormente mencionamos que cuando tenemos matrices con datos mixtos como los datos de ejemplo, se puede aplicar la distancia de Gower: 

In [14]:
datos

Unnamed: 0,Sexo,Edad,Educacion,Ingresos
0,Hombre,66,Secundario,52500
1,Hombre,70,Secundario,126400
2,Mujer,23,Primario,32400
3,Mujer,20,Universitario,74000
4,Hombre,22,Terciario,39000


En `Python` lo hacemos utilizando la libreria `gower`:

In [15]:
import gower 

dist_g = gower.gower_matrix(datos)
pd.DataFrame(dist_g)

Unnamed: 0,0,1,2,3,4
0,0.0,0.216543,0.768457,0.787181,0.505904
1,0.216543,0.0,0.985,0.889362,0.722447
2,0.768457,0.985,0.0,0.375638,0.522553
3,0.787181,0.889362,0.375638,0.0,0.603085
4,0.505904,0.722447,0.522553,0.603085,0.0


Note que una vez tenemos en cuenta los diferentes tipos de variables, la distancia entre las diferentes personas de la muestra cambia. Por ejemplo, cuando solo tenemos la distancia euclidiana la persona 1 y la persona dos son bastantes disimiles pues la segunda tiene más del doble de ingresos que la primera. Sin embargo, cuando usamos la distancia de Gower podemos tener en cuenta otras variables como el sexo y la educación en las cuales ambos sujetos son idénticos, por lo que la distancia entre ambos no debería ser tan lejana.

## Análisis de clusters y otras formas de denominarlo.

Antes de finalizar este *cuaderno* es importante notar que en la literatura en español se suele encontrar el análisis de clusters con otras denominaciones como: segmentación de datos, taxonomía numérica, análisis tipológico, clasificación automática, entre otros. En este curso nos referiremos a análisis de clusters puesto que no sólo es la traducción directa del término *cluster analysis* con el que se lo suele encontrar en la literatura de aprendizaje no supervisado, sino también el nombre con el que se suele encontrar en la mayoría de los paquetes de software.

# Referencias


-  Hastie, T., Tibshirani, R., & Friedman, J. H. (2001). The elements of statistical learning: Data mining, inference, and prediction. New York: Springer.

- Kaufman, L. & Rousseeuw, P. (1990). Finding Groups in Data: An Introduction to Cluster Analysis, Wiley, New York.

- Tsai, K. T. (2021). Machine Learning for Knowledge Discovery with R: Methodologies for Modeling, Inference, and Prediction.

- Macnaughton Smith, P., Williams, W., Dale, M. & Mockett, L. (1965). Dissimilarity analysis: a new technique of hierarchical subdivision, Nature 202: 1034–1035.

- Pérez López, C. (2004). Técnicas de análisis multivariante de datos. Aplicaciones con SPSS, Madrid, Universidad Complutense de Madrid, 121-154.

- [Scikit-learn: Machine Learning in Python](https://scikit-learn.org/stable/auto_examples/cluster/plot_linkage_comparison.html#sphx-glr-auto-examples-cluster-plot-linkage-comparison-py), Pedregosa et al., JMLR 12, pp. 2825-2830, 2011. 

- Taddy, Matt; Taddy, Matt. Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions (p. 202). McGraw-Hill Education.



In [16]:
# Información de Sesión

In [17]:
import session_info

session_info.show(html=False)

-----
gower               NA
numpy               1.21.6
pandas              1.3.5
scipy               1.7.3
session_info        1.0.0
-----
IPython             7.34.0
jupyter_client      7.4.9
jupyter_core        4.12.0
jupyterlab          2.1.1
notebook            6.0.3
-----
Python 3.7.6 | packaged by conda-forge | (default, Mar 23 2020, 23:03:20) [GCC 7.3.0]
Linux-6.5.0-1020-aws-x86_64-with-debian-buster-sid
-----
Session information updated at 2024-08-16 14:09
