# MACHINE LEARNING NO SUPERVISADO
## Modelos de Conglomerados: Introducción

### ¿Donde Se utilizan los Modelos de Clasificación?

La clasificación es una de las operaciones más básicas en la investigación científica. Es particularmente importante en las ciencias sociales, donde a menudo se carece de una teoría integral y el primer paso en la investigación suele ser detectar algún tipo de patrón en los datos. Los métodos de clasificación se han utilizado durante mucho tiempo en biología, donde la agrupación de individuos según especie y género ha sido la base de muchos trabajos posteriores. La siguiente lista altamente selectiva ilustra por qué podríamos estar interesados en encontrar grupos y qué propósitos prácticos podrían servir.

* Marketing. Es probable que el correo directo sea más efectivo si se dirige a personas con características similares que probablemente respondan de la misma manera. La segmentación del mercado, como se le llama, tiene como objetivo dividir la población objetivo en grupos (segmentos) para que cada uno pueda ser objetivo de la manera más probable de lograr una respuesta positiva.

* Arqueología. Es probable que los artefactos hechos aproximadamente al mismo tiempo o por el mismo grupo de personas sean más similares que los que se originaron en diferentes épocas o pueblos. Formando grupos de objetos similares, puede ser posible reconstruir algo de la historia de una región.

* Educación. Las escuelas varían en su desempeño, y al buscar las razones de esa variación, puede ser útil agrupar las escuelas para que uno pueda preguntarse qué tienen en común aquellas que parecen ser similares en términos generales.

* Finanzas y economía: En finanzas se usan los modelos no supervisados de clasificación para el agrupamiento de activos financieros para identificar patrones de comportamiento y riesgos compartidos. También se pueden utilizar para la clasificación de perfiles de inversores en función de su tolerancia al riesgo y objetivos financieros.

* Ciencias sociales: Una utilidad bien común es el análisis de sentimientos y clasificación de opiniones en redes sociales para comprender la opinión pública y las tendencias. También se usan para el agrupamiento de datos demográficos para identificar segmentos de población con características similares y en el ámbito más académico para la clasificación de textos en estudios de ciencias sociales para analizar discursos y temáticas emergentes.

* Recursos humanos: Acá tenemos modelos para el agrupamiento de perfiles de empleados basados en habilidades y competencias para identificar grupos de talento y necesidades de desarrollo, la clasificación de currículums vitae para identificar candidatos adecuados para puestos de trabajo específicos, y la detección de patrones de rotación y retención de empleados basados en datos históricos.


### Multidimensionalidad de los Modelos de Clasificación

El problema al que apunta el análisis de conglomerados es agrupar a individuos de tal manera que aquellos asignados a un grupo en particular estén, de alguna manera, cercanos entre sí. Es sencillo hacer esto si los objetos se caracterizan por una única cantidad mensurable, como el ingreso. Todo lo que tenemos que hacer es agrupar a aquellos individuos que tengan ingresos similares. Es cierto que tendremos que decidir qué significa "similar", pero eso estará determinado por el uso que pretendamos darle a la clasificación. 



In [None]:
# CARGAMOS LA DATA

# HACEMOS EL GRAFICO


El problema se vuelve más difícil si los juicios de similitud son subjetivos o se basan en un gran número de características de los objetos. Por ejemplo, al juzgar la similitud de dos escuelas, típicamente habrá todo un conjunto de características posiblemente relevantes, como el tamaño, la ubicación, la mezcla étnica, y así sucesivamente. La pregunta entonces es cómo resumimos estos diversos fragmentos de información para poder hacer juicios de similitud defendibles. Es esta característica la que hace del análisis de conglomerados una técnica multivariada.

Para comprender qué implica basar juicios de distancia en más de una variable, consideremos el caso en el que tenemos dos variables medidas en una escala continua. Si los "objetos" fueran personas, podríamos imaginar que tenemos registros que proporcionan sus edades e ingresos, y que queremos agruparlos en función de esas dos variables. Supongamos que representamos a los individuos como puntos en el plano. Entonces, su posición podría aparecer como el siguiente ejemplo.




In [None]:
# CARGAMOS LA DATA

# HACEMOS EL GRAFICO


Si hubiera algún agrupamiento presente, lo reconoceríamos de inmediato en la figura. En este caso, hay tres de esos agrupamientos que identificamos utilizando la capacidad del ojo para detectar patrones de agrupamiento. Con tres variables, podríamos imaginar puntos representados en tres dimensiones, pero más allá de eso nuestra capacidad de visualización falla y necesitamos alguna otra forma de reconocer los agrupamientos. Observa, incidentalmente, que si tuviéramos información solo sobre una de estas variables, por ejemplo, el ingreso, solo veríamos dos agrupamientos, ya que sería difícil separar los dos grupos de edad con bajos ingresos. Esto ilustra cómo el análisis de datos multivariados puede revelar más que el análisis de cada variable por separado.

### Requisitos del Modelo de Conglomerados

En este ejemplo, la distancia entre un par de individuos se define simplemente como su distancia en la figura. Sin embargo, la información que tenemos puede no estar en forma de mediciones en una escala continua. Puede, por ejemplo, indicar simplemente si los individuos poseen o no un atributo particular. En tales casos, la representación geométrica no está disponible y se debe realizar un trabajo preliminar para decidir cómo medir su distancia.
Aunque este ejemplo es rudimentario, sirve para identificar los dos pasos básicos en cualquier análisis de conglomerados:

1. La medición de la distancia entre todos los pares de objetos.
2. El desarrollo de una rutina o algoritmo para formar agrupamientos en base a esas distancias. 

Las distancias en el punto (1) pueden determinarse de manera subjetiva o mediante la creación de una medida de distancia basada en la observación de una colección de variables. En el primer caso, es el cerebro humano el que procesa la información multivariada disponible en cada objeto; en el segundo caso, la distancia se construye de acuerdo con algún principio racional.

Antes de continuar, necesitamos aclarar el significado del término "distancia" que hemos utilizado para describir qué tan separados están los objetos. A veces es más natural pensar en términos de cercanía o proximidad. Alternativamente, se utilizan los términos similitud y disimilitud. Estos últimos tienen la ventaja de sugerir una evaluación de distancia más flexible y subjetiva que es más apropiada para algunas de las aplicaciones que encontraremos. La proximidad y la similitud están inversamente relacionadas con la distancia y la disimilitud, por lo que las medidas de una se pueden convertir fácilmente en medidas de la otra. Utilizaremos los diversos términos indistintamente, pero consideraremos "distancia" como el término principal porque también es fundamental para el escalado multidimensional que veremos posteriormente.

***Matriz de Distancias***

La primera etapa del análisis de conglomerados es la construcción de distancias entre pares de objetos. Pospondremos la discusión sobre cómo se hace esto hasta la Sección 2.4, momento en el que tendremos una idea más clara de cómo se van a utilizar. Por ahora, observamos que el proceso de agrupamiento en sí comienza con una matriz de distancias, que es una matriz en la que la distancia entre el objeto i y el objeto j aparece en la fila i y la columna j. Por ejemplo, si tenemos cuatro objetos, tenemos una matriz de distancias de 4 × 4.

donde δij es la distancia entre el objeto i y el objeto j. Por lo general, la matriz de distancias será simétrica, es decir, δ21 = δ12, δ31 = δ13, y así sucesivamente. Esto se debe a que las evaluaciones de distancia generalmente no dependen del orden en que tomamos los dos objetos. Por esta razón, solo es necesario escribir la mitad de los δ, ya sea los que están en el triángulo superior o los que están en el triángulo inferior de la matriz. La diagonal puede dejarse en blanco porque estos elementos no desempeñan ningún papel en el proceso de agrupamiento. A veces, los δij se denominan distancias observadas o simplemente observaciones.

### Tipos de Modelos

Los métodos de análisis de conglomerados se pueden clasificar ampliamente como jerárquicos o no jerárquicos. En un método jerárquico, el proceso de agrupamiento produce una jerarquía en la que los subconjuntos de agrupamientos en un nivel se agregan para formar los agrupamientos en el siguiente nivel superior. Los métodos jerárquicos a su vez se pueden dividir en métodos aglomerativos y métodos divisivos. En un método aglomerativo, comenzamos tratando cada objeto como un agrupamiento de un solo miembro, y luego procedemos en una serie de pasos para fusionar agrupamientos. En este método, una vez que un par de individuos se ha unido en un agrupamiento, nunca se pueden separar posteriormente. Esto se debe a que cualquier nuevo agrupamiento se forma a partir de agrupamientos ya creados en etapas anteriores del proceso. En un método divisivo, comenzamos por el otro extremo, tratando al conjunto completo de individuos como un solo agrupamiento y luego procedemos dividiendo los agrupamientos existentes. Una vez que un par de individuos se ha separado en tal proceso, nunca pueden volver a unirse. Esto hace posible, como veremos a continuación, representar las etapas del proceso mediante un diagrama de árbol en el que los puntos de ramificación indican dónde se unen o se separan los agrupamientos.

En los métodos no jerárquicos, los agrupamientos se forman ajustando la membresía de los agrupamientos existentes en cualquier etapa del proceso mediante el movimiento de individuos hacia dentro o hacia fuera. Típicamente, estos métodos son más difíciles de llevar a cabo y se utilizan con menos frecuencia.
