# Técnicas de Prendizaje Automático. Aprendizaje No Supervisado.

## Práctica 3: Algoritmos Aglomerativos.

En esta práctica se familiarizará con una implementación de un algoritmo jerárquico aglomerativo, además de observar el efecto de los diferentes tipos de “linkage” en la forma de los clústeres obtenidos.


**Instrucciones:**

- siga las indicaciones y comentarios en cada apartado.
<br></br>
- siempre que una función o algoritmo lo permita, establezca $random\_state=const$, donde $const$ es un valor constante de su preferencia, por ejemplo $1$. Esto para garantizar replicabilidad del experimento.
<br></br>
- incluya el código requerido entre los apartados:
   - \#\<code>
   - \#\</code>

In [74]:
#@title Utilidades
#@markdown Ejecute esta casilla para definir algunas funciones necesarias en la actividad.

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import numpy as np

def visualize_data(x, y, labels=None):

  if type(labels) == np.ndarray or type(labels) == list:
    labels = [str(e) for e in labels]

  fig = px.scatter(x=x, y=y, color=labels)


  fig.update_layout(height=300,
                    width=300,
                    showlegend=False,
                    title={'text': 'Datos',
                          'font': {'size':12},
                          'x': 0.5,
                          'xanchor': 'center'
                          }
                    )
  return fig



def visualize_clusters(x, y, models):

  linkages = ['average', 'single', 'complete']

  rows=1
  cols=4

  titles = ['Datos'] + linkages
  fig = make_subplots(rows=rows, cols=cols, subplot_titles=titles)

  # all data
  plabels = np.unique(labels)
  row = 1
  col = 1
  for label in plabels:
    xp = x[labels==label]
    yp = y[labels==label]
    fig.add_trace(go.Scatter(x=xp, y=yp, mode='markers', name=f'Categoría {label}'), row=row, col=col)

  # clusters
  for i, l in enumerate(linkages):
    model = models[l]
    plabels = np.unique(model.labels_)
    col = i%cols
    row = int((i-col) / cols)

    col+=2
    row+=1

    for label in plabels:
      xp = x[model.labels_==label]
      yp = y[model.labels_==label]
      fig.add_trace(go.Scatter(x=xp, y=yp, mode='markers', name=f'linkage= {l} - Clúster {label}'), row=row, col=col)


  fig.update_layout(height=300,
                    width=900,
                    showlegend=False
                    )

  return fig


### Carga de datos y análisis exploratorio.

**a)** El primer paso consiste en obtener los datos relacionados con la tarea dejándolos en el formato adecuado.

En la siguiente casilla, incluya el código necesario para:

**a.1)**	utilizando la función make_moons, generar una muestra de 1000 instancias, con ruido 0.05. Las características deberán guardarse en una variable con nombre **data** y las categorías en una variable con nombre **labels**
<br><br/>
  **a.2)** visualizar los datos en un gráfico de dispersión, coloreando cada punto según su categoría. El código necesario ya se provee.
<br><br/>
Teniendo en cuenta un criterio puramente visual, ¿cuántos clústeres pueden identificarse en los datos?

In [75]:
# a.1 leer datos
import pandas as pd
from sklearn.datasets import make_moons
data, labels = make_moons(n_samples=1000, noise=0.05)

# a.2 visualizar datos
fig = visualize_data(data[:,0], data[:,1], labels=labels)
fig.show()

**b)** Una vez leídos los datos, se aplicará un algoritmo de clústering jerárquico implementado en scikit-learn para obtener $2$ agrupamientos.
<br><br/>
En la siguiente casilla, incluya el código necesario para:
<br><br/>
  **b.1)** aplicar un algoritmo jerárquico aglomerativo con linkage tipo *average*. La variable con el modelo debe llamarse **model**.
<br><br/>
  **b.2)** visualizar los datos utilizando un gráfico de dispersión, donde el color de cada punto estará determinado por el clúster al que pertenece. El código necesario ya se provee.
<br><br/>
¿Puede apreciar instancias cuyo clúster difiere del que debería corresponderle de acuerdo con lo valorado en el apartado (a)?

In [76]:
from sklearn.cluster import AgglomerativeClustering
# b.1 aplicar algoritmo

model = AgglomerativeClustering(n_clusters=2, linkage='average')
model.fit(data)
models = {'average': model}

model = AgglomerativeClustering(n_clusters=2, linkage='single')
model.fit(data)
models['single'] = model

# b.2 visualizar datos
fig = visualize_data(data[:,0], data[:,1], model.labels_)
fig.show()


**c)** En esta parte, se explorará el efecto que tiene el tipo de linkage. En la siguiente casilla, incluya el código necesario para:
<br><br/>
**c.1)** aplicar un algoritmo jerárquico aglomerativo con linkaje *average* y *complete*, conservando los diferentes modelos. Se debe obtener un modelo para cada tipo de linkage. Los modelos deben guardarse en la variable **models** que es un diccionario donde la llave es *linkage* y el valor es el modelo para ese tipo.
<br><br/>
**c.2)** visualizar el particionamiento que produce cada modelo. El código necesario ya se provee.
<br><br/>
Empleando un criterio puramente visual y de acuerdo con las gráficas obtenidas ¿qué valor de $k$ considera más adecuado?

In [79]:
# c.1 aplicar algoritmo

models = {}
linkages = ['average', 'complete', 'single']

for linkage in linkages:
    model = AgglomerativeClustering(n_clusters=2, linkage=linkage)
    model.fit(data)
    models[linkage] = model

# c.2 visualizar datos
fig = visualize_clusters(data[:,0], data[:,1], models)
fig.show()