# Técnicas de Prendizaje Automático. Aprendizaje No Supervisado.

## Práctica 4: Expectation Minimization (EM).

En esta práctica se familiarizará con una implementación del algoritmo EM.


**Instrucciones:**

- siga las indicaciones y comentarios en cada apartado.
- incluya el código requerido entre los apartados:
   - \#\<code>
   - \#\</code>

In [87]:
#@title Utilidades
#@markdown Ejecute esta casilla para definir algunas funciones necesarias en la actividad.

import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import numpy as np

def visualize_data(x, y, labels=None):

  if type(labels) == np.ndarray or type(labels) == list:
    labels = [str(e) for e in labels]

  fig = px.scatter(x=x, y=y, color=labels)


  fig.update_layout(height=300,
                    width=300,
                    showlegend=False,
                    title={'text': 'Datos',
                          'font': {'size':12},
                          'x': 0.5,
                          'xanchor': 'center'
                          }
                    )
  return fig



def visualize_clusters_k(data, models):
  rows=2
  cols=4

  keys = sorted(models.keys())

  fig = make_subplots(rows=rows, cols=cols, subplot_titles=[f'{k}' for k in keys])

  for i, k in enumerate(keys):
    model = models[k]
    labels = model.predict(data)
    plabels = np.unique(model.predict(data))
    col = i%cols
    row = int((i-col) / cols)

    col+=1
    row+=1

    for label in plabels:
      x = data['X1'][labels==label]
      y = data['X2'][labels==label]
      fig.add_trace(go.Scatter(x=x, y=y, mode='markers', name=f'K={k} - Clúster {label}'), row=row, col=col)


  fig.update_layout(height=600,
                    width=1200,
                    showlegend=False
                    )
  return fig


### Carga de datos y análisis exploratorio.

**a)** El primer paso consiste en obtener los datos relacionados con la tarea dejándolos en el formato adecuado.

El fichero **aggregation-noclass.csv** contiene instancias artificiales representado puntos 〈x1,x2〉en un espacio bidimensional.

| X1 | X2|
| -- |-- |
| 15.55|28.65|
| ...|...|

En la siguiente casilla, incluya el código necesario para:

  **a.1)** leer el archivo **aggregation-noclass.csv** en un dataframe de pandas. La variable con este dataframe debe llamarse **data**.
<br><br/>
  **a.2)** visualizar los datos en un gráfico de dispersión. El código necesario ya se provee.


In [88]:
# a.1 leer datos
data = pd.read_csv('aggregation-noclass.csv')
# a.2 visualizar datos
fig = visualize_data(data['X1'], data['X2'], labels=None)
fig.show()

**b)** Una vez leídos los datos, se aplicará el algoritmo EM en scikit-learn para obtener los agrupamientos.
<br><br/>
En la siguiente casilla, incluya el código necesario para:
<br><br/>
  **b.1)** aplicar EM con 2 componentes. La variable con el modelo debe llamarse **model**. Opcionalmente puede probar otros valores de los hiper-parámetros del algoritmo.
<br><br/>
  **b.2)** visualizar los datos utilizando un gráfico de dispersión, donde el color de cada punto estará determinado por el clúster al que pertenece. El código necesario ya se provee.
<br><br/>
**Sugerencia:** investigar los diferentes parámetros y atributos de la implementación utilizada del algoritmo EM.

In [89]:
from sklearn.mixture import GaussianMixture
# b.1 aplicar algoritmo

model = GaussianMixture(n_components=2)
model.fit(data)

# b.2 visualizar datos
fig = visualize_data(data['X1'], data['X2'], model.predict(data))
fig.show()

**c)** En esta parte, se explorará el efecto que tiene el número de componentes. En la siguiente casilla, incluya el código necesario para:
<br><br/>
**c.1)** aplicar EM para $n\_components \in [2,10]$, conservando los diferentes modelos. Se debe obtener un modelo para número de componentes. Los modelos deben guardarse en la variable **models** que es un diccionario donde la llave es $n\_components$ y el valor es el modelo correspondiente$.
<br><br/>
**c.2)** visualizar el particionamiento que produce cada modelo. El código necesario ya se provee.
<br><br/>
Empleando un criterio puramente visual y de acuerdo con las gráficas obtenidas ¿cuál es el número de componentes que considera más adecuado?



Parece que los clústeres con números de 2 a 5 tienen una partición más clara y definida, mientras que los clústeres con números de 6 a 10 tienen una partición más difusa y menos definida.

In [94]:
# c.1 aplicar algoritmo

models = {}
for n_components in range(2, 10):
    model = GaussianMixture(n_components=n_components)
    model.fit(data)
    models[n_components] = model

# c.2 visualizar datos
fig = visualize_clusters_k(data, models)
fig.show()