# Métodos no supervisados y detección de anomalías: tarea de asignación (semana 2)
En esta semana de curso se ha profundizado en la resolución del problema de agrupamiento con métodos particionales, así como la validación de sus resultados. En esta tarea de asignación tendrás que implementar algunas de las medidas de validación interna y externa explicadas en la lección 2. Además, podrás comprobar que el resultado es correcto utilizando las implementaciones disponibles en la librería [*sklearn*](https://scikit-learn.org/stable/modules/clustering.html#clustering-evaluation).

## Descripción de la tarea
La tarea consta de dos apartados:
1. Cálculo de medidas de validación externa: Codifica funciones que permitan calcular la medida *Purity* y los índices de *Rand* y *Fowlkes-Mallows*.
2. Cálculo de medidas de validación interna: Codifica funciones que permitan calcular las medidas *WSS*, *BSS* y *Silhouette coefficient*.

## Instrucciones
A lo largo del *notebook* encontrarás varios apartados con el comentario **COMPLETAR**. Añade el código necesario para realizar lo que se pide en dicho apartado. Es recomendable utilizar la función *print* para visualizar el resultado tras invocar a las funciones que calculen las medidas.

## 1. Medidas de validación interna
Paso 1.1: Importa los paquetes necesarios

In [None]:
import scipy.spatial.distance as dist
import numpy as np

Paso 1.2: Define una función para calcular la medida ***Purity***. Esta función necesita dos parámetros:
*   particion_real: vector que contiene, para cada instancia de un hipotético conjunto de datos, el índice del grupo al que pertenece.
*   particion_obtenida: vector que contiene, para cada instancia del mismo conjunto de datos, el índice del grupo al que ha sido asignado.



In [None]:
def purity(particion_real:int, particion_obtenida:int):
  # COMPLETAR


Paso 1.3: Declara dos vectores para reflejar la asignación real de etiquetas (partición real) y una hipotética agrupación (partición). Utilizamos el ejemplo de la lección 2, con 7 instancias y 2 grupos (etiquetas) reales.

In [None]:
particion_real = [1, 2, 1, 2, 2, 1, 2]
particion_obtenida = [1, 2, 1, 1, 2, 3, 3]

Paso 1.4: Invoca a la función *purity* con los dos vectores anteriores como parámetros e imprime el resultado (debe ser el mismo que el del ejemplo de la lección, esto es, 0.7143 aproximadamente).

In [None]:
res_purity = purity(particion_real, particion_obtenida)
print(res_purity)

Paso 1.5: Define una función para calcular el **Índice de Rand**. La función debe tener dos parámetros, la partición real y la obtenida.

In [None]:
def rand_index(particion_real:int, particion_obtenida:int):
  # COMPLETAR

Paso 1.6: Invoca a la función *rand_index* con los vectores declarados en el apartado 1.3, e imprime el resultado.

In [None]:
res_rand = rand_index(particion_real, particion_obtenida)
print(res_rand)

Paso 1.7: Comprueba que el resultado obtenido es igual al que se obtiene si se utiliza la implementación de *sklearn*.

In [None]:
# COMPLETAR

Paso 1.8: Define una función para calcular el **Índice de Fowlkes-Mallows**. La función debe tener como parámetros un vector con la partición real y otro con la partición de referencia.

In [None]:
def fowlkes_mallows(particion_real:int, particion_obtenida:int):
  # COMPLETAR

Paso 1.9: Invoca a la función con los vectores definidos en el apartado 1.3.

In [None]:
res_fw = fowlkes_mallows(particion_real, particion_obtenida)
print(res_fw)

Paso 1.10: Comprueba que el resultado obtenido es el mismo que al utilizar la implementación disponible en *sklearn*.

In [None]:
# COMPLETAR

## 2. Medidas de validación externa

Paso 2.1: Para facilitar el cálculo de medidas de validación externa, implementa las siguientes funciones auxiliares:

*   *suma_cuadrado*: Suma de las distancias al cuadrado entre un par de puntos de tipo *float*
*   *calculo_centroide*: Dada una lista de puntos (de tipo *float*), devuelve las coordenadas del centroide (media en cada dimensión).



In [None]:
def suma_cuadrado(x:float, y:float):
  # COMPLETAR

def calcular_centroide(puntos:list):
  # COMPLETAR

Paso 2.2: Define una función para calcular la medida **WSS** (*within cluster sum of squares*), la cual debe recibir un conjunto de datos de n dimensiones (en forma de lista) y una asignación de grupos para dicho conjunto. 

In [None]:
def wss(datos:list, particion:int):
  # COMPLETAR

Paso 2.3: Crea un conjunto de datos de dos dimensiones y una partición con tres grupos

In [None]:
datos = list()
np.random.seed(0)
tam = 10
for i in range(0, tam):
  x = np.random.randint(0, 10)
  y = np.random.randint(0, 10)
  datos.append(np.array([x,y]))
print(datos)
particion = [1, 1, 2, 3, 2, 1, 2, 3, 3, 2]


Paso 2.4: Invoca a la función *wss* para calcular la cohesión de la partición.

In [None]:
res_wss = wss(datos, particion)
print(res_wss)

Paso 2.5: Define una función para calcular la medida **BSS** (*between cluster sum of squares*), la cual debe recibir un conjunto de datos de n dimensiones (en forma de lista) y una asignación de grupos para dicho conjunto.

In [None]:
def bss(datos:list, particion:int):
  # COMPLETAR

Paso 2.6: Utilizando el mismo conjunto de datos y partición del apartado 2.3, invoca a la función *wss* e imprime el resultado.

In [None]:
res_bss = bss(datos, particion)
print(res_bss)


Paso 2.7: Para facilitar la implementación de una función que calcule el **Silhoutte coefficient**, define primero la siguiente función:

*   distancia_punto_grupo: Función que calcula la distancia media de un punto, dado sus coordenadas, a todos los puntos incluidos en una lista. Puedes utilizar una implementación externa de la distancia euclídea (por ejemplo, la de *scipy*) para calcular la distancia entre cada par de puntos.

In [None]:
def distancia_punto_grupo(punto:float, grupo:list):
  # COMPLETAR

Paso 2.8: Implementa un función que calcule el **Silhoutte coefficient** para un único punto. Sus parámetros son el punto para el que se calcula el valor, el conjunto de datos completo (en forma de lista), la asignación de grupos a puntos y el índice del punto en el conjunto de datos.

In [None]:
def silhouette_punto(punto:float, datos:list, particion:int, indice:int):
  # COMPLETAR

Paso 2.9: Implementa una función que calcule el **Silhouette coefficient** para una partición, invocando para ello a la función definida en el apartado 2.8.

In [None]:
def silhoutte_particion(datos:list, particion:int):
  # COMPLETAR

Paso 2.10: Invoca a la función que calcula el coeficiente de silueta para el ejemplo del apartado 2.3 y comprueba que el resultado coincide con el que proporciona *sklearn*.

In [None]:
# COMPLETAR