# Métodos no supervisados y detección de anomalías: tarea de asignación (semana 1)
En esta semana de curso se ha definido el problema de agrupamiento y el concepto de proximidad, fundamental para su formulación y resolución. En esta tarea de asignación tendrás que implementar algunas de las medidas de distancia y similitud explicadas en la lección 2. Además, deberás comprobar que el resultado es correcto utilizando las implementaciones disponibles en Python.

## Descripción de la tarea
La tarea consta de dos apartados:
1. Cálculo de medidas de distancia para variables continuas: Codifica funciones que permitan calcular las medidas de distancia euclídea, manhattan y coseno.
2. Cálculo de medidas de similitud para variables discretas: Codifica funciones que permitan calcular medidas de similitud basadas en la coincidencia de características.
## Instrucciones
A lo largo del *notebook* encontrarás varios apartados con el comentario **COMPLETAR**. Añade el código necesario para realizar lo que se pide en dicho apartado. Es recomendable utilizar la función *print* para visualizar el resultado tras invocar a las funciones que calculen las medidas.

## 1. Medidas de distancia para variables continuas
Paso 1.1: Importa los paquetes necesarios

In [1]:
import scipy.spatial.distance as dist
import numpy as np

Paso 1.2: Define una función para calcular la ***distancia Euclídea***.

In [2]:
def distancia_euclidea(x1:float, x2:float):
  #COMPLETAR

  # Comprobamos que los dos vectores tengan el mismo tamaño
  if len(x1) != len(x2):
    print("Error. La longitud de los vectores tiene que ser la misma")
    return -1

  distance = np.sqrt(np.sum([(x_1 - x_2)**2 for x_1, x_2 in zip(x1, x2)]))

  return distance


Paso 1.3: Declara dos vectores de tamaño 10.

In [3]:
x1 = [1.5, 0.4, 3.5, 4.9, 2.2, 10.4, 5.1, 3.8, 0.1, 3.9]
x2 = [0.3, 5.4, 8.2, 9.8, 2.2, 8.3, 9.2, 4.1, 7.2, 1.1]

Paso 1.4: Invoca a la función *distancia_euclidea* con los dos vectores anteriores como parámetros.

In [4]:
#COMPLETAR
print(distancia_euclidea(x1, x2))

12.33288287465668


Paso 1.5: Calcula la distancia euclídea utilizando el paquete *scipy.spatial.distance* y comprueba que el resultado coincide.

In [5]:
#COMPLETAR
print(dist.euclidean(x1, x2))

12.33288287465668


Paso 1.6: Define una función para calcular la ***distancia Manhattan*** entre dos vectores.

In [6]:
def distancia_manhattan(x1:float, x2:float):
  #COMPLETAR

  # Comprobamos que los dos vectores tengan el mismo tamaño
  if len(x1) != len(x2):
    print("Error. La longitud de los vectores tiene que ser la misma")
    return -1

  distance = np.sum([abs(x_1 - x_2) for x_1, x_2 in zip(x1, x2)])

  return distance

Paso 1.7: Calcula la distancia Manhattan para el mismo par de vectores utilizando la función *distancia_manhattan*. Comprueba que el resultado es el mismo al obtenido con la función equivalente del paquete *scipy.spatial.distance*. 

In [7]:
#COMPLETAR
print(distancia_manhattan(x1, x2))

print(dist.cityblock(x1, x2))

32.2
32.2


Paso 1.8: Define una función que calcule la ***similitud coseno*** entre dos vectores de valores reales. Puedes utilizar funciones de *numpy* para realizar operaciones sobre los vectores.

In [8]:
def similitud_coseno(x1:float, x2:float):
  #COMPLETAR
  
  simil = np.dot(x1, x2) / (np.linalg.norm(x1) * np.linalg.norm(x2))

  return simil

Paso 1.9: Define una función que calcula la **distancia coseno** a partir de la función anterior.

In [9]:
def distancia_coseno(x1:float, x2:float):
  #COMPLETAR

  # Comprobamos que los dos vectores tengan el mismo tamaño
  if len(x1) != len(x2):
    print("Error. La longitud de los vectores tiene que ser la misma")
    return -1
  
  return 1 - similitud_coseno(x1, x2)

Paso 1.10: Calcula la distancia coseno con la función anterior, y comprueba que el resultado coincide con el calculado por *scipy*. Consulta la documentación de *scipy* para confirmar si la función correspondiente calcula la distancia o la similitud.

In [10]:
#COMPLETAR
print(distancia_coseno(x1, x2))

print(dist.cosine(x1, x2))


0.19421684022747399
0.1942168402274741


## 2. Medidas de distancia para variables discretas

Paso 2.1: Define una función para calcular la ***distancia de Hamming***.

In [11]:
def distancia_hamming(x1:int, x2:int):
  #COMPLETAR

  # Comprobamos que los dos vectores tengan el mismo tamaño
  if len(x1) != len(x2):
    print("Error. La longitud de los vectores tiene que ser la misma")
    return -1

  par_cor = np.sum([x_1 == x_2 for x_1, x_2 in zip(x1, x2)])

  par_discor = np.sum([x_1 != x_2 for x_1, x_2 in zip(x1, x2)])
  
  return par_discor / (par_discor + par_cor)

Paso 2.2: Declara dos vectores de enteros cuyos valores sean 1 o 0

In [12]:
x1 = [0,0,1,0,1,1,0,1,1,0]
x2 = [0,1,1,0,1,0,0,0,1,1]

Paso 2.3: Invoca a la función *distancia_hamming* y comprueba que su resultado coincide con el devuelto por la función equivalente de *scipy*.

In [13]:
#COMPLETAR
print(distancia_hamming(x1, x2))

print(dist.hamming(x1, x2))

0.4
0.4


Paso 2.4: Define una función para calcular la similitud entre cualquier par de variables discretas (binarias o no binarias), permitiendo ponderar la importancia de la discrepancia entre pares de posiciones.

In [14]:
def similitud_discreta(x1:int, x2:int, w:int):
  #COMPLETAR

  # Comprobamos que los dos vectores tengan el mismo tamaño
  if len(x1) != len(x2):
    print("Error. La longitud de los vectores tiene que ser la misma")
    return -1

  par_cor = np.sum([x_1 == x_2 for x_1, x_2 in zip(x1, x2)])

  par_discor = np.sum([x_1 != x_2 for x_1, x_2 in zip(x1, x2)])

  return par_cor / (par_cor + w * par_discor)


Paso 2.5: Comprueba que la función anterior con *w=1* devuelve el mismo valor que la similitud basada en distancia Hamming para los dos vectores binarios definidos en el paso 2.2.

In [15]:
#COMPLETAR

print(similitud_discreta(x1, x2, 1))

# Ya que 1 - similitud = distancia_hamming, cuando w=1, entonces, similitud = 1 - distancia_hamming
print(1 - distancia_hamming(x1, x2))


0.6
0.6
