# Instance Based Learning(IBL)
## Aprendizaje basado en Instancias

**Universidad del Valle**

Diplomado en Ciencia de Datos

Docente: _Andres Mauricio Castillo_ 

El aprendizaje basado en instancias, a diferencia de otros algoritmos, no involucra la construcción de una generalización abstracta explicita, sino que clasifica nuevas instancias basado en comparaciones directas y similitudes con respectro a instancias de entrenamiento conocidas.

* El entranamiento puede ser muy fácil, solo debe memorizar las instancias de entrenamiento
* La evaluación puede ser muy costosa, ya que requiere una comparación exahustiva con todas las instancias de entrenamiento conocidas.
* Este tipo de algoritmos son conocidos también cómo:
  * Basados en casos (Case-based)
  * Basado en ejemplos (Examplar-based)
  * Vecinos más cercanos (Nearest Neighbor)
  * Basados en memoria (Memory-based)
  * Aprendizaje perezoso(Lazy Learning)

## Métricas de Similitud/Distancia

* Los métoos basados en instancias asumen una función para determinar la similitud o distancia entre cualquier par de instancias.
* Para vectores de características continuos, la distancia Euclidiana es usada generalmente:

   $$d(x, y) = \sqrt { \sum_{p=1}^{n} (x_p - y_p )^2 }$$

* Para características discretas, la distancia entre ellos es 0 si son iguales y 1 si son diferentes(Por ejemplo la distancia de Hamming para vectores de bits)
* Para compensar las diferencias de escala entre atributos, se deben escalar todos los atributos continuos al intervalo [0, 1]

## Otras medidas de distancia

* Distancia de Mahalanobits
  - Métrica invariante a la escala que normaliza con la varianza
  $$m(x, y)=\sqrt {(x - y) V^{-1}(x - y)^T}$$
* Similitud Coseno
  - Coseno del ángulo entre 2 vectores
  - Usada en texto y otros datos de alta dimensionalidad
* Correlación de Pearson
  -Coeficiente de correlación estadística estándar.
  -Usada en datos bioinformáticos
  $$cos(x,y)= \frac{x*y}{\|{x}\| * \|y\|}$$
* Distancia de edición
  -Usada para medir la distancia entre cadenas de logintud variable
  -Usada en texto y bioinformática

In [148]:
import numpy  as np
import math
from numpy import linalg as LA


#Euclidean distance
x = np.array([1, 10])
y = np.array([-3, 5])
euclidean = LA.norm(x - y) 
print("Euclidean ", euclidean)

# Hamming distance
xb = np.array([1, 0, 1, 2, 3 ])
yb = np.array([1, 0, 0, 2, 1 ])

hamming = np.count_nonzero(xb != yb)
print("Hamming ", hamming)

# Mahalanobits distance
data = np.transpose(np.array([[3, 2, 9], [7, 11, 1], [3, 3, 7], [2, 1, 6]]))
x = np.array([1, 10, 0]);
y = np.array([-3, 5, 0]);
VI = np.linalg.inv(np.cov(data));
maha = math.sqrt(np.dot(np.dot([x - y], VI), np.transpose([x - y])))
print("Mahalanobits ", maha)

#Similitud coseno
xc = np.array([1, 0])
yc = np.array([1, 1])
#yc = np.array([0, 1])
cos = np.dot(xc, yc) / math.sqrt((np.dot(xc, xc) *  np.dot(yc, yc)))
print("Cosine ", cos)

Euclidean  6.40312423743
Hamming  2
Mahalanobits  8.831760866327864
Cosine  0.707106781187
