# KNN o k vecinos más cercanos

kNN, o k-Nearest Neighbors, es un algoritmo supervizado de clasificación y regresion. Sin embargo, difiere de los clasificadores descritos anteriormente porque es un modelo de aprendizaje perezoso.

¿Qué es un modelo de aprendizaje perezoso? 

Un modelo de aprendizaje perezoso no hace mucho durante el proceso de capacitación más que almacenar los datos de la capacitación. Sólo cuando se introducen nuevos datos sin etiquetar, este tipo de modelo busca clasificar.

Por otro lado, un modelo aprendizaje activo construye un modelo de clasificación durante la capacitación. Cuando se introducen nuevos datos no etiquetados, este tipo de modelo introduce los datos en el modelo de clasificación.

Aprendizaje perezoso: en realidad el algoritmo solo se ejecuta en el momento que se requiere predecir una nueva instancia a partir de una predicción local. Este algoritmo no aprende una función discriminatoria de los datos de entrenamiento, sino que memoriza el conjunto de datos de entrenamiento.

Entonces, ¿qué hace KNN?<br>
kNN no construye ningún modelo de clasificación de este tipo. En su lugar, sólo almacena los datos de formación etiquetados.


El algoritmo KNN en sí mismo es bastante sencillo y se puede resumir en los siguientes pasos:<br>

- Elija el número de k y una métrica de distancia.
- Encuentra los vecinos más cercanos de la muestra que queremos clasificar.
- Asigne la etiqueta de clase por mayoría de votos.

Algunas caracteristicas de KNN
- Sencillo: asignar la clase o valor agregado de las instancias conocidas que se encuentran mas cerca de la instancia a predecir, 
- Basado en las instancias de aprendizaje, 
- No en un modelo subyacente probabilístico/estadístico


Cuando llegan nuevos datos sin etiquetar, kNN funciona en dos pasos básicos:
En primer lugar, examina los k puntos de datos de entrenamiento más cercanos, es decir, los vecinos más cercanos.
Segundo, usando las clases de los vecinos, kNN obtiene una mejor idea de cómo se deben clasificar los nuevos datos.


En la siguiente figura ilustra como un nuevo punto de datos(?) se le asigna la etiqueta de la clase triangulo basado en la votacion de sus cinco vecinos mas cercanos:

![knn](img/knn.png)

¿Cómo se da cuenta kNN de lo que está más cerca? <br>
Para los datos continuos, kNN utiliza una métrica de distancia como la distancia euclídea. La elección de la métrica de distancia depende en gran medida de los datos. Algunos incluso sugieren aprender una métrica de distancia basada en los datos de la capacitación. Hay muchos más detalles y documentos sobre las métricas de distancia kNN.


Metricas de distancia<br>
Similitud(cercania) es determinada utilizando una metrica de distancia, que es una funcion que mide que tan lejos se encuentran dos registros uno del otro. La mas popular metrica de distancia entre dos vectores es la distancia euclidiana, la cual es resta de los vectores elevadas al cuadrado, luego se suman y al final se obtiene la raiz cuadrada.

![distancia_euclidiana](img/distancia_euclidiana.png)

La fórmula de la distancia implica la comparación de los valores de cada característica. Por ejemplo, para calcular la distancia entre el tomate (dulzura = 6, crujiente = 4), y una habichuela (dulzura = 3, crujiente = 7), podemos usar la fórmula de la siguiente manera:

![ejemplo_distancia_euclidiana](img/ejemplo_distancia_euclidiana.png)


Uso de la distancia de Hamming como métrica para la "cercanía" de dos cadenas de texto.

Depende de la definición de una función de distancia, que se escogerá según la cantidad y características de las variables independientes


Transformación de datos discretos en características binarias.


¿Cómo clasifica kNN los nuevos datos cuando los vecinos no están de acuerdo? 
kNN tiene un tiempo fácil cuando todos los vecinos son de la misma clase. La intuición es que si todos los vecinos están de acuerdo, entonces el nuevo punto de datos probablemente caiga en la misma clase.


¿Cómo decide kNN la clase cuando los vecinos no tienen la misma clase?

2 técnicas comunes para tratar con esto son:<br>

Tomar una mayoría simple de votos de los vecinos. Cualquier clase que tenga el mayor número de votos se convierte en la clase para el nuevo punto de datos.
Tomar un voto similar, excepto dar un peso mayor a los vecinos que están más cerca. Una manera sencilla de hacer esto es usar la distancia recíproca, por ejemplo, si el vecino está a 5 unidades de distancia, entonces pondere su voto 1/5. A medida que el vecino se aleja, la distancia recíproca se hace cada vez más pequeña.... ¡exactamente lo que queremos!


¿Por qué usar kNN? 
La facilidad de comprensión e implementación son dos de las razones clave para usar kNN. Dependiendo de la métrica de distancia, el kNN puede ser bastante preciso.


Aquí hay 5 cosas a las que hay que prestar atención:

kNN puede resultar muy costoso desde el punto de vista computacional cuando se trata de determinar los vecinos más cercanos en un conjunto de datos de gran tamaño.<br>
Los datos ruidosos pueden desviar las clasificaciones kNN.<br>
Las características con un rango mayor de valores pueden dominar la métrica de distancia en relación con las características que tienen un rango menor, por lo que el escalado de características es importante.<br>
Dado que el procesamiento de datos es diferido, el kNN generalmente requiere mayores requerimientos de almacenamiento que los clasificadores ansiosos.<br>
La selección de una buena métrica de distancia es crucial para la precisión del kNN.<br>


Escalado de las caracteristicas

Estandarizacion (normalizacion, valores Z)<br>
Pone todas las variables un una escala similar por medio de la resta del valor de cada atributo por la media y dividiendo por la desviacion estandar, de esta manera nos aseguramos que una variable no exceda su influencia en el modelo.

![estandarizacion](img/estandarizacion.png)

Que significa el parámetro K

Número de vecinos mas cercanos a considerar para establecer la clase o valor de una nueva instancia


Consideraciones a tener en cuenta con el parámetro K:


K controla el overfitting(sobre aprendizaje) y el underfitting(sub aprendizaje
•Modelos más sencillos (K mas grandes) previenen el overfitting, pero pueden por el contrario irse hacia el underfitting
•Modelos mas complejos (K mas pequeños) previenen el underfitting, pero pueden por el contrario irse hacia el overfitting
•El K ideal que sirva para todos los casos no existe, depende de cada datasetespecífico


Las mismas consideraciones aplican tanto para la clasificación como para la regresión a partir de KNN (encontrar el K ideal para prevenir el over/underfitting)<br>
Ejemplo: puntos en rojo resultado de una función lineal con ruido (lo que se quiere aprender)<vr>
- 2 modelos KNN en azul (izquierda y derecha)
- 3 modelo lineal ideal en negro
- ¿En cuál de los dos modelos KNN hay overfitting)?


![overfiting](img/overfiting.png)

In [42]:
setwd("D:/iush2020/Mineria de datos/notebooks/datasets")

In [43]:
wbcd <- read.csv("wisc_bc_data.csv", stringsAsFactors = FALSE)

In [44]:
str(wbcd)

'data.frame':	569 obs. of  32 variables:
 $ id                     : int  842302 842517 84300903 84348301 84358402 843786 844359 84458202 844981 84501001 ...
 $ diagnosis              : chr  "M" "M" "M" "M" ...
 $ radius_mean            : num  18 20.6 19.7 11.4 20.3 ...
 $ texture_mean           : num  10.4 17.8 21.2 20.4 14.3 ...
 $ perimeter_mean         : num  122.8 132.9 130 77.6 135.1 ...
 $ area_mean              : num  1001 1326 1203 386 1297 ...
 $ smoothness_mean        : num  0.1184 0.0847 0.1096 0.1425 0.1003 ...
 $ compactness_mean       : num  0.2776 0.0786 0.1599 0.2839 0.1328 ...
 $ concavity_mean         : num  0.3001 0.0869 0.1974 0.2414 0.198 ...
 $ concave.points_mean    : num  0.1471 0.0702 0.1279 0.1052 0.1043 ...
 $ symmetry_mean          : num  0.242 0.181 0.207 0.26 0.181 ...
 $ fractal_dimension_mean : num  0.0787 0.0567 0.06 0.0974 0.0588 ...
 $ radius_se              : num  1.095 0.543 0.746 0.496 0.757 ...
 $ texture_se             : num  0.905 0.734 0.787 1

In [45]:
wbcd <- wbcd[-1]

In [46]:
str(wbcd)

'data.frame':	569 obs. of  31 variables:
 $ diagnosis              : chr  "M" "M" "M" "M" ...
 $ radius_mean            : num  18 20.6 19.7 11.4 20.3 ...
 $ texture_mean           : num  10.4 17.8 21.2 20.4 14.3 ...
 $ perimeter_mean         : num  122.8 132.9 130 77.6 135.1 ...
 $ area_mean              : num  1001 1326 1203 386 1297 ...
 $ smoothness_mean        : num  0.1184 0.0847 0.1096 0.1425 0.1003 ...
 $ compactness_mean       : num  0.2776 0.0786 0.1599 0.2839 0.1328 ...
 $ concavity_mean         : num  0.3001 0.0869 0.1974 0.2414 0.198 ...
 $ concave.points_mean    : num  0.1471 0.0702 0.1279 0.1052 0.1043 ...
 $ symmetry_mean          : num  0.242 0.181 0.207 0.26 0.181 ...
 $ fractal_dimension_mean : num  0.0787 0.0567 0.06 0.0974 0.0588 ...
 $ radius_se              : num  1.095 0.543 0.746 0.496 0.757 ...
 $ texture_se             : num  0.905 0.734 0.787 1.156 0.781 ...
 $ perimeter_se           : num  8.59 3.4 4.58 3.44 5.44 ...
 $ area_se                : num  153.4 74

In [47]:
table(wbcd$diagnosis)


  B   M 
357 212 

In [48]:
wbcd$diagnosis<- factor(wbcd$diagnosis, levels = c("B", "M"),        labels = c("Benign", "Malignant"))

In [49]:
round(prop.table(table(wbcd$diagnosis)) * 100, digits = 1)


   Benign Malignant 
     62.7      37.3 

In [50]:
summary(wbcd[c("radius_mean", "area_mean", "smoothness_mean")])

  radius_mean       area_mean      smoothness_mean  
 Min.   : 6.981   Min.   : 143.5   Min.   :0.05263  
 1st Qu.:11.700   1st Qu.: 420.3   1st Qu.:0.08637  
 Median :13.370   Median : 551.1   Median :0.09587  
 Mean   :14.127   Mean   : 654.9   Mean   :0.09636  
 3rd Qu.:15.780   3rd Qu.: 782.7   3rd Qu.:0.10530  
 Max.   :28.110   Max.   :2501.0   Max.   :0.16340  

In [52]:
wbcd_std = wbcd[,2:31]

In [53]:
wbcd_std = scale(wbcd_std)

In [56]:
summary(wbcd_std)

  radius_mean       texture_mean     perimeter_mean      area_mean      
 Min.   :-2.0279   Min.   :-2.2273   Min.   :-1.9828   Min.   :-1.4532  
 1st Qu.:-0.6888   1st Qu.:-0.7253   1st Qu.:-0.6913   1st Qu.:-0.6666  
 Median :-0.2149   Median :-0.1045   Median :-0.2358   Median :-0.2949  
 Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000  
 3rd Qu.: 0.4690   3rd Qu.: 0.5837   3rd Qu.: 0.4992   3rd Qu.: 0.3632  
 Max.   : 3.9678   Max.   : 4.6478   Max.   : 3.9726   Max.   : 5.2459  
 smoothness_mean    compactness_mean  concavity_mean    concave.points_mean
 Min.   :-3.10935   Min.   :-1.6087   Min.   :-1.1139   Min.   :-1.2607    
 1st Qu.:-0.71034   1st Qu.:-0.7464   1st Qu.:-0.7431   1st Qu.:-0.7373    
 Median :-0.03486   Median :-0.2217   Median :-0.3419   Median :-0.3974    
 Mean   : 0.00000   Mean   : 0.0000   Mean   : 0.0000   Mean   : 0.0000    
 3rd Qu.: 0.63564   3rd Qu.: 0.4934   3rd Qu.: 0.5256   3rd Qu.: 0.6464    
 Max.   : 4.76672   Max.   : 4.56

In [57]:
wbcd_train <- wbcd_std[1:469, ]
wbcd_test <- wbcd_std[470:569, ]

In [58]:
wbcd_train_labels <- wbcd[1:469, 1]
wbcd_test_labels <- wbcd[470:569, 1]

In [59]:
install.packages("class")

Installing package into 'C:/Users/JHOVANNY/Documents/R/win-library/3.6'
(as 'lib' is unspecified)

"package 'class' is in use and will not be installed"


In [30]:
library("class")

"package 'class' was built under R version 3.6.3"


In [66]:
wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test,
                        cl = wbcd_train_labels, k = 20)

In [63]:
install.packages("gmodels")

Installing package into 'C:/Users/JHOVANNY/Documents/R/win-library/3.6'
(as 'lib' is unspecified)

"package 'gmodels' is in use and will not be installed"


In [64]:
library("gmodels")

In [67]:
CrossTable(x = wbcd_test_labels, y = wbcd_test_pred,
                       prop.chisq=FALSE)


 
   Cell Contents
|-------------------------|
|                       N |
|           N / Row Total |
|           N / Col Total |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  100 

 
                 | wbcd_test_pred 
wbcd_test_labels |    Benign | Malignant | Row Total | 
-----------------|-----------|-----------|-----------|
          Benign |        77 |         0 |        77 | 
                 |     1.000 |     0.000 |     0.770 | 
                 |     0.975 |     0.000 |           | 
                 |     0.770 |     0.000 |           | 
-----------------|-----------|-----------|-----------|
       Malignant |         2 |        21 |        23 | 
                 |     0.087 |     0.913 |     0.230 | 
                 |     0.025 |     1.000 |           | 
                 |     0.020 |     0.210 |           | 
-----------------|-----------|-----------|-----------|
    Column Total |        79 |        21 |       100 | 
           

Elegir el K

Elegir correctamente el K es crucial para el balance entre sobre ajuste o sub ajuste del modelo, con el estimador construido probar con diferentes k

Ventajas de KNN

- Enfoque basado en la memoria es que el clasificador se adapta inmediatamente a medida que recopilamos nuevos datos de entrenamiento
- Simple y efectivo
- No hace suposiciones sobre la distribución de datos subyacente
- Rapido en fase de entrenamiento

Desventajas

- la complejidad computacional para clasificar nuevas muestras crece linealmente con el número de muestras en el conjunto de datos de capacitación
- Muy sensible a sobre ajuste debido a la maldicion de la dimensionalidad(La maldición de la dimensionalidad describe el fenómeno en el que el espacio de la característica se vuelve cada vez más escaso para un número creciente de dimensiones de un conjunto de datos de formación de tamaño fijo)
- No produce un modelo, lo que limita la capacidad de comprender cómo se relacionan las características con la clase
- Requiere la selección de un adecuado k

ejercicio<br>
Implementar en R, la clasificacion utilizando KNN del dataset IRIS

In [70]:
library(datasets)
data(iris)

In [71]:
str(iris)

'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
