# PRÁCTICA INDEPENDIENTE: KNN

## Introducción

A partir del dataset `wdbc` deberán construir un clasficador basado en KNN. El mismo contiene una serie de features que fueron computadas a partir de imágenes digitalizadas de muestras de tejido mamario. Los features describen algunas características de los núcleos celulares presentes en las imágenes. 

Los features son los siguientes:

* ID number 
* Diagnosis (M = malignant, B = benign) 

Diez features computados sobre cada núcleo celular (dando origen a 30 features -una por cada núcleo-)

* radius (mean of distances from center to points on the perimeter) 
* texture (standard deviation of gray-scale values) 
* perimeter 
* area 
* smoothness (local variation in radius lengths) 
* compactness (perimeter^2 / area - 1.0) 
* concavity (severity of concave portions of the contour) 
* concave points (number of concave portions of the contour) 
* symmetry 
* fractal dimension ("coastline approximation" - 1)

#### Ejercicio 1. Importar las librerias necesarias

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix

#### Ejercicio 2. Leemos el dataset desde una url

In [None]:
df = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data", header=None)

#### Borramos los campos correspondientes a células repetidas

In [None]:
df = df.drop(list(range(12,32)), axis=1)

#### Asignamos el header a los campos correspondientes

In [None]:
df.columns=['ID_number', 'diagnosis', 'radius', 'texture', 'perimeter', 'area', 'smoothness', 'compactness', 
 'concavity', 'concave_points', 'symmetry', 'fractal_dimension' ]

In [None]:
df.head()

In [None]:
df.shape

#### Ejercicio 3: Hacer el split entre features y variable target

In [None]:
data = df.loc[:, 'radius':'fractal_dimension']

In [None]:
target = df['diagnosis']

#### Ejercicio 4. Hacer el split entre test y training

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size = 0.10)

#### Ejericio 5: Establecer en 3 el parametro K

In [None]:
neigh = KNeighborsClassifier(n_neighbors=3)

In [None]:
neigh.fit(X_train, y_train)

#### Ejercicio 6:  Evaluar la perfomance del modelo en términos de score

In [None]:
neigh.score(X_train, y_train)

#### Ejercicio 7: Hacer la prediccion sobre el conjunto de testing

In [None]:
predict = neigh.predict(X_test) 

# clase real
actual = list(y_test)
print(predict)
print(actual)

#### Ejercicio 8: Emplear una matriz de confusion para observar los aciertos vs errores en la clasifiacion

In [None]:
cm = confusion_matrix(actual, predict, labels=['M', 'B'])
print(cm)

In [None]:
import numpy as np
from sklearn.model_selection import cross_val_score 
from sklearn import metrics

metrics.accuracy_score(actual, predict)

#### BONUS Ejercicio 9: encontrar cuál es el mejor K

Importamos del módulo `model_selection` de `sklearn` el método `cross_val_score`.

In [None]:
import numpy as np
from sklearn.model_selection import cross_val_score

Hacemos una validación cruzada para estimar el parámetro $k$ (cantidad de vecinos cercanos) del algoritmo. Guardamos los valores del error de clasificación ($1 - error\_clasificacion$), lo guardamos en un diccionario y luego buscamos el mínimo valor (es decir, el error de clasificación mínimo).

In [None]:
error_rates = {}
for i in range(2,10):
    nei = KNeighborsClassifier(n_neighbors=i)
    error = 1- np.mean(cross_val_score(nei, data, target, cv=10))
    error_rates.update({i:error})

In [None]:
error_rates

In [None]:
error_rates
min(error_rates, key=error_rates.get)