### Este es un cuaderno simple para construir y visualizar los algoritmos de kNN. 
Acompaña al Capítulo 2 de la clase.

Autores: Viviana Acquaviva, con Jake Postiglione y Olga Privman. Traducción a Español por Lucia Perez y Rosario Cecilio-Flores-Elie.

In [None]:
### Primero se introduce los módulos de python pertinentes

import numpy as np

import matplotlib

import matplotlib.pyplot as plt

import matplotlib.patches as mpatches

import pandas as pd 

import sklearn

from sklearn.model_selection import train_test_split # Esta función no la usamos en este cuaderno, ¡pero es muy útil!

from sklearn.tree import DecisionTreeClassifier # cómo introducir los métodos de aprendizaje automático

from sklearn import metrics # con esto podemos usar métricas de evaluación

from sklearn import neighbors # y aquí entra el método de hoy, kNN

In [None]:
# preparando cosas básicas para nuestra gráfica final
font = {'size'   : 20}
matplotlib.rc('font', **font)
matplotlib.rc('xtick', labelsize=20) 
matplotlib.rc('ytick', labelsize=20) 
matplotlib.rcParams['figure.dpi'] = 300

### Leer los datos del archivo

In [None]:
LearningSet = pd.read_csv('../data/HPLearningSet.csv')

LearningSet = LearningSet.drop(LearningSet.columns[0], axis=1) # No necesitamos la primera columna de data, entonces la desechamos ("drop" aquí significa "dejar caer" de lo otro)

In [None]:
# Ya sabemos como funcionan los marcos de datos de pandas

LearningSet # Esto nos muestra las primeras 5 filas

### Vamos a escoger los mismos conjuntos de aprendizaje y prueba que usamos en el ejercisio 

In [None]:
TrainSet =  LearningSet.iloc[:13,:] #.iloc se usa para separar la estructura de la data usando los índices de la position

TestSet = LearningSet.iloc[13:,:]

### Se separan los conjuntos e aprendizaje y prueba entre características/atributos y etiquetas/clasificaciones

In [None]:
Xtrain = TrainSet.drop(['P_NAME','P_HABITABLE'],axis=1) # Esto nos da la masa estelar, el periodo, y la distancia

Xtest = TestSet.drop(['P_NAME','P_HABITABLE'],axis=1)  # También nos da la masa estelar, el periodo, y la distancia

In [None]:
ytrain = TrainSet.P_HABITABLE # Esto indica la verdadera clasificación del conjunto de entrenamiento, o el output

ytest = TestSet.P_HABITABLE # Esto indica la verdadera clasificación del conjunto de prueba, o el output

### Estamos listos para implementar el algoritmo de kNN ("k Nearest Neighbor", o 'los k vecinos más cercanos') 

Es un algoritmo simple, basado en la idea de distancia: buscamos los "k" objetos más cercanos (k aquí es un entero) al objeto que queremos clasificar, y decidir con la mayoría  entre las clases 'k' de los 'k' vecinos.  

En este proceso, yo me pregunte: ¿pero a qué le falta para hacer ".fit()"?  [Esta pagina](https://stats.stackexchange.com/questions/349842/why-do-we-need-to-fit-a-k-nearest-neighbors-classifier) (en Ingles) me lo explico bien. 

In [None]:
model = neighbors.KNeighborsClassifier(n_neighbors = 3) # 'neighbors' = vecinos

In [None]:
model

# Revisión de aprendizaje:

Pregunta: ¿Cómo se debe escribir código para aumentar los vecinos a 5? Pruébalo en la próxima celda.

In [None]:
# Escribe tu código aquí



<details>
<summary style="display: list-item;">¡Oprime aquí para la respuesta!</summary>
<p>

```python
model = neighbors.KNeighborsClassifier(n_neighbors = 5)
```

</p>
</details>

### Visualicemos el modelo, pero solamente usando las primeras dos características/atributos para la sencillez. 

#### Construimos el modelo para hacerle "fit" (o, encajar) al conjunto de aprendizaje; y predecir las etiquetas del conjunto de prueba.

In [None]:
# Se pueden combinar los processors de encajar/predecir así, o usando el método de "fit_predict"

model.fit(Xtrain.iloc[:,:2],ytrain) # así se entrena el modelo, que ahora se puede usar para predecir etiquetas

ytestpred = model.predict(Xtest.iloc[:,:2]) # así se usa el modelo entrenado/encajado para predecir las etiquetas para los 5 objetos en el conjunto de prueba


In [None]:
ytestpred

### Revisión de aprendizaje: 
   
Pregunta: ¿Se puede predecir las etiquetas para el conjunto de aprendizaje? ¿Cuál sería el código correcto? Prueba tu código en la próxima celda.


In [None]:
# Escribe tu código aquí



<details>
<summary style="display: list-item;">¡Oprime aquí para la respuesta!</summary>
<p>

```python
ytrainpred = model.predict(Xtrain.iloc[:,:2])
```

</p>
</details>

In [None]:
ytestpred, ytest.values #comparar

Pregunta: Calcula la exactitud el los resultados del conjunto de entrenamiento y el conjunto de prueba (las notas de entrenamiento y prueba)

<details>
<summary style="display: list-item;">¡Oprime aquí para la respuesta!</summary>
<p>

   
```markdown
~ 0.692
    
0.8
```
   
</p>
</details>

In [None]:
print(metrics.accuracy_score(ytrain, model.predict(Xtrain.iloc[:,:2]))) # esto compara las etiquetas verdaderas para el conjunto de aprendizaje con las etiquetas previstas para el mismo conjunto

print(metrics.accuracy_score(ytest, model.predict(Xtest.iloc[:,:2]))) # lo mismo que se acaba de hacer, pero para el conjunto de prueba


Pregunta: ¿Cuáles serían las exactitudes del entrenamiento y de la prueba si subimos el número de vecinos a 5?  

<details>
<summary style="display: list-item;">¡Oprime aquí para la respuesta!</summary>
<p>
   
```
~ 0.615
0.8
```
   
</p>
</details>



### Después de encajar y predecir, podemos ver los 'k' vecinos para cada elemento en el conjunto de prueba así:

In [None]:
model.kneighbors(Xtest.iloc[:,:2]) # el primero elemento da las distancies, el segundo los índices

### Ahora podemos visualizar los resultados, como hicimos con los árboles de decisión.

Podemos imaginar las distancias más grandes como los radios de círculos--cada punto drentro del círculo es un vecino.


In [None]:
for i in range(len(TestSet)): # vemos cada elemento del conjunto de prueba en orden  
    
    print(model.kneighbors(Xtest.iloc[:,:2])[0][i,2]) # esto imprime el tercer elemento del vector de distancias 

In [None]:
plt.figure(figsize=(10,6))

cmap = matplotlib.colors.LinearSegmentedColormap.from_list("", ['#20B2AA','#FF00FF'])

a = plt.scatter(TrainSet['S_MASS'], TrainSet['P_PERIOD'], marker="$\u2606$", facecolor = 'none',\
            c = TrainSet['P_HABITABLE'], s = 100, label = 'Train', cmap=cmap)

a = plt.scatter(TestSet['S_MASS'], TestSet['P_PERIOD'], marker="$\u25EF$",facecolors = 'none',\
            c = TestSet['P_HABITABLE'], s = 100, label = 'Test', cmap=cmap)

for i in range(len(TestSet)): # trazamos los vecinos 

    circle1=plt.Circle((TestSet['S_MASS'].iloc[i],TestSet['P_PERIOD'].iloc[i]),model.kneighbors(Xtest.iloc[:,:2])[0][i,2],\
                       lw = 0.7, edgecolor='k',facecolor='none')
    plt.gca().add_artist(circle1)
    
plt.gca().set_aspect(1)

bluepatch = mpatches.Patch(color='#20B2AA', label='Not Habitable') # los planetas no habitables marcados en azul/cian
magentapatch = mpatches.Patch(color='#FF00FF', label='Habitable') # los planetas habitables maracados en rosado

plt.legend();

ax = plt.gca()
leg = ax.get_legend()
leg.legendHandles[0].set_color('k')
leg.legendHandles[0].set_facecolor('none')
leg.legendHandles[1].set_color('k')
leg.legendHandles[1].set_facecolor('none')


plt.legend(handles=[leg.legendHandles[0],leg.legendHandles[1], magentapatch, bluepatch],\
           loc = 'upper left', fontsize = 14)

plt.xlim(-130,70)
plt.ylim(0,140)
plt.xlabel('Mass of Parent Star (Solar Mass Units)')
plt.ylabel('Period of Orbit (days)');

#plt.savefig('HabPlanetsKNN2features.png', dpi = 300)

### ¿Te has dado cuenta de un problema aquí?

### Si una dimensión tiene un rango mucho mas grande que las toras, dominará el procesador de decisión. Podemos resolver este asunto usando <b> escalas </b>. Escalar valores es una etapa de pre-procesar los datos muy importante para muchos algoritmos de aprendizaje inteligente.

[Aquí](https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html) están ejemplos de diferentes algoritmos para escalar datos.

Usaremos <i>RobustScaler</i> (literalmente: escalador robusto), que resiste mejor datos aislados que la versión regular.


In [None]:
scaler = sklearn.preprocessing.RobustScaler()

In [None]:
scaler.fit(Xtrain) #  IMPORTANTE: solo se escala el conjunto de prueba.

In [None]:
scaledXTrain = scaler.transform(Xtrain)

In [None]:
scaledXTrain

In [None]:
scaledXtest = scaler.transform(Xtest) # mosca que ahora tenemos matrices de numpy, no "data frames"/marcos de datos de pandas

In [None]:
scaler.inverse_transform # así se deshace la escalación 

In [None]:
model.fit(scaledXTrain[:,:2],ytrain).predict(scaledXtest[:,:2])

In [None]:
model.kneighbors(scaledXtest[:,:2]) # ahora las distancias a los vecinos para objetos en el conjunto de prueba se ven más balanceados

In [None]:
plt.figure(figsize=(10,6))#, aspect_ratio = 'equal')
cmap = matplotlib.colors.LinearSegmentedColormap.from_list("", ['#20B2AA','#FF00FF'])
plt.scatter(scaledXTrain[:,0], scaledXTrain[:,1], marker = '*',\
            c = ytrain, s = 100, label = 'Train', cmap=cmap) #, 

plt.scatter(scaledXtest[:,0], scaledXtest[:,1], marker = 'o',\
            c = ytest, s = 100, label = 'Test', cmap=cmap) #label = ,

for i in range(len(TestSet)):

    circle1=plt.Circle((scaledXtest[i,0],scaledXtest[i,1]),model.kneighbors(scaledXtest[:,:2])[0][i,2],\
                       edgecolor='k',facecolor='none', lw = 0.7)
    plt.gca().add_artist(circle1)

plt.gca().set_aspect(1)

plt.legend()

ax = plt.gca()
leg = ax.get_legend()
leg.legendHandles[0].set_color('k')
#leg.legendHandles[0].set_facecolor('none')
leg.legendHandles[1].set_color('k')
#leg.legendHandles[1].set_facecolor('none')


plt.legend(handles=[leg.legendHandles[0], leg.legendHandles[1]], loc = 'upper right', fontsize = 14)

plt.xlabel('Mass of Parent Star (Earth Mass Units)')
plt.ylabel('Period of Orbit (days)');


plt.xlim(-2.5,2.5)
plt.ylim(-1.,2.5);

#plt.savefig('HabPlanetsKNNscaled.png', dpi = 300)

### Mosca: cuando estemos aplicando los algoritmos kNN (no solamente visualizarlos), se deben usar todas las características.

### Comentarios finales:     
    
¡kNN necesita escalar datos! ¿Es que los árboles de decisión tienen el mismo problema?

¿Qué piensas de la fortaleza o limitación de kNN?