### Importancia de la Normalización de las características para el algoritmo K-Neighbors

En este ejercicio vamos a ver que es crítico el uso de componentes normalizadas en conjuntos de datos donde los rangos de valores son muy diferentes entre características. 

Consideremos la tabla 'ventas.csv' que indica si hemos conseguido vender un seguro de vida a diferentes potenciales clientes de los cuales sabemos su sueldo y su edad. 

La idea es hacer un predictor al que introduciéndole el sueldo y la edad del potencial cliente nos indique si es probable que nos compre el seguro de vida. Para ello vamos a utilizar el algoritmo de los K-vecinos. Específicamente vamos a buscar el vecino más próximo al dato de consulta y asumiremos que el comportamiento previsto será el de dicho vecino.

In [2]:
#cargamos el dataset de los clientes que conocemos en un DataFrame.Llámalo 'data'
import pandas as pd
import numpy as np

#Código aquí
data = pd.read_csv('ventas.csv' , sep = ';')
print(data)



   Sueldo  Edad Compra
0   53700    41     no
1   65300    37     no
2   48900    45     si
3   64800    49     si
4   44200    30     no
5   55900    57     si
6   48600    26     no
7   72800    60     si
8   45300    34     no
9   73200    52     si


In [3]:
#Del original separamos las columnnas que harán de puntos en un espacio 2D 'Sueldo' y 'Edad'  
#y dejamos en otro dataframe la columna 'Compra' que es la respuesta a la consulta

gt = data.drop(['Sueldo', 'Edad' ], axis=1)
Y = data.drop(['Compra'], axis=1)

#Las transformamos en arrays
Ynp = Y.to_numpy()

gtnp = gt.to_numpy()

In [6]:
#cargamos el algoritmo de K-Neighbors
from sklearn.neighbors import KNeighborsClassifier

#preparamos el clasificador para devolver el primer vecino mas próximo. Lo llamamos 'neigh'

#Código aquí
neigh = KNeighborsClassifier()

#Introducimos el dataset para que realice el aprendizaje
neigh.fit(Ynp, np.ravel(gtnp))

KNeighborsClassifier()

Observa en el diagrama que se genera en la siguiente casilla la disposición de los puntos del dataset. Hemos puesto con 'x' 
los puntos que marcan clientes que no han comprado el seguro y con triángulos los clientes que sí lo han comprado.

In [24]:
conda install -c conda-forge category_encoders


Note: you may need to restart the kernel to use updated packages.Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... done

## Package Plan ##

  environment location: C:\ProgramData\Anaconda3

  added / updated specs:
    - category_encoders


The following NEW packages will be INSTALLED:

  category_encoders  conda-forge/noarch::category_encoders-2.5.0-pyhd8ed1ab_0
  python_abi         conda-forge/win-64::python_abi-3.9-2_cp39

The following packages will be UPDATED:

  conda              pkgs/main::conda-4.14.0-py39haa95532_0 --> conda-forge::conda-22.9.0-py39hcbf5309_1






  current version: 4.14.0
  latest version: 22.9.0

Please update conda by running

    $ conda update -n base -c defaults conda



EnvironmentNotWritableError: The current user does not have write permissions to the target environment.
  environment location: C:\ProgramData\Anaconda3





Preparing transaction: ...working... done
Verifying transaction: ...working... failed


In [26]:
conda update -n base -c defaults cond


Note: you may need to restart the kernel to use updated packages.



PackageNotInstalledError: Package is not installed in prefix.
  prefix: C:\ProgramData\Anaconda3
  package name: cond




In [25]:
#pip install category_encoders

In [31]:
import matplotlib.pyplot as plt
plt.style.use('seaborn-whitegrid')

#Definimos los símbolos que representamos en el diagrama
marker=['x','^']

#Vamos a codificar de manera binaria los valores 'si' 'no' de la tabla de respuestas 'Compra'
#para utilizarlos como índice en el array 'marker'. Así, los que no compran se visualizarán como puntos
#en forma de aspa y los que compran se visualizarán como triángulos.
import category_encoders as ce
encoder = ce.BinaryEncoder()

#Código aquí. codifica el array gtnp
gtnpq=encoder.fit_tranform(gtnp)["0_0"]

pp=np.array(gtnpq)

#Código aquí. Visualiza con plt.scatter el dataset  Ynp utilizando 'marker' con la información de pp

ModuleNotFoundError: No module named 'category_encoders'

Visualizando la gráfica podemos hacernos una idea de cuál es el perfil del cliente que NO va a comprar un seguro.
Especifica ese perfil. 

**Respuesta:**


Vamos a predecir si un cliente que cobra 56000 euros al año y tiene 35 años nos compraría el seguro o no. 
Para ello buscaremos el vecino más próximo y consultaremos la decisión que tomó ese vecino.

In [30]:
dist, index = neigh.kneighbors(np.array([56000 , 35]).reshape(1,-1),1,True)

print(dist)
print(index)

print("Vecino mas proximo")
print(data.iloc[index[0,0]])

[[102.39140589]]
[[5]]
Vecino mas proximo
Sueldo    55900
Edad         57
Compra       si
Name: 5, dtype: object


Vemos que el que nos ha dado como vecino más próximo, no parece cumplir el perfil del dato de consulta.
Si visualizamos el punto del potencial cliente buscado, no *'parece'* estar cercano al vecino más próximo en la gráfica:

In [None]:
#Código aquí. Visualiza con plt.scatter el dataset  Ynp utilizando 'marker' con la información de pp

#pintamos el punto de query
plt.scatter(56000,35,marker='o', color='blue')

Explica con tus palabras a qué se debe este resultado.

**Respuesta:**


Vamos a normalizar las características del array Ynp para que ambas se encuentren en el mismo rango. Para ello vamos a usar el método 
MinMaxScaler de sklearn.preprocessing

In [None]:
from sklearn.preprocessing import MinMaxScaler

#Código aquí.
scaler = ????

scaler.fit(???)
Ynpnorm = scaler.transform(???)

#observa ahora cómo los valores están normalizados
print(Ynpnorm)

#Llama ahora otra vez al clasificador de k-vecinos para un solo vecino
neigh2 = KNeighborsClassifier(n_neighbors=1)
neigh2.fit(Ynpnorm, np.ravel(gtnp))

#Obtén con scaler las características normalizadas del punto (56000,35)
query = scaler.????

#Obtén ahora con el clasificador neigh2 el vecino más próximo de query
dist2, index2 = ?????

In [None]:
#imprimimos el nuevo resultado
print("Vecino mas proximo")
print(data.iloc[index2[0,0]])


In [None]:
#Código aquí. Visualiza con plt.scatter el dataset normalizado

plt.scatter(query[:,0],query[:,1],marker='o', color='blue')

Observa la gráfica y explica el resultado que has obtenido con el nuevo dato normalizado 'query'.

**Respuesta:**