## K - nearest neighbor imputación (KNN)

KNN es muy útil para encontrar valores a los missing values, pues calcula un valor teniendo en cuenta los k vecinos más cercanos (k nearest neighbors) en un espacio multi- dimensional. Este método puede ser usado tanto para variables categóricas, discretas, continuas y ordinales

<img src = "https://1.bp.blogspot.com/_Rufo-HfiMZg/S2oZLlyiy0I/AAAAAAAAABQ/sUzGlWUyQ5g/w1200-h630-p-k-no-nu/tab3.jpg" width = 500, align = "center">

Por lo que, es particularmente muy útil para cualquier tipo de dato.

De esta manera, el KNN para missing values aproxima un valor a todos de acuerdo a los valores más cercanos, teniendo en cuenta diferentes variables.

<img src = "https://miro.medium.com/max/6480/1*XHsD8tQKx_yQou90u7tISA.png" width = 500, align = "center">

## Calibración para tener en cuenta en KNN

<img src = "https://importq.files.wordpress.com/2017/11/knn_mov5.gif?w=358" width = 500, align = "center">


 * **Número de vecinos:** Tomando un valor pequeño de K, incrementa la influencia de ruido y los resultados van a ser menos generalizados. Por otro lado, si el valor de K es muy grande, se tiende a difuminar efectos locales que es exactamente lo que estamos buscando. En caso de querer imputar una variable binaria se recomienda siempre tomar un valor de K impar.
 * **El método de agregración:** Formas aritméticas para imputación, tales como media, mediana o moda. En caso de ser categórica el dato más frecuente (moda).
 * **Normalización de la información:** Permite tener la misma influencia al identificar los vecinos al momento de calcular la distancia con cualquiera de las medidas dadas, tal como Euclideana. Es necesario estandarizar/normalizar la información cuando se tienen diferentes escalas (Ej. Centímetros/metros/inches). El paquete normaliza automáticamente la información cuando se tiene tanto numérica como categórica.
 * **Métrica de cálculo:** Distancia de uso (Ej: Euclideana, Manhattan)

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("./Data/titanic.csv")

In [None]:
## Identificar nulos
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [None]:
## importar paquete para imputación
from sklearn.impute import KNNImputer

In [None]:
help(KNNImputer())

Help on KNNImputer in module sklearn.impute._knn object:

class KNNImputer(sklearn.impute._base._BaseImputer)
 |  KNNImputer(missing_values=nan, n_neighbors=5, weights='uniform', metric='nan_euclidean', copy=True, add_indicator=False)
 |  
 |  Imputation for completing missing values using k-Nearest Neighbors.
 |  
 |  Each sample's missing values are imputed using the mean value from
 |  `n_neighbors` nearest neighbors found in the training set. Two samples are
 |  close if the features that neither is missing are close.
 |  
 |  Read more in the :ref:`User Guide <knnimpute>`.
 |  
 |  .. versionadded:: 0.22
 |  
 |  Parameters
 |  ----------
 |  missing_values : number, string, np.nan or None, default=`np.nan`
 |      The placeholder for the missing values. All occurrences of
 |      `missing_values` will be imputed.
 |  
 |  n_neighbors : int, default=5
 |      Number of neighboring samples to use for imputation.
 |  
 |  weights : {'uniform', 'distance'} or callable, default='unifo

In [None]:
df.select_dtypes(include= ['float64', 'int64']).isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Age            177
SibSp            0
Parch            0
Fare             0
dtype: int64

In [None]:
df.select_dtypes(include= ['float64', 'int64'])

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
0,1,0,3,22.0,1,0,7.2500
1,2,1,1,38.0,1,0,71.2833
2,3,1,3,26.0,0,0,7.9250
3,4,1,1,35.0,1,0,53.1000
4,5,0,3,35.0,0,0,8.0500
...,...,...,...,...,...,...,...
886,887,0,2,27.0,0,0,13.0000
887,888,1,1,19.0,0,0,30.0000
888,889,0,3,,1,2,23.4500
889,890,1,1,26.0,0,0,30.0000


In [None]:
np.array(df.select_dtypes(include= ['float64', 'int64']))

array([[  1.    ,   0.    ,   3.    , ...,   1.    ,   0.    ,   7.25  ],
       [  2.    ,   1.    ,   1.    , ...,   1.    ,   0.    ,  71.2833],
       [  3.    ,   1.    ,   3.    , ...,   0.    ,   0.    ,   7.925 ],
       ...,
       [889.    ,   0.    ,   3.    , ...,   1.    ,   2.    ,  23.45  ],
       [890.    ,   1.    ,   1.    , ...,   0.    ,   0.    ,  30.    ],
       [891.    ,   0.    ,   3.    , ...,   0.    ,   0.    ,   7.75  ]])

In [None]:
np.array(df.select_dtypes(include= ['float64', 'int64'])).reshape(-1,1)[0:15]

array([[ 1.    ],
       [ 0.    ],
       [ 3.    ],
       [22.    ],
       [ 1.    ],
       [ 0.    ],
       [ 7.25  ],
       [ 2.    ],
       [ 1.    ],
       [ 1.    ],
       [38.    ],
       [ 1.    ],
       [ 0.    ],
       [71.2833],
       [ 3.    ]])

In [None]:
## sleccionar las variables que sean numéricas
df_2= np.array(df.select_dtypes(include= ['float64', 'int64'])).reshape(-1,1)

In [None]:
df_2

array([[1.  ],
       [0.  ],
       [3.  ],
       ...,
       [0.  ],
       [0.  ],
       [7.75]])

In [None]:
## Escoger la cantidad de vecinos, paramétrizar
imputer = KNNImputer(n_neighbors = 5)

In [None]:
## Aplicar el método
impdf = imputer.fit_transform(df_2)

In [None]:
# reshape a la forma original
df.select_dtypes(include= ['float64', 'int64']).shape

(891, 7)

In [None]:
## Verificar si hay null
df_3 = impdf.reshape(891,7)

In [None]:
df_3

array([[  1.    ,   0.    ,   3.    , ...,   1.    ,   0.    ,   7.25  ],
       [  2.    ,   1.    ,   1.    , ...,   1.    ,   0.    ,  71.2833],
       [  3.    ,   1.    ,   3.    , ...,   0.    ,   0.    ,   7.925 ],
       ...,
       [889.    ,   0.    ,   3.    , ...,   1.    ,   2.    ,  23.45  ],
       [890.    ,   1.    ,   1.    , ...,   0.    ,   0.    ,  30.    ],
       [891.    ,   0.    ,   3.    , ...,   0.    ,   0.    ,   7.75  ]])

In [None]:
df_3 = pd.DataFrame(df_3, columns= df.select_dtypes(include= ['float64', 'int64']).columns)

In [None]:
df_3.iloc[29]

PassengerId    30.000000
Survived        0.000000
Pclass          3.000000
Age            74.338304
SibSp           0.000000
Parch           0.000000
Fare            7.895800
Name: 29, dtype: float64

In [None]:
df_3.isnull().sum()

PassengerId    0
Survived       0
Pclass         0
Age            0
SibSp          0
Parch          0
Fare           0
dtype: int64

In [None]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [None]:
## Reemplazar
df['Age'] = df_3.Age

In [None]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64