<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Simple-Imputer" data-toc-modified-id="Simple-Imputer-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Simple-Imputer</a></span></li><li><span><a href="#Iterative-Imputer" data-toc-modified-id="Iterative-Imputer-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Iterative-Imputer</a></span></li><li><span><a href="#KNN-Imputer" data-toc-modified-id="KNN-Imputer-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>KNN Imputer</a></span></li></ul></div>

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

Ayer aprendimos como imputar los valores nulos usando métodos que conocíamos como el `.dropna()`, .`replace()` o el `.fillna()`. Hoy seguiremos aprendiendo nuevos métodos de imputación de nulos pero en este caso usaremos la librería `sklearn`. 


En Python tenemos la librería `sklearn` que nos proporciona una serie de herramientas para el manejo de los valores nulos. 

Algunos de los métodos que nos podemos encontrar son: 

- Simple-Imputer


- KNN-Imputer 


- Interative


Lo primero que tendremos que hacer es instalar `sklearn`

```
pip install sklearn
```

In [2]:
#  Volveremos a usar el mismo dataset que usamos en la lección de limpieza IV.
#  Lo primero que haremos será cargarlo:
df = pd.read_csv("datos/steam_con_nulos.csv", index_col = 0)
df.head(2)

Unnamed: 0,appid,name,release_date,english,developer,publisher,platforms,required_age,categories,genres,steamspy_tags,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,owners,price,clasificacion
0,10.0,Counter-Strike,2000-11-01,Yes,Valve,Valve,windows;mac;linux,0.0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,124534.0,3339.0,17612,317,10000000-20000000,7.19,Good
1,20.0,Team Fortress Classic,1999-04-01,Yes,Valve,Valve,windows;mac;linux,0.0,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,0,3318.0,,277,62,5000000-10000000,3.99,Good


In [3]:
# como en este jupyter vamos a trabajar con nulos, lo primero que vamos a hacer es calcular el porcentaje de nulos 
## que tenemos en nuestro dataframe

nulos = pd.DataFrame((df.isnull().sum() * 100) / df.shape[0]).reset_index()
nulos.columns = ["columna", "porcentaje"]
nulos

Unnamed: 0,columna,porcentaje
0,appid,0.999373
1,name,0.999373
2,release_date,0.099569
3,english,0.0
4,developer,10.001106
5,publisher,10.001106
6,platforms,0.0
7,required_age,3.001807
8,categories,0.099569
9,genres,0.0


# Simple-Imputer 

SimpleImputer proporciona estrategias básicas para la imputación de valores nulos. Los valores perdidos se pueden imputar con un valor constante proporcionado, o utilizando los estadísticos (media, mediana o más frecuente) de cada columna en la que se encuentran los valores perdidos. 



Su sintaxis es: 

```python
SimpleImputer(missing_values=nan, strategy='mean',  verbose=0, copy=True)
```

Donde: 

- `missing_values`: int, float, str, np.nan o None, default=np.nan. Para indicar como están casteados nuestros valores nulos. 


- `strategy`: es *string*, por defecto 'mean'

    - Si es "mean", se sustituyen los valores perdidos utilizando la media de cada columna. Sólo puede utilizarse con datos numéricos.

    - Si es "median", entonces se reemplazan los valores perdidos usando la mediana a lo largo de cada columna. Sólo puede utilizarse con datos numéricos.

    - Si es "most_frequent", sustituye los valores perdidos por el valor más frecuente en cada columna. Puede utilizarse con *strings* o datos numéricos. Si hay más de un valor de este tipo, sólo se devuelve el más pequeño.

    - Si es "constant", entonces reemplaza los valores faltantes con fill_value. Puede utilizarse con *strings* o datos numéricos.


- `verbose`: *integer*, por defecto 0. Para mostrar la salida del registro. 


- `copy`: bool, por defecto True

    - Si es True, se creará una copia de la columna. 
    
    - Si es False, la imputación se hará *in situ* siempre que sea posible.


Para utilizar este método tendremos importar la siguiente librería


```python
from sklearn.impute import SimpleImputer
```

> Tenemos que tener en cuenta que tanto las funciones `.fit()` como `.transform()` esperan un array 2D, así que nos tenemos que asegurar de pasar un *array* o *dataframe* 2D. Si pasas un array 1D o una Serie Pandas, tendremos un error.

In [4]:
# Para poder hacer la imputación simple

from sklearn.impute import SimpleImputer

Lo primero que tenemos que hacer es iniciar el método, donde especificaremos porque queremos reemplazar los nulos. Dejo el parámetro `copy` por defecto, es decir, en True para que nos aplique los cambios en la misma columna. 

In [5]:
imputer = SimpleImputer(strategy='mean', missing_values=np.nan)

Una vez creada la instancia, se utiliza la función `.fit()` para ajustar el imputer en la(s) columna(s) sobre las que se quiere trabajar, en nuestro caso lo haemos solo sobre la columna `price`

In [6]:
imputer = imputer.fit(df[['price']])

Ahora podemos utilizar la función `.transform()` para rellenar los valores que faltan basándose en la estrategia que especificamos en el inicializador de la clase SimpleImputer. 

En este caso vamos a crear una nueva columna que se llama `price_simple_mean`. 

In [7]:
df['price_simple_mean'] = imputer.transform(df[['price']])

In [8]:
# si chequeamos ahora los valores nulos veremos que ya no tenemos en la columna `price_simple_mean` y veremos que 
## no tiene ningún nulo. 

df.isnull().sum()

appid                 271
name                  271
release_date           27
english                 0
developer            2712
publisher            2712
platforms               0
required_age          814
categories             27
genres                  0
steamspy_tags         163
achievements            0
positive_ratings     1356
negative_ratings     1356
average_playtime        0
median_playtime         0
owners               1356
price                  27
clasificacion           0
price_simple_mean       0
dtype: int64

**NOTA** Si quisieramos aplicar el método a varias columnas tendríamos que seguir la siguiente sintaxis: 

```python
df[['col1','col2']] = imputer.transform(df[['col1','col2']])
```

Este método puede tener muchas variaciones, en [este](https://towardsdatascience.com/imputing-missing-values-using-the-simpleimputer-class-in-sklearn-99706afaff46) artículo tenéis más casos donde podríamos aplicar este método. 

#  Iterative-Imputer

Un enfoque más sofisticado es utilizar la clase IterativeImputer, que modela cada característica con valores perdidos como una función de otras variables, y utiliza esa estimación para la imputación. Lo hace de forma iterada: en cada paso, una columna se designa como salida(como variable que queremos predecir)  y las otras columnas se tratan como entradas X (como predictoras, es decir, las que nos van a ayudar a predecir los valores nulos de la columna que queremos). Se ajusta un regresor en (X, y). Se devuelven los resultados de la última ronda de imputación.

El IterativeImputer utiliza los datos disponibles en otras columnas con el fin de estimar los valores nulos que se imputan o queremos quitar.

La sintaxis en este caso sería: 
```python
IterativeImputer(estimator=None, missing_values=nan,  max_iter=10, tol=0.001, n_nearest_features=None, initial_strategy=mean, imputation_order=ascending, verbose=0, random_state=None)
```

Donde: 

- `estimator`: por defecto BayesianRidge(). Es el estimador a utilizar en cada paso de la imputación. 


- `missing_values`: *integer* o np.nan. Por defeccto np.nan. Que tipo de datos son nuestros nulos. Todas las ocurrencias de missing_values serán imputadas. 


- `max_iter`: *integer*. Por defecto 10. Número máximo de rondas de imputación a realizar antes de devolver las imputaciones calculadas durante la ronda final. 


- `tol`: float. Por defecto 1e-3. Tolerancia de la condición de parada.


- `n_nearest_features`:  *integer*. Por defecto None. Número de columnas a utilizar para estimar los valores nulos de cada columna. La cercanía entre características se mide utilizando el coeficiente de correlación absoluta entre cada par de columnas (después de la imputación inicial). Para garantizar la cobertura de las características a lo largo del proceso de imputación, las columnas vecinas no son necesariamente las más cercanas, sino que se extraen con una probabilidad proporcional a la correlación para cada columna objetivo imputada. Puede proporcionar una velocidad significativa cuando el número de columnas es enorme. 

    - Si es None, se utilizarán todas las características.

- `initial_strategy`: *string* . Por defecto media. El estadístico que se utilizará para reemplazar los valores perdidos. Puede ser: 

     - mean
     - median
     - most_frequent
     - constant


- `imputation_order`: por defecto ascendente. El orden en el que se imputarán las características. Puede ser: 


    - ascendente: de las columnas con menos valores nulos a la mayoría.

    - descendente: de las columnas con más valores nulos a las menos.

    - romano: de izquierda a derecha.

    - árabe: de derecha a izquierda.

    - aleatorio: un orden aleatorio para cada ronda.


Necesitaremos importar: 

```python

# NOTA: Este estimador es todavía experimental por ahora. Para utilizarlo, es necesario importar explícitamente enable_iterative_impute
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
```

📌 **NOTA**: este método solo lo podemos usar con variables numéricas. 

In [9]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

Lo primero que vamos a hacer es sacar las variables numéricas usando el método `select_dtypes` para luego chequear cuáles de ellas tienen valores nulos. 

In [10]:
numericas = df.select_dtypes(include = np.number)

In [11]:
numericas.isnull().sum()

appid                 271
required_age          814
achievements            0
positive_ratings     1356
negative_ratings     1356
average_playtime        0
median_playtime         0
price                  27
price_simple_mean       0
dtype: int64

In [12]:
# creamos una instancia del método Iterative Imputer con las características que queremos 
imputer = IterativeImputer(n_nearest_features=None, imputation_order='ascending')

In [13]:
# lo aplicamos sobre nuestras variables numéricas. 

imputer.fit(numericas)


IterativeImputer()

In [14]:
# transformamos nuestros datos, para que se reemplacen los valores nulos usando "transform". 
## ⚠️ Esto nos va a devolver un array!

imputer.transform(numericas)

array([[1.0000e+01, 0.0000e+00, 0.0000e+00, ..., 3.1700e+02, 7.1900e+00,
        7.1900e+00],
       [2.0000e+01, 0.0000e+00, 0.0000e+00, ..., 6.2000e+01, 3.9900e+00,
        3.9900e+00],
       [3.0000e+01, 0.0000e+00, 0.0000e+00, ..., 3.4000e+01, 3.9900e+00,
        3.9900e+00],
       ...,
       [3.7557e+05, 0.0000e+00, 8.0000e+00, ..., 0.0000e+00, 3.9900e+00,
        3.9900e+00],
       [8.6533e+05, 0.0000e+00, 0.0000e+00, ..., 0.0000e+00, 4.7900e+00,
        4.7900e+00],
       [2.6079e+05, 0.0000e+00, 2.5000e+01, ..., 2.1500e+02, 9.9900e+00,
        9.9900e+00]])

In [15]:
# convertimos el array que nos devuelve en un dataframe

numericas_trans = pd.DataFrame(imputer.transform(numericas), columns = numericas.columns)

In [16]:
numericas_trans.head()

Unnamed: 0,appid,required_age,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,price,price_simple_mean
0,10.0,0.0,0.0,124534.0,3339.0,17612.0,317.0,7.19,7.19
1,20.0,0.0,0.0,3318.0,612.27702,277.0,62.0,3.99,3.99
2,30.0,0.0,0.0,3416.0,398.0,187.0,34.0,3.99,3.99
3,40.0,0.0,0.0,1273.0,267.0,258.0,184.0,3.99,3.99
4,50.0,0.0,0.0,5250.0,288.0,624.0,415.0,3.99,3.99


In [17]:
# perfecto, ya no tenemos ningún nulo! 

numericas_trans.isnull().sum()

appid                0
required_age         0
achievements         0
positive_ratings     0
negative_ratings     0
average_playtime     0
median_playtime      0
price                0
price_simple_mean    0
dtype: int64

Ahora es momento de juntar el nuevo dataframe (numericas_trans) sin valores nulos con nuestro dataframe que todavía tiene nulos

In [18]:
# lo primero que hacemos es sacar el nombre de las columnas del dataframe sin nulos

columnas = numericas_trans.columns

In [19]:
# utilizando "columnas" eliminamos esas columnas de nuestro dataframe

df.drop(columnas, axis = 1, inplace = True)

In [20]:
# creamos nuevas columnas en nuestro dataframe original basándonos en el dataframe de las numericas_trans

df[columnas] = numericas_trans[columnas]

In [21]:
# chequeamos los nulos. Perfecto! Ya no tenemos ninguno. 

df.isnull().sum()

name                  271
release_date           27
english                 0
developer            2712
publisher            2712
platforms               0
categories             27
genres                  0
steamspy_tags         163
owners               1356
clasificacion           0
appid                   0
required_age            0
achievements            0
positive_ratings        0
negative_ratings        0
average_playtime        0
median_playtime         0
price                   0
price_simple_mean       0
dtype: int64


# KNN Imputer
>**Solo lo podremos usar para variables numericas o de formato fecha.** 

Entendamos un poco que esto del KNN antes de seguir. 

Imaginemos que tenemos una variable con dos categorías representadas como vemos aquí: 

![image](https://github.com/Adalab/data_imagenes/blob/main/Modulo-2/Limpieza/knn.png?raw=true)


Ante una muestra nueva, ¿Cómo se puede saber a qué grupo pertenece? Bueno, naturalmente, se mirarían los puntos circundantes. Pero el resultado dependería mucho de la distancia a la que se mire. 

- Si miramos a los 3 más cercanos (círculo sólido), el punto verde pertenecería a los triángulos rojos. 

- Pero si miramos más lejos, (el círculo discontinuo) el punto se clasificaría como un cuadrado azul.


kNN funciona de la misma manera. Según el valor de k, el algoritmo clasifica las nuevas muestras por el voto mayoritario de los k vecinos más cercanos en la clasificación. Para la regresión, que predice el valor numérico real de una nueva muestra, el algoritmo toma la media de los k vecinos más cercanos. 
KNNImputer es una versión ligeramente modificada del algoritmo en la que trata de predecir el valor numérico nulo promediando las distancias entre sus k vecinos más cercanos.


Basicamente lo que hace este método es :

- Medir la distancia entre cada punto y las N-muestras más cercanas (especificado como el parámetro `n_neighbours`)


- Basándose en su(s) vecino(s) más cercano(s), tomará el valor medio de los N vecinos no nulos más cercanos al valor que falta.


Para poder usar este método tendremos que importar el KNNImputer. 

```python
from sklearn.impute import KNNImputer
```

In [22]:
from sklearn.impute import KNNImputer

In [24]:
df.head(2)

Unnamed: 0,name,release_date,english,developer,publisher,platforms,categories,genres,steamspy_tags,owners,clasificacion,appid,required_age,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,price,price_simple_mean
0,Counter-Strike,2000-11-01,Yes,Valve,Valve,windows;mac;linux,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,10000000-20000000,Good,10.0,0.0,0.0,124534.0,3339.0,17612.0,317.0,7.19,7.19
1,Team Fortress Classic,1999-04-01,Yes,Valve,Valve,windows;mac;linux,Multi-player;Online Multi-Player;Local Multi-P...,Action,Action;FPS;Multiplayer,5000000-10000000,Good,20.0,0.0,0.0,3318.0,612.27702,277.0,62.0,3.99,3.99


In [25]:
# inciamos el KNNImputer y lo aplicamos a nuestras variables numéricas

imputerKNN = KNNImputer(n_neighbors=5)
imputerKNN.fit(numericas)

KNNImputer()

In [26]:
# aplicamos el método a nuestras variables y lo almacenamos en una variable
# ⚠️ Igual que en el IterativeImputer nos devuelve un array

numericas_knn= imputerKNN.transform(numericas)

In [27]:
# convertimos el array a un dataframe

df_knn_imputer = pd.DataFrame(numericas_knn, columns = numericas.columns)

In [28]:
df_knn_imputer.head()

Unnamed: 0,appid,required_age,achievements,positive_ratings,negative_ratings,average_playtime,median_playtime,price,price_simple_mean
0,10.0,0.0,0.0,124534.0,3339.0,17612.0,317.0,7.19,7.19
1,20.0,0.0,0.0,3318.0,246.6,277.0,62.0,3.99,3.99
2,30.0,0.0,0.0,3416.0,398.0,187.0,34.0,3.99,3.99
3,40.0,0.0,0.0,1273.0,267.0,258.0,184.0,3.99,3.99
4,50.0,0.0,0.0,5250.0,288.0,624.0,415.0,3.99,3.99


El siguiente paso será reemplazar estos valores en el *dataframe*. Lo podemos hacer de la misma forma que hicimos en el apartado anterior. 

In [29]:
# lo primero que hacemos es sacar el nombre de las columnas del dataframe sin nulos

columnas_knn = df_knn_imputer.columns

In [30]:
# utilizando "columnas" eliminamos esas columnas de nuestro dataframe

df.drop(columnas_knn, axis = 1, inplace = True)

In [31]:
# creamos nuevas columnas en nuestro dataframe original basándonos en el dataframe de las numericas_trans

df[columnas_knn] = numericas_knn

In [32]:
# chequeamos los nulos. Perfecto! Ya no tenemos ningún valor nulo en columnas numéricas. 

df.isnull().sum()

name                  271
release_date           27
english                 0
developer            2712
publisher            2712
platforms               0
categories             27
genres                  0
steamspy_tags         163
owners               1356
clasificacion           0
appid                   0
required_age            0
achievements            0
positive_ratings        0
negative_ratings        0
average_playtime        0
median_playtime         0
price                   0
price_simple_mean       0
dtype: int64

**EJERCICIOS** 

- 1️⃣ Otros métodos de imputación de nulos. Usa los métodos aprendidos hoy para gestionar los valores nulos. Intenta definir una función para este método. 