# Técnicas de Imputación de Datos

> Es posible que a los conjuntos de datos les falten valores, lo que puede causar problemas a muchos algoritmos de aprendizaje automático. Como tal, es una buena práctica identificar y reemplazar los valores faltantes para cada columna antes de modelar su tarea de predicción. Esto se denomina imputación de datos faltantes o, para abreviar, imputación.

> Un enfoque popular para la imputación de datos es calcular un valor estadístico para cada columna (como una media, mediana, moda) y reemplazar todos los valores faltantes de esa columna con la estadística.

> Otro enfoque para la imputación de datos faltantes es utilizar un modelo para predecir los valores faltantes. Esto requiere que se cree un modelo para cada variable de entrada a la que le faltan valores. Aunque se puede utilizar cualquiera de entre una variedad de modelos diferentes para predecir los valores faltantes, el algoritmo *k-nearest neighbor* o k-vecino más cercano (KNN) ha demostrado ser generalmente efectivo, a menudo denominado imputación del vecino más cercano.

## Base de Datos de Ejemplo

> El conjunto de datos sobre cólicos de caballos describe las características médicas de los caballos con cólicos y si vivieron o murieron. Hay 300 filas y 26 variables de entrada con una variable de salida. Es una tarea de predicción de clasificación binaria que implica predecir 1 si el caballo vivió y 2 si el caballo murió.

> El conjunto de datos tiene numerosos valores faltantes para muchas de las columnas donde cada valor faltante está marcado con un signo de interrogación (\?).

> [Enlace a la Base de Datos de Horse-Colic](https://drive.google.com/file/d/1bpnmGqALT5la0HI6hXZCmebXtWAJ-ATF/view?usp=sharing)

> [Información de la Base de Datos](https://archive.ics.uci.edu/dataset/47/horse+colic)

## TAREA



1.   Identificar y marcar valores faltantes
2.   Listar la cantidad y porcentaje de filas con valores faltantes para cada columna
3.   Realizar imputación de datos con KNNImputer



In [43]:
import pandas as pd
from sklearn.impute import KNNImputer

In [44]:
# Importar datos
url = "https://raw.githubusercontent.com/NelbaBarreto/programacion-ciencias-datos/main/data/horse-colic.csv"

data = pd.read_csv(url, na_values="?", header=None)

In [45]:
# Renombrar columnas según la información del dataset
data.columns = ["surgery?", "age", "hospital_number", "rectal_temperature", "pulse", "respiratory_rate",
                "temperature_of_extremities", "peripheral_pulse", "mucous_membranes", "capillary_refill_time",
                "pain", "peristalsis", "abdominal_distension", "nasogastric_tube", "nasogastric_reflux", "nasogastric_reflux_ph",
                "feces", "abdomen", "packed_cell_volume", "total_protein", "abdominocentesis_appearance", "abdominocentesis_total_protein",
                "outcome", "surgical lesion?", "site_of_lesion", "type_of_lesion", "specific_lesion_code", "cp_data"]

In [46]:
# Ver las 5 primeras filas del dataset
data.head()

Unnamed: 0,surgery?,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse,mucous_membranes,capillary_refill_time,...,packed_cell_volume,total_protein,abdominocentesis_appearance,abdominocentesis_total_protein,outcome,surgical lesion?,site_of_lesion,type_of_lesion,specific_lesion_code,cp_data
0,2.0,1,530101,38.5,66.0,28.0,3.0,3.0,,2.0,...,45.0,8.4,,,2.0,2,11300,0,0,2
1,1.0,1,534817,39.2,88.0,20.0,,,4.0,1.0,...,50.0,85.0,2.0,2.0,3.0,2,2208,0,0,2
2,2.0,1,530334,38.3,40.0,24.0,1.0,1.0,3.0,1.0,...,33.0,6.7,,,1.0,2,0,0,0,1
3,1.0,9,5290409,39.1,164.0,84.0,4.0,1.0,6.0,2.0,...,48.0,7.2,3.0,5.3,2.0,1,2208,0,0,1
4,2.0,1,530255,37.3,104.0,35.0,,,6.0,2.0,...,74.0,7.4,,,2.0,2,4300,0,0,2


In [47]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 28 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   surgery?                        299 non-null    float64
 1   age                             300 non-null    int64  
 2   hospital_number                 300 non-null    int64  
 3   rectal_temperature              240 non-null    float64
 4   pulse                           276 non-null    float64
 5   respiratory_rate                242 non-null    float64
 6   temperature_of_extremities      244 non-null    float64
 7   peripheral_pulse                231 non-null    float64
 8   mucous_membranes                253 non-null    float64
 9   capillary_refill_time           268 non-null    float64
 10  pain                            245 non-null    float64
 11  peristalsis                     256 non-null    float64
 12  abdominal_distension            244 

In [48]:
data.head()

Unnamed: 0,surgery?,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse,mucous_membranes,capillary_refill_time,...,packed_cell_volume,total_protein,abdominocentesis_appearance,abdominocentesis_total_protein,outcome,surgical lesion?,site_of_lesion,type_of_lesion,specific_lesion_code,cp_data
0,2.0,1,530101,38.5,66.0,28.0,3.0,3.0,,2.0,...,45.0,8.4,,,2.0,2,11300,0,0,2
1,1.0,1,534817,39.2,88.0,20.0,,,4.0,1.0,...,50.0,85.0,2.0,2.0,3.0,2,2208,0,0,2
2,2.0,1,530334,38.3,40.0,24.0,1.0,1.0,3.0,1.0,...,33.0,6.7,,,1.0,2,0,0,0,1
3,1.0,9,5290409,39.1,164.0,84.0,4.0,1.0,6.0,2.0,...,48.0,7.2,3.0,5.3,2.0,1,2208,0,0,1
4,2.0,1,530255,37.3,104.0,35.0,,,6.0,2.0,...,74.0,7.4,,,2.0,2,4300,0,0,2


In [49]:
# Listar la cantidad de filas con valores faltantes para cada columna
nan_values_count = data.isnull().sum().sort_values(ascending=False)
nan_values_count

nasogastric_reflux_ph             247
abdominocentesis_total_protein    198
abdominocentesis_appearance       165
abdomen                           118
nasogastric_reflux                106
nasogastric_tube                  104
feces                             102
peripheral_pulse                   69
rectal_temperature                 60
respiratory_rate                   58
abdominal_distension               56
temperature_of_extremities         56
pain                               55
mucous_membranes                   47
peristalsis                        44
total_protein                      33
capillary_refill_time              32
packed_cell_volume                 29
pulse                              24
outcome                             1
surgery?                            1
age                                 0
hospital_number                     0
surgical lesion?                    0
site_of_lesion                      0
type_of_lesion                      0
specific_les

In [50]:
# Listar el porcentaje de filas con valores faltantes para cada columna
(data.isnull().mean() * 100).round(2).sort_values(ascending=False)

nasogastric_reflux_ph             82.33
abdominocentesis_total_protein    66.00
abdominocentesis_appearance       55.00
abdomen                           39.33
nasogastric_reflux                35.33
nasogastric_tube                  34.67
feces                             34.00
peripheral_pulse                  23.00
rectal_temperature                20.00
respiratory_rate                  19.33
abdominal_distension              18.67
temperature_of_extremities        18.67
pain                              18.33
mucous_membranes                  15.67
peristalsis                       14.67
total_protein                     11.00
capillary_refill_time             10.67
packed_cell_volume                 9.67
pulse                              8.00
outcome                            0.33
surgery?                           0.33
age                                0.00
hospital_number                    0.00
surgical lesion?                   0.00
site_of_lesion                     0.00


In [51]:
# Hacer drop de la fila con la columna outcome igual a NaN
data = data.dropna(subset=["outcome"])

In [52]:
# Realizar imputación de datos con KNNImputer
impute_knn = KNNImputer(n_neighbors=3)
data_imputed = impute_knn.fit_transform(data)

print(type(data_imputed))

# Convertir el resultado de nuevo a un DataFrame
data_imputed = pd.DataFrame(data_imputed, columns=data.columns)
data_imputed.head()

<class 'numpy.ndarray'>


Unnamed: 0,surgery?,age,hospital_number,rectal_temperature,pulse,respiratory_rate,temperature_of_extremities,peripheral_pulse,mucous_membranes,capillary_refill_time,...,packed_cell_volume,total_protein,abdominocentesis_appearance,abdominocentesis_total_protein,outcome,surgical lesion?,site_of_lesion,type_of_lesion,specific_lesion_code,cp_data
0,2.0,1.0,530101.0,38.5,66.0,28.0,3.0,3.0,3.0,2.0,...,45.0,8.4,2.333333,3.666667,2.0,2.0,11300.0,0.0,0.0,2.0
1,1.0,1.0,534817.0,39.2,88.0,20.0,2.333333,1.0,4.0,1.0,...,50.0,85.0,2.0,2.0,3.0,2.0,2208.0,0.0,0.0,2.0
2,2.0,1.0,530334.0,38.3,40.0,24.0,1.0,1.0,3.0,1.0,...,33.0,6.7,2.333333,3.966667,1.0,2.0,0.0,0.0,0.0,1.0
3,1.0,9.0,5290409.0,39.1,164.0,84.0,4.0,1.0,6.0,2.0,...,48.0,7.2,3.0,5.3,2.0,1.0,2208.0,0.0,0.0,1.0
4,2.0,1.0,530255.0,37.3,104.0,35.0,3.0,3.0,6.0,2.0,...,74.0,7.4,2.333333,3.0,2.0,2.0,4300.0,0.0,0.0,2.0


In [53]:
data_imputed.isnull().sum().sort_values(ascending=False)

surgery?                          0
age                               0
specific_lesion_code              0
type_of_lesion                    0
site_of_lesion                    0
surgical lesion?                  0
outcome                           0
abdominocentesis_total_protein    0
abdominocentesis_appearance       0
total_protein                     0
packed_cell_volume                0
abdomen                           0
feces                             0
nasogastric_reflux_ph             0
nasogastric_reflux                0
nasogastric_tube                  0
abdominal_distension              0
peristalsis                       0
pain                              0
capillary_refill_time             0
mucous_membranes                  0
peripheral_pulse                  0
temperature_of_extremities        0
respiratory_rate                  0
pulse                             0
rectal_temperature                0
hospital_number                   0
cp_data                     