<a href="https://colab.research.google.com/github/mkplus44/sklearn_methods/blob/main/1_DatosFaltantes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. **Valores ausentes**


In [None]:
# 1. **Imputación datos ausentes**
De forma adicional a las funciones de estandarización, se incluyen las siguientes:
   - **Imputación de Valores Faltantes:**
    - **SimpleImputer:** Completa valores utilizando una estrategia fija, media, mediana, moda,...
    - **KNNImputer:** Imputa valores utilizando el algoritmo KNN.
    - **IterativeImputer:** Completo valores  tratando cada atributo que tiene valores faltantes como una función de los otros atributos
    - **SimpleImputer para valores categóricos:** Utilización para valores categóricos



In [None]:
# Importo las librerias pandas y de sklearn simpleimputer
import pandas as pd


In [None]:
# Creo un dataset con valores nulos de ejemplo
data = {
    'A': [1, 2, None, 4,8],
    'B': [None, 2, 3, 4,6],
    'C': [1, None, None, 4,6]
}

#Lo convierto en Dataframe, para poder manipular los datos
df = pd.DataFrame(data)

In [None]:
# Verifico los valores faltantes en el dataframe que hemos creado
print("Valores faltantes en el dataset:")
print(df.isnull().sum())

Valores faltantes en el dataset:
A    1
B    1
C    2
dtype: int64


## SimpleImputer
Completamos valores faltantes en un conjunto de datos utilizando una estrategia fija

In [None]:
# Con SimpleImputer se puede reemplezar los valores faltante, de forma sencilla
#con la media, la mediana o con un valor constante
from sklearn.impute import SimpleImputer

# Creo una instancia  de SimpleImputer con la estrategia media
imputer = SimpleImputer(strategy='mean')

# Imputo los valores faltantes del dataset
datos_imputados = imputer.fit_transform(df)

# Actualizo el dataframe con los valores imputados
df_media = pd.DataFrame(datos_imputados, columns=df.columns)

In [None]:
#Compruebo el resultado
print("Valores faltantes en el dataset, después de la operación:")
print(df_media.isnull().sum())

Valores faltantes en el dataset, después de la operación:
A    0
B    0
C    0
dtype: int64


In [None]:

# Creo una instancia  de SimpleImputer con la estrategia mediana
imputer = SimpleImputer(strategy='median')

# Imputo los valores faltantes del dataset
datos_imputados = imputer.fit_transform(df)

# Actualizo el dataframe con los valores imputados
df_mediana = pd.DataFrame(datos_imputados, columns=df.columns)

In [None]:
#Compruebo el resultado
print("Valores faltantes en el dataset, después de la operación:")
print(df_mediana.isnull().sum())

Valores faltantes en el dataset, después de la operación:
A    0
B    0
C    0
dtype: int64


In [None]:
print("Valores finales del dataset - media:")
print(df_media)

print("Valores finales del dataset - mediana:")
print(df_mediana)

Valores finales del dataset - media:
      A     B         C
0  1.00  3.75  1.000000
1  2.00  2.00  3.666667
2  3.75  3.00  3.666667
3  4.00  4.00  4.000000
4  8.00  6.00  6.000000
Valores finales del dataset - mediana:
     A    B    C
0  1.0  3.5  1.0
1  2.0  2.0  4.0
2  3.0  3.0  4.0
3  4.0  4.0  4.0
4  8.0  6.0  6.0


## KNNImputer
Completamos valores faltantes en un conjunto de datos utilizando los k valores más cercanos

In [None]:
from sklearn.impute import KNNImputer

# Creo el imputador KNN, con 2 vecinos
imputer = KNNImputer(n_neighbors=2)

# Transformo el DataFrame
df_knn = imputer.fit_transform(df)

# Convierto el resultado a DataFrame
df_knn = pd.DataFrame(df_knn, columns=df.columns)

# Muestro el DataFrame completado
print("\DataFrame después de KNNImputer:")
print(df_knn)

\DataFrame después de KNNImputer:
     A    B    C
0  1.0  3.0  1.0
1  2.0  2.0  2.5
2  3.0  3.0  5.0
3  4.0  4.0  4.0
4  8.0  6.0  6.0


## IterativeImputer
 Completa los datos, tratando cada atributo que tiene valores faltantes como una función de los otros atributos. Es más avanzdo

In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# Creo el imputador iterativo
imputer = IterativeImputer()

# Transformo el DataFrame
df_iterative = imputer.fit_transform(df)

# Convierto el resultado a DataFrame
df_iterative = pd.DataFrame(df_iterative, columns=df.columns)

# Muestro el DataFrame completado
print("\nDataFrame después de IterativeImputer:")
print(df_iterative)


DataFrame después de IterativeImputer:
          A         B         C
0  1.000000  4.508518  1.000000
1  2.000000  2.000000  3.746812
2  2.880191  3.000000  3.768762
3  4.000000  4.000000  4.000000
4  8.000000  6.000000  6.000000


## SimpleImputer valores categóricos
Completamos valores faltantes en un conjunto de datos utilizando una estrategia fija

In [None]:
# Creo un dataset con valores categóricos, nulos de ejemplo
dataC = {
    'A': ["a", "b", None, "d","i"],
    'B': [None, "b", "c", "d","f"],
    'C': ["a", None, None, "d","f"]
}

#Lo convierto en Dataframe, para poder manipular los datos
dfC = pd.DataFrame(dataC, dtype="category")

In [None]:
# Verifico los valores faltantes en el dataframe que hemos creado
print("Valores faltantes en el dataset:")
print(dfC.isnull().sum())

Valores faltantes en el dataset:
A    1
B    1
C    2
dtype: int64


In [None]:
from sklearn.impute import SimpleImputer
# Creo una instancia  de SimpleImputer con la estrategia mediana
imputer = SimpleImputer(strategy='most_frequent')

# Imputo los valores faltantes del dataset
datos_categoricos = imputer.fit_transform(dfC)

# Actualizo el dataframe con los valores imputados
datos_categoricos = pd.DataFrame(datos_categoricos, columns=dfC.columns)

In [None]:
#Compruebo el resultado
print("Valores faltantes en el dataset, después de la operación:")
print(datos_categoricos.isnull().sum())

# Muestro el DataFrame completado
print("\nDataFrame después de IterativeImputer:")
print(datos_categoricos)

Valores faltantes en el dataset, después de la operación:
A    0
B    0
C    0
dtype: int64

DataFrame después de IterativeImputer:
   A  B  C
0  a  b  a
1  b  b  a
2  a  c  a
3  d  d  d
4  i  f  f
