# Imputacion con KNN

In [5]:
import pandas as pd
from sklearn.impute import KNNImputer

# Crear un DataFrame de ejemplo
data = {
    'feature1': [1.1, 2.2, 3.3, 4.4, 5.5],
    'feature2': [2.2, 3.3, 4.4, 5.5, 6.6],
    'columna_faltante': [1.1, None, 3.3, None, 5.5]
}

df = pd.DataFrame(data)

# Crear un imputador KNN
imputer = KNNImputer(n_neighbors=2)  # Especifica el número de vecinos cercanos

# Aplicar la imputación a la columna con valores faltantes
df['columna_faltante'] = imputer.fit_transform(df[['feature1', 'feature2', 'columna_faltante']])

# Ahora, la columna 'columna_faltante' ha sido imputada utilizando KNN
print(df)

   feature1  feature2  columna_faltante
0       1.1       2.2               1.1
1       2.2       3.3               2.2
2       3.3       4.4               3.3
3       4.4       5.5               4.4
4       5.5       6.6               5.5


# Imputacion con la media

In [2]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'feature1': [1.1, 2.2, 3.3, 4.4, 5.5],
    'feature2': [2.2, 3.3, 4.4, 5.5, 6.6],
    'columna_faltante': [1.1, None, 3.3, None, 5.5]
}

df = pd.DataFrame(data)

# Calcular la media de la columna "columna_faltante"
media_columna_faltante = df['columna_faltante'].mean()

# Imputar los valores faltantes con la media
df['columna_faltante'].fillna(media_columna_faltante, inplace=True)

# Ahora, la columna "columna_faltante" ha sido imputada utilizando la media
print(df)


   feature1  feature2  columna_faltante
0       1.1       2.2               1.1
1       2.2       3.3               3.3
2       3.3       4.4               3.3
3       4.4       5.5               3.3
4       5.5       6.6               5.5


# Imputacion con la moda

In [3]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'feature1': ['A', 'B', 'C', 'A', 'B'],
    'feature2': ['X', 'Y', 'X', 'Y', 'Z'],
    'columna_categorica': ['A', 'B', None, 'B', None]
}

df = pd.DataFrame(data)

# Calcular la moda de la columna "columna_categorica"
moda_columna_categorica = df['columna_categorica'].mode()[0]  # Usamos [0] para obtener el primer valor de moda si hay múltiples modas

# Imputar los valores faltantes con la moda
df['columna_categorica'].fillna(moda_columna_categorica, inplace=True)

# Ahora, la columna "columna_categorica" ha sido imputada utilizando la moda
print(df)


  feature1 feature2 columna_categorica
0        A        X                  A
1        B        Y                  B
2        C        X                  B
3        A        Y                  B
4        B        Z                  B


# Eliminar el registro

In [4]:
import pandas as pd

# Crear un DataFrame de ejemplo con valores faltantes
data = {
    'feature1': [1.1, 2.2, None, 4.4, 5.5],
    'feature2': [2.2, None, 4.4, 5.5, 6.6],
    'columna_categorica': ['A', 'B', 'C', None, 'A']
}

df = pd.DataFrame(data)

# Eliminar filas con valores faltantes
df = df.dropna()

# Ahora, df contendrá solo las filas que no tienen valores faltantes
print(df)


   feature1  feature2 columna_categorica
0       1.1       2.2                  A
4       5.5       6.6                  A
