In [None]:
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer

# Crear un dataframe con valores faltantes
df = pd.DataFrame({'A': [1, 2, np.nan, 4, 2],
                   'B': [5, np.nan, np.nan, 8, 5],
                   'C': [9, 10, 11, 12, 10]})

# Verificar valores faltantes antes de la imputación
print("Valores faltantes antes de la imputación:\n", df.isnull().sum())

#### IMPUTAR CON MEDIA
# Crear un imputador con estrategia de media
imputer = SimpleImputer(strategy='mean')

# Imputar los valores faltantes
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

# Mostrar el DataFrame después de la imputación
print("\nDataFrame después de la imputación:\n", df_imputed)

Valores faltantes antes de la imputación:
 A    1
B    2
C    0
dtype: int64

DataFrame después de la imputación:
       A    B     C
0  1.00  5.0   9.0
1  2.00  6.0  10.0
2  2.25  6.0  11.0
3  4.00  8.0  12.0
4  2.00  5.0  10.0


In [None]:
### IMPUTAR CON MODA
# Crear un imputador con estrategia de moda (most_frequent)
imputer = SimpleImputer(strategy='most_frequent')

# Imputar los valores faltantes
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

# Verificar valores faltantes después de la imputación
print("\nValores faltantes después de la imputación:\n", df_imputed.isnull().sum())

# Mostrar el DataFrame después de la imputación
print("\nDataFrame después de la imputación:\n", df_imputed)



Valores faltantes después de la imputación:
 A    0
B    0
C    0
dtype: int64

DataFrame después de la imputación:
      A    B     C
0  1.0  5.0   9.0
1  2.0  5.0  10.0
2  2.0  5.0  11.0
3  4.0  8.0  12.0
4  2.0  5.0  10.0


In [None]:
### IMPUTAR CON MEDIANA
# Crear un imputador con estrategia de mediana
imputer = SimpleImputer(strategy='median')

# Imputar los valores faltantes
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

# Mostrar el DataFrame después de la imputación
print("\nDataFrame después de la imputación:\n", df_imputed)



DataFrame después de la imputación:
      A    B     C
0  1.0  5.0   9.0
1  2.0  5.0  10.0
2  2.0  5.0  11.0
3  4.0  8.0  12.0
4  2.0  5.0  10.0


In [None]:

### IMPUTAR CON INTERPOLACIÓN LINEAL
# Imputar los valores faltantes usando interpolación lineal
df_imputed = df.interpolate(method='linear', axis=0, limit_direction='forward')

# Verificar si quedan valores faltantes después de la interpolación
print("\nValores faltantes después de la imputación:\n", df_imputed.isnull().sum())

# Mostrar el DataFrame después de la imputación
print("\nDataFrame después de la imputación:\n", df_imputed)


Valores faltantes después de la imputación:
 A    0
B    0
C    0
dtype: int64

DataFrame después de la imputación:
      A    B   C
0  1.0  5.0   9
1  2.0  6.0  10
2  3.0  7.0  11
3  4.0  8.0  12
4  2.0  5.0  10


In [None]:
################ IMP POR REGRESIÓN, EJEMPLO 2###
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

# Crear un DataFrame con datos de ejemplo
data = {
    'X': [1, 2, 3, 4, 5, 6],
    'Y': [5, 7, np.nan, np.nan, 15, 17],  # np.nan en lugar de None
    'Z': [10, 12, 14, 16, 18, 20]
}

df = pd.DataFrame(data)

# Paso 1: Separar los datos conocidos y desconocidos
df_conocidos = df.dropna(subset=['Y'])
df_desconocidos = df[df['Y'].isnull()]

# Verificar si hay valores faltantes en 'Y' antes de entrenar el modelo
if not df_desconocidos.empty:
    # Paso 2: Preparar los datos para el modelo de regresión
    X_train = df_conocidos[['X', 'Z']]
    y_train = df_conocidos['Y']

    # Paso 3: Entrenar el modelo de regresión
    regression_model = LinearRegression()
    regression_model.fit(X_train, y_train)

    # Paso 4: Predecir los valores faltantes
    X_test = df_desconocidos[['X', 'Z']]
    predicted_values = regression_model.predict(X_test)

    # Paso 5: Reemplazar los valores faltantes en el DataFrame original
    df.loc[df['Y'].isnull(), 'Y'] = predicted_values

# Mostrar el DataFrame después de la imputación
print("\nDataFrame después de la imputación por regresión:\n", df)




DataFrame después de la imputación por regresión:
    X          Y   Z
0  1   5.000000  10
1  2   7.000000  12
2  3   9.764706  14
3  4  12.235294  16
4  5  15.000000  18
5  6  17.000000  20
