Identificación de Datos Faltantes:



In [None]:
import numpy as np
import pandas as pd

# Crear un DataFrame con valores faltantes
data = {
    'Producto': ['A', 'B', 'A', 'B', 'A', 'C', 'C'],
    'Ventas': [100, np.nan, 200, 100, np.nan, 250, 200]
}

df = pd.DataFrame(data)

# Identificar valores faltantes
df.isna().sum()


Unnamed: 0,0
Producto,0
Ventas,2


Ejemplo de Imputación Simple:

In [None]:
# Imputar valores faltantes con la media
df['Ventas'].fillna(df['Ventas'].mean(), inplace=True)

# Identificar valores faltantes
df.isna().sum()

Unnamed: 0,0
Producto,0
Ventas,0


# Ejemplo de Imputación Avanzada:

In [None]:
from sklearn.impute import KNNImputer

# Crear un DataFrame con valores faltantes
data = {
    'Producto': ['A', 'B', 'A', 'B', 'A', 'C', 'C'],
    'Ventas': [100, np.nan, 200, 100, np.nan, 250, 200],
    'Descuento': [10, 5, np.nan, 0, 5, 7, np.nan]
}

df = pd.DataFrame(data)

# Identificar valores faltantes
df.isna().sum()


Unnamed: 0,0
Producto,0
Ventas,2
Descuento,2


In [None]:
df

Unnamed: 0,Producto,Ventas,Descuento
0,A,100.0,10.0
1,B,,5.0
2,A,200.0,
3,B,100.0,0.0
4,A,,5.0
5,C,250.0,7.0
6,C,200.0,


In [None]:
# Imputar usando KNN
imputer = KNNImputer(n_neighbors=2)
df_imputed = pd.DataFrame(imputer.fit_transform(df[['Ventas', 'Descuento']]), columns=['Ventas', 'Descuento'])

# Identificar valores faltantes
df_imputed.isna().sum()

Unnamed: 0,0
Ventas,0
Descuento,0


In [None]:
df_imputed #Data Imputada

Unnamed: 0,Ventas,Descuento
0,100.0,10.0
1,175.0,5.0
2,200.0,3.5
3,100.0,0.0
4,175.0,5.0
5,250.0,7.0
6,200.0,3.5


# Relleno hacia atrás o hacia adelante

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame con valores faltantes
data = {
    'Fecha': pd.date_range(start='2023-01-01', periods=10, freq='D'),
    'Ventas': [200, np.nan, 250, np.nan, np.nan, 300, np.nan, 350, np.nan, 400]
}

df = pd.DataFrame(data)

print("Datos originales con valores faltantes:")
print(df)


Datos originales con valores faltantes:
       Fecha  Ventas
0 2023-01-01   200.0
1 2023-01-02     NaN
2 2023-01-03   250.0
3 2023-01-04     NaN
4 2023-01-05     NaN
5 2023-01-06   300.0
6 2023-01-07     NaN
7 2023-01-08   350.0
8 2023-01-09     NaN
9 2023-01-10   400.0


## Relleno Hacia Adelante `ffill`
El método `ffill (forward fill) rellena los valores faltantes utilizando el valor anterior de la misma columna.

In [None]:
# Crear un DataFrame con valores faltantes
data = {
    'Fecha': pd.date_range(start='2023-01-01', periods=10, freq='D'),
    'Ventas': [200, np.nan, 250, np.nan, np.nan, 300, np.nan, 350, np.nan, 400]
}

df = pd.DataFrame(data)

df

Unnamed: 0,Fecha,Ventas
0,2023-01-01,200.0
1,2023-01-02,
2,2023-01-03,250.0
3,2023-01-04,
4,2023-01-05,
5,2023-01-06,300.0
6,2023-01-07,
7,2023-01-08,350.0
8,2023-01-09,
9,2023-01-10,400.0


In [None]:
# Relleno hacia adelante (forward fill)
df_ffill = df.ffill()

print("\nDatos después de relleno hacia adelante (forward fill):")
print(df_ffill)



Datos después de relleno hacia adelante (forward fill):
       Fecha  Ventas
0 2023-01-01   200.0
1 2023-01-02   200.0
2 2023-01-03   250.0
3 2023-01-04   250.0
4 2023-01-05   250.0
5 2023-01-06   300.0
6 2023-01-07   300.0
7 2023-01-08   350.0
8 2023-01-09   350.0
9 2023-01-10   400.0


In [None]:
# Crear un DataFrame con valores faltantes
data = {
    'Fecha': pd.date_range(start='2023-01-01', periods=10, freq='D'),
    'Ventas': [200, np.nan, 250, np.nan, np.nan, 300, np.nan, 350, np.nan, 400]
}

df = pd.DataFrame(data)

df

Unnamed: 0,Fecha,Ventas
0,2023-01-01,200.0
1,2023-01-02,
2,2023-01-03,250.0
3,2023-01-04,
4,2023-01-05,
5,2023-01-06,300.0
6,2023-01-07,
7,2023-01-08,350.0
8,2023-01-09,
9,2023-01-10,400.0


In [None]:
# Relleno hacia atrás (backward fill)
df_bfill = df.bfill()

print("\nDatos después de relleno hacia atrás (backward fill):")
print(df_bfill)



Datos después de relleno hacia atrás (backward fill):
       Fecha  Ventas
0 2023-01-01   200.0
1 2023-01-02   250.0
2 2023-01-03   250.0
3 2023-01-04   300.0
4 2023-01-05   300.0
5 2023-01-06   300.0
6 2023-01-07   350.0
7 2023-01-08   350.0
8 2023-01-09   400.0
9 2023-01-10   400.0


Este método es útil cuando los datos son temporales o secuenciales, y se espera que los valores faltantes sean similares a los valores cercanos.