# Caso 1, Interpolación y relleno

In [16]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'fecha': pd.date_range(start='1/1/2022', periods=10),
    'ventas': [100, 200, np.nan, 400, 500, np.nan, 700, 800, 900, np.nan]
}
df = pd.DataFrame(data)


In [17]:
# Interpolación de valores faltantes
df['ventas'] = df['ventas'].interpolate()
print(df)

       fecha  ventas
0 2022-01-01   100.0
1 2022-01-02   200.0
2 2022-01-03   300.0
3 2022-01-04   400.0
4 2022-01-05   500.0
5 2022-01-06   600.0
6 2022-01-07   700.0
7 2022-01-08   800.0
8 2022-01-09   900.0
9 2022-01-10   900.0


In [None]:
# Relleno hacia adelante de valores faltantes
df['ventas'] = df['ventas'].ffill()
print(df)


       fecha  ventas
0 2022-01-01   100.0
1 2022-01-02   200.0
2 2022-01-03   300.0
3 2022-01-04   400.0
4 2022-01-05   500.0
5 2022-01-06   600.0
6 2022-01-07   700.0
7 2022-01-08   800.0
8 2022-01-09   900.0
9 2022-01-10   900.0


In [None]:

# Relleno hacia atrás de valores faltantes
df['ventas'] = df['ventas'].bfill()
print(df)

       fecha  ventas
0 2022-01-01   100.0
1 2022-01-02   200.0
2 2022-01-03   300.0
3 2022-01-04   400.0
4 2022-01-05   500.0
5 2022-01-06   600.0
6 2022-01-07   700.0
7 2022-01-08   800.0
8 2022-01-09   900.0
9 2022-01-10   900.0


# Uso de valores estadístidos para reemplazar valores nulos

In [None]:
# se usa .fillna() para reemplazar los valores nulos con lo puesto dentro del argumento
# comúnmente, se rellena con la media, mediana y moda

import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'estudiante': ['A', 'B', 'C', 'D', 'E'],
    'calificacion': [85, 90, np.nan, 78, np.nan]
}
df = pd.DataFrame(data)

# Rellenar valores nulos con la media de la columna
df['calificacion_media'] = df['calificacion'].fillna(df['calificacion'].mean())
print("Rellenar con la media:")
print(df)

# Rellenar valores nulos con la mediana de la columna
df['calificacion_mediana'] = df['calificacion'].fillna(df['calificacion'].median())
print("nRellenar con la mediana:")
print(df)

# Rellenar valores nulos con la moda de la columna
df['calificacion_moda'] = df['calificacion'].fillna(df['calificacion'].mode()[0])
print("nRellenar con la moda:")
print(df)

# Eliminación, último recurso

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'nombre': ['Ana', 'Luis', 'Carlos', 'Marta', 'Pedro'],
    'edad': [28, 35, np.nan, 42, 25],
    'ciudad': ['Madrid', np.nan, 'Barcelona', 'Valencia', np.nan]
}
df = pd.DataFrame(data)

# Mostrar el DataFrame original
print("DataFrame original:")
print(df)

# Eliminar filas con datos faltantes
df_sin_filas_nulas = df.dropna()
print("nDataFrame sin filas con datos faltantes:")
print(df_sin_filas_nulas)

# Eliminar columnas con datos faltantes
df_sin_columnas_nulas = df.dropna(axis=1)
print("nDataFrame sin columnas con datos faltantes:")
print(df_sin_columnas_nulas)