# Manejo de datos faltantes (Práctica)

### Ejemplo 1: Interpolación y Relleno

In [6]:
import pandas as pd
import numpy as np

data = {
    'fecha': pd.date_range(start='1/10/2024', periods=10),
    'ventas': [100, 200, np.nan, 400, 500, np.nan, 700, 800, 900, np.nan]
}

df = pd.DataFrame(data)
df

Unnamed: 0,fecha,ventas
0,2024-01-10,100.0
1,2024-01-11,200.0
2,2024-01-12,
3,2024-01-13,400.0
4,2024-01-14,500.0
5,2024-01-15,
6,2024-01-16,700.0
7,2024-01-17,800.0
8,2024-01-18,900.0
9,2024-01-19,


In [10]:
# Interpolación de valores faltantes
df['ventas'] = df['ventas'].interpolate()

df

Unnamed: 0,fecha,ventas
0,2024-01-10,100.0
1,2024-01-11,200.0
2,2024-01-12,300.0
3,2024-01-13,400.0
4,2024-01-14,500.0
5,2024-01-15,600.0
6,2024-01-16,700.0
7,2024-01-17,800.0
8,2024-01-18,900.0
9,2024-01-19,900.0


In [14]:
# Relleno hacia adelante de valores faltantes
df['ventas'] = df['ventas'].ffill()
df

Unnamed: 0,fecha,ventas
0,2024-01-10,100.0
1,2024-01-11,200.0
2,2024-01-12,300.0
3,2024-01-13,400.0
4,2024-01-14,500.0
5,2024-01-15,600.0
6,2024-01-16,700.0
7,2024-01-17,800.0
8,2024-01-18,900.0
9,2024-01-19,900.0


In [16]:
# Relleno hacia atrás de valores faltantes
df['ventas'] = df['ventas'].bfill()
df

Unnamed: 0,fecha,ventas
0,2024-01-10,100.0
1,2024-01-11,200.0
2,2024-01-12,300.0
3,2024-01-13,400.0
4,2024-01-14,500.0
5,2024-01-15,600.0
6,2024-01-16,700.0
7,2024-01-17,800.0
8,2024-01-18,900.0
9,2024-01-19,900.0


### Ejemplo 2: Uso de Valores Estadísticos para Completar Datos Faltantes

In [20]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'estudiante': ['A', 'B', 'C', 'D', 'E'],
    'calificacion': [85, 90, np.nan, 78, np.nan]
}
df = pd.DataFrame(data)
print(df)

# Rellenar valores nulos con la media de la columna
df['calificacion_media'] = df['calificacion'].fillna(df['calificacion'].mean())

# Rellenar valores nulos con la mediana de la columna
df['calificacion_mediana'] = df['calificacion'].fillna(df['calificacion'].median())
print("nRellenar con la mediana:")
print(df)

# Rellenar valores nulos con la moda de la columna
df['calificacion_moda'] = df['calificacion'].fillna(df['calificacion'].mode()[0])
print("nRellenar con la moda:")
print(df)

  estudiante  calificacion
0          A          85.0
1          B          90.0
2          C           NaN
3          D          78.0
4          E           NaN
nRellenar con la mediana:
  estudiante  calificacion  calificacion_media  calificacion_mediana
0          A          85.0           85.000000                  85.0
1          B          90.0           90.000000                  90.0
2          C           NaN           84.333333                  85.0
3          D          78.0           78.000000                  78.0
4          E           NaN           84.333333                  85.0
nRellenar con la moda:
  estudiante  calificacion  calificacion_media  calificacion_mediana  \
0          A          85.0           85.000000                  85.0   
1          B          90.0           90.000000                  90.0   
2          C           NaN           84.333333                  85.0   
3          D          78.0           78.000000                  78.0   
4          E   


### Ejemplo 3: Eliminación de Datos Faltantes

In [21]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'nombre': ['Ana', 'Luis', 'Carlos', 'Marta', 'Pedro'],
    'edad': [28, 35, np.nan, 42, 25],
    'ciudad': ['Madrid', np.nan, 'Barcelona', 'Valencia', np.nan]
}
df = pd.DataFrame(data)

# Mostrar el DataFrame original
print("DataFrame original:")
print(df)

# Eliminar filas con datos faltantes
df_sin_filas_nulas = df.dropna()
print("nDataFrame sin filas con datos faltantes:")
print(df_sin_filas_nulas)

# Eliminar columnas con datos faltantes
df_sin_columnas_nulas = df.dropna(axis=1)
print("nDataFrame sin columnas con datos faltantes:")
print(df_sin_columnas_nulas)

DataFrame original:
   nombre  edad     ciudad
0     Ana  28.0     Madrid
1    Luis  35.0        NaN
2  Carlos   NaN  Barcelona
3   Marta  42.0   Valencia
4   Pedro  25.0        NaN
nDataFrame sin filas con datos faltantes:
  nombre  edad    ciudad
0    Ana  28.0    Madrid
3  Marta  42.0  Valencia
nDataFrame sin columnas con datos faltantes:
   nombre
0     Ana
1    Luis
2  Carlos
3   Marta
4   Pedro
