#### Ejemplos Prácticos de Limpieza de Datos

Ejemplo 1: Interpolación y Relleno

* Supongamos que tenemos un dataset con datos de ventas diarias y algunas entradas están faltantes. Podemos usar interpolación y relleno para manejar estos datos faltantes.

In [4]:
import pandas as pd
import numpy as np

# Crar un Data Frame de ejemplo

data = {
       'fecha': pd.date_range(start='1/1/2022', periods=10),
       'ventas': [100, 200, np.nan, 400, 500, np.nan, 700, 800, 900, np.nan]
       }
df = pd.DataFrame(data)


In [5]:
df.head()

Unnamed: 0,fecha,ventas
0,2022-01-01,100.0
1,2022-01-02,200.0
2,2022-01-03,
3,2022-01-04,400.0
4,2022-01-05,500.0


In [6]:
# Interpolación de valores faltantes

df['ventas'] = df['ventas'].interpolate()
print(df)

       fecha  ventas
0 2022-01-01   100.0
1 2022-01-02   200.0
2 2022-01-03   300.0
3 2022-01-04   400.0
4 2022-01-05   500.0
5 2022-01-06   600.0
6 2022-01-07   700.0
7 2022-01-08   800.0
8 2022-01-09   900.0
9 2022-01-10   900.0


In [7]:
# Relleno hacia adelante de valores faltantes
df['ventas'] = df['ventas'].ffill()
print(df)

       fecha  ventas
0 2022-01-01   100.0
1 2022-01-02   200.0
2 2022-01-03   300.0
3 2022-01-04   400.0
4 2022-01-05   500.0
5 2022-01-06   600.0
6 2022-01-07   700.0
7 2022-01-08   800.0
8 2022-01-09   900.0
9 2022-01-10   900.0


In [8]:
# Relleno hacia atrás de valores faltantes
df['ventas'] = df['ventas'].bfill()
print(df)

       fecha  ventas
0 2022-01-01   100.0
1 2022-01-02   200.0
2 2022-01-03   300.0
3 2022-01-04   400.0
4 2022-01-05   500.0
5 2022-01-06   600.0
6 2022-01-07   700.0
7 2022-01-08   800.0
8 2022-01-09   900.0
9 2022-01-10   900.0


#### Ejemplo 2: Uso de Valores Estadísticos para Completar Datos Faltantes

* Supongamos que tenemos un dataset con datos de calificaciones de estudiantes y algunas entradas están faltantes. Podemos usar estadísticas como la media, la mediana y la moda para llenar los valores faltantes.

In [9]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'estudiante': ['A', 'B', 'C', 'D', 'E'],
    'calificacion': [85, 90, np.nan, 78, np.nan]
}
df = pd.DataFrame(data)

In [10]:
df.head()

Unnamed: 0,estudiante,calificacion
0,A,85.0
1,B,90.0
2,C,
3,D,78.0
4,E,


In [11]:
df["calificacion"] = df["calificacion"].fillna(df["calificacion"].mean())
print("Rellenar con la media:")
print(df)


Rellenar con la media:
  estudiante  calificacion
0          A     85.000000
1          B     90.000000
2          C     84.333333
3          D     78.000000
4          E     84.333333


In [13]:
# Rellenar valores nulos con la mediana de la columna
df['calificacion_mediana'] = df['calificacion'].fillna(df['calificacion'].median())
print("nRellenar con la mediana:")
print(df)

nRellenar con la mediana:
  estudiante  calificacion  calificacion_mediana
0          A     85.000000             85.000000
1          B     90.000000             90.000000
2          C     84.333333             84.333333
3          D     78.000000             78.000000
4          E     84.333333             84.333333


In [15]:
# Rellenar valores nulos con la moda de la columna
df['calificacion_moda'] = df['calificacion'].fillna(df['calificacion'].mode()[0])
print("Rellenar con la moda:")
print(df)

Rellenar con la moda:
  estudiante  calificacion  calificacion_mediana  calificacion_moda
0          A     85.000000             85.000000          85.000000
1          B     90.000000             90.000000          90.000000
2          C     84.333333             84.333333          84.333333
3          D     78.000000             78.000000          78.000000
4          E     84.333333             84.333333          84.333333


#### Ejemplo 3: Eliminación de Datos Faltantes

* A veces, la mejor opción es eliminar filas o columnas completas si el porcentaje de datos faltantes es muy alto y no hay otra manera de recuperarlos. Este ejemplo muestra cómo eliminar filas y columnas con datos faltantes.

In [21]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data3 = {
    'nombre': ['Ana', 'Luis', 'Carlos', 'Marta', 'Pedro'],
    'edad': [28, 35, np.nan, 42, 25],
    'ciudad': ['Madrid', np.nan, 'Barcelona', 'Valencia', np.nan]
}
df = pd.DataFrame(data3)

In [22]:
df.head()

Unnamed: 0,nombre,edad,ciudad
0,Ana,28.0,Madrid
1,Luis,35.0,
2,Carlos,,Barcelona
3,Marta,42.0,Valencia
4,Pedro,25.0,


In [26]:
# Mostrar el DataFrame original
print("DataFrame original:")
print(df)


DataFrame original:
   nombre  edad     ciudad
0     Ana  28.0     Madrid
1    Luis  35.0        NaN
2  Carlos   NaN  Barcelona
3   Marta  42.0   Valencia
4   Pedro  25.0        NaN


In [27]:
# Eliminar filas con datos faltantes
df_sin_filas_nulas = df.dropna()
print("DataFrame sin filas con datos faltantes:")
print(df_sin_filas_nulas)

DataFrame sin filas con datos faltantes:
  nombre  edad    ciudad
0    Ana  28.0    Madrid
3  Marta  42.0  Valencia


In [28]:
# Eliminar columnas con datos faltantes
df_sin_columnas_nulas = df.dropna(axis=1)
print("DataFrame sin columnas con datos faltantes:")
print(df_sin_columnas_nulas)

DataFrame sin columnas con datos faltantes:
   nombre
0     Ana
1    Luis
2  Carlos
3   Marta
4   Pedro
