<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/Manejo_de_datos_faltantes_(Pr%C3%A1ctica).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Ejemplos Prácticos de Limpieza de Datos

### Ejemplo 1: Interpolación y Relleno

Supongamos que tenemos un dataset con datos de ventas diarias y algunas entradas están faltantes. Podemos usar interpolación y relleno para manejar estos datos faltantes.



In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'fecha': pd.date_range(start='1/1/2023', periods=10),
    'ventas': [100, 200, np.nan, 400, 500, np.nan, 700, 800, 900, np.nan]
}
df_original = pd.DataFrame(data)

df_original

Unnamed: 0,fecha,ventas
0,2023-01-01,100.0
1,2023-01-02,200.0
2,2023-01-03,
3,2023-01-04,400.0
4,2023-01-05,500.0
5,2023-01-06,
6,2023-01-07,700.0
7,2023-01-08,800.0
8,2023-01-09,900.0
9,2023-01-10,


In [None]:
# Interpolación de valores faltantes}

df_interpolado = df_original.copy()
df_interpolado['ventas'] = df_interpolado['ventas'].interpolate()
print(df_interpolado)

       fecha  ventas
0 2023-01-01   100.0
1 2023-01-02   200.0
2 2023-01-03   300.0
3 2023-01-04   400.0
4 2023-01-05   500.0
5 2023-01-06   600.0
6 2023-01-07   700.0
7 2023-01-08   800.0
8 2023-01-09   900.0
9 2023-01-10   900.0


In [None]:
# Relleno hacia adelante de valores faltantes
df_relleno = df_original.copy()
df_relleno['ventas'] = df_relleno['ventas'].fillna(method='ffill')
print(df_relleno)

       fecha  ventas
0 2023-01-01   100.0
1 2023-01-02   200.0
2 2023-01-03   200.0
3 2023-01-04   400.0
4 2023-01-05   500.0
5 2023-01-06   500.0
6 2023-01-07   700.0
7 2023-01-08   800.0
8 2023-01-09   900.0
9 2023-01-10   900.0


  df_relleno['ventas'] = df_relleno['ventas'].fillna(method='ffill')


In [None]:
# Relleno hacia atrás de valores faltantes
df_relleno_atras = df_original.copy()
df_relleno_atras['ventas'] = df_relleno_atras['ventas'].fillna(method='bfill')
print(df_relleno_atras)

       fecha  ventas
0 2023-01-01   100.0
1 2023-01-02   200.0
2 2023-01-03   400.0
3 2023-01-04   400.0
4 2023-01-05   500.0
5 2023-01-06   700.0
6 2023-01-07   700.0
7 2023-01-08   800.0
8 2023-01-09   900.0
9 2023-01-10     NaN


  df_relleno_atras['ventas'] = df_relleno_atras['ventas'].fillna(method='bfill')


## Ejemplo 2: Uso de Valores Estadísticos para Completar Datos Faltantes

Supongamos que tenemos un dataset con datos de calificaciones de estudiantes y algunas entradas están faltantes. Podemos usar estadísticas como la media, la mediana y la moda para llenar los valores faltantes.

In [3]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'estudiante': ['A', 'B', 'C', 'D', 'E'],
    'calificacion': [85, 90, np.nan, 78, np.nan]
}
df = pd.DataFrame(data)
df

Unnamed: 0,estudiante,calificacion
0,A,85.0
1,B,90.0
2,C,
3,D,78.0
4,E,


In [4]:
# Rellenar valores nulos con la media de la columna
df['calificacion_media'] = df['calificacion'].fillna(df['calificacion'].mean())
print("Rellenar con la media:")
print(df)

Rellenar con la media:
  estudiante  calificacion  calificacion_media
0          A          85.0           85.000000
1          B          90.0           90.000000
2          C           NaN           84.333333
3          D          78.0           78.000000
4          E           NaN           84.333333


In [5]:
# Rellenar valores nulos con la mediana de la columna
df['calificacion_mediana'] = df['calificacion'].fillna(df['calificacion'].median())
print("nRellenar con la mediana:")
print(df)


nRellenar con la mediana:
  estudiante  calificacion  calificacion_media  calificacion_mediana
0          A          85.0           85.000000                  85.0
1          B          90.0           90.000000                  90.0
2          C           NaN           84.333333                  85.0
3          D          78.0           78.000000                  78.0
4          E           NaN           84.333333                  85.0


In [6]:
# Rellenar valores nulos con la moda de la columna
df['calificacion_moda'] = df['calificacion'].fillna(df['calificacion'].mode()[0])
print("nRellenar con la moda:")
print(df)

nRellenar con la moda:
  estudiante  calificacion  calificacion_media  calificacion_mediana  \
0          A          85.0           85.000000                  85.0   
1          B          90.0           90.000000                  90.0   
2          C           NaN           84.333333                  85.0   
3          D          78.0           78.000000                  78.0   
4          E           NaN           84.333333                  85.0   

   calificacion_moda  
0               85.0  
1               90.0  
2               78.0  
3               78.0  
4               78.0  
