# Manejo de Valores Faltantes en Pandas

**Curso:** Python para Ciencia de Datos
**Fecha:** 08 de octubre de 2025
**Ruta:** Fundamentos de Data Science e IA
**Repositorio:** `bootcamp-fundamentos-ciencia-de-datos`

## 📋 Índice

1. [Concepto](#concepto)
2. [Identificación de Valores Faltantes](#identificacion)
3. [Estrategias de Manejo](#estrategias)
4. [Casos de Uso en Data Science](#casos-uso)
5. [Ejercicios Prácticos](#ejercicios)

## Concepto

Los **valores faltantes** (NaN, None, NULL) son comunes en análisis de datos y se originan por:

- ❌ Errores en la recolección de datos
- ❌ Problemas de almacenamiento o transferencia
- ❌ Información no disponible al momento del registro
- ❌ Respuestas en blanco en encuestas
- ❌ Fallos en sensores o sistemas de captura

**¿Por qué es importante manejarlos?**

Ignorar valores faltantes puede llevar a:
- Análisis sesgados e incorrectos
- Modelos de ML con bajo rendimiento
- Decisiones empresariales basadas en información incompleta
- Errores en cálculos estadísticos

In [None]:
import numpy as np
import pandas as pd
from data_loader import load_data, load_and_clean

# Cargar cualquier archivo sin preocuparte por encoding
retail_data = load_data('online_retail.csv')


### Método 1: isnull() - Detectar valores faltantes

`True` = valor faltante
`False` = valor presente

In [None]:
# Identificar valores faltantes
datos_faltantes = retail_data.isnull()
print("Matriz de valores faltantes:")
datos_faltantes

### Método 2: notnull() - Detectar valores presentes

Opuesto a `isnull()`

In [None]:
# Identificar valores presentes
datos_presentes = retail_data.notnull()
print("Matriz de valores presentes:")
datos_presentes

### Método 3: Contar valores faltantes por columna


In [None]:
# Contar cuántos valores faltan en cada columna
conteo_faltantes = retail_data.isnull().sum()
print("Valores faltantes por columna:")
print(conteo_faltantes)

### Método 4: Calcular porcentaje de valores faltantes

In [None]:
# Calcular el porcentaje de valores faltantes
porcentaje_faltantes = (retail_data.isnull().sum() / len(retail_data)) * 100
print("El porcentaje de datos faltantes por cada columna es:")
for columna, porcentaje in porcentaje_faltantes.items():
  print(f"- {columna}: {porcentaje:.2f}%")

---

## Estrategias de Manejo

Existen dos estrategias principales:

1. **Eliminación**: Quitar filas o columnas con valores faltantes
2. **Imputación**: Llenar valores faltantes con datos calculados o predeterminados

### Estrategia 1: Eliminación de Datos

#### A. Eliminar filas con valores faltantes

In [None]:
# Crear copia del DataFrame original
retail_copy = retail_data.copy()

# Eliminar todas las filas que contengan al menos un valor faltante
datos_sin_filas_faltantes = retail_copy.dropna()
print("Datos sin filas con valores faltantes:")
datos_sin_filas_faltantes

#### B. Eliminar columnas con valores faltantes

In [None]:
# Eliminar todas las columnas que contengan al menos un valor faltante
datos_sin_columnas_faltantes = retail_copy.dropna(axis=1)
print("Datos sin columnas con valores faltantes:")
datos_sin_columnas_faltantes

#### C. Eliminar solo si TODOS los valores son faltantes

In [None]:
# Crear DataFrame con una fila completamente vacía
df_test = pd.DataFrame({
    'A': [1, 2, None, None],
    'B': [4, 5, None, None],
    'C': [7, 8, None, None]
})

print("DataFrame de prueba:")
print(df_test)

# Eliminar fila solo si TODOS los valores son NaN
datos_how_all = df_test.dropna(how='all')
print("\nDespués de dropna(how='all'):")
print(datos_how_all)

#### D. Eliminar según umbral mínimo de valores no nulos

In [None]:
# Eliminar filas que tengan menos de 2 valores no nulos
datos_thresh = retail_copy.dropna(thresh=2)
print("Filas con al menos 2 valores no nulos:")
print(datos_thresh)

### Estrategia 2: Imputación de Valores

#### A. Llenar con un valor constante

In [None]:
# Llenar todos los valores faltantes con 0
retail_filled_zero = retail_data.fillna(0)
print("Valores faltantes llenados con 0:")
print(retail_filled_zero)

#### B. Llenar con texto específico

In [None]:
# Llenar valores faltantes con un texto específico
retail_filled_text = retail_data.fillna('Desconocido')
print("Valores faltantes llenados con 'Desconocido':")
print(retail_filled_text)

#### C. Llenar con la media de la columna

In [None]:
# Crear una copia para modificar
retail_mean = retail_data.copy()

# Calcular la media de la columna 'Cantidad' (ignora NaN automáticamente)
media_cantidad = retail_mean['Cantidad'].mean()
print(f"Media de Cantidad: {media_cantidad}")

# Llenar valores faltantes de 'Cantidad' con la media
retail_mean['Cantidad'].fillna(media_cantidad, inplace=True)
print("\nDespués de llenar con la media:")
print(retail_mean)

#### D. Llenar con la mediana (útil cuando hay valores atípicos)

In [23]:
# Crear DataFrame con valores atípicos
datos_atipicos = pd.DataFrame({
    'Ventas': [100, 110, 105, None, 95, 1000, 108]  # 1000 es atípico
})

print("Datos con valor atípico:")
print(datos_atipicos)

# Comparar media vs mediana
print(f"\nMedia: {datos_atipicos['Ventas'].mean():.2f}")
print(f"Mediana: {datos_atipicos['Ventas'].median():.2f}")

# Llenar con mediana (más robusta ante atípicos)
mediana = datos_atipicos['Ventas'].median()
datos_atipicos['Ventas'].fillna(mediana, inplace=True)
print(f"\nDespués de llenar con mediana:")
print(datos_atipicos)

Datos con valor atípico:
   Ventas
0   100.0
1   110.0
2   105.0
3     NaN
4    95.0
5  1000.0
6   108.0

Media: 253.00
Mediana: 106.50

Después de llenar con mediana:
   Ventas
0   100.0
1   110.0
2   105.0
3   106.5
4    95.0
5  1000.0
6   108.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  datos_atipicos['Ventas'].fillna(mediana, inplace=True)


#### E. Forward Fill - Propagar valor anterior

In [None]:
# Crear serie temporal con valores faltantes
serie_temporal = pd.DataFrame({
    'Fecha': pd.date_range('2024-01-01', periods=7),
    'Temperatura': [20, 22, None, None, 25, 26, None]
})

print("Serie temporal original:")
print(serie_temporal)

# Forward fill: propagar el último valor válido hacia adelante
serie_ffill = serie_temporal.copy()
serie_ffill['Temperatura'].fillna(method='ffill', inplace=True)
print("\nDespués de forward fill:")
print(serie_ffill)

#### F. Backward Fill - Propagar valor siguiente

In [None]:
# Backward fill: propagar el siguiente valor válido hacia atrás
serie_bfill = serie_temporal.copy()
serie_bfill['Temperatura'].fillna(method='bfill', inplace=True)
print("Después de backward fill:")
print(serie_bfill)

---

## Casos de Uso en Data Science

### Caso de Uso 1: Limpieza de Encuestas de Satisfacción del Cliente (CSAT)

**Contexto:** Tienes un dataset de encuestas CSAT donde algunos clientes no respondieron todas las preguntas. Necesitas decidir cómo manejar estas respuestas incompletas para calcular un puntaje promedio confiable.

**Objetivo:** Aplicar una estrategia de limpieza inteligente que preserve datos valiosos.

In [24]:
# Dataset de encuestas CSAT
encuestas = pd.DataFrame({
    'ClienteID': [1, 2, 3, 4, 5, 6],
    'Departamento': ['Ventas', 'Soporte', 'Ventas', 'Logística', 'Soporte', 'Ventas'],
    'Puntaje_CSAT': [5, 4, None, 3, 5, None],
    'Tiempo_Respuesta': [10, None, 15, 20, 8, 12],
    'Comentario': ['Excelente', None, 'Bueno', 'Regular', 'Muy bueno', 'Sin comentarios']
})

print("Dataset original:")
print(encuestas)
print("\n📊 Valores faltantes por columna:")
print(encuestas.isnull().sum())

Dataset original:
   ClienteID Departamento  Puntaje_CSAT  Tiempo_Respuesta       Comentario
0          1       Ventas           5.0              10.0        Excelente
1          2      Soporte           4.0               NaN             None
2          3       Ventas           NaN              15.0            Bueno
3          4    Logística           3.0              20.0          Regular
4          5      Soporte           5.0               8.0        Muy bueno
5          6       Ventas           NaN              12.0  Sin comentarios

📊 Valores faltantes por columna:
ClienteID           0
Departamento        0
Puntaje_CSAT        2
Tiempo_Respuesta    1
Comentario          1
dtype: int64


**Estrategia de limpieza:**

1. ✅ Eliminar filas donde NO hay puntaje CSAT (métrica principal)
2. ✅ Para Tiempo_Respuesta, llenar con la mediana
3. ✅ Para Comentario, llenar con "Sin comentario"

In [25]:
# Paso 1: Eliminar filas sin puntaje CSAT (dato crítico)
encuestas_limpias = encuestas.dropna(subset=['Puntaje_CSAT']).copy()

print("Después de eliminar filas sin CSAT:")
print(encuestas_limpias)

Después de eliminar filas sin CSAT:
   ClienteID Departamento  Puntaje_CSAT  Tiempo_Respuesta Comentario
0          1       Ventas           5.0              10.0  Excelente
1          2      Soporte           4.0               NaN       None
3          4    Logística           3.0              20.0    Regular
4          5      Soporte           5.0               8.0  Muy bueno


In [27]:
# Paso 2: Llenar Tiempo_Respuesta con la mediana
mediana_tiempo = encuestas_limpias['Tiempo_Respuesta'].median()
print(f"Mediana de Tiempo_Respuesta: {mediana_tiempo}")

encuestas_limpias['Tiempo_Respuesta'].fillna(mediana_tiempo, inplace=True)

# Paso 3: Llenar Comentario con texto predeterminado
encuestas_limpias['Comentario'].fillna('Sin comentario', inplace=True)

print("\n✅ Dataset final limpio:")
print(encuestas_limpias)

Mediana de Tiempo_Respuesta: 10.0

✅ Dataset final limpio:
   ClienteID Departamento  Puntaje_CSAT  Tiempo_Respuesta      Comentario
0          1       Ventas           5.0              10.0       Excelente
1          2      Soporte           4.0              10.0  Sin comentario
3          4    Logística           3.0              20.0         Regular
4          5      Soporte           5.0               8.0       Muy bueno


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  encuestas_limpias['Tiempo_Respuesta'].fillna(mediana_tiempo, inplace=True)


In [28]:
# Calcular CSAT promedio por departamento
csat_por_departamento = encuestas_limpias.groupby('Departamento')['Puntaje_CSAT'].mean()
print("📈 CSAT Promedio por Departamento:")
print(csat_por_departamento)
print(f"\n⭐ CSAT General: {encuestas_limpias['Puntaje_CSAT'].mean():.2f}")

📈 CSAT Promedio por Departamento:
Departamento
Logística    3.0
Soporte      4.5
Ventas       5.0
Name: Puntaje_CSAT, dtype: float64

⭐ CSAT General: 4.25


**🎯 Resultado del Caso 1:**

- ✅ Preservamos 4 de 6 registros (66% de datos)
- ✅ No eliminamos información valiosa innecesariamente
- ✅ La mediana evita sesgos por valores extremos
- ✅ Mantenemos trazabilidad con "Sin comentario"

**Aplicación al proyecto Customer Experience Analyzer:**
Esta técnica la usarás para limpiar datos de encuestas CSAT antes de calcular el puntaje promedio por departamento.

### Caso de Uso 2: Análisis de Ventas con Datos Incompletos

**Contexto:** Estás analizando transacciones de ventas de un e-commerce. Algunos registros tienen el CustomerID faltante (clientes invitados), y otros tienen Quantity faltante por errores del sistema.

**Objetivo:** Preparar los datos para un análisis de ingresos sin perder información valiosa.

In [30]:
# Dataset de ventas con valores faltantes
ventas = pd.DataFrame({
    'InvoiceNo': ['A001', 'A002', 'A003', 'A004', 'A005', 'A006'],
    'StockCode': ['SKU1', 'SKU2', 'SKU3', 'SKU1', 'SKU2', 'SKU3'],
    'Description': ['Producto A', 'Producto B', 'Producto C', 'Producto A', 'Producto B', 'Producto C'],
    'Quantity': [10, None, 5, None, 15, 8],
    'UnitPrice': [100, 200, 150, 100, 200, 150],
    'CustomerID': [12345, None, 67890, 11111, None, 22222]
})

print("Dataset de ventas original:")
ventas

Dataset de ventas original:


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,UnitPrice,CustomerID
0,A001,SKU1,Producto A,10.0,100,12345.0
1,A002,SKU2,Producto B,,200,
2,A003,SKU3,Producto C,5.0,150,67890.0
3,A004,SKU1,Producto A,,100,11111.0
4,A005,SKU2,Producto B,15.0,200,
5,A006,SKU3,Producto C,8.0,150,22222.0


In [31]:
# Analizar el impacto de los valores faltantes
print("📊 Análisis de valores faltantes:")
print(f"Total de registros: {len(ventas)}")
print(f"Registros sin CustomerID: {ventas['CustomerID'].isnull().sum()}")
print(f"Registros sin Quantity: {ventas['Quantity'].isnull().sum()}")
print(f"\nPorcentaje de faltantes:")
print((ventas.isnull().sum() / len(ventas) * 100).round(1))

📊 Análisis de valores faltantes:
Total de registros: 6
Registros sin CustomerID: 2
Registros sin Quantity: 2

Porcentaje de faltantes:
InvoiceNo       0.0
StockCode       0.0
Description     0.0
Quantity       33.3
UnitPrice       0.0
CustomerID     33.3
dtype: float64


**Estrategia:**

1. ❌ Para Quantity faltante: **eliminar la fila** (no podemos calcular ingresos sin cantidad)
2. ✅ Para CustomerID faltante: **llenar con 'GUEST'** (representa cliente invitado)

In [32]:
# Paso 1: Eliminar filas sin Quantity
ventas_limpias = ventas.dropna(subset=['Quantity']).copy()

print("Después de eliminar filas sin Quantity:")
print(ventas_limpias)
print(f"\n✅ Registros conservados: {len(ventas_limpias)}/{len(ventas)}")

Después de eliminar filas sin Quantity:
  InvoiceNo StockCode Description  Quantity  UnitPrice  CustomerID
0      A001      SKU1  Producto A      10.0        100     12345.0
2      A003      SKU3  Producto C       5.0        150     67890.0
4      A005      SKU2  Producto B      15.0        200         NaN
5      A006      SKU3  Producto C       8.0        150     22222.0

✅ Registros conservados: 4/6


In [33]:
# Paso 2: Marcar clientes invitados
ventas_limpias['CustomerID'].fillna('GUEST', inplace=True)

print("Dataset final con CustomerID procesado:")
print(ventas_limpias)

Dataset final con CustomerID procesado:
  InvoiceNo StockCode Description  Quantity  UnitPrice CustomerID
0      A001      SKU1  Producto A      10.0        100    12345.0
2      A003      SKU3  Producto C       5.0        150    67890.0
4      A005      SKU2  Producto B      15.0        200      GUEST
5      A006      SKU3  Producto C       8.0        150    22222.0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  ventas_limpias['CustomerID'].fillna('GUEST', inplace=True)
  ventas_limpias['CustomerID'].fillna('GUEST', inplace=True)


In [34]:
# Calcular ingresos totales
ventas_limpias['TotalRevenue'] = ventas_limpias['Quantity'] * ventas_limpias['UnitPrice']

print("💰 Ingresos por transacción:")
print(ventas_limpias[['InvoiceNo', 'Description', 'Quantity', 'UnitPrice', 'TotalRevenue']])

💰 Ingresos por transacción:
  InvoiceNo Description  Quantity  UnitPrice  TotalRevenue
0      A001  Producto A      10.0        100        1000.0
2      A003  Producto C       5.0        150         750.0
4      A005  Producto B      15.0        200        3000.0
5      A006  Producto C       8.0        150        1200.0


In [35]:
# Análisis: Ingresos de clientes registrados vs invitados
ventas_limpias['TipoCliente'] = ventas_limpias['CustomerID'].apply(
    lambda x: 'Invitado' if x == 'GUEST' else 'Registrado'
)

ingresos_por_tipo = ventas_limpias.groupby('TipoCliente')['TotalRevenue'].agg(['sum', 'mean', 'count'])
ingresos_por_tipo.columns = ['Ingresos Totales', 'Ingreso Promedio', 'Transacciones']

print("📊 Análisis por tipo de cliente:")
print(ingresos_por_tipo)

📊 Análisis por tipo de cliente:
             Ingresos Totales  Ingreso Promedio  Transacciones
TipoCliente                                                   
Invitado               3000.0       3000.000000              1
Registrado             2950.0        983.333333              3


**🎯 Resultado del Caso 2:**

- ✅ Eliminamos solo registros donde es imposible calcular ingresos
- ✅ Preservamos información valiosa categorizando clientes invitados
- ✅ Permitimos análisis comparativos (registrados vs invitados)
- ✅ Mantenemos la integridad del análisis financiero

**Aplicación práctica:**
Esta técnica es útil para dashboards de ventas donde necesitas segmentar por tipo de cliente.