# Tratamiento de Datos Atípicos y Faltantes en Análisis de Datos

## 1. Introducción

En la era del *big data*, la calidad de los datos se ha convertido en una de las cosas más importantes para construir modelos analíticos confiables. **Datos atípicos (outliers)** y **valores faltantes** representan dos de los desafíos más comunes que comprometen la integridad de los análisis, pudiendo distorsionar:
- Estimaciones estadísticas
- Patrones en modelos de machine learning
- Conclusiones en investigación científica

Estudios del [Instituto Nacional de Estándares y Tecnología (NIST)](https://www.nist.gov/) revelan que el **62% de los errores en modelos predictivos** se originan en problemas de calidad de datos no tratados. Además, regulaciones como el **GDPR (Artículo 5)** y estándares como **ISO 8000** exigen protocolos documentados para el manejo de datos incompletos o anómalos.

**Objetivos de esta investigación**:
1. Clasificar tipos de datos atípicos y faltantes
2. Evaluar métodos de detección y tratamiento
3. Proporcionar implementaciones prácticas en Python
4. Establecer recomendaciones basadas en evidencia

## 2. Marco Teórico

### 2.1 Datos Atípicos (Outliers)

**Definición**: Observaciones que se desvían significativamente del resto de la distribución (Hawkins, 1980).  
**Clasificación**:
- **Univariados**: Anomalías en una sola dimensión. Es decir, valores extremos en una variable.
- **Multivariados**: Combinaciones inusuales entre variables. Por ejemplo, un alto ingreso con baja edad.

**Algunas de las Causas**:
- Errores de medición (sensores defectuosos)
- Entradas legítimas pero extremas (transacciones fraudulentas)
- Errores de procesamiento (decimales mal ubicados)

**Métodos de Detección**:
| Método         | Técnica                          | Ventajas                                                                 | Desventajas                                                                 | Casos de Uso Recomendados                                                                 |
|----------------|----------------------------------|--------------------------------------------------------------------------|-----------------------------------------------------------------------------|------------------------------------------------------------------------------------------|
| **Estadístico**| Z-score                         | - Fácil de implementar<br>- Rápido para datos unimodales                 | - Asume distribución normal<br>- No funciona bien con datos multimodales    | Datos con distribución cercana a la normal (ej: alturas, pesos)                          |
|                | IQR (Rango Intercuartílico)     | - Robustez a outliers<br>- No depende de la distribución                 | - Solo detecta outliers univariados<br>- Menos sensible en datos dispersos  | Datos con colas pesadas o asimetría (ej: ingresos, tiempos de espera)                    |
| **Visual**     | Boxplots                       | - Identificación intuitiva<br>- Útil para comparar distribuciones        | - Limitado a una o dos variables<br>- Subjetivo en la interpretación        | Análisis exploratorio inicial (ej: comparar distribuciones entre grupos)                 |
|                | Gráficos de dispersión (Scatter)| - Detecta outliers multivariados<br>- Visualiza relaciones entre variables| - Difícil de interpretar con muchas variables<br>- Requiere datos limpios   | Detección de relaciones no lineales o agrupaciones (ej: análisis de clusters)            |
| **Automático** | Isolation Forest               | - Efectivo en alta dimensión<br>- No requiere suposiciones de distribución| - Computacionalmente costoso<br>- Sensible a la elección de hiperparámetros | Detección de outliers en datasets grandes y complejos (ej: fraudes, fallos de equipos)   |
|                | DBSCAN                         | - Detecta outliers y clusters<br>- Robustez a la forma de los clusters   | - Sensible a la elección de parámetros (eps, min_samples)<br>- Lento en grandes datasets | Datos con agrupaciones naturales (ej: segmentación de clientes, detección de anomalías)  |
| **Híbrido**    | LOF (Local Outlier Factor)      | - Detecta outliers locales<br>- Útil en datos con densidad variable      | - Computacionalmente intensivo<br>- Difícil de interpretar en alta dimensión| Datos con patrones de densidad irregular (ej: detección de intrusos en redes)            |
|                | One-Class SVM                  | - Efectivo para datos no lineales<br>- Útil cuando solo se tienen datos "normales" | - Requiere ajuste de hiperparámetros<br>- Lento en grandes datasets         | Detección de anomalías en sistemas de monitoreo (ej: fallos en máquinas, fraudes)        |

**Técnicas de Tratamiento**:
- **Eliminación**:
Solo para errores comprobados, consiste en eliminar la observación. No es recomendable debido a la pérdida de información.
Ejemplo: Eliminar valores negativos en una variable de edad.

- **Transformación**:
Aplicar funciones matemáticas (log, raíz cuadrada, etc.) para reducir el impacto de los outliers sin eliminarlos. Útil para datos con colas pesadas o asimetría.
Ejemplo: Aplicar logaritmo a una variable de ingresos para reducir el efecto de valores extremos.

- **Discretización**:
Convertir valores continuos en intervalos o categorías. Reduce el efecto de outliers, pero puede causar pérdida de precisión.
Ejemplo: Agrupar edades en rangos como "18-25", "26-35", etc.

- **Winsorizing**:
Reemplazar los valores extremos con los percentiles especificados (ej: 5% y 95%). Conserva la forma de la distribución sin eliminar datos.
Ejemplo: Limitar los valores de una variable de precios al percentil 95%.

- **Modelos Robustos**:
Usar algoritmos menos sensibles a outliers, como Regresión Huber o Random Forests. No requiere modificar los datos, pero puede ser más costoso computacionalmente.
Ejemplo: Usar Random Forests para predecir valores en un dataset con muchos outliers.

### 2.2 Datos Faltantes

Los datos faltantes son un problema común en conjuntos de datos reales y pueden afectar significativamente los resultados de los análisis. Según Rubin (1976), los datos faltantes se clasifican en tres categorías principales:

1. **MCAR** (Missing Completely at Random): La probabilidad de que un valor falte es independiente de los datos observados y no observados.
Ejemplo: Un sensor que falla aleatoriamente sin relación con las condiciones del entorno.
2. **MAR** (Missing at Random): La probabilidad de que un valor falte depende de los datos observados.
Ejemplo: En una encuesta de ingresos, es más probable que las personas con ingresos altos no respondan, pero esto depende de otras variables observadas (como la edad o el nivel educativo).  
3. **MNAR** (Missing Not at Random): La probabilidad de que un valor falte depende de los datos no observados.  
Ejemplo: En un estudio médico, los pacientes con síntomas graves pueden ser menos propensos a reportar su condición.

**Patrones**:
- Monotónico: Los datos faltantes siguen un patrón secuencial (ej: una encuesta abandonada después de cierta pregunta)
- Arbitrario: Los datos faltantes no siguen un patrón claro (ej: fallos aleatorios en sensores).
- Bloque: Un conjunto completo de variables falta para ciertas observaciones (ej: falta de registros en un período específico).

#### Métodos de Manejo de Datos Faltantes
##### 1. Eliminación
- **Listwise Deletion**: Eliminar todas las observaciones con valores faltantes.  
  **Ventaja**: Simple de implementar.  
  **Desventaja**: Pérdida significativa de información si hay muchos datos faltantes.
- **Pairwise Deletion**: Usar solo los datos disponibles para cada cálculo.  
  **Ventaja**: Maximiza el uso de los datos.  
  **Desventaja**: Puede introducir sesgos en los análisis.

##### 2. Imputación Simple
- **Media/Mediana/Moda**: Reemplazar los valores faltantes con la media, mediana o moda de la variable.  
  **Ventaja**: Fácil de implementar.  
  **Desventaja**: Subestima la varianza y distorsiona la distribución.
- **Valor Constante**: Reemplazar con un valor fijo (ej: 0 o "Desconocido").  
  **Ventaja**: Útil para variables categóricas.  
  **Desventaja**: Puede introducir sesgos.

##### 3. Imputación Avanzada
- **MICE (Multiple Imputation by Chained Equations)**:  
  Un método iterativo que usa regresiones para imputar valores faltantes.  
  **Ventaja**: Captura la incertidumbre de la imputación.  
  **Desventaja**: Computacionalmente costoso.
  ```python
  from sklearn.experimental import enable_iterative_imputer
  from sklearn.impute import IterativeImputer
  imputer = IterativeImputer(max_iter=10, random_state=0)
  data_imputed = imputer.fit_transform(data)