# Tratamiento de Datos Atípicos y Faltantes en Análisis de Datos

## 1. Introducción

En la era del *big data*, la calidad de los datos se ha convertido en una de las cosas más importantes para construir modelos analíticos confiables. **Datos atípicos (outliers)** y **valores faltantes** representan dos de los desafíos más comunes que comprometen la integridad de los análisis, pudiendo distorsionar:
- Estimaciones estadísticas
- Patrones en modelos de machine learning
- Conclusiones en investigación científica

Estudios del [Instituto Nacional de Estándares y Tecnología (NIST)](https://www.nist.gov/) revelan que el **62% de los errores en modelos predictivos** se originan en problemas de calidad de datos no tratados. Además, regulaciones como el **GDPR (Artículo 5)** y estándares como **ISO 8000** exigen protocolos documentados para el manejo de datos incompletos o anómalos.

**Objetivos de esta investigación**:
1. Clasificar tipos de datos atípicos y faltantes
2. Evaluar métodos de detección y tratamiento
3. Proporcionar implementaciones prácticas en Python
4. Establecer recomendaciones basadas en evidencia

## 2. Marco Teórico

### 2.1 Datos Atípicos (Outliers)

**Definición**: Observaciones que se desvían significativamente del resto de la distribución (Hawkins, 1980).  
**Clasificación**:
- **Univariados**: Anomalías en una sola dimensión.  
- **Multivariados**: Combinaciones inusuales entre variables. 

**Algunas de las Causas**:
- Errores de medición (sensores defectuosos)
- Entradas legítimas pero extremas (transacciones fraudulentas)
- Errores de procesamiento (decimales mal ubicados)

**Métodos de Detección**:
| Método | Técnica | Ventajas |
|--------|---------|----------|
| Estadístico | Z-score, IQR | Rápido para datos unimodales |
| Visual | Boxplots, Gráficos de dispersión | Identificación intuitiva |
| Automático | Isolation Forest, DBSCAN | Efectivo en alta dimensión |

**Técnicas de Tratamiento**:
- **Eliminación**: Solo para errores comprobados, consiste en eliminar la observación. No es recomendable debido a la pérdida de información.
- **Transformación**: 
  - *Winsorizing*: Llevar valores extremos a percentiles, esto nos permite mantener la información de la observación y reducir el impacto de los valores extremos.
  ```python
  winsorize(data, limits=[0.05, 0.05])

### 2.2 Datos Faltantes

**Tipología (Rubin, 1976)**:
1. **MCAR** (Missing Completely at Random): Ausencia aleatoria.  
   \( P(M|X) = P(M) \)
2. **MAR** (Missing at Random): Depende de variables observadas.  
3. **MNAR** (Missing Not at Random): Depende de valores no observados.

**Patrones**:
- Monotónico (ej: encuestas abandonadas)
- Arbitrario (fallos aleatorios en sensores)

**Métodos de Manejo**:
| Estrategia | Uso Recomendado | Limitaciones |
|------------|-----------------|--------------|
| Eliminación | <5% datos faltantes | Pérdida de información |
| Imputación Media/Mediana | MCAR | Subestima varianza |
| MICE (Multiple Imputation) | MAR/MNAR | Computacionalmente costoso |
| Algoritmos Tolerantes (XGBoost) | Grandes datasets | No reconstruye valores |