# Eliminacion de Outliers

- Formula
`abs(X - mean(X)) >= n * std(X)`

- Donde `n` puede ser 2 o 3
- Y `X` es la matris

In [4]:
import numpy as np

x = np.array([1,2,5,10,15,8,9,7,5,10000])

x.mean()  # 1066.2
np.median(x)  # 8.5

print(x.mean())
print(np.median(x))
print(np.std(x))  # 3145.5751289533537

1006.2
7.5
2997.9357831681446


## 1- Elaborar un reporte en un Notebook con al menos 2 conjuntos de datos

## Tarea: Investigar la técnica de la Desviación Absoluta de la Mediana (MAD) y realizar un reporte en una libreta Jupyter Notebook.
> Fecha: siguiente clase.

## Desviación Absoluta de la Mediana (MAD)

[Qué es: Desviación absoluta mediana-APRENDA ESTADÍSTICAS FÁCILMENTE](https://es.statisticseasily.com/glosario/%C2%BFCu%C3%A1l-es-la-desviaci%C3%B3n-absoluta-mediana%3F/)
### Definición y fórmula

La Desviación Absoluta de la Mediana (MAD) mide la dispersión de los datos como la mediana de las distancias absolutas de cada valor respecto a la mediana del conjunto ￼. Matemáticamente se define como: \\

 $\mathrm{MAD} = \mathrm{median}(|X_i - \tilde{X}|)$

Donde $X_i$ son los datos y $\tilde{X}$ es la mediana de los datos.

### Propiedades y robustez

La MAD es un estadístico de dispersión robusto: al usar la mediana en lugar de la media, las desviaciones de unos pocos valores atípicos quedan en gran medida irrelevantes ￼. Esto la hace mucho menos sensible a valores extremos que la desviación estándar habitual. De hecho, muchos métodos de detección de atípicos prefieren la MAD por esta razón de robustez ￼.

### Aplicaciones prácticas
- Finanzas: Se usa para medir la volatilidad de precios de activos, ofreciendo una medida de riesgo más resistente a outliers ￼.
- Salud: Sirve para analizar datos de pacientes y detectar variaciones atípicas en resultados clínicos ￼.
- Medioambiental: Se emplea para evaluar fluctuaciones en datos climáticos (por ejemplo, temperatura) de forma más robusta ￼.
- Machine Learning: En aprendizaje automático se aplica en preprocesamiento de datos y detección de anomalías, identificando puntos de datos que se desvían de la mediana ￼.

### Detección de valores atípicos con MAD
[What is a Modified Z-Score? (Definition & Example)](https://www.statology.org/modified-z-score/)

Gracias a su robustez, la MAD es útil para detectar valores atípicos. Una regla común es considerar atípico cualquier dato cuya desviación absoluta respecto a la mediana exceda cierto múltiplo de la MAD. 

Z-scores a menudo se usan para detectar valores atípicos en un conjunto de datos. Por ejemplo, las observaciones con un puntaje Z inferior a -3 o más de 3 a menudo se consideran atípicos.

Sin embargo, los Z-scores pueden verse afectados por valores de datos inusualmente grandes o pequeños, por lo que una forma más robusta de detectar valores atípicos es usar una puntuación Z modificada, que se calcula como:

$Z_i = 0.6745,(x_i - \tilde{X})/\mathrm{MAD}$ 

Un Z-score modificado es más robusto porque usa la mediana para calcular las puntuaciones Z en comparación con la media, que se sabe que está influenciada por los valores atípicos.

 Siguiendo a Iglewicz y Hoaglin, se suele marcar como outlier cualquier punto con $|Z_i|>3.5$ ￼.

### Ejemplo en Python

La siguiente celda de código muestra cómo detectar un valor atípico en un arreglo unidimensional usando la MAD:

In [None]:
import numpy as np

# Datos de ejemplo con un valor atípico evidente
datos = np.array([10, 12, 11, 13, 12, 14, 11, 100])
mediana = np.median(datos)
mad = np.median(np.abs(datos - mediana))
print("Mediana:", mediana)
print("MAD:", mad)

# Cálculo de las puntuaciones z modificadas
z_mod = 0.6745 * (datos - mediana) / mad

# Identificar valores atípicos (|Z| > 3.5)
outliers = datos[np.abs(z_mod) > 3.5]
print("Valores atípicos detectados:", outliers)

Mediana: 12.0
MAD: 1.0
Valores atípicos detectados: [100]


## Ejemplo con Pandas, tres variables y 10 registros

A continuación, se muestra cómo aplicar la técnica MAD para detectar valores atípicos en un DataFrame de Pandas con tres variables y diez registros. Se calculará la mediana y la MAD por columna y se marcarán los valores atípicos.

In [None]:
import pandas as pd
import numpy as np

# Crear DataFrame con 3 variables y 10 registros (incluyendo algunos outliers)
np.random.seed(42)
# np.random.normal(mean, std, n) genera n valores aleatorios siguiendo una distribución normal
# con media 'mean' y desviación estándar 'std'. Esto simula datos "normales" para cada variable.
# Luego, se agrega manualmente un valor extremo (outlier) al final de cada variable.
data = {
    "Var1": np.append(np.random.normal(50, 5, 9), 100),   # outlier en la última posición
    "Var2": np.append(np.random.normal(30, 3, 9), 5),     # outlier bajo
    "Var3": np.append(np.random.normal(10, 2, 9), 25)     # outlier alto
}
df = pd.DataFrame(data)
print("Datos:\n", df)

# Función para detectar outliers usando MAD
def detectar_outliers_mad(serie, umbral=3.5):
    mediana = np.median(serie)
    mad = np.median(np.abs(serie - mediana))
    z_mod = 0.6745 * (serie - mediana) / mad
    return np.abs(z_mod) > umbral

# Detectar outliers en cada columna
# apply aplica la función a cada columna del DataFrame y como resultado devuelve un DataFrame de booleanos (True si es outlier, False si no lo es)
outliers = df.apply(detectar_outliers_mad) 
print("\nMatriz de outliers (True indica un valor atípico):\n", outliers)

# Mostrar solo los registros que tienen al menos un valor atípico
# outliers.any(axis=1) devuelve True si hay al menos un True en la fila, 
# porque .any() lo que hace es devolver True si al menos un valor es True bajo la condición dada. Y esa es axis=1, que es por filas.
outliers_filas = df[outliers.any(axis=1)] 
print("\nRegistros con al menos un valor atípico:\n", outliers_filas)

Datos:
          Var1       Var2       Var3
0   52.483571  31.627680   8.183952
1   49.308678  28.609747   7.175393
2   53.238443  28.602811  12.931298
3   57.615149  30.725887   9.548447
4   48.829233  24.260159  10.135056
5   48.829315  24.825247   7.150504
6   57.896064  28.313137   8.911235
7   53.837174  26.961507  10.221845
8   47.652628  30.942742   7.698013
9  100.000000   5.000000  25.000000

Matriz de outliers (True indica un valor atípico):
     Var1   Var2   Var3
0  False  False  False
1  False  False  False
2  False  False  False
3  False  False  False
4  False  False  False
5  False  False  False
6  False  False  False
7  False  False  False
8  False  False  False
9   True   True   True

Registros con al menos un valor atípico:
     Var1  Var2  Var3
9  100.0   5.0  25.0


In [None]:
# Para eliminar los outliers, podemos filtrar el DataFrame
df_sin_outliers = df[~outliers.any(axis=1)] # ~ para negar la condición
print("\nDatos sin outliers:\n", df_sin_outliers)


Datos sin outliers:
         Var1       Var2       Var3
0  52.483571  31.627680   8.183952
1  49.308678  28.609747   7.175393
2  53.238443  28.602811  12.931298
3  57.615149  30.725887   9.548447
4  48.829233  24.260159  10.135056
5  48.829315  24.825247   7.150504
6  57.896064  28.313137   8.911235
7  53.837174  26.961507  10.221845
8  47.652628  30.942742   7.698013
