![imagenes](logo.png)

# Z score

Otro método para identificar atípicos es el método **Z-score**, que se basa nuevamente en la media y la desviación.

La idea básica es que si $X$ es una gaussiana, entonces $Z=\frac{X-\mu}{\sigma}$ es una gaussiana con media 0 y desviación 1. 

De esta manera, se define el Z-score en cada dato como $z_i=\frac{x_i-\overline{x}}{s}$. Si aplicamos SD a la variable $Z$, como la media es 0 y la desviación es 1, el intervalo para atípicos de tipo 2 es $(-2,2)$ y el intervalo para atípicos 3 es $(-3,3)$.

Así, si el dato Z-score $z_i$ es detectado como atípico, entonces el dato $x_i=s\cdot z_i+\overline{x}$ es un dato atípico original (pues al ser $z_i=\frac{x_i-\overline{x}}{s}$, entonces $x_i=s\cdot z_i+\overline{x}$).

**Ejemplo.** Consideremos los datos 4, 3.7, 4.7, 3.2, 3.9, 14, 4, 4.8, 3.7, 3.4, 15, 4.1, 3.8, 4.2

Apliquemos Z-score: $\overline{x}=5.46$ y $s=3.86$, por lo cual los Z-scores quedan como en la siguiente tabla:
| Dato  | Z-score         |
|-------|----------------------|
| 4.0   | -0.3785              |
| 3.7   | -0.4554              |
| 4.7   | -0.1978              |
| 3.2   | -0.5824              |
| 3.9   | -0.4040              |
| 14.0  | 2.2143               |
| 4.0   | -0.3785              |
| 4.8   | -0.1723              |
| 3.7   | -0.4554              |
| 3.4   | -0.5313              |
| 15.0  | 2.4749               |
| 4.1   | -0.3529              |
| 3.8   | -0.4296              |
| 4.2   | -0.3273              |






Por lo tanto los atípicos tipo 2 son 14 y 15, y no hay atípicos tipo 3.

Sin embargo, si eliminamos el dato 15, que es más extremo, obtenemos $\overline{x}=4.73$ y $s=2.82$ de donde los Z-scores quedan como 

| Dato | Z-score |
|------|-------------|
| 4    | -0.2591     |
| 3.7  | -0.3657     |
| 4.7  | -0.0109     |
| 3.2  | -0.5432     |
| 3.9  | -0.2946     |
| 14   | 3.2841      |
| 4    | -0.2591     |
| 4.8  | 0.0246      |
| 3.7  | -0.3657     |
| 3.4  | -0.4720     |
| 4.1  | -0.2236     |
| 3.8  | -0.3301     |
| 4.2  | -0.1881     |


Y observamos que había un efecto de enmascaramiento, ya que el dato 14 en realidad es un atípico de tipo 3 sin la presencia del dato 15.

Veamos ahora las implementaciones.

```r
################################################################
########################      EN R       #######################
################################################################

datos = c(4, 3.7, 4.7, 3.2, 3.9, 14, 4, 4.8, 3.7, 3.4, 15, 4.1, 3.8, 4.2)
datos_sin = c(4, 3.7, 4.7, 3.2, 3.9, 14, 4, 4.8, 3.7, 3.4, 4.1, 3.8, 4.2)

####################### Datos con atípicos extremos

media_datos = mean(datos,na.rm=TRUE)
sd_datos = sd(datos,na.rm=TRUE)

####################### Z-scores

z_scores = (datos-media_datos)/sd_datos

###########  Atípicos 2D de datos con atípicos extremos

atip_2z = z_scores[(z_scores < -2) | (z_scores > 2)]
atip_2z*sd_datos + media_datos

###########  Atípicos 3D de datos con atípicos extremos

atip_3z = z_scores[(z_scores < -3) | (z_scores > 3)]
atip_3z*sd_datos + media_datos

#############################
#############################
#############################

####################### Datos sin atípicos extremos

media_datos_sin = mean(datos_sin,na.rm=TRUE)
sd_datos_sin = sd(datos_sin,na.rm=TRUE)

####################### Z-scores sin atípico

z_scores_sin = (datos_sin-media_datos_sin)/sd_datos_sin

###########  Atípicos 2D de datos sin atípicos extremos

atip_2z_sin = z_scores_sin[(z_scores_sin < -2) | (z_scores_sin > 2)]
atip_2z_sin*sd_datos_sin + media_datos_sin

###########  Atípicos 3D de datos sin atípicos extremos

atip_3z_sin = z_scores_sin[(z_scores_sin < -3) | (z_scores_sin > 3)]
atip_3z_sin*sd_datos_sin + media_datos_sin
```

```python
################################################################
########################    EN PYTHON   ########################
################################################################

import numpy as np
import pandas as pd
import scipy.stats as stats

alumnos = pd.read_csv("alumnos_scidata.csv")
edades = alumnos["Edad"]
edades = edades[~np.isnan(edades)]

media = np.mean(edades)
desv = np.std(edades, ddof=1)
mediana = np.median(edades)
MAD = stats.median_abs_deviation(edades)

###########  Atípicos 2 con SD

lim_2inf_SD = media - 2 * desv
lim_2sup_SD = media + 2 * desv

edades[(edades < lim_2inf_SD) | (edades > lim_2sup_SD)]

###########  Atípicos 3 con SD

lim_3inf_SD = media - 3 * desv
lim_3sup_SD = media + 3 * desv

edades[(edades < lim_3inf_SD) | (edades > lim_3sup_SD)]

###########  Atípicos 2 con MAD

lim_2inf_MADe = mediana - 2 * MAD
lim_2sup_MADe = mediana + 2 * MAD

edades[(edades < lim_2inf_MADe) | (edades > lim_2sup_MADe)]

###########  Atípicos 3 con MAD

lim_3inf_MADe = mediana - 3 * MAD
lim_3sup_MADe = mediana + 3 * MAD

edades[(edades < lim_3inf_MADe) | (edades > lim_3sup_MADe)]



#%%




################################################################
########################    IN PYTHON    #######################
################################################################

import numpy as np

datos = np.array([4, 3.7, 4.7, 3.2, 3.9, 14, 4, 4.8, 3.7, 3.4, 15, 4.1, 3.8, 4.2])
datos_sin = np.array([4, 3.7, 4.7, 3.2, 3.9, 14, 4, 4.8, 3.7, 3.4, 4.1, 3.8, 4.2])

####################### Datos con atípicos extremos

media_datos = np.mean(datos)
sd_datos = np.std(datos, ddof=1)

####################### Z-scores

z_scores = (datos - media_datos) / sd_datos

###########  Atípicos 2D de datos con atípicos extremos

atip_2z = z_scores[(z_scores < -2) | (z_scores > 2)]
atip_2z * sd_datos + media_datos

###########  Atípicos 3D de datos con atípicos extremos

atip_3z = z_scores[(z_scores < -3) | (z_scores > 3)]
atip_3z * sd_datos + media_datos

#############################
#############################
#############################

####################### Datos sin atípicos extremos

media_datos_sin = np.mean(datos_sin)
sd_datos_sin = np.std(datos_sin, ddof=1)

####################### Z-scores sin atípico

z_scores_sin = (datos_sin - media_datos_sin) / sd_datos_sin

###########  Atípicos 2D de datos sin atípicos extremos

atip_2z_sin = z_scores_sin[(z_scores_sin < -2) | (z_scores_sin > 2)]
atip_2z_sin * sd_datos_sin + media_datos_sin

###########  Atípicos 3D de datos sin atípicos extremos

atip_3z_sin = z_scores_sin[(z_scores_sin < -3) | (z_scores_sin > 3)]
atip_3z_sin * sd_datos_sin + media_datos_sin

##############################################################
##############################################################
```

Ahora bien, al tratarse de un método basado en el método SD, hereda todas las ventajas y desventajas.