# **Ejemplo 2_4:** Determinación de observaciones influyentes: método de jackknife

---



**PROBLEMA**: Queremos averiguar si existe algún dato  influyente para los procedimientos estadísticos de calcular la **media** y la **mediana**.
> Vamos a generar una muestra simulando los ingresos de un vecindario. Supongamos que hay un vecino con unos ingresos signficativamente altos.



In [1]:
# LIBRERÍAS EMPLEADAS EN EL EJEMPLO
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd

# Generación de datos
# ==============================================================================
# Generamos ingresos uniformemente distribuidos en [15000,25000]
datos = 15000+np.random.rand(100)*10000
datos_ord = datos
datos_ord.sort()
datos

array([15088.16866976, 15418.19840141, 15734.54993286, 15863.1891019 ,
       15900.99199346, 15976.19091218, 16065.28740846, 16076.0803968 ,
       16080.396604  , 16093.87394362, 16230.99569423, 16356.30883638,
       16391.05471534, 16399.53666727, 16429.76520489, 16430.22605648,
       16472.23814912, 16506.25601234, 16608.00857256, 16680.78643896,
       17136.82562646, 17257.38914481, 17449.33587048, 17473.22462941,
       17787.49153553, 17796.59857265, 17863.99189135, 17866.57170504,
       17930.00086218, 18029.23605381, 18151.20251057, 18178.66144402,
       18247.28942281, 18349.6148917 , 18359.73400586, 18368.76631486,
       18399.20440442, 18447.24845996, 18491.64362995, 18542.39963897,
       18629.93657956, 18659.447816  , 18707.35776162, 18782.06963533,
       19120.55590623, 19300.44547943, 19390.06586292, 19490.66140063,
       19576.41846511, 19592.23525297, 19641.68815427, 19703.09323869,
       20131.79000655, 20144.40869092, 20259.97884259, 20363.92036153,
      

**Ejercicio**: Calcular la media y la mediana antes de realizar la modificación de incluir unos ingresos de 500.000€

In [2]:
media=  np.mean(datos)
mediana=  np.median (datos) # Es el valor central cuando los datos se ordenan
print(f" Media= {media} y Mediana={mediana}")

 Media= 20096.069596407473 y Mediana=19616.96170362


In [3]:
# El vecino 50 tiene unos ingresos significativamente mayores que el resto
datos[50]=500000
datos

array([ 15088.16866976,  15418.19840141,  15734.54993286,  15863.1891019 ,
        15900.99199346,  15976.19091218,  16065.28740846,  16076.0803968 ,
        16080.396604  ,  16093.87394362,  16230.99569423,  16356.30883638,
        16391.05471534,  16399.53666727,  16429.76520489,  16430.22605648,
        16472.23814912,  16506.25601234,  16608.00857256,  16680.78643896,
        17136.82562646,  17257.38914481,  17449.33587048,  17473.22462941,
        17787.49153553,  17796.59857265,  17863.99189135,  17866.57170504,
        17930.00086218,  18029.23605381,  18151.20251057,  18178.66144402,
        18247.28942281,  18349.6148917 ,  18359.73400586,  18368.76631486,
        18399.20440442,  18447.24845996,  18491.64362995,  18542.39963897,
        18629.93657956,  18659.447816  ,  18707.35776162,  18782.06963533,
        19120.55590623,  19300.44547943,  19390.06586292,  19490.66140063,
        19576.41846511,  19592.23525297, 500000.        ,  19703.09323869,
        20131.79000655,  

Cálculo de media y mediana en toda la muestra

In [4]:
media=  np.mean(datos)
mediana=  np.median (datos) # Es el valor central cuando los datos se ordenan
print(f" Media= {media} y Mediana={mediana}")

 Media= 24899.652714864784 y Mediana=19647.664245831245


Notar que los ingresos del barrio son aprox. 20000 euros. El hecho que se haya trasladado un vecino rico ha incrementando aprox. en 5000 euros la media. La mediana es insensible a este hecho. Se trata de identificar que datos son influyentess para los dos procedimientos estadísticos

Ejercicio: Aplicar el método de describe para ver un resumen estadístico de los datos.

In [5]:
pd.DataFrame(datos).describe()

Unnamed: 0,0
count,100.0
mean,24899.652715
std,48081.947522
min,15088.16867
25%,17794.321813
50%,19647.664246
75%,23039.787249
max,500000.0


**Ejercicio**: Aplicar el método de Probabilidad global, para detectar los outliers utilizado en el ejemplo 2_3_Outliers

In [6]:
# CRITERIO 1: PROBABILIDAD GLOBAL - Explicado en el capítulo 5 - Preprocesamiento (Semana 2), en la pág 10
# Asumiendo que las variables tiene una distribución normal.
# Probabilidad de la muestra de estar dentro de las bandas
p_g=0.95
# probabilidad global 
alfa_g=(1-p_g)/2
# probabilidad  para un solo dato 
alfa= 1-(1-alfa_g)**(1/len(datos)) # Se realiza este ajuste para ser más precisos.

In [7]:
import scipy.stats as st
## CRITERIO 2:  Criterio Chauvenet
# alfa=1/(2*len(datos))
Z_alfa=st.norm.ppf(1-alfa/2)
# Impresión de resultados
alfa=round(alfa,5)
Z_alfa=round(Z_alfa,5)
print(f" Alfa ={alfa}")
print(f" Z_alfa ={Z_alfa}")

 Alfa =0.00025
 Z_alfa =3.65906


Cálculo de bandas

Truco: Si los datos tiene una distribución normal calcula estas bandas con la fórmula/técnica propuesta en las siguientes celdas

In [8]:
xL=  round(np.mean(datos)-Z_alfa*  np.std(datos),4)
xU=  round(np.mean(datos)+Z_alfa*  np.std(datos),4)
print(f" Banda= [ {xL},{xU}]")

 Banda= [ -150153.1943,199952.4997]


In [9]:
for i in  range(len(datos)):
        if datos[i] < xL  or datos[i]>xU:
          print(f" El dato[{i}]={datos[i]} es un outlier")

 El dato[50]=500000.0 es un outlier


Otra forma de detactar los outliers

**Método :**  Detectemos los outlier de phi mediante el método Jackknife y a continuación aplicamos el método de la distancia entre Quartiles

In [10]:
phi=np.zeros(len(datos)) # phi es un array de la misma longitud que datos pero con el valor cero en cada una de sus posiciones
# En el bucle lo que se realiza es el método Jackknife, es decir, prepara los datos para realizar un análisis estadístico sin el dato i.
# Para ello, calcula la media de todos los elementos excluyendo el elemento de la posición i que está procesando en el bucle.   
# De forma que obtiene un índice de calidad del modelo para cada uno de los elementos.
for i in  range(len(datos)):
  datos_aux=datos
  datos_sin_i=np.delete(datos_aux, i)
  phi[i]=np.mean(datos_sin_i)   
phi      

array([24998.75861431, 24995.42498066, 24992.22951064, 24990.9301251 ,
       24990.54827771, 24989.78869267, 24988.88872806, 24988.77970798,
       24988.73610992, 24988.59997518, 24987.21490699, 24985.94911768,
       24985.5981492 , 24985.51247292, 24985.20713416, 24985.20247909,
       24984.77811452, 24984.43449974, 24983.4066961 , 24982.67156614,
       24978.0651097 , 24976.84729638, 24974.90844057, 24974.66713997,
       24971.49272678, 24971.4007365 , 24970.71999591, 24970.69393719,
       24970.05323863, 24969.05086296, 24967.81887854, 24967.54151558,
       24966.84830367, 24965.81471308, 24965.7124998 , 24965.62126436,
       24965.31380891, 24964.82851542, 24964.38007936, 24963.8673924 ,
       24962.98318088, 24962.68508758, 24962.20114874, 24961.44648334,
       24958.0274301 , 24956.21036371, 24955.30510731, 24954.28899077,
       24953.42275779, 24953.26299226, 20100.65930794, 24952.14321462,
       24947.81294424, 24947.68548278, 24946.51810751, 24945.46819318,
      

In [11]:
# Aplicamos el método de la distancia entre cuartiles, en este caso, al aplicar el método Jackknife no obtenemos 
# el valor del elemento que es considerado Outlier, sino la posición del mismo.
Q1 = np.quantile(phi,0.25)
Q3 = np.quantile(phi,0.75)
IQR = Q3 - Q1
xL=Q1 - 1.5 * IQR
xU=Q3 + 1.5 * IQR
for i in  range(len(datos)):
        if phi[i] < xL  or phi[i]>xU:
          print(f" El dato {i} es una observación influyente para la media")

 El dato 50 es una observación influyente para la media


In [12]:
pd.DataFrame(phi).describe()

Unnamed: 0,0
count,100.0
mean,24899.652715
std,485.676238
min,20100.659308
25%,24918.439235
50%,24952.703103
75%,24971.423734
max,24998.758614


**Ejercicio**: Repetir el mismo procedimiento de detectar los outliers para la mediana: ¿Qué ocurre?

In [13]:
xL=  round(np.median(datos)-Z_alfa*  np.std(datos),4)
xU=  round(np.median(datos)+Z_alfa*  np.std(datos),4)
print(f" Banda= [ {xL},{xU}]")

 Banda= [ -155405.1828,194700.5112]


In [14]:
for i in  range(len(datos)):
        if datos[i] < xL  or datos[i]>xU:
          print(f" El dato[{i}]={datos[i]} es un outlier")

 El dato[50]=500000.0 es un outlier


En la mayoría de los casos, los outliers tienen influencia en la media , pero no en la mediana , o la moda . Por lo tanto, los outliers son importantes en su efecto en la media.
La mediana es insensible a este hecho.