# **Ejemplo 2_4:** Determinación de observaciones influyentes: método de jackknife

---



**PROBLEMA**: Queremos averiguar si existe algún dato  influyente para los procedimientos estadísticos de calcular la **media** y la **mediana**.
> Vamos a generar una muestra simulando los ingresos de un vecindario. Supongamos que hay un vecino con unos ingresos signficativamente altos.



In [None]:
# LIBRERÍAS EMPLEADAS EN EL EJEMPLO
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd

# Generación de datos
# ==============================================================================
# Generamos ingresos uniformemente distribuidos en [15000,25000]
datos = 15000+np.random.rand(100)*10000
datos

array([24223.53771792, 21198.22840871, 15316.48195819, 16951.00740214,
       23262.38876462, 16228.28062912, 17635.57229303, 15305.37256821,
       23768.36316589, 18191.414167  , 21602.42401282, 21818.93070948,
       17443.72053855, 22102.73689142, 18979.27889488, 20908.61004023,
       20845.77692753, 22238.51710694, 20524.37506237, 24318.10159437,
       17757.29040649, 21509.56238363, 23340.52574867, 21376.78094909,
       22483.18899739, 21139.49166072, 22529.16400521, 23735.87441371,
       22543.78594514, 23238.32896817, 22559.00249689, 18193.60716462,
       22428.87598583, 18857.30543015, 18154.90595471, 23901.30491057,
       23825.68944833, 23032.60289835, 23582.98855558, 23398.97266587,
       20671.1644055 , 23389.40423987, 17645.55796518, 15027.55897981,
       20021.65304723, 15312.89357337, 21718.59208201, 17790.5403293 ,
       21214.8107567 , 19520.85047718, 16997.65091999, 23227.36287876,
       24885.71498652, 22252.15509304, 16742.66286218, 15735.55276788,
      

## Actividad 2.1 - Análisis de observaciones influyentes

**1.** Apartir del código de ejemplo utilizado en el notebook: 

**Ejemplo_2_4_Observaciones_influyentes_Sin soluciones.ipynb**

Responder a las siguientes preguntas:

a. **(1 Punto)** Calcular la media y la mediana antes de realizar la modificación de 
incluir unos ingresos de 500.000€

b. **(2 Puntos)** Aplicar el método de Probabilidad global, para detectar los outliers 
utilizado en el ejemplo 2_3_Outliers

c. **(1 Punto)** Repetir el mismo procedimiento de detectar los outliers para la 
mediana: ¿Qué ocurre?

In [None]:
# a. (1 Punto) Calcular la media y la mediana antes de realizar la modificación 
# de incluir unos ingresos de 500.000€

media =  np.mean(datos)
datos_or = np.sort(datos)
mediana =  np.median (datos_or) # Es el valor central cuando los datos se ordenan
print(f" Media = {media} y Mediana = {mediana}")

 Media = 20133.022626620303 y Mediana = 20597.769733933146


**Ejercicio**: Calcular la media y la mediana antes de realizar la modificación de incluir unos ingresos de 500.000€

In [None]:
# El vecino 50 tiene unos ingresos significativamente mayores que el resto
datos[50]=500000
datos

array([ 24223.53771792,  21198.22840871,  15316.48195819,  16951.00740214,
        23262.38876462,  16228.28062912,  17635.57229303,  15305.37256821,
        23768.36316589,  18191.414167  ,  21602.42401282,  21818.93070948,
        17443.72053855,  22102.73689142,  18979.27889488,  20908.61004023,
        20845.77692753,  22238.51710694,  20524.37506237,  24318.10159437,
        17757.29040649,  21509.56238363,  23340.52574867,  21376.78094909,
        22483.18899739,  21139.49166072,  22529.16400521,  23735.87441371,
        22543.78594514,  23238.32896817,  22559.00249689,  18193.60716462,
        22428.87598583,  18857.30543015,  18154.90595471,  23901.30491057,
        23825.68944833,  23032.60289835,  23582.98855558,  23398.97266587,
        20671.1644055 ,  23389.40423987,  17645.55796518,  15027.55897981,
        20021.65304723,  15312.89357337,  21718.59208201,  17790.5403293 ,
        21214.8107567 ,  19520.85047718, 500000.        ,  23227.36287876,
        24885.71498652,  

Cálculo de media y mediana en toda la muestra

In [None]:
media = np.mean(datos)
datos_or = np.sort(datos)
mediana = np.median (datos_or) # Es el valor central cuando los datos se ordenan
print(f" Media = {media} y Mediana = {mediana}")

 Media = 24963.04611742036 y Mediana = 20732.620848266335


Notar que los ingresos del barrio son 20000 euros. El hecho que se haya trasladado un vecino rico ha incrementando en casi 5000 euros la media. La mediana es insensible a este hecho. Se trata de identificar que datos son influyentess para los dos procedimientos estadísticos

**Ejercicio**: Aplicar el método de Probabilidad global, para detectar los outliers utilizado en el ejemplo 2_3_Outliers

In [None]:
# b. (2 Puntos) Aplicar el método de Probabilidad global, para detectar los 
# outliers utilizado en el ejemplo 2_3_Outliers

import scipy.stats as st

p_g = 0.95
alfa_g = (1-p_g)/2
alfa = 1-(1-alfa_g)**(1/len(datos)) 
Z_alfa = st.norm.ppf(1-alfa/2)
alfa = round(alfa,5)
Z_alfa = round(Z_alfa,5)
print(f" Alfa = {alfa}")
print(f" CUANTIL Z_(1-alfa/2) = {Z_alfa}")

xL = round(np.mean(datos)-Z_alfa*  np.std(datos),4)
xU = round(np.mean(datos)+Z_alfa*  np.std(datos),4)
print(f" Banda= [ {xL},{xU}]")

for i in  range(len(datos)):
        if datos[i] < xL  or datos[i]>xU:
          print(f" El dato[{i}]={datos[i]} es un outlier")

 Alfa = 0.00025
 CUANTIL Z_(1-alfa/2) = 3.65906
 Banda= [ -150045.0674,199971.1596]
 El dato[50]=500000.0 es un outlier


Otra forma de detactar los outliers

**Método :**  Detectemos los outlier de phi medinate el método Jackknife y a continuación aplicamos el método de la distancia entre Quartiles

In [None]:
phi=np.zeros(len(datos)) # phi es un array de la misma longitud que datos pero con el valor cero en cada una de sus posiciones
# En el bucle lo que se realiza es el método Jackknife, es decir, prepara los datos para realizar un análisis estadístico sin el dato i.
# Para ello, calcula la media de todos los elementos excluyendo el elemento de la posición i que está procesando en el bucle.   
# De forma que obtiene un índice de calidad del modelo para cada uno de los elementos
for i in  range(len(datos)):
  datos_aux=datos
  datos_sin_i=np.delete(datos_aux, i)
  phi[i]=np.mean(datos_sin_i)   
phi      

array([24614.39618376, 24595.94632272, 24620.98645133, 24607.68290695,
       24571.9036604 , 24656.9093152 , 24594.73416784, 24559.56681027,
       24592.83517294, 24634.64580949, 24642.33183517, 24573.83969506,
       24577.55683722, 24632.86183144, 24562.15293116, 24577.06418309,
       24619.67114149, 24584.94580713, 24616.81111048, 24623.95833741,
       24568.82529019, 24565.3156203 , 24598.4775626 , 24611.02653551,
       24640.05924059, 24633.01063354, 24627.45139292, 24655.99302814,
       24610.46758792, 24648.28472999, 24590.45839336, 24616.95370034,
       24571.55178782, 24591.26238693, 24653.5952306 , 24635.3807152 ,
       24636.73687897, 24568.48273084, 24629.99098196, 24627.0852763 ,
       24623.42563439, 24656.52000401, 24558.45593189, 24603.56369927,
       24638.57689742, 24590.41721102, 24609.62975816, 24654.12529081,
       24614.51942467, 24642.23085567, 19759.10073507, 24630.90111062,
       24594.17283634, 24642.68591034, 24616.44006111, 24612.56687759,
      

In [None]:
# Aplicamos el método de la distancia entre cuartiles, en este caso, al aplicar el método Jackknife no obtenemos el valor del elemento que es considerado Outlier, sino la posición del mismo.
Q1 = np.quantile(phi,0.25)
Q3 = np.quantile(phi,0.75)
IQR = Q3 - Q1
xL=Q1 - 1.5 * IQR
xU=Q3 + 1.5 * IQR
for i in  range(len(datos)):
        if phi[i] < xL  or phi[i]>xU:
          print(f" El dato {i} es una observación influyente para la media")

 El dato 50 es una observación influyente para la media


**Ejercicio**: Repetir el mismo procedimiento de detectar los outliers para la mediana: ¿Qué ocurre?

## Método Jackknife

In [None]:
# c. (1 Punto) Repetir el mismo procedimiento de detectar los outliers 
# para la mediana: ¿Qué ocurre?

phi = np.zeros(len(datos))
for i in  range(len(datos)):
  datos_aux = datos
  datos_sin_i = np.delete(datos_aux, i)
  phi[i] = np.median(datos_sin_i) # Mediana
phi

Q1 = np.quantile(phi,0.25)
Q3 = np.quantile(phi,0.75)
IQR = Q3 - Q1
xL = Q1 - 1.5 * IQR
xU = Q3 + 1.5 * IQR

for i in  range(len(datos)):
        if phi[i] < xL  or phi[i] > xU:
          print(f" El dato {i} es una observación influyente para la mediana")

In [None]:
print(phi)
print("---")
phi_o = np.sort(phi)
print(phi_o)

[20671.1644055  20671.1644055  20794.07729104 20794.07729104
 20671.1644055  20794.07729104 20794.07729104 20794.07729104
 20671.1644055  20794.07729104 20671.1644055  20671.1644055
 20794.07729104 20671.1644055  20794.07729104 20671.1644055
 20671.1644055  20671.1644055  20794.07729104 20671.1644055
 20794.07729104 20671.1644055  20671.1644055  20671.1644055
 20671.1644055  20671.1644055  20671.1644055  20671.1644055
 20671.1644055  20671.1644055  20671.1644055  20794.07729104
 20671.1644055  20794.07729104 20794.07729104 20671.1644055
 20671.1644055  20671.1644055  20671.1644055  20671.1644055
 20794.07729104 20671.1644055  20794.07729104 20794.07729104
 20794.07729104 20794.07729104 20671.1644055  20794.07729104
 20671.1644055  20794.07729104 20671.1644055  20671.1644055
 20671.1644055  20671.1644055  20794.07729104 20794.07729104
 20794.07729104 20671.1644055  20794.07729104 20671.1644055
 20794.07729104 20794.07729104 20794.07729104 20794.07729104
 20794.07729104 20671.1644055  20

## Probabilidad Global

In [None]:
import scipy.stats as st

p_g = 0.95
alfa_g = (1-p_g)/2
alfa = 1-(1-alfa_g)**(1/len(datos)) 
Z_alfa = st.norm.ppf(1-alfa/2)
alfa = round(alfa,5)
Z_alfa = round(Z_alfa,5)
print(f" Alfa = {alfa}")
print(f" CUANTIL Z_(1-alfa/2) = {Z_alfa}")

xL = round(np.median(datos)-Z_alfa*  np.std(datos),4) # Mediana
xU = round(np.median(datos)+Z_alfa*  np.std(datos),4) # Mediana
print(f" Banda= [ {xL},{xU}]")

for i in  range(len(datos)):
        if datos[i] < xL  or datos[i]>xU:
          print(f" El dato[{i}]={datos[i]} es un outlier")

 Alfa = 0.00025
 CUANTIL Z_(1-alfa/2) = 3.65906
 Banda= [ -155792.1313,194508.4406]
 El dato[50]=500000.0 es un outlier
