# **Ejemplo 4:** Determinación de observaciones influyentes: método de jackknife

---



**PROBLEMA**: Queremos averiguar si existe algún dato  influyente para los procedimientos estadísticos de calcular la **media** y la **mediana**.
> Vamos a generar una muestra simulando los ingresos de un vecindario. Supongamos que hay un vecino con unos ingresos signficativamente altos.



In [1]:
# LIBRERÍAS EMPLEADAS EN EL EJEMPLO
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd

# Generación de datos
# ==============================================================================
# Generamos ingresos uniformemente distribuidos en [15000,25000]
datos = 15000 + np.random.rand(100)*10000

# El vecino 50 tiene unos ingresos significativamente mayores que el resto
datos[50] = 500000
datos

array([ 24510.2204748 ,  16714.61631657,  15097.20061591,  15792.79087647,
        21301.48257289,  18337.68331305,  22040.64614438,  20334.83870126,
        16691.95521267,  15617.30993013,  17793.52588664,  18791.60649759,
        22466.63977454,  19333.09582569,  21276.30620543,  22231.08456697,
        23997.16149354,  20810.11991529,  15813.57527087,  21282.10763877,
        18372.29582878,  23605.69171458,  24415.8087882 ,  20517.01071256,
        23626.56815956,  20211.71859103,  24456.01485333,  15513.98151498,
        18237.54601218,  16911.09268528,  17028.98488584,  20572.35643787,
        18880.09561834,  23998.48081365,  19743.18160376,  19363.30954898,
        20896.26708788,  15544.42646214,  17383.66414092,  18235.62693544,
        15262.54956815,  20316.09682067,  19561.68465675,  17608.27515463,
        22534.60740116,  18548.98918896,  17978.77549458,  22251.40040646,
        21374.9517815 ,  20400.90912913, 500000.        ,  16616.04759636,
        15396.22419127,  

Cálculo de media y mediana en toda la muestra

In [2]:
media = np.mean(datos)
mediana = np.median (datos)
print(f" Media = {media} y Mediana = {mediana}")

 Media = 24466.53791366862 y Mediana = 19663.229781222683


Notar que los ingresos del barrio son 20000 euros. El hecho que se haya trasladado un vecino rico ha incrementando en casi 5000 euros la media. La mediana es insensible a este hecho. Se trata de identificar que datos son influyentes para los dos procedimientos estadísticos

**Método :**  Detectemos los outlier de phi

In [3]:
medias_sin_i = np.zeros(len(datos))
for i in range(len(datos)):
  datos_aux = datos
  datos_sin_i = np.delete(datos_aux, i)
  medias_sin_i[i] = np.mean(datos_sin_i)
medias_sin_i

array([24466.09667568, 24544.84015202, 24561.17768435, 24554.1515201 ,
       24498.50816964, 24528.4455359 , 24491.04187093, 24508.27224915,
       24545.06905206, 24555.92405492, 24533.94207556, 24523.86045322,
       24486.73890497, 24518.39086405, 24498.76247638, 24489.1182505 ,
       24471.27908963, 24503.4714288 , 24553.94157673, 24498.70387604,
       24528.09591453, 24475.23332982, 24467.05032908, 24506.43212782,
       24475.02245664, 24509.51588662, 24466.64420721, 24556.96777628,
       24529.45702378, 24542.85554224, 24541.66471193, 24505.87308009,
       24522.96662372, 24471.26576316, 24514.24858347, 24518.08567493,
       24502.60125534, 24556.66025156, 24538.08209319, 24529.4764084 ,
       24559.50749292, 24508.46156107, 24516.08188596, 24535.81329507,
       24486.05236329, 24526.31113311, 24532.0708674 , 24488.91304   ,
       24497.76605642, 24507.60487109, 19663.16960977, 24545.83579566,
       24558.1572442 , 24468.00419354, 24510.9637183 , 24470.27698444,
      

In [4]:
Q1 = np.quantile(medias_sin_i, 0.25)
Q3 = np.quantile(medias_sin_i, 0.75)
IQR = Q3 - Q1
xL = Q1 - 1.5 * IQR
xU = Q3 + 1.5 * IQR
for i in  range(len(datos)):
    if medias_sin_i[i] < xL or medias_sin_i[i] > xU:
        print(f" El dato {i} con salario {datos[i]} es una observación influyente para la media")

 El dato 50 con salario 500000.0 es una observación influyente para la media


**Repetir el mismo procedimiento para la mediana: ¿Qué ocurre?**