# Análisis de datos extremos

In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv('base_datos_2008.csv', nrows=100000)

In [2]:
# Extraer una columna y eliminar los datos faltantes de la columna

x = df['ArrDelay'].dropna()

### Cuartiles

In [6]:
Q1 = np.percentile(x,25) # Primer cuartil, Separar el 25 % inferior del 75% superior\
Q3 = np.percentile(x,75) # Tercer cuartil
# La mediana es el segundo cuartil
rangointer = Q3 - Q1 # Rango intercuartilico

### Rango intercuartílico

Es la diferencia entre el tercer cuartil y el primer cuartil.

Un criterio clásico de selección de "outliers" es definir dos umbrales.

In [10]:
umbralsuperior = Q3 + 1.5*rangointer # El tercer cuartil mas 1.5 veces el rango
umbralinferior = Q1 - 1.5*rangointer # El primer cuartil menos 1.5 veces el rango

In [12]:
umbralsuperior # Indica que cualquier valor por encima de 38.5 va a ser un "outlier"

38.5

In [11]:
umbralinferior # Indica que cualquier por debajo de -37.5 va a ser un "outlier"

-37.5

### Comprobar cuantos casos hay por debajo o por encima de estos umbrales

In [17]:
np.mean(x > umbralsuperior) # Indica que el 8 por ciento de los casos estan por encima

0.08387201361729721

In [18]:
np.mean( x < umbralinferior) # Estas medidas no son simetricas, da un umbral pero no asegura que estan de igual manera distribuida

0.0019048005025431114

### Estudiar varias variables a la vez

In [20]:
from sklearn.covariance import EllipticEnvelope

In [21]:
outliers = EllipticEnvelope(contamination= .01) # Definir un objeto
# Esto crea un modelo que va a seleccionar 1% de datos que considere que estan muy alejados de nuestros datos mas centrados

In [22]:
# Definir una lista con un grupo de variables de nuestra base de datos
# todas ellas cuantitativas
# Con este modelo se asume que estan distribuidas gausianamente, es decir son normales
# No tiene que ser asi

var_list = ['DepDelay','TaxiIn','TaxiOut','CarrierDelay','WeatherDelay','NASDelay','SecurityDelay','SecurityDelay','LateAircraftDelay']

In [23]:
# Definir la vasriable x que seran los valores dei nteres

x = np.array(df.loc[:,var_list].dropna())

### Entrenar el modelo

In [25]:
outliers.fit(x)

EllipticEnvelope(contamination=0.01)

In [26]:
# Pedir que prediga con el modelo que valores forman el 1% que queremos detectar
pred = outliers.predict(x)

In [27]:
pred # Es un array de 1 y -1

array([1, 1, 1, ..., 1, 1, 1])

In [28]:
# Detectar los -1
elips_outliers = np.where(pred == -1)[0]

In [29]:
elips_outliers # Lista de todos los index de aquellos casos que estan muy alejados de los valores centrales de todas las variables esutidadas, es decir, nuestros "outliers"

array([   18,    53,    56,   133,   202,   273,   276,   285,   298,
         308,   626,   627,   628,   664,   682,  1330,  1428,  1744,
        1827,  1842,  1863,  1887,  2050,  2103,  2129,  2255,  2256,
        2313,  2505,  2676,  2677,  2697,  2711,  2715,  2719,  2728,
        2803,  3413,  3437,  3615,  3688,  3733,  3738,  3814,  3828,
        3835,  3941,  3981,  3997,  4047,  4048,  4167,  4215,  4306,
        4439,  4924,  5126,  5841,  5972,  5974,  5975,  5982,  5983,
        5984,  5985,  5986,  5988,  5994,  5999,  6024,  6203,  6699,
        6700,  6919,  6921,  6923,  6924,  6928,  6929,  6931,  6935,
        6965,  7311,  7679,  8279,  8483,  8486,  8730,  8900,  9080,
        9105,  9107,  9347,  9526,  9539,  9682,  9694,  9732,  9739,
        9743,  9746,  9876,  9883,  9958, 10106, 10159, 10171, 10185,
       10341, 10426, 10554, 10693, 10736, 10747, 11213, 11572, 11577,
       12366, 12502, 12894, 13004, 13005, 13007, 13274, 13334, 13338,
       13714, 13726,

In [None]:
Este método puede servir para detectar aquellas observaciones en nuestras bases de datos que sean demasiado extremas o que requieran especial atención