# Programación para a Data Science 

## Unidad 6: Preprocesamiento de datos en Python 

## Introducción

A continuación encontraréis una posible solución a los ejercicios propuestos en la PEC. 
Tened en cuenta que pueden existir otras maneras de resolver los ejercicios, que también son válidas 
(y que también permiten obtener la máxima puntuación del ejercicio). 

# Ejercicio 1

Importa el fichero `siri.csv` de la carpeta de datos. En ella encontrarás notas (en un rango de 0 a 10) correspondientes a estudiantes de tres escuelas diferentes para cuatro asignaturas. Una vez importados los datos, realiza las siguientes operaciones:

a) Muestra por pantalla una lista de las diferentes escuelas en los datos. En caso no observar tres escuelas por errores tipográficos, mayúsculas y otros, corrige la nomenclatura para homogeneizar una columna con las tres escuelas. 


**(1 punto)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>



In [1]:
import numpy as np
import pandas as pd

d = pd.read_csv("data/siri.csv", delimiter = ',')

In [2]:
# Vemos con qué variables se codifican las tres escuelas
# Nos damos cuenta que hay diferencias entre mayúsculas/minúsculas
#    así como algún typo  en algunas de ellas

print(d["school"].unique())

['Summer' 'summer' 'Sumer' 'sumer' 'ummer' 'winter' 'Winter' 'spring'
 'Spring' 'Sprng']


In [3]:
# Vamos a corregir la codificación con el mismo nombre de escuela
#    para cada una de las tres

d.loc[(d.school == "Summer") | 
      (d.school == "summer") | 
      (d.school == "Sumer")| 
      (d.school == "sumer")| 
      (d.school == "ummer"), "school"] = "Summer"
d.loc[(d.school == "winter") | 
      (d.school == "Winter") , "school"] = "Winter"
d.loc[(d.school == "spring") | 
      (d.school == "Spring")| 
      (d.school == "Sprng") , "school"] = "Spring"

In [4]:
print(d["school"].unique())

['Summer' 'Winter' 'Spring']



b) Buscar notas claramente anómalas. En caso de encontrar notas anómalas sustitúyelas por NaN.


**(1 punto)**  <span style="font-family: Courier New; background-color: #f2ae72; color: #000000; padding: 3px; ">EI</span> 


In [5]:
#   Vemos que hay notas por encima de 10

d.describe()

Unnamed: 0,maths,literature,physics,history
count,148.0,144.0,145.0,148.0
mean,6.125676,3.064583,4.461379,1.193243
std,3.752716,0.440354,8.290475,0.764489
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.4,1.3
75%,6.4,3.325,5.1,1.8
max,50.4,4.4,101.4,2.5


In [6]:
# Alternativamente lo podemos ver aplicando las funciones max
#    y min al data frame
d.agg([max,min])

Unnamed: 0,maths,literature,physics,history,school
max,50.4,4.4,101.4,2.5,Winter
min,4.3,2.0,1.0,0.1,Spring


In [7]:
# Observamos también que tenemos valores perdidos
#  antes de corregir las notas erróneas
np.any(d.isna())

True

In [8]:
# Primero controlamos las notas erróneas
# Para corregir las notas erróneas os damos dos 
# soluciones, las dos usando el método applymap
# applymap aplica una función a cada elemento del
# data frame

# La primera es usa una función lambda
#  lambda define una función en línea, dentro del argumento

d.iloc[:,:-1] = d.iloc[:,:-1].applymap(
    lambda x: x if x<=10 else np.nan)

In [9]:
# Alternativamente podemos definir una función fuera
# y aplicarla a cada elemento con la ayuda de appymap

def check_nan(x):
    if x <= 10:
        return x
    else:
        return np.nan
d.iloc[:,:-1] = d.iloc[:,:-1].applymap(check_nan)
    

In [10]:
#Miramos la proporción (en %) de NaNs por variable
d.isna().agg(np.mean)*100

maths         2.000000
literature    4.000000
physics       4.000000
history       1.333333
school        0.000000
dtype: float64


c) Encuentra los valores perdidos. Imputa los valores perdidos por la media de los datos por columna 


**(0.5 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>



In [33]:
# Ya hemos visto en los notebooks de teoría que tenemos el método SimpleImputer del módulo
#    impute de sklearn
# Creamos una instáncia del imputador y luego la aplicamos a nuestros datos
# También podríamos usar el método .fit_transform en vez de hacer esto en 
#   dos pasos 


from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, 
                    strategy='mean')

imp.fit(d.iloc[:,:-1])
d.iloc[:,:-1] = imp.transform(d.iloc[:,:-1])

d) Comprueba que ya no hay valores perdidos en el objeto pandas. 

**(0.5 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>


In [34]:
# Observamos si ahora tenemos valores perdidos
np.any(d.isna())

False

## Ejercicio 2


En este ejercicio trabajaremos un conjunto de datos que se derivó del censo estadounidense de 1990, utilizando una fila por censo
dentro de un grupo de viviendas o bloques. Un grupo de bloques es la unidad geográfica más pequeña para la que La Oficina del Censo de  EE.UU.
publica datos de muestra (un grupo de bloques generalmente tiene una población
de 600 a 3,000 personas).


  - Pace, R. Kelley and Ronald Barry, Sparse Spatial Autoregressions,
      Statistics and Probability Letters, 33 (1997) 291-297





a) Generar un objeto `pandas` de nombre `housings` con los datos que genera la función `datasets.fetch_california_housing()` dentro de `sklearn`. El objeto debe contener todas las variables del conjunto de datos incluida una columna con los valores de  `Prices` (target). 


**(1 punto)**  <span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span>

In [35]:
# Vemos por la documentación que el método fetch_california_housing
#  del módulo de datasets baja estos datos de internet y nos devuelve 
#  un bunch, de forma similar a iris.
# Vemos que los precios "Prices" están en la variable de target del bunch


import numpy as np
import pandas as pd
from sklearn import datasets

housings_bunch = datasets.fetch_california_housing()

housings = pd.DataFrame(housings_bunch['data'],
                 columns=housings_bunch['feature_names'])
housings['Prices'] =  housings_bunch['target']


b) Obtener, los nombres de las variables, el número total de filas y columnas, y comprobar la posible existencia de valores perdidos en los datasets. Obtener la media, desviación típica, valores máximos y mínimos de todas las variables del data frame.


**(0.5 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>

In [36]:
# El método .describe() nos da la información estadística
print(housings.shape)
print(housings.columns)

# el método .any() nos indica si alguno es True 
print(housings.isna().any(axis=0))
housings.describe()

(20640, 9)
Index(['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup',
       'Latitude', 'Longitude', 'Prices'],
      dtype='object')
MedInc        False
HouseAge      False
AveRooms      False
AveBedrms     False
Population    False
AveOccup      False
Latitude      False
Longitude     False
Prices        False
dtype: bool


Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,Prices
count,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0
mean,3.870671,28.639486,5.429,1.096675,1425.476744,3.070655,35.631861,-119.569704,2.068558
std,1.899822,12.585558,2.474173,0.473911,1132.462122,10.38605,2.135952,2.003532,1.153956
min,0.4999,1.0,0.846154,0.333333,3.0,0.692308,32.54,-124.35,0.14999
25%,2.5634,18.0,4.440716,1.006079,787.0,2.429741,33.93,-121.8,1.196
50%,3.5348,29.0,5.229129,1.04878,1166.0,2.818116,34.26,-118.49,1.797
75%,4.74325,37.0,6.052381,1.099526,1725.0,3.282261,37.71,-118.01,2.64725
max,15.0001,52.0,141.909091,34.066667,35682.0,1243.333333,41.95,-114.31,5.00001


c) Calcula la correlación de la variable `Prices` con el resto de variables. Ordena el vector de correlaciones de mayor a menor en valor absoluto. ¿Qué variable aparece con más correlación con los precios? Interpreta los resultados.


**(0.5 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>

In [37]:
# Calculamos la correlación con el método .corr()

housings_c = housings.corr()
housings_c

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,Prices
MedInc,1.0,-0.119034,0.326895,-0.06204,0.004834,0.018766,-0.079809,-0.015176,0.688075
HouseAge,-0.119034,1.0,-0.153277,-0.077747,-0.296244,0.013191,0.011173,-0.108197,0.105623
AveRooms,0.326895,-0.153277,1.0,0.847621,-0.072213,-0.004852,0.106389,-0.02754,0.151948
AveBedrms,-0.06204,-0.077747,0.847621,1.0,-0.066197,-0.006181,0.069721,0.013344,-0.046701
Population,0.004834,-0.296244,-0.072213,-0.066197,1.0,0.069863,-0.108785,0.099773,-0.02465
AveOccup,0.018766,0.013191,-0.004852,-0.006181,0.069863,1.0,0.002366,0.002476,-0.023737
Latitude,-0.079809,0.011173,0.106389,0.069721,-0.108785,0.002366,1.0,-0.924664,-0.14416
Longitude,-0.015176,-0.108197,-0.02754,0.013344,0.099773,0.002476,-0.924664,1.0,-0.045967
Prices,0.688075,0.105623,0.151948,-0.046701,-0.02465,-0.023737,-0.14416,-0.045967,1.0


In [38]:
# De la matriz de correlación, nos interesa solo la correlación con la
# variable Prices, así que: 

p = housings_c.Prices
p =  abs(p)
p.sort_values(ascending=False)

# Parece que los precios parecen más relacionados con el sueldo 
# número de habitaciones y latitud que con la población, longitud y 
# ocupación media


Prices        1.000000
MedInc        0.688075
AveRooms      0.151948
Latitude      0.144160
HouseAge      0.105623
AveBedrms     0.046701
Longitude     0.045967
Population    0.024650
AveOccup      0.023737
Name: Prices, dtype: float64

## Ejercicio 3

Con la mismo dataset anterior:




a) Con cada una de las variables `Latitude` y `Longitude`, crea dos variables discretizadas con 10 segmentos, de forma que:

- en las primeras cada intervalo contenga el mísmo número de muestras (equidensidad por segmento) en (`qLat`, `qLon`) 
- en las segundas cada intervalo tengan la misma longitud de intervalo (equidistancia por segmento) en (`sLat`,`sLon`) 


**(1 punto)**  <span style="font-family: Courier New; background-color: #f2ae72; color: #000000; padding: 3px; ">EI</span>

In [39]:

# el método qcut() calcula los cortes mantieniendo 
#    la densidad por segmento

housings["qLat"] = pd.qcut(housings["Latitude"], 10)
housings["qLon"] = pd.qcut(housings["Longitude"], 10)


# El método .cut() obtiene segmentos equiespaciados

housings["sLat"] = pd.cut(housings["Latitude"], 10)
housings["sLon"] = pd.cut(housings["Longitude"], 10)

b) Observa la distribución en las variables discretizadas calculando el número de muestras dentro de cada intérvalo. Podéis mirar el método de pandas .value_counts() para contar valores de cada grupo. 

**(0.5 puntos)** <span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span> 

In [40]:
# El método .value_counts() es un método propio a pandas, 
#   así que lo podemos aplicar a las variables de interés 

housings['qLat'].value_counts()

(33.63, 33.87]     2160
(34.0, 34.1]       2138
(37.48, 37.81]     2112
(32.539, 33.63]    2092
(36.66, 37.48]     2073
(38.48, 41.95]     2061
(33.87, 34.0]      2058
(37.81, 38.48]     2005
(34.26, 36.66]     2000
(34.1, 34.26]      1941
Name: qLat, dtype: int64

In [41]:
housings['sLat'].value_counts()

(33.481, 34.422]    8987
(37.245, 38.186]    4712
(32.531, 33.481]    1796
(38.186, 39.127]    1740
(36.304, 37.245]    1292
(34.422, 35.363]     747
(39.127, 40.068]     490
(35.363, 36.304]     474
(40.068, 41.009]     324
(41.009, 41.95]       78
Name: sLat, dtype: int64

c) Muestra

- los precios promedio por cada segmento de Latitud (sLat)

- los precios promedio por cada segmento de Longitud (sLon)


**(1 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>

In [42]:
# Agrupamos las Latitudes con el método .groupby()
#  luego calculamos la estadística

housings.groupby('sLat').agg([np.mean,np.std]).Prices

  housings.groupby('sLat').agg([np.mean,np.std]).Prices


Unnamed: 0_level_0,mean,std
sLat,Unnamed: 1_level_1,Unnamed: 2_level_1
"(32.531, 33.481]",1.933825,1.00209
"(33.481, 34.422]",2.287872,1.12546
"(34.422, 35.363]",1.713885,1.081505
"(35.363, 36.304]",0.913435,0.548389
"(36.304, 37.245]",1.570614,1.106603
"(37.245, 38.186]",2.424769,1.22468
"(38.186, 39.127]",1.516993,0.666301
"(39.127, 40.068]",1.048045,0.420524
"(40.068, 41.009]",0.872176,0.258943
"(41.009, 41.95]",0.732103,0.243282


In [43]:
# Igualmente para las longitudes 

housings.groupby('sLon').agg([np.mean,np.std]).Prices

  housings.groupby('sLon').agg([np.mean,np.std]).Prices


Unnamed: 0_level_0,mean,std
sLon,Unnamed: 1_level_1,Unnamed: 2_level_1
"(-124.36, -123.346]",0.966016,0.35962
"(-123.346, -122.342]",2.64085,1.280013
"(-122.342, -121.338]",2.189859,1.157531
"(-121.338, -120.334]",1.370753,0.595856
"(-120.334, -119.33]",1.317344,1.049821
"(-119.33, -118.326]",2.633149,1.369861
"(-118.326, -117.322]",2.094742,0.969399
"(-117.322, -116.318]",1.740253,0.934753
"(-116.318, -115.314]",0.819301,0.421321
"(-115.314, -114.31]",0.688688,0.414452


d) Calcula y muestra la media y la desviación típica para todas las variables para cada combinación de Latitud y Longitud en ambos casos (equidensidad por segmento, equidistancia por segmento). 
Observación: quita las filas que contengan algún NaN del dataframe resultante. 

**(1 puntos)**  <span style="font-family: Courier New; background-color: #82b74b; color: #000000; padding: 2px; ">NM</span>

In [22]:
# De forma parecida al ejercio anterior, pero ahora indicando las dos
#    variables en vez de una sola:

qM = housings.groupby(['qLat','qLon']).agg([np.mean, np.std])
qM = qM[qM.notna().all(axis=1)]

  qM = housings.groupby(['qLat','qLon']).agg([np.mean, np.std])


In [23]:
qM

Unnamed: 0_level_0,Unnamed: 1_level_0,MedInc,MedInc,HouseAge,HouseAge,AveRooms,AveRooms,AveBedrms,AveBedrms,Population,Population,AveOccup,AveOccup,Latitude,Latitude,Longitude,Longitude,Prices,Prices
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,mean,std,mean,std,mean,std,mean,std,mean,std,mean,std,mean,std,mean,std
qLat,qLon,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2
"(32.539, 33.63]","(-118.49, -118.3]",2.74442,0.44418,42.4,13.164346,5.656577,1.225239,1.522004,0.217067,668.0,301.691067,2.383127,0.186925,33.358,0.040866,-118.354,0.070569,3.8044,0.805596
"(32.539, 33.63]","(-118.13, -117.89]",5.882535,2.362263,30.557692,8.564435,5.92061,1.308915,1.155927,0.160483,809.5,405.205903,2.197507,0.355265,33.616923,0.012133,-117.919038,0.02584,4.287755,1.055875
"(32.539, 33.63]","(-117.89, -117.25]",5.039886,2.312767,18.984252,10.274715,5.886267,1.427208,1.09526,0.137718,1452.797244,1881.532638,2.557328,0.662883,33.306988,0.278961,-117.497106,0.213221,2.949287,1.257007
"(32.539, 33.63]","(-117.25, -114.31]",3.596781,1.637609,23.563851,11.482094,5.278766,1.29549,1.073915,0.164264,1478.599214,1157.916668,2.893769,0.921515,32.848029,0.21301,-116.940753,0.480102,1.735214,0.837021
"(33.63, 33.87]","(-118.49, -118.3]",5.469732,2.003316,30.471545,8.771312,5.411688,1.069302,1.040746,0.061367,1454.646341,1069.124433,2.61347,0.454958,33.815,0.045389,-118.347846,0.037556,3.558457,0.909334
"(33.63, 33.87]","(-118.3, -118.13]",3.403173,1.212555,34.924812,10.00926,4.436297,0.954655,1.061377,0.08511,1468.629073,904.928295,2.934585,0.867525,33.804912,0.039007,-118.198922,0.050774,2.119712,0.816959
"(33.63, 33.87]","(-118.13, -117.89]",4.49472,1.490364,26.284382,8.139149,5.28151,1.102027,1.039861,0.08493,1496.268065,855.634216,3.085429,0.863522,33.77662,0.065311,-117.988065,0.066924,2.310138,0.763018
"(33.63, 33.87]","(-117.89, -117.25]",5.110573,2.142979,19.108932,10.166362,5.729497,1.464021,1.05115,0.09792,1672.43573,1215.185824,3.164086,0.964295,33.751961,0.070038,-117.763878,0.146182,2.45421,0.956174
"(33.63, 33.87]","(-117.25, -114.31]",3.07617,1.32204,15.777778,7.764367,6.851792,3.223026,1.411602,0.63611,1839.237374,1277.622462,2.728154,0.818312,33.751414,0.056109,-116.650253,0.432197,1.353934,0.801995
"(33.87, 34.0]","(-119.91, -118.49]",3.750171,2.090202,38.0,11.32843,3.657667,1.315505,1.097859,0.050691,964.0,365.778622,1.561999,0.336573,33.985714,0.012724,-118.508571,0.019518,4.678579,0.590101


## Ejercicio 4

### Estandarización de variables.

Importa el dataset `iris` de `sklearn`. Almacena este dataset como un objeto `pandas`, con los correpondientres nombres de variables. 

Llamamos tipificar una variable al proceso de convertirla en una Normal Estándar $N(\mu=0,\sigma =1)$.
Busca en `sklearn.preprocessing` un método que te permita tipificar cada variable numérica del objeto pandas de `iris` de forma que:

- El valor medio de cada columna sea 0
- La desviación típica de cada columna sea 1

a) Aplica el método para crear un nuevo dataframne `iris_typ` que cumpla esas condiciones.  Comprueba que la tipificación es correcta.

**(1 puntos)** <span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span>

In [24]:
from sklearn import datasets
import pandas as pd
iris_bunch = datasets.load_iris()
iris_pandas = pd.DataFrame(iris_bunch['data'],columns=iris_bunch['feature_names'])
iris_pandas['Species'] = iris_bunch['target_names'][iris_bunch['target']]



In [25]:
# Si miramos la documentación de sklearn.preprocessing, 
#   tenemos el método StandardScaler que hace lo indicado 
#   en el enunciado, así que lo usamos de la forma que nos 
#   indica la documentación:

from sklearn.preprocessing import StandardScaler

iris_typ = iris_pandas.copy()
s = StandardScaler()
s.fit(iris_pandas.iloc[:,:-1])



StandardScaler()

In [26]:
# Usamos el método .fit_transform() para encontrar los valores
#    tipificados 

iris_typ.iloc[:,:-1] = s.fit_transform(iris_typ.iloc[:,:-1])
iris_typ.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,-4.736952e-16,-7.81597e-16,-4.263256e-16,-4.736952e-16
std,1.00335,1.00335,1.00335,1.00335
min,-1.870024,-2.433947,-1.567576,-1.447076
25%,-0.9006812,-0.592373,-1.226552,-1.183812
50%,-0.05250608,-0.1319795,0.3364776,0.1325097
75%,0.6745011,0.5586108,0.7627583,0.7906707
max,2.492019,3.090775,1.785832,1.712096


b) Busca y aplica un segundo mecanismo de normalización de forma que:

- el mínimo de la variable sea 0, y 
- el máximo de cada variable sea 1 

Comprueba que la normalizacion es correcta

**(0.5 puntos)** <span style="font-family: Courier New; background-color: #ffcc5c; color: #000000; padding: 3px; ">EG</span>

In [27]:
# En la documentación también vemos el método MinMaxScaler,
#    que hace jústamente lo requerido por el enunciado
# Su aplicación es idéntica al caso anterior 

from sklearn.preprocessing import MinMaxScaler

smm = MinMaxScaler()
iris_typ.iloc[:,:-1] = smm.fit_transform(iris_typ.iloc[:,:-1])
iris_typ.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,0.428704,0.440556,0.467458,0.458056
std,0.230018,0.181611,0.299203,0.317599
min,0.0,0.0,0.0,0.0
25%,0.222222,0.333333,0.101695,0.083333
50%,0.416667,0.416667,0.567797,0.5
75%,0.583333,0.541667,0.694915,0.708333
max,1.0,1.0,1.0,1.0


### Ejercicio Opcional


La Oficina de Estadísticas de Transporte del Departamento de Transporte de los Estados Unidos (DOT) rastrea el rendimiento en término de puntualidad de los vuelos en EE.UU. operados por grandes compañías aéreas. 

La información resumida sobre el número de vuelos puntuales, retrasados, cancelados y desviados se publica en el Informe mensual del consumidor de viajes aéreos del DOT y en este conjunto de datos de retrasos y cancelaciones de vuelos de 2015. Encontrarás una muestra de estos datos en el fichero `vuelos.csv` en la carpeta de datos. 

Importa el fichero de vuelos. Imputa los valores perdidos con la mediana de cada columna.

Calcula y muestra la matriz de correlación de las siguientes variables a partir de la matriz imputada. 

- `ARRIVAL_DELAY`
- `DIVERTED`
- `CANCELLED`	
- `AIR_SYSTEM_DELAY`
- `SECURITY_DELAY`
- `AIRLINE_DELAY`
- `LATE_AIRCRAFT_DELAY`
- `WEATHER_DELAY`

Interpreta el resultado


 <span style="font-family: Courier New; background-color: #f2ae72; color: #000000; padding: 3px; ">EI</span>

In [28]:
data = pd.read_csv("data/vuelos.csv", 
                   sep=";",
                   decimal=",")
data.head()
f = data[['ARRIVAL_DELAY',
    'DIVERTED',
    'CANCELLED',
    'AIR_SYSTEM_DELAY',
    'SECURITY_DELAY',
    'AIRLINE_DELAY',
    'LATE_AIRCRAFT_DELAY',
    'WEATHER_DELAY']]


In [29]:
from sklearn.impute import SimpleImputer

I = SimpleImputer(strategy="median")
impf= pd.DataFrame(I.fit_transform(f), 
                   columns = f.columns)

In [30]:
impf.head()

Unnamed: 0,ARRIVAL_DELAY,DIVERTED,CANCELLED,AIR_SYSTEM_DELAY,SECURITY_DELAY,AIRLINE_DELAY,LATE_AIRCRAFT_DELAY,WEATHER_DELAY
0,-22.0,0.0,0.0,11.0,0.0,7.5,0.0,0.0
1,-9.0,0.0,0.0,11.0,0.0,7.5,0.0,0.0
2,5.0,0.0,0.0,11.0,0.0,7.5,0.0,0.0
3,-9.0,0.0,0.0,11.0,0.0,7.5,0.0,0.0
4,-21.0,0.0,0.0,11.0,0.0,7.5,0.0,0.0


In [31]:
impf.corr()

Unnamed: 0,ARRIVAL_DELAY,DIVERTED,CANCELLED,AIR_SYSTEM_DELAY,SECURITY_DELAY,AIRLINE_DELAY,LATE_AIRCRAFT_DELAY,WEATHER_DELAY
ARRIVAL_DELAY,1.0,-0.005171,-0.04949,0.063397,0.172322,0.577452,0.34201,0.489017
DIVERTED,-0.005171,1.0,-0.009581,-0.001497,-0.001001,-0.003774,-0.00134,-0.003668
CANCELLED,-0.04949,-0.009581,1.0,-0.014327,-0.009581,-0.03612,-0.012823,-0.035105
AIR_SYSTEM_DELAY,0.063397,-0.001497,-0.014327,1.0,-0.060304,-0.172941,-0.080708,-0.107038
SECURITY_DELAY,0.172322,-0.001001,-0.009581,-0.060304,1.0,0.205878,-0.00134,-0.003668
AIRLINE_DELAY,0.577452,-0.003774,-0.03612,-0.172941,0.205878,1.0,-0.024187,-0.06742
LATE_AIRCRAFT_DELAY,0.34201,-0.00134,-0.012823,-0.080708,-0.00134,-0.024187,1.0,-0.004909
WEATHER_DELAY,0.489017,-0.003668,-0.035105,-0.107038,-0.003668,-0.06742,-0.004909,1.0


In [32]:
# Vemos que la variable que tiene más correlación con los retrasos 
#   son la AIRLINE_DELAY, seguida de la WEATHER_DELAY
# La que menos correlación muestra es la de AIR_SYSTEM_DELAY 