In [1]:
from __future__ import print_function
import os

import pandas as pd
import numpy as np
import matplotlib

# Ingestión de datos

In [2]:
data_path = ['data']
file_name = 'Vuelos.csv'
filepath = os.sep.join(data_path + [file_name])

dataset = pd.read_csv(filepath, low_memory=False)

Se presentan las primeras 5 observaciones y las dimensiones de la tabla de observaciones. Notamos que la cantidad de observaciones es alta comparado con la cantidad de features, lo cúal es muy positivo cuando se aplican modelos estadísticos.

In [3]:
display(dataset.shape)
display(dataset.head(5))

(480085, 38)

Unnamed: 0.1,Unnamed: 0,MONTH,DAY_OF_MONTH,FL_DATE,UNIQUE_CARRIER,ORIGIN,ORIGIN_CITY_NAME,ORIGIN_STATE_ABR,ORIGIN_STATE_NM,ORIGIN_WAC,...,ACTUAL_ELAPSED_TIME,FLIGHTS,DISTANCE,DISTANCE_GROUP,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 36
0,0,8,31,2017-08-31,F9,LGA,"New York, NY",NY,New York,22,...,175.0,1.0,762.0,4,,,,,,
1,1,8,2,2017-08-02,WN,STL,"St. Louis, MO",MO,Missouri,64,...,,1.0,888.0,4,,,,,,
2,2,8,2,2017-08-02,WN,STL,"St. Louis, MO",MO,Missouri,64,...,138.0,1.0,888.0,4,,,,,,
3,3,8,2,2017-08-02,WN,STL,"St. Louis, MO",MO,Missouri,64,...,166.0,1.0,888.0,4,0.0,39.0,26.0,0.0,44.0,
4,4,8,2,2017-08-02,WN,TPA,"Tampa, FL",FL,Florida,33,...,,1.0,1130.0,5,,,,,,


En lo anterior se observa la presencia de dos features sin nombre, "Unnamed: 0" y "Unnamed: 36". El caso de la primera variable parece cumplir una función de orden, por lo que es inecesaria pues ya contamos con los indices del dataframe, por lo que si confirmamos esto entonces esta columna podría eliminarse. El caso de la segunda variable lo analizaremos más adelante cuando contemos con más información.

In [4]:
print(pd.DataFrame(dataset['Unnamed: 0']).equals(pd.DataFrame(np.linspace(0,480084,480084,dtype=int)))) #Deberia dar True
print('\n')
dataset.info()

False


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 480085 entries, 0 to 480084
Data columns (total 38 columns):
Unnamed: 0             480085 non-null int64
MONTH                  480085 non-null int64
DAY_OF_MONTH           480085 non-null int64
FL_DATE                480085 non-null object
UNIQUE_CARRIER         480085 non-null object
ORIGIN                 480085 non-null object
ORIGIN_CITY_NAME       480085 non-null object
ORIGIN_STATE_ABR       480085 non-null object
ORIGIN_STATE_NM        480085 non-null object
ORIGIN_WAC             480085 non-null int64
DEST                   480085 non-null object
DEST_CITY_NAME         480085 non-null object
DEST_STATE_ABR         480085 non-null object
DEST_STATE_NM          480085 non-null object
DEST_WAC               480085 non-null int64
DEP_TIME               468246 non-null float64
DEP_DELAY              468236 non-null float64
DEP_DELAY_NEW          468236 non-null float64
DEP_DEL15              468236 non-null float64
DEP_DELA

Se observa que "Unnamed: 0" de hecho si cumplía una función de enumeración por lo se procede a eliminar, además "Unnamed: 36" posee 0 valores no nulos, por lo que se concluye que es imposible conseguir información reelevante de esta columna y se eliminará.
Un patrón importante es que las variables relacionadas con motivo de atraso son aquellas que presentan mayor cantidad de valores nulos, más aún, todas tienen exactamente la misma cantidad de valores nulos, esto nos lleva a considerar la posibilidad que un valor nulo signifique enrealidad que no hubo ningún atraso por lo que no se registra la causa, esto lo confirmamos a continuación.

In [5]:
#Eliminamos las columnas que no aportan información
dataset.drop(['Unnamed: 36','Unnamed: 0'], axis=1, inplace=True)

#Agregar función que confirme en su gran mayoría cuando delay es positivo entonces los valores de los motivos son no-nulos
mascara = dataset['ARR_DELAY']>0 
mascara2 = dataset['DEP_DELAY']>0
mascara3 = mascara | mascara2
dataset[mascara].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 169840 entries, 0 to 480084
Data columns (total 36 columns):
MONTH                  169840 non-null int64
DAY_OF_MONTH           169840 non-null int64
FL_DATE                169840 non-null object
UNIQUE_CARRIER         169840 non-null object
ORIGIN                 169840 non-null object
ORIGIN_CITY_NAME       169840 non-null object
ORIGIN_STATE_ABR       169840 non-null object
ORIGIN_STATE_NM        169840 non-null object
ORIGIN_WAC             169840 non-null int64
DEST                   169840 non-null object
DEST_CITY_NAME         169840 non-null object
DEST_STATE_ABR         169840 non-null object
DEST_STATE_NM          169840 non-null object
DEST_WAC               169840 non-null int64
DEP_TIME               169840 non-null float64
DEP_DELAY              169840 non-null float64
DEP_DELAY_NEW          169840 non-null float64
DEP_DEL15              169840 non-null float64
DEP_DELAY_GROUP        169840 non-null float64
DEP_TIME_BLK  

Observe que cuando consideramos solamente el subconjunto de los datos en los que hubo un atraso, la diferencia entre el total de los datos y la cantidad de valores no nulos de las variables con motivos de atraso disminuye considerablemente, aquellos datos que siguen teniendo valores nulos probablemente es porque no se registró la causa del retraso.

Ahora vamos a analizar las observaciones que corresponden a atrasos. Observe que el feature "ARR DELAY" considera también las llegadas antes del tiempo programado y los diferencia por medio de números negativos. Estos números negativos dificultan el análisis de los atrasos de los aviones (por ejemplo cuando se calcula un promedio), debido a esto surge la necesidad de crear una columna similar a "DEP DELAY NEW" que da como valor 0 cuando el avión llega antes de tiempo, de esta manera solo se enfoca en las llegadas tardías. Llamaremos a esta variable "ARR DELAY NEW" para ser consistente en el nombre de las variables.

In [9]:
temp = dataset['ARR_DELAY']
temp[temp < 0] = 0 
dataset['ARR_DELAY_NEW'] = temp

   MONTH  DAY_OF_MONTH     FL_DATE UNIQUE_CARRIER ORIGIN ORIGIN_CITY_NAME  \
0      8            31  2017-08-31             F9    LGA     New York, NY   
1      8             2  2017-08-02             WN    STL    St. Louis, MO   
2      8             2  2017-08-02             WN    STL    St. Louis, MO   
3      8             2  2017-08-02             WN    STL    St. Louis, MO   
4      8             2  2017-08-02             WN    TPA        Tampa, FL   

  ORIGIN_STATE_ABR ORIGIN_STATE_NM  ORIGIN_WAC DEST      ...       \
0               NY        New York          22  ATL      ...        
1               MO        Missouri          64  LGA      ...        
2               MO        Missouri          64  LGA      ...        
3               MO        Missouri          64  LGA      ...        
4               FL         Florida          33  ALB      ...        

  ACTUAL_ELAPSED_TIME FLIGHTS DISTANCE  DISTANCE_GROUP  CARRIER_DELAY  \
0               175.0     1.0    762.0           

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Para comenzar el analisis primeramente debemos hacer algo con los valores nulos. Según ............  la probabilidad de que un vuelo se atrase no es muy alta, además dada la gran cantidad de valores nulos y los puntos expuesto inicio del documento, asumiremos que un valor nulo no es más que una forma de registrar que no hubo atraso. Por lo que sustituiremos los NaN por 0. A continuación una breve descripción de los features más reelevantes conrespecto a atrasos.

In [28]:
desc = dataset[dataset.columns[([0,15,16,17,18,21,22,23,24,25,26,27,29,30,31,32,33,34,35,36])]]
print(desc.describe())

               MONTH      DEP_DELAY  DEP_DELAY_NEW      DEP_DEL15  \
count  480085.000000  468236.000000  468236.000000  468236.000000   
mean        6.522522      15.403781      18.434883       0.228346   
std         3.404854      54.283760      53.125508       0.419767   
min         1.000000     -84.000000       0.000000       0.000000   
25%         4.000000      -5.000000       0.000000       0.000000   
50%         7.000000      -2.000000       0.000000       0.000000   
75%         9.000000      11.000000      11.000000       0.000000   
max        12.000000    1685.000000    1685.000000       1.000000   

       DEP_DELAY_GROUP      ARR_DELAY      ARR_DEL15  ARR_DELAY_GROUP  \
count    468236.000000  466352.000000  466352.000000    466352.000000   
mean          0.354919      18.213442       0.229505        -0.008286   
std           2.649006      52.307365       0.420515         2.832210   
min          -2.000000       0.000000       0.000000        -2.000000   
25%          

De la tabla anterior podemos concluir: #falta corregir error que hace que no se calculen bien.
- El bloque de meses con mayor cantidad de atrasos es julio, agosto y setiembre.
- Más de un 50% de las salidas ocurren más temprano de lo programado, sin embargo en promedio los atrasos continúan siendo mayores a las saldas temprano.
- 

In [7]:
#Contamos la cantidad de vuelos segun ciudad de salida

print(dataset.groupby("ORIGIN_CITY_NAME").size().to_frame().sample(5))

                      0
ORIGIN_CITY_NAME       
Atlanta, GA       17720
Norfolk, VA         153
San Antonio, TX     362
San Diego, CA      2172
Cincinnati, OH      586


In [8]:
#Contamos la cantidad de vuelos segun ciudad de destino
#Agregar grafico de barras o histograma
dataset.groupby("DEST_CITY_NAME").size().to_frame().head(5)

Unnamed: 0_level_0,0
DEST_CITY_NAME,Unnamed: 1_level_1
"Aguadilla, PR",462
"Albany, NY",9401
"Albuquerque, NM",313
"Asheville, NC",10
"Atlanta, GA",17717


In [9]:

#Contamos al cantidad de vuelos cancelados

dataset.groupby("CANCELLED").size().to_frame()


Unnamed: 0_level_0,0
CANCELLED,Unnamed: 1_level_1
0.0,467842
1.0,12243
