# Inspección de datos


## Descripción del dataset


## Descripción de columnas del dataset



In [4]:
import pandas as pd
df = pd.read_csv('DelayedFlights.csv', low_memory=False)

## Cantidad de registros
El archivo contiene 1936758 filas y 30 columnas

In [5]:
print(f'Cantidad de filas: {df.shape[0]} - Cantidad de columnas: {df.shape[1]}')

Cantidad de filas: 1936758 - Cantidad de columnas: 30


In [6]:
print(df.describe())

         Unnamed: 0       Year         Month    DayofMonth     DayOfWeek  \
count  1.936758e+06  1936758.0  1.936758e+06  1.936758e+06  1.936758e+06   
mean   3.341651e+06     2008.0  6.111106e+00  1.575347e+01  3.984827e+00   
std    2.066065e+06        0.0  3.482546e+00  8.776272e+00  1.995966e+00   
min    0.000000e+00     2008.0  1.000000e+00  1.000000e+00  1.000000e+00   
25%    1.517452e+06     2008.0  3.000000e+00  8.000000e+00  2.000000e+00   
50%    3.242558e+06     2008.0  6.000000e+00  1.600000e+01  4.000000e+00   
75%    4.972467e+06     2008.0  9.000000e+00  2.300000e+01  6.000000e+00   
max    7.009727e+06     2008.0  1.200000e+01  3.100000e+01  7.000000e+00   

            DepTime    CRSDepTime       ArrTime    CRSArrTime     FlightNum  \
count  1.936758e+06  1.936758e+06  1.929648e+06  1.936758e+06  1.936758e+06   
mean   1.518534e+03  1.467473e+03  1.610141e+03  1.634225e+03  2.184263e+03   
std    4.504853e+02  4.247668e+02  5.481781e+02  4.646347e+02  1.944702e+03   

## Nombres de columnas
En primera instancia se puede observar que los nombres de las columnas no tienen espacios en blanco ni carácteres especiales a excepción de "Unnamed: 0". Esta columna debe ser renombrada para facilitar su manipulación.

In [7]:
print(df.columns)

Index(['Unnamed: 0', 'Year', 'Month', 'DayofMonth', 'DayOfWeek', 'DepTime',
       'CRSDepTime', 'ArrTime', 'CRSArrTime', 'UniqueCarrier', 'FlightNum',
       'TailNum', 'ActualElapsedTime', 'CRSElapsedTime', 'AirTime', 'ArrDelay',
       'DepDelay', 'Origin', 'Dest', 'Distance', 'TaxiIn', 'TaxiOut',
       'Cancelled', 'CancellationCode', 'Diverted', 'CarrierDelay',
       'WeatherDelay', 'NASDelay', 'SecurityDelay', 'LateAircraftDelay'],
      dtype='object')


## Descripción de columnas

Columnas temporales:
- Year (int): año del vuelo
- Month (int): mes del vuelo
- DayofMonth (int): día del mes del departure del vuelo
- DayOfWeek (int): día de la semana del vuelo (lunes, martes, ..., domingo)
- DepTime (int): Hora real del departure
- CRSDepTime (int): Hora del departure programada
- ArrvTime (int): Hora real del arrival
- ActualElapsedTime (int): tiempo (en minutos) programado desde el cierre de puerta en el aeropuerto de origen hasta la apertura en el destino
- CRSElapsedTime (int): Idem columna anterior, pero el valor real
- AirTime (int): tiempo real de vuelo en minutos
- TaxiIn (int): corresponde al tiempo en minutos que le toma a la aeronave desde que toca tierra en el aeropuerto de destino hasta que se detiene
- TaxiOut (int): corresponde al tiempo en minutos que le toma a la aeronave desde que suelta los frenos en el aeropuerto de origen hasta que se eleva y deja tierra


Columnas de delays:
- ArrDelay (int): retraso real en minutos en la llegada de cada vuelo al aeropuerto de destino
- DepDelay (int): retraso real en minutos en el despegue de cada vuelo desde el aeropuerto de origen
- CarrierDelay, WeatherDelay, NASDelay, SecurityDelay, LateAircraftDelay (todos int): son retrasos debidos a distintas razones puntuales menos frecuentes. En el orden que fueron mencionadas estas corresponden a condiciones del transportista/carrier que pueden tener relación con limpieza y mantención de la aeronave, condiciones climáticas infrecuentes que dificulten el vuelo, ordenadas por National Airspace System (NAS), de seguridad (evacuaciones) u operacionales (atada a atrasos de vuelos anteriores por ejemplo)

Columnas de origen y destino
- Origin (str): Aeropuerto de origen
- Dest (str): Aeropuerto de destino
- Distance (float): Distancia que conecta ambos aeropuertos en kms

Columnas descriptivas de cada vuelo
- FlightNum (int): corresponde a una etiqueta numérica a cada vuelo
- TailNum (str): etiqueta de la aeronave que realiza el vuelo
- UniqueCarrier (str): corresponde a un código que representa a las partes o aerolíneas a cargo de operar cada vuelo

Códigos de cancelaciones
- Cancelled (int): es un entero 0 o 1, dependiendo si el vuelo se canceló o no
- CancellationCode (str): corresponde a un código de tipo de cancelación, donde N representa que no existió cancelación

## Descripción de columnas

## Tipos de datos
Un tema importante al importar los datos es considerar que hay campos que se importan como numéricos que son categóricos, como por ejemplo "FlightNum" o "Cancelled". Por lo tanto es importante definir este tipo de campos como categóricos para evitar problemas.

In [8]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1936758 entries, 0 to 1936757
Data columns (total 30 columns):
 #   Column             Dtype  
---  ------             -----  
 0   Unnamed: 0         int64  
 1   Year               int64  
 2   Month              int64  
 3   DayofMonth         int64  
 4   DayOfWeek          int64  
 5   DepTime            float64
 6   CRSDepTime         int64  
 7   ArrTime            float64
 8   CRSArrTime         int64  
 9   UniqueCarrier      object 
 10  FlightNum          int64  
 11  TailNum            object 
 12  ActualElapsedTime  float64
 13  CRSElapsedTime     float64
 14  AirTime            float64
 15  ArrDelay           float64
 16  DepDelay           float64
 17  Origin             object 
 18  Dest               object 
 19  Distance           int64  
 20  TaxiIn             float64
 21  TaxiOut            float64
 22  Cancelled          int64  
 23  CancellationCode   object 
 24  Diverted           int64  
 25  CarrierDelay      

## Valores nulos
A continuación se muestran los campos que continienen valores nulos, siendo "LateAircraftDelay", "WeatherDelay", "NASDelay", "SecurityDelay" y "CarrierDelay" los que contienen la mayor cantidad de valores nulos.

In [9]:
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0].sort_values(ascending=False)
missing_values = missing_values / df.shape[0] * 100
print(missing_values)

LateAircraftDelay    35.588855
WeatherDelay         35.588855
NASDelay             35.588855
SecurityDelay        35.588855
CarrierDelay         35.588855
ActualElapsedTime     0.433043
ArrDelay              0.433043
AirTime               0.433043
ArrTime               0.367108
TaxiIn                0.367108
TaxiOut               0.023493
CRSElapsedTime        0.010223
TailNum               0.000258
dtype: float64


## Valores duplicados
En el dataset no existen registros duplicados.

In [11]:

duplicated_rows = df.duplicated()
duplicated_rows = duplicated_rows[duplicated_rows]
duplicated_rows

Series([], dtype: bool)

## Rangos de valores

In [12]:
df.describe()

Unnamed: 0.1,Unnamed: 0,Year,Month,DayofMonth,DayOfWeek,DepTime,CRSDepTime,ArrTime,CRSArrTime,FlightNum,...,Distance,TaxiIn,TaxiOut,Cancelled,Diverted,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
count,1936758.0,1936758.0,1936758.0,1936758.0,1936758.0,1936758.0,1936758.0,1929648.0,1936758.0,1936758.0,...,1936758.0,1929648.0,1936303.0,1936758.0,1936758.0,1247488.0,1247488.0,1247488.0,1247488.0,1247488.0
mean,3341651.0,2008.0,6.111106,15.75347,3.984827,1518.534,1467.473,1610.141,1634.225,2184.263,...,765.6862,6.812975,18.2322,0.0003268348,0.004003598,19.1794,3.703571,15.02164,0.09013714,25.29647
std,2066065.0,0.0,3.482546,8.776272,1.995966,450.4853,424.7668,548.1781,464.6347,1944.702,...,574.4797,5.273595,14.33853,0.01807562,0.06314722,43.54621,21.4929,33.83305,2.022714,42.05486
min,0.0,2008.0,1.0,1.0,1.0,1.0,0.0,1.0,0.0,1.0,...,11.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1517452.0,2008.0,3.0,8.0,2.0,1203.0,1135.0,1316.0,1325.0,610.0,...,338.0,4.0,10.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,3242558.0,2008.0,6.0,16.0,4.0,1545.0,1510.0,1715.0,1705.0,1543.0,...,606.0,6.0,14.0,0.0,0.0,2.0,0.0,2.0,0.0,8.0
75%,4972467.0,2008.0,9.0,23.0,6.0,1900.0,1815.0,2030.0,2014.0,3422.0,...,998.0,8.0,21.0,0.0,0.0,21.0,0.0,15.0,0.0,33.0
max,7009727.0,2008.0,12.0,31.0,7.0,2400.0,2359.0,2400.0,2400.0,9742.0,...,4962.0,240.0,422.0,1.0,1.0,2436.0,1352.0,1357.0,392.0,1316.0
