# 0. Imports

In [1]:
# Basic imports
import pandas as pd 
import numpy as np 
import seaborn as sns 
import matplotlib.pyplot as plt

# Functional imports
import json
import pyarrow
from pickle import dump

# Model imports
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.feature_selection import f_classif, SelectKBest

# 1. Data Collection

In [2]:
pd.set_option('display.max_columns', None)

In [3]:
df_2018 = pd.read_parquet("/workspace/final_project/data/raw/Combined_Flights_2018.parquet", engine="pyarrow")
df_2019 = pd.read_parquet("/workspace/final_project/data/raw/Combined_Flights_2019.parquet", engine="pyarrow")
df_2020 = pd.read_parquet("/workspace/final_project/data/raw/Combined_Flights_2020.parquet", engine="pyarrow")
df_2021 = pd.read_parquet("/workspace/final_project/data/raw/Combined_Flights_2021.parquet", engine="pyarrow")
df_2022 = pd.read_parquet("/workspace/final_project/data/raw/Combined_Flights_2022.parquet", engine="pyarrow")

In [4]:
data_frames = [df_2018, df_2019, df_2020, df_2021, df_2022]
df = pd.concat(data_frames, ignore_index=True)

In [5]:
df.head()

Unnamed: 0,FlightDate,Airline,Origin,Dest,Cancelled,Diverted,CRSDepTime,DepTime,DepDelayMinutes,DepDelay,ArrTime,ArrDelayMinutes,AirTime,CRSElapsedTime,ActualElapsedTime,Distance,Year,Quarter,Month,DayofMonth,DayOfWeek,Marketing_Airline_Network,Operated_or_Branded_Code_Share_Partners,DOT_ID_Marketing_Airline,IATA_Code_Marketing_Airline,Flight_Number_Marketing_Airline,Operating_Airline,DOT_ID_Operating_Airline,IATA_Code_Operating_Airline,Tail_Number,Flight_Number_Operating_Airline,OriginAirportID,OriginAirportSeqID,OriginCityMarketID,OriginCityName,OriginState,OriginStateFips,OriginStateName,OriginWac,DestAirportID,DestAirportSeqID,DestCityMarketID,DestCityName,DestState,DestStateFips,DestStateName,DestWac,DepDel15,DepartureDelayGroups,DepTimeBlk,TaxiOut,WheelsOff,WheelsOn,TaxiIn,CRSArrTime,ArrDelay,ArrDel15,ArrivalDelayGroups,ArrTimeBlk,DistanceGroup,DivAirportLandings
0,2018-01-23,Endeavor Air Inc.,ABY,ATL,False,False,1202,1157.0,0.0,-5.0,1256.0,0.0,38.0,62.0,59.0,145.0,2018,1,1,23,2,DL,DL_CODESHARE,19790,DL,3298,9E,20363,9E,N8928A,3298,10146,1014602,30146,"Albany, GA",GA,13,Georgia,34,10397,1039707,30397,"Atlanta, GA",GA,13,Georgia,34,0.0,-1.0,1200-1259,14.0,1211.0,1249.0,7.0,1304,-8.0,0.0,-1.0,1300-1359,1,0.0
1,2018-01-24,Endeavor Air Inc.,ABY,ATL,False,False,1202,1157.0,0.0,-5.0,1258.0,0.0,36.0,62.0,61.0,145.0,2018,1,1,24,3,DL,DL_CODESHARE,19790,DL,3298,9E,20363,9E,N800AY,3298,10146,1014602,30146,"Albany, GA",GA,13,Georgia,34,10397,1039707,30397,"Atlanta, GA",GA,13,Georgia,34,0.0,-1.0,1200-1259,13.0,1210.0,1246.0,12.0,1304,-6.0,0.0,-1.0,1300-1359,1,0.0
2,2018-01-25,Endeavor Air Inc.,ABY,ATL,False,False,1202,1153.0,0.0,-9.0,1302.0,0.0,40.0,62.0,69.0,145.0,2018,1,1,25,4,DL,DL_CODESHARE,19790,DL,3298,9E,20363,9E,N8836A,3298,10146,1014602,30146,"Albany, GA",GA,13,Georgia,34,10397,1039707,30397,"Atlanta, GA",GA,13,Georgia,34,0.0,-1.0,1200-1259,18.0,1211.0,1251.0,11.0,1304,-2.0,0.0,-1.0,1300-1359,1,0.0
3,2018-01-26,Endeavor Air Inc.,ABY,ATL,False,False,1202,1150.0,0.0,-12.0,1253.0,0.0,35.0,62.0,63.0,145.0,2018,1,1,26,5,DL,DL_CODESHARE,19790,DL,3298,9E,20363,9E,N800AY,3298,10146,1014602,30146,"Albany, GA",GA,13,Georgia,34,10397,1039707,30397,"Atlanta, GA",GA,13,Georgia,34,0.0,-1.0,1200-1259,17.0,1207.0,1242.0,11.0,1304,-11.0,0.0,-1.0,1300-1359,1,0.0
4,2018-01-27,Endeavor Air Inc.,ABY,ATL,False,False,1400,1355.0,0.0,-5.0,1459.0,0.0,36.0,60.0,64.0,145.0,2018,1,1,27,6,DL,DL_CODESHARE,19790,DL,3298,9E,20363,9E,N8839E,3298,10146,1014602,30146,"Albany, GA",GA,13,Georgia,34,10397,1039707,30397,"Atlanta, GA",GA,13,Georgia,34,0.0,-1.0,1400-1459,17.0,1412.0,1448.0,11.0,1500,-1.0,0.0,-1.0,1500-1559,1,0.0


# 2.2 Exploration and Data cleaning

# Explicación de las columnas de datos de vuelos

### Información del vuelo
- **FlightDate**: Fecha del vuelo (año, mes y día).
- **Airline**: Código de la aerolínea que opera el vuelo.
- **Origin**: Código del aeropuerto de origen (IATA).
- **Dest**: Código del aeropuerto de destino (IATA).

### Indicadores de interrupción
- **Cancelled**: Indica si el vuelo fue cancelado (1 = Sí, 0 = No).
- **Diverted**: Indica si el vuelo fue desviado a otro aeropuerto (1 = Sí, 0 = No).

### Horarios de salida
- **CRSDepTime**: Hora programada de salida (horario planificado).
- **DepTime**: Hora real de salida del vuelo.
- **DepDelayMinutes**: Minutos de retraso en la salida.
- **DepDelay**: Retraso en la salida (valores negativos indican salida anticipada).

### Horarios de llegada
- **ArrTime**: Hora real de llegada del vuelo.
- **ArrDelayMinutes**: Minutos de retraso en la llegada.
- **ArrDelay**: Retraso en la llegada (valores negativos indican llegada anticipada).

### Duración del vuelo
- **AirTime**: Tiempo efectivo en el aire, en minutos.
- **CRSElapsedTime**: Tiempo total estimado del vuelo (planificado).
- **ActualElapsedTime**: Tiempo total real del vuelo.

### Distancia y ubicación
- **Distance**: Distancia entre los aeropuertos de origen y destino, en millas.

### Fechas y tiempo
- **Year**: Año del vuelo.
- **Quarter**: Trimestre del año (1 a 4).
- **Month**: Mes del año (1 a 12).
- **DayofMonth**: Día del mes.
- **DayOfWeek**: Día de la semana (1 = Lunes, 7 = Domingo).

### Información de la aerolínea
- **Marketing_Airline_Network**: Aerolínea responsable de vender el vuelo.
- **Operated_or_Branded_Code_Share_Partners**: Aerolíneas asociadas que operan el vuelo.
- **DOT_ID_Marketing_Airline**: Identificación del Departamento de Transporte (DOT) de la aerolínea de marketing.
- **IATA_Code_Marketing_Airline**: Código IATA de la aerolínea de marketing.
- **Flight_Number_Marketing_Airline**: Número del vuelo asignado por la aerolínea de marketing.
- **Operating_Airline**: Aerolínea que opera físicamente el vuelo.
- **DOT_ID_Operating_Airline**: Identificación del DOT de la aerolínea operativa.
- **IATA_Code_Operating_Airline**: Código IATA de la aerolínea operativa.

### Información de la aeronave
- **Tail_Number**: Matrícula o identificador único de la aeronave.
- **Flight_Number_Operating_Airline**: Número del vuelo asignado por la aerolínea operativa.

### Información del aeropuerto de origen
- **OriginAirportID**: Identificador único del aeropuerto de origen.
- **OriginAirportSeqID**: Secuencia única del aeropuerto de origen.
- **OriginCityMarketID**: Identificador de mercado de la ciudad de origen.
- **OriginCityName**: Nombre de la ciudad del aeropuerto de origen.
- **OriginState**: Abreviación del estado del aeropuerto de origen.
- **OriginStateFips**: Código FIPS del estado del aeropuerto de origen.
- **OriginStateName**: Nombre completo del estado del aeropuerto de origen.
- **OriginWac**: Código WAC (World Area Code) del aeropuerto de origen.

### Información del aeropuerto de destino
- **DestAirportID**: Identificador único del aeropuerto de destino.
- **DestAirportSeqID**: Secuencia única del aeropuerto de destino.
- **DestCityMarketID**: Identificador de mercado de la ciudad de destino.
- **DestCityName**: Nombre de la ciudad del aeropuerto de destino.
- **DestState**: Abreviación del estado del aeropuerto de destino.
- **DestStateFips**: Código FIPS del estado del aeropuerto de destino.
- **DestStateName**: Nombre completo del estado del aeropuerto de destino.
- **DestWac**: Código WAC (World Area Code) del aeropuerto de destino.

### Indicadores de retraso en la salida
- **DepDel15**: Indica si el vuelo tuvo un retraso mayor a 15 minutos en la salida (1 = Sí, 0 = No).
- **DepartureDelayGroups**: Clasificación del retraso en la salida por grupos de tiempo.
- **DepTimeBlk**: Bloque horario de la salida (por ejemplo, "0700-0759").

### Información de movimientos de la aeronave
- **TaxiOut**: Tiempo en minutos que la aeronave estuvo en la pista antes de despegar.
- **WheelsOff**: Hora en que las ruedas dejaron la pista durante el despegue.
- **WheelsOn**: Hora en que las ruedas tocaron la pista durante el aterrizaje.
- **TaxiIn**: Tiempo en minutos que la aeronave estuvo en la pista después de aterrizar.

### Indicadores de retraso en la llegada
- **CRSArrTime**: Hora programada de llegada (horario planificado).
- **ArrDel15**: Indica si el vuelo tuvo un retraso mayor a 15 minutos en la llegada (1 = Sí, 0 = No).
- **ArrivalDelayGroups**: Clasificación del retraso en la llegada por grupos de tiempo.
- **ArrTimeBlk**: Bloque horario de la llegada (por ejemplo, "0700-0759").

### Otros indicadores
- **DistanceGroup**: Clasificación de la distancia del vuelo por grupos.
- **DivAirportLandings**: Número de aterrizajes no programados en aeropuertos de desvío.

In [6]:
print('Our dataframe contains {} rows and it has {} features.'.format(len(df), df.shape[1]))

Our dataframe contains 29193782 rows and it has 61 features.


---

## 2.2 Identifying Duplicated and Null Values

In [7]:
df.describe()

Unnamed: 0,FlightDate,CRSDepTime,DepTime,DepDelayMinutes,DepDelay,ArrTime,ArrDelayMinutes,AirTime,CRSElapsedTime,ActualElapsedTime,Distance,Year,Quarter,Month,DayofMonth,DayOfWeek,DOT_ID_Marketing_Airline,Flight_Number_Marketing_Airline,DOT_ID_Operating_Airline,Flight_Number_Operating_Airline,OriginAirportID,OriginAirportSeqID,OriginCityMarketID,OriginStateFips,OriginWac,DestAirportID,DestAirportSeqID,DestCityMarketID,DestStateFips,DestWac,DepDel15,DepartureDelayGroups,TaxiOut,WheelsOff,WheelsOn,TaxiIn,CRSArrTime,ArrDelay,ArrDel15,ArrivalDelayGroups,DistanceGroup,DivAirportLandings
count,29193782,29193780.0,28432130.0,28430700.0,28430700.0,28407600.0,28347600.0,28341220.0,29193760.0,28348140.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,29193780.0,28430700.0,28430700.0,28413220.0,28413230.0,28400650.0,28400640.0,29193780.0,28347600.0,28347600.0,28347600.0,29193780.0,29193690.0
mean,2020-04-23 22:27:03.485606,1326.262,1329.296,12.78311,9.306866,1468.046,12.80992,109.0875,138.7605,133.2941,779.7346,2019.829,2.448568,6.32784,15.75161,3.974879,19827.93,2691.383,20001.73,2691.343,12676.3,1267634.0,31761.09,27.29479,54.78744,12676.28,1267632.0,31761.11,27.29502,54.7876,0.1727673,-0.01609496,16.71094,1352.845,1463.262,7.532169,1489.004,3.60937,0.1766207,-0.2887085,3.593297,0.003505826
min,2018-01-01 00:00:00,1.0,1.0,0.0,-1280.0,1.0,0.0,-1244.0,-292.0,-1228.0,16.0,2018.0,1.0,1.0,1.0,1.0,19393.0,1.0,19393.0,1.0,10135.0,1013505.0,30070.0,1.0,1.0,10135.0,1013505.0,30070.0,1.0,1.0,0.0,-2.0,0.0,1.0,1.0,0.0,1.0,-1290.0,0.0,-2.0,1.0,0.0
25%,2019-03-18 00:00:00,918.0,920.0,0.0,-6.0,1055.0,0.0,59.0,88.0,82.0,354.0,2019.0,1.0,3.0,8.0,2.0,19790.0,1100.0,19790.0,1100.0,11292.0,1129202.0,30693.0,12.0,34.0,11292.0,1129202.0,30693.0,12.0,34.0,0.0,-1.0,11.0,935.0,1051.0,4.0,1108.0,-16.0,0.0,-2.0,2.0,0.0
50%,2020-02-08 00:00:00,1320.0,1323.0,0.0,-3.0,1505.0,0.0,91.0,121.0,116.0,626.0,2020.0,2.0,6.0,16.0,4.0,19805.0,2294.0,19977.0,2294.0,12889.0,1288903.0,31453.0,26.0,45.0,12889.0,1288903.0,31453.0,26.0,45.0,0.0,-1.0,14.0,1336.0,1501.0,6.0,1515.0,-7.0,0.0,-1.0,3.0,0.0
75%,2021-07-17 00:00:00,1730.0,1736.0,5.0,5.0,1910.0,6.0,138.0,169.0,164.0,1014.0,2021.0,3.0,9.0,23.0,6.0,19977.0,4256.0,20378.0,4255.0,14057.0,1405702.0,32575.0,42.0,82.0,14057.0,1405702.0,32575.0,42.0,82.0,0.0,0.0,19.0,1750.0,1905.0,9.0,1915.0,6.0,0.0,0.0,5.0,0.0
max,2022-07-31 00:00:00,2359.0,2400.0,7223.0,7223.0,2400.0,7232.0,1557.0,1645.0,1604.0,5812.0,2022.0,4.0,12.0,31.0,7.0,21171.0,9888.0,21171.0,9888.0,16869.0,1686901.0,36133.0,78.0,93.0,16869.0,1686901.0,36133.0,78.0,93.0,1.0,12.0,1394.0,2400.0,2400.0,316.0,2400.0,7232.0,1.0,12.0,11.0,9.0
std,,482.3463,494.975,46.17337,47.28011,525.6177,45.79959,69.06669,70.77316,70.77803,581.2739,1.342521,1.121206,3.452305,8.778879,2.002314,277.6015,1838.753,391.203,1838.766,1525.445,152544.4,1325.101,16.65589,26.41226,1525.449,152544.7,1325.096,16.65599,26.41233,0.378046,2.164261,9.391262,496.1827,521.5568,6.092501,507.288,49.27916,0.3813474,2.306356,2.287532,0.1127534


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29193782 entries, 0 to 29193781
Data columns (total 61 columns):
 #   Column                                   Dtype         
---  ------                                   -----         
 0   FlightDate                               datetime64[us]
 1   Airline                                  object        
 2   Origin                                   object        
 3   Dest                                     object        
 4   Cancelled                                bool          
 5   Diverted                                 bool          
 6   CRSDepTime                               int64         
 7   DepTime                                  float64       
 8   DepDelayMinutes                          float64       
 9   DepDelay                                 float64       
 10  ArrTime                                  float64       
 11  ArrDelayMinutes                          float64       
 12  AirTime                   

***Coclusion:***

Nuestro data frame contiene los siguientes tipos de datos:

- ``Booleanos`` --> 2
- ``Date time`` --> 1
- ``Float``     --> 19
- ``Integer``   --> 22
- ``String``    --> 17



In [9]:
df.isna().sum()[df.isna().sum()>0]

DepTime                 761652
DepDelayMinutes         763084
DepDelay                763084
ArrTime                 786177
ArrDelayMinutes         846183
AirTime                 852561
CRSElapsedTime              22
ActualElapsedTime       845637
Tail_Number             267613
DepDel15                763084
DepartureDelayGroups    763084
TaxiOut                 780561
WheelsOff               780551
WheelsOn                793133
TaxiIn                  793143
ArrDelay                846183
ArrDel15                846183
ArrivalDelayGroups      846183
DivAirportLandings          90
dtype: int64

***Conclusion:***

De aproximadamente 29M de filas al rededor de 850k de ellas tienen valores nulos. Lo que significa que tenemos aproximadamente un 2,9% de valores nulos en toda nuestra base de datos

Sabiendo estos numeros lo que haremos seremos eliminarlos para que no afecte en el analisis de datos. Esta decision fue tomada considerando que al ser un porcentaje tan bajo no afectara al momento del analisis

## 2.3 Eliminating Irrelevant Features and dealing with null values

In [10]:
print("Hola Mundo")

Hola Mundo
