# Predicting Flight Delays

# 0. SETTINGS

## 0-1. Import packages and modules

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import scipy as sp
import matplotlib as mpl
import matplotlib.pyplot as plt
import datetime
import math
%matplotlib inline

#font configuration
import matplotlib.font_manager as fm
font_location = "/Library/Fonts/AppleGothic.ttf"
font_name = fm.FontProperties(fname=font_location).get_name()
mpl.rc('font', family=font_name)


## 0-2. Import CSV files

In [None]:
data_flights = pd.read_csv('./flights.csv')
data_airplanes = pd.read_csv('./airlines.csv')
data_airports = pd.read_csv('./airports.csv')

# 1. Preparation of Data

## 1-1. TimeSetting
1. data_flights data의 날짜 Year, Month, Day를 한 feature로 만듭니다.
    - 연/월/일 형태
2. data_flights data의 시각정보인 `SCHEDULED_DEPARTURE`, `DEPARTURE_TIME`을 시각 표시인 **00:00** 로 변경합니다.

1. data_flights의 `YEAR_MONTH_DAY` column 생성

In [None]:
data_flights['YEAR_MONTH_DAY'] = pd.to_datetime(data_flights[['YEAR', 'MONTH', 'DAY']], format='%y/%m/%d')

2. `SCHEDULED_DEPARTURE` 과 `DEPARTURE_TIME` 을 **00:00** 시각표시로 변경
    - 시각 data의 format 을 변경해주는 함수 `converting_timeformat`

In [None]:
def converting_timeformat(series):
    """
    data 상에 시각 표현을 00:00:00 형태로 변경하는 함수입니다.
    parameter: type: series. format 을 변경하고 싶은 dataframe의 series를 넣어줍니다.
    return : type: pandas.core.series.Series
    """
    converted_timelist = []
    for i in range(series.shape[0]):
        if math.isnan(series[i]):
            converted_timelist.append(math.nan)
        else:
            padding = "{:04d}".format(int(series[i]))
            #24:00 이면, 00:00 로 바꿔줍니다. 날짜 처리 얘기해봐야됩니다.
            if padding == "2400":
                padding = "0000"
            new_time_format = datetime.time(int(padding[0:2]), int(padding[2:4]))
            converted_timelist.append(new_time_format)
    
    return pd.Series(converted_timelist)
    

In [None]:
data_flights['formatted_SCHEDULED_DEPARTURE'] = converting_timeformat(data_flights['SCHEDULED_DEPARTURE'])

In [None]:
data_flights['formatted_DEPARTURE_TIME'] = converting_timeformat(data_flights['DEPARTURE_TIME'])