# Data Preprocessing

## import

In [None]:
# pip install scikit-learn
# pip install fastparquet

In [None]:
import pandas as pd
import numpy as np

pd.set_option('mode.chained_assignment',  None) # <==== 경고를 끈다

## Read Data

### CSV to Parquet

In [None]:
# 처음에만 한번 실행. run only at first
# def seed_everything(seed):
#     random.seed(seed)
#     os.environ['PYTHONHASHSEED'] = str(seed)
#     np.random.seed(seed)
# seed_everything(42) # Seed 고정

# def csv_to_parquet(csv_path, save_name):
#     df = pd.read_csv(csv_path)
#     df.to_parquet(f'./{save_name}.parquet')
#     del df
#     gc.collect()
#     print(save_name, 'Done.')
    
# csv_to_parquet('./open/train.csv', 'train')
# csv_to_parquet('./open/test.csv', 'test')

In [None]:
train = pd.read_parquet('./train.parquet')
test = pd.read_parquet('./test.parquet')
sample_submission = pd.read_csv('./open/sample_submission.csv', index_col = 0)

In [None]:
# Dataset Info.

# train.csv [파일]
# 1,000,000개의 데이터
# ID : 샘플 고유 id
# 항공편 운항 관련 정보
# Month: 해당 항공편의 출발 월
# Day_of_Month: Month에 해당하는 월의 날짜
# Estimated_Departure_Time: 전산 시스템을 바탕으로 측정된 비행기의 출발 시간 (현지 시각, HH:MM 형식)
# Estimated_Arrival_Time: 전산 시스템을 바탕으로 측정된 비행기의 도착 시간 (현지 시각, HH:MM 형식)
# Cancelled: 해당 항공편의 취소 여부 (0: 취소되지 않음, 1: 취소됨)
# Diverted: 해당 항공편의 경유 여부 (0: 취소되지 않음, 1: 취소됨)
# Origin_Airport: 해당 항공편 출발 공항의 고유 코드 (IATA 공항 코드)
# Origin_Airport_ID: 해당 항공편 출발 공항의 고유 ID (US DOT ID)
# Origin_State: 해당 항공편 출발 공항이 위치한 주의 이름
# Destination_Airport: 해당 항공편 도착 공항의 고유 코드 (IATA 공항 코드)
# Destination_Airport_ID: 해당 항공편 도착 공항의 고유 ID (US DOT ID)
# Destination_State: 해당 항공편 도착 공항이 위치한 주의 이름
# Distance: 출발 공항과 도착 공항 사이의 거리 (mile 단위)
# Airline: 해당 항공편을 운항하는 항공사
# Carrier_Code(IATA): 해당 항공편을 운항하는 항공사의 고유 코드 
# (IATA 공항 코드, 단 다른 항공사가 같은 코드를 보유할 수도 있음)
# Carrier_ID(DOT): 해당 항공편을 운항하는 항공사의 고유 ID (US DOT ID)
# Tail_Number: 해당 항공편을 운항하는 항공기의 고유 등록번호
# Delay: 항공편 지연 여부 (Not_Delayed, Delayed)
# 예측해야 하는 타깃
# 다수의 데이터에 레이블이 존재하지 않음
# 준지도학습을 통해 레이블링 가능


# test.csv [파일]
# 1,000,000개의 데이터
# ID : 샘플 고유 id
# 항공편 운항 관련 정보
# Month: 해당 항공편의 출발 월
# Day_of_Month: Month에 해당하는 월의 날짜
# Estimated_Departure_Time: 전산 시스템을 바탕으로 측정된 비행기의 출발 시간 (현지 시각, HH:MM 형식)
# Estimated_Arrival_Time: 전산 시스템을 바탕으로 측정된 비행기의 도착 시간 (현지 시각, HH:MM 형식)
# Cancelled: 해당 항공편의 취소 여부 (0: 취소되지 않음, 1: 취소됨)
# Diverted: 해당 항공편의 경유 여부 (0: 취소되지 않음, 1: 취소됨)
# Origin_Airport: 해당 항공편 출발 공항의 고유 코드 (IATA 공항 코드)
# Origin_Airport_ID: 해당 항공편 출발 공항의 고유 ID (US DOT ID)
# Origin_State: 해당 항공편 출발 공항이 위치한 주의 이름
# Destination_Airport: 해당 항공편 도착 공항의 고유 코드 (IATA 공항 코드)
# Destination_Airport_ID: 해당 항공편 도착 공항의 고유 ID (US DOT ID)
# Destination_State: 해당 항공편 도착 공항이 위치한 주의 이름
# Distance: 출발 공항과 도착 공항 사이의 거리 (mile 단위)
# Airline: 해당 항공편을 운항하는 항공사
# Carrier_Code(IATA): 해당 항공편을 운항하는 항공사의 고유 코드 
# (IATA 공항 코드, 단 다른 항공사가 같은 코드를 보유할 수도 있음)
# Carrier_ID(DOT): 해당 항공편을 운항하는 항공사의 고유 ID (US DOT ID)
# Tail_Number: 해당 항공편을 운항하는 항공기의 고유 등록번호

In [None]:
test.head(5)

In [None]:
train.head(5)

In [None]:
train.shape,test.shape # train includes delady column

In [None]:
train.info(),test.info()

In [None]:
# 유일값 확인
'****** train ******',train.nunique(),'****** test ******',test.nunique()

In [None]:
# Cancelled는 Diverted 모두 1이므로 삭제해도 무방

col_drop=['Cancelled','Diverted' ]
train=train.drop(col_drop,axis=1)
test=test.drop(col_drop,axis=1)

In [None]:
train.groupby(['Origin_Airport']).get_group('EWR')

## NaN

In [None]:
# ID : 샘플 고유 id
# 항공편 운항 관련 정보
# Month: 해당 항공편의 출발 월
# Day_of_Month: Month에 해당하는 월의 날짜

## Estimated_Departure_Time: 전산 시스템을 바탕으로 측정된 비행기의 출발 시간 (현지 시각, HH:MM 형식)
## Estimated_Arrival_Time: 전산 시스템을 바탕으로 측정된 비행기의 도착 시간 (현지 시각, HH:MM 형식)
## 출발시간 도착시간은 연착되지 않은 유사 항공편 데이터를 이용해본다

# Cancelled: 해당 항공편의 취소 여부 (0: 취소되지 않음, 1: 취소됨)
# Diverted: 해당 항공편의 경유 여부 (0: 취소되지 않음, 1: 취소됨)
# Origin_Airport: 해당 항공편 출발 공항의 고유 코드 (IATA 공항 코드)
# Origin_Airport_ID: 해당 항공편 출발 공항의 고유 ID (US DOT ID)

## Origin_State: 해당 항공편 출발 공항이 위치한 주의 이름
## 주의 이름은 출발 공항의 고유 코드가 같은 행을 찾아 주의 이름을 입력 but 공항코드가 있다면 굳이 필요치 않은 행으로 간주된다

# Destination_Airport: 해당 항공편 도착 공항의 고유 코드 (IATA 공항 코드)
# Destination_Airport_ID: 해당 항공편 도착 공항의 고유 ID (US DOT ID)

## Destination_State: 해당 항공편 도착 공항이 위치한 주의 이름
## Origin_State와 같은 맥락

# Distance: 출발 공항과 도착 공항 사이의 거리 (mile 단위)

## Airline: 해당 항공편을 운항하는 항공사
## Airline는 Carrier_ID와 같은 값일듯?

## Carrier_Code(IATA): 해당 항공편을 운항하는 항공사의 고유 코드 (IATA 공항 코드, 단 다른 항공사가 같은 코드를 보유할 수도 있음)
## 다른 항공사와 중복된 코드가 의미가 있을까? trail_number와 Airline을 둘다 안다면 값을 넣을수 있을듯?

## Carrier_ID(DOT): 해당 항공편을 운항하는 항공사의 고유 ID (US DOT ID)
## 항공사의 고유 ID는 Airline과 같은 값일듯?


# Tail_Number: 해당 항공편을 운항하는 항공기의 고유 등록번호
## Delay: 항공편 지연 여부 (Not_Delayed, Delayed)

In [None]:
# train NaN
pd.isnull(train).sum()

In [None]:
# test NaN
pd.isnull(test).sum()

### Time NaN

Estimated_Departure_Time: 전산 시스템을 바탕으로 측정된 비행기의 출발 시간 (현지 시각, HH:MM 형식)  
Estimated_Arrival_Time: 전산 시스템을 바탕으로 측정된 비행기의 도착 시간 (현지 시각, HH:MM 형식)  
- 출발시간 도착시간은 연착된, 연착되지 않은 항공편 데이터를 이용한다.  
- 비행시간을 알아본다 > 시분을 합쳐야하며, 날짜가 바뀌는 경우에 대처해야함 > 출발시간 - 도착시간 평균값을 구한다  
- 두가지 경우의 수를 모두 생각하여. 연착된것과 연착되지않은 것에 대입해야한다.  
- 출발시간 혹은 도착시간만 알 때는 평균값을 이용하여 넣어준다.
- 둘다 모를 때는 출발시간 최빈값을 넣어본다.

In [None]:
train['Estimated_Departure_Time'].count()

#### HH:MM -> MM

In [None]:
def to_minutes(x):
    if np.isnan(x):
        return x
    else :
        x=str(int(x))
        if len(x)>2:
            h,m = int(x[:-2]),int(x[-2:])
        else:
            h,m = 0,int(x[-2:])
        return h*60+m

In [None]:
train['dep_time']=0
train['Arr_time']=0
test['dep_time']=0
test['Arr_time']=0

train['dep_time']=train['Estimated_Departure_Time'].apply(to_minutes)
train['Arr_time']=train['Estimated_Arrival_Time'].apply(to_minutes)
test['dep_time']=test['Estimated_Departure_Time'].apply(to_minutes)
test['Arr_time']=test['Estimated_Arrival_Time'].apply(to_minutes)

#### race_time = Arr_time - dep_time

In [None]:
train['race_time']=0
test['race_time']=0

x = [train,test]

for j in x :
    for i in range(len(j)):
        
        if j['dep_time'][i] < j['Arr_time'][i]:
            j['race_time'][i]=j['Arr_time'][i]-j['dep_time'][i]

        else :
            j['race_time'][i]=24*60+j['Arr_time'][i]-j['dep_time'][i]


In [None]:
train.head(5)

#### 평균 ( 지연된 것과 지연되지 않은 것)

race_time 이 NaN일 경우 찾기  
같은 경로를 운행한 비행기를 찾아야함  
Origin_Airport_ID와 Destination_Airport_ID 정도로 검색이 가능. 이때 delay not delay 포함해야함 -> 비행기 성능차이는 구분하기 힘듬  
NaN 행의 delay, not delay 확인해서 평균값을 넣어줌
dep time arr time 둘다 NaN 이면 ? -> delay 여부까지 모른다면 헬이다. 다빼는게 맞나?

In [None]:
train['Delay'].unique()

In [None]:
train['Delay'].value_counts()

In [None]:
train.groupby('Delay').get_group('Delayed')[(train['Origin_Airport_ID']==11278)&(train['Destination_Airport_ID']==14122)]['race_time'].mean()

race 는 평균 값 혹은 최빈 값으로 넣고  
dep와 arr을 추적

1. dep | arr 만 nan 인 경우  
2. dep & arr nan 인 경우  

race = arr - dep  
dep = arr - race  
arr = race + dep

In [None]:
# 너무 느림. nan 파일을 따로 나누어서 하는게 맞을듯

# x=[train,test]

# # only dep in nan
# for i in x:
#     for j in range(len(i)):
#         if np.isnan(i['race_time'][j]): # race NaN 검색
            
#             if np.isnan(i['dep_time'][j]): # only dep NaN 검색
#                 if not np.isnan(i['Arr_time'][j]): # Arr not NaN 검색
                    
#                     if i['Delay'][j] == 'Delayed':# delayed
#                         i['race_time'][j]=i.groupby('Delay').get_group('Delayed')\
#                             [(i['Origin_Airport_ID']==i['Origin_Airport_ID'][j])&(i['Destination_Airport_ID']==i['Destination_Airport_ID'][j])]['race_time'].mean()
#                         i['dep_time'][j]=i['Arr_time'][j]-i['race_time'][j]
                        
#                         if i['dep_time'][j] < 0: # 날짜가 변경되면 출발시간에 24시간을 더해줘야함
#                             i['dep_time'][j] += 24*60
                            
#                     if i['Delay'][j] == 'Not_Delayed':# not_delayed
#                         i['race_time'][j]=i.groupby('Delay').get_group('Not_Delayed')\
#                             [(i['Origin_Airport_ID']==i['Origin_Airport_ID'][j])&(i['Destination_Airport_ID']==i['Destination_Airport_ID'][j])]['race_time'].mean()
#                         i['dep_time'][j]=i['Arr_time'][j]-i['race_time'][j]
                        
#                         if i['dep_time'][j] < 0:
#                             i['dep_time'][j] += 24*60
                            
#             if np.isnan(i['Arr_time'][j]): # only Arr NaN 검색
#                     if not np.isnan(i['dep_time'][j]): # dep not NaN 검색
                        
#                         if i['Delay'][j] == 'Delayed':# delayed
#                             i['race_time'][j]=i.groupby('Delay').get_group('Delayed')\
#                                 [(i['Origin_Airport_ID']==i['Origin_Airport_ID'][j])&(i['Destination_Airport_ID']==i['Destination_Airport_ID'][j])]['race_time'].mean()
#                             i['Arr_time'][j]=i['race_time'][j]+i['dep_time'][j]
                            
#                             if i['Arr_time'][j] >= 24*60 : # 합이 자정(00:00)이상이면 빼줘야함
#                                 i['Arr_time'][j] -= 24*60
                                
#                         if i['Delay'][j] == 'Not_Delayed':# not_delayed
#                             i['race_time'][j]=i.groupby('Delay').get_group('Not_Delayed')\
#                                 [(i['Origin_Airport_ID']==i['Origin_Airport_ID'][j])&(i['Destination_Airport_ID']==i['Destination_Airport_ID'][j])]['race_time'].mean()
#                             i['Arr_time'][j]=i['race_time'][j]+i['dep_time'][j]
                            
#                             if i['Arr_time'][j] >= 24*60 : # 합이 자정(00:00)이상이면 빼줘야함
#                                 i['Arr_time'][j] -= 24*60

### Delay NaN

In [None]:
train['Delay'].unique()

In [None]:
train['Delay'].value_counts()

In [None]:
train['Delay'].count() # Not_Delayed + Delayed

In [None]:
pd.isnull(train['Delay']).sum() # Nan