## Dacon 1등 참고

**다른점**

1. 출발, 도착 예정시각 둘 다 null인 것을 null category로 이용


**새로 해볼 전처리들**
1. 출발, 도착 예정시각 전처리를 airport 이용해서 진행하기

### import

In [19]:
import random
import os
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split, StratifiedKFold, GridSearchCV
from catboost import CatBoostClassifier, Pool
from collections import defaultdict


def seed_everything(seed):
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)

seed_everything(42) # Fixed Seed

### Data Load

In [32]:
import pandas as pd
train = pd.read_parquet('./data/train_preprocess_2.parquet')
# test = pd.read_parquet('./test.parquet')
test = pd.read_parquet('./data/test_preprocess_2.parquet')
sample_submission = pd.read_csv('sample_submission.csv', index_col = 0)

print(train.shape)
print(train.Delay.value_counts())

(1000000, 19)
Not_Delayed    210001
Delayed         45000
Name: Delay, dtype: int64


## 1. Month, Days 처리

Month를 없애고, Days를 1~366으로 사용

In [33]:
def to_days(x):
    month_to_days = {1:0, 2:31, 3:60, 4:91, 5:121, 6:152, 7:182, 8:213, 9:244, 10:274, 11:305, 12:335}
    return month_to_days[x]

train.loc[:, 'Day'] = train['Month'].apply(lambda x: to_days(x))
train['Day'] = train['Day'] + train['Day_of_Month']

test.loc[:, 'Day'] = test['Month'].apply(lambda x: to_days(x))
test['Day'] = test['Day'] + test['Day_of_Month']

train = train.astype({'Day':object})
test = test.astype({'Day':object})

print("Day Done.")
train.head()

Day Done.


Unnamed: 0,ID,Month,Day_of_Month,Estimated_Departure_Time,Estimated_Arrival_Time,Cancelled,Diverted,Origin_Airport,Origin_Airport_ID,Origin_State,Destination_Airport,Destination_Airport_ID,Destination_State,Distance,Airline,Carrier_Code(IATA),Carrier_ID(DOT),Tail_Number,Delay,Day
0,TRAIN_000000,4,15,,,0,0,OKC,13851,Oklahoma,HOU,12191,Texas,419.0,Southwest Airlines Co.,WN,19393.0,N7858A,,106
1,TRAIN_000001,8,15,740.0,1024.0,0,0,ORD,13930,Illinois,SLC,14869,Utah,1250.0,SkyWest Airlines Inc.,UA,20304.0,N125SY,,228
2,TRAIN_000002,9,6,1610.0,1805.0,0,0,CLT,11057,North Carolina,LGA,12953,New York,544.0,American Airlines Inc.,AA,19805.0,N103US,,250
3,TRAIN_000003,7,10,905.0,1735.0,0,0,LAX,12892,California,EWR,11618,New Jersey,2454.0,United Air Lines Inc.,UA,19977.0,N595UA,,192
4,TRAIN_000004,1,11,900.0,1019.0,0,0,SFO,14771,California,ACV,10157,California,250.0,SkyWest Airlines Inc.,UA,20304.0,N161SY,,11


## 2. 결측치처리1 - State
이미 했음

## 3. 결측치처리2 - Carrier_ID(DOT) 
이미한 것 + 추가처리


+ **Airline - Carrier_ID(DOT)  페어로 진행**

+ Airline - Carrier_Code(IATA)
    Airline - Carrier_Code(IATA)는 Airline에 따라 값이 여러개인 것이 많아서 생략

+ Tail_Number - Carrier_Code(IATA) or Carrier_ID(DOT)
    Tail_Number 마다 값 여러개인 것 많아서 이용하지 않음

### 3.1. 복구안된 row 빼기

In [47]:
# 복구 안 된 row 빼기
print(train.isnull().sum())
train = train.dropna(subset=['Carrier_ID(DOT)'], how='any', axis=0)
print(train.isnull().sum())

ID                             0
Origin_Airport_ID              0
Destination_Airport_ID         0
Distance                       0
Carrier_ID(DOT)            11745
Tail_Number                    0
Delay                     736342
Day                            0
EDT                            0
EAT                            0
dtype: int64
ID                             0
Origin_Airport_ID              0
Destination_Airport_ID         0
Distance                       0
Carrier_ID(DOT)                0
Tail_Number                    0
Delay                     727546
Day                            0
EDT                            0
EAT                            0
dtype: int64


### 3.2. Test Data 처리

test data의 경우 복구 안 된 row를 빼 버리면 안됩니다. 복구 안된 row도 예측을 해야되기 때문이죠. 따라서, Airline, Carrier_ID(DOT) 둘 다 없는 row는 Carrier_ID(DOT)에 최빈 값의 Carrier_ID(DOT)을 채워주도록 하자

In [52]:
# Airline, Carrier_Code 둘 다 없으면 최빈 값으로 대체
NaN_col = ['Carrier_ID(DOT)']
cond = test['Carrier_ID(DOT)'].isnull()

for col in NaN_col:
    mode = test[col].mode()[0]
    test.loc[cond, col] = mode

print("Cid Done.")

Cid Done.


In [53]:
test.isnull().sum()

ID                        0
Origin_Airport_ID         0
Destination_Airport_ID    0
Distance                  0
Carrier_ID(DOT)           0
Tail_Number               0
Day                       0
EDT                       0
EAT                       0
dtype: int64

## 4. 제거할 Columns 제거

+ Month, Day_of_Month 는 Day의 데이터로 합쳐졌으니 제거합니다.
+ Cancelled, Diverted 는 모두 0이므로 의미없는 값이므로 제거합니다.
+ Origin_Airport, Destination_Airport 는 Origin_Airport_ID와 Destination_Airport_ID와 1대1대응 이므로 제거합니다.
+ Carrier_Code(IATA)는 Airline 별로 N:1로 할당 된 값이므로, 큰 의미가 없습니다. 제거합니다.
+ ~~State 정보 보다는 Origin_Airport_ID가 중요하다고 생각되어서 (미국 주는 너무 커서 의미가 없다고 생각했음) 제거했습니다.~~

In [34]:
col_drop = ['Month', 'Day_of_Month', 'Cancelled', 'Diverted', 'Origin_Airport', 'Destination_Airport', 'Carrier_Code(IATA)', 'Airline', 'Origin_State', 'Destination_State']
train = train.drop(col_drop, axis=1)
test = test.drop(col_drop, axis=1)
print("Drop Done.")

Drop Done.


## 5. Estimated Departure Time (EDT), Estimated Arrival Time (EAT) 복구

Airline, Carrier_ID(DOT)의 경우와 비슷하게 EDT → EAT 복구, EAT → EDT 복구가 가능합니다.
복구 방법은 결측치가 없는 Origin_Airport_ID → Destination_Airport_ID 의 정보를 이용하는 것 입니다.
본 데이터를 살펴보신분들은 아시겠지만, EDT보다 EAT가 낮은 경우도 있습니다. (-시차 때문에 발생) 하지만, 이것과 별개로 특정 출발지 → 도착지의 관계에서는 EAT-EDT가 평균적으로 비슷할 것 입니다. (마이너스인 경우에도 항상 마이너스기 때문에 비슷할 것) 언제 출발이던 인천 → 오사카의 걸리는 시간은 비슷하기 때문입니다.
따라서 기존 데이터로부터 Origin_Airport_ID (=OAID), Origin_Departure_ID (=ODID)의 쌍에 대해 걸리는 평균 시간을 구하면 EDT, EAT 둘 중 하나만 알고 있으면 서로 데이터 복구가 가능합니다.
이 과정에서, 계산을 용이하게 하기 위해 hour:minute의 데이터를 모두 minute으로 변경해주었고 (하루 24시 = 1440분) 이 과정에서 EAT-EDT 했을 때, 음수가 나올 수 있는데 이것을 처리하기 위해 modular 연산을 이용했습니다.

### 5.1. Arrival Time & Departure Time 둘 다 60분 * 24 = 1440 계로 바꿔주기

In [35]:
def to_minutes(x):
    x = int(x)
    x = str(x)
    if len(x) > 2:
        hours, mins = int(x[:-2]), int(x[-2:])
    else:
        hours, mins = 0, int(x[-2:])
    return hours*60+mins

estimated_times = ['Estimated_Departure_Time', 'Estimated_Arrival_Time']

for ET in estimated_times:
    cond = ~train[ET].isnull()
    train.loc[cond, ET] = train.loc[cond, ET].apply(lambda x: to_minutes(x))
    cond2 = ~test[ET].isnull()
    test.loc[cond2, ET] = test.loc[cond2, ET].apply(lambda x: to_minutes(x))

### 5.2. EAT, EDT 모두 없는 값은 Training에 도움이 안 되므로 빼주기

In [36]:
train = train.dropna(subset=['Estimated_Arrival_Time', 'Estimated_Departure_Time'], how ='all', axis=0)

### 5.3. (OAID, DAID)를 키로 갖고, 평균 비행시간을 값으로 갖는 dictionary 만들기

In [37]:
from collections import defaultdict
time_flying = defaultdict(int)  # 비행 시간 합 저장 후 평균 비해 시간 저장
time_number = defaultdict(int)  # 비행 횟수 저장

cond_arr2 = ~train['Estimated_Arrival_Time'].isnull()
cond_dep2 = ~train['Estimated_Departure_Time'].isnull()

for _, row in train.loc[cond_arr2 & cond_dep2, :].iterrows():
    OAID, DAID = row['Origin_Airport_ID'], row['Destination_Airport_ID']
    time_flying[(OAID,DAID)] += (row['Estimated_Arrival_Time'] - row['Estimated_Departure_Time'])%1440 # 하루 최대는 1440분
    time_number[(OAID,DAID)] += 1
    
    
for key in time_flying.keys():
    time_flying[key] /= time_number[key]

### 5.4. Dictionary를 이용해 EAT, EDT 복구

In [38]:
for index, row in train.loc[train['Estimated_Departure_Time'].isnull(),].iterrows():
    OAID, DAID = row['Origin_Airport_ID'], row['Destination_Airport_ID']
    train.loc[index,'Estimated_Departure_Time'] = \
        (train.loc[index]['Estimated_Arrival_Time'] - time_flying[(OAID, DAID)])%1440
    
for index, row in train.loc[train['Estimated_Arrival_Time'].isnull(),].iterrows():
    OAID, DAID = row['Origin_Airport_ID'], row['Destination_Airport_ID']
    train.loc[index,'Estimated_Arrival_Time'] = \
        (train.loc[index]['Estimated_Departure_Time'] + time_flying[(OAID, DAID)])%1440

### 5.5. Test Data 처리
test data의 경우 복구 안 된 row를 빼 버리면 안됩니다. 복구 안된 row도 예측을 해야되기 때문이죠.

~~따라서, EAT, EDT 둘 다 없는 row는 각각의 최빈값을 채워주도록 하고 나머지는 복구를 해줍니다.~~

EAT, EDT 둘 다 없는 row는 9999로 대체후 추후 null로 바꾸기

In [39]:
# (Test Data Only)
# 둘 다 없으면 9999로 우선 대체
cond_1 = test['Estimated_Departure_Time'].isnull()
cond_2 = test['Estimated_Arrival_Time'].isnull()

# mode = test['Estimated_Departure_Time'].mode()[0]
# mode2 = test['Estimated_Arrival_Time'].mode()[0]
mode = 9999
mode2 = 9999
test.loc[cond_1&cond_2, ['Estimated_Departure_Time', 'Estimated_Arrival_Time']] = mode, mode2


# Departure만 없을 때,
for index, row in test.loc[test['Estimated_Departure_Time'].isnull(),].iterrows():
    OAID, DAID = row['Origin_Airport_ID'], row['Destination_Airport_ID']
    test.loc[index,'Estimated_Departure_Time'] = \
        (test.loc[index]['Estimated_Arrival_Time'] - time_flying[(OAID, DAID)])%1440
    

# Arrival만 없을 때,
for index, row in test.loc[test['Estimated_Arrival_Time'].isnull(),].iterrows():
    OAID, DAID = row['Origin_Airport_ID'], row['Destination_Airport_ID']
    test.loc[index,'Estimated_Arrival_Time'] = \
        (test.loc[index]['Estimated_Departure_Time'] + time_flying[(OAID, DAID)])%1440

    
# 모두 int로 바꾼다.
estimated_times = ['Estimated_Departure_Time', 'Estimated_Arrival_Time']
train = train.astype({'Estimated_Departure_Time':int, 'Estimated_Arrival_Time':int})
test = test.astype({'Estimated_Departure_Time':int, 'Estimated_Arrival_Time':int})
for ET in estimated_times:
    train.loc[train[ET] == 1440, ET] = 0
    test.loc[test[ET] == 1440, ET] = 0


print("EDT, EAT Done.")

EDT, EAT Done.


In [44]:
train.isnull().sum()

ID                             0
Origin_Airport_ID              0
Destination_Airport_ID         0
Distance                       0
Carrier_ID(DOT)            11745
Tail_Number                    0
Delay                     736342
Day                            0
EDT                            0
EAT                            0
dtype: int64

In [45]:
test.isnull().sum()

ID                            0
Origin_Airport_ID             0
Destination_Airport_ID        0
Distance                      0
Carrier_ID(DOT)           11543
Tail_Number                   0
Day                           0
EDT                           0
EAT                           0
dtype: int64

## 6. Object화 for CatBoost

### 6.1. EDT, EAT 처리
특정 시간이 비행기 연착에 영향을 미칠 것으로 생각했습니다. 따라서 EDT, EAT경우 30분 단위로 48개의 bin에 담아서 object화 해주었습니다. 그렇게 함으로써 ordinal한 관계는 전혀 없으면서 비슷한 시간대(30분 단위)는 같은 특성을 갖도록 했습니다.

In [43]:
# EDT, EAT 48개의 bins에 담으면 된다. 1440(60*24) 계니까, 48씩 끊어서 하면 될 듯
estimate_times = ['Estimated_Departure_Time', 'Estimated_Arrival_Time']
names = {'Estimated_Departure_Time':'EDT', 'Estimated_Arrival_Time':'EAT'}
for ET in estimated_times:
    for i in range(48):
        train.loc[train[ET].between(i*30, (i+1)*30, 'left'), names[ET]] = i
        test.loc[test[ET].between(i*30, (i+1)*30, 'left'), names[ET]] = i
    
    train.loc[train[ET].between(9999, 10000, 'left'), names[ET]] = 48
    test.loc[test[ET].between(9999, 10000, 'left'), names[ET]] = 48

train = train.astype({'EDT':int, 'EAT':int})
test = test.astype({'EDT':int, 'EAT':int})

train = train.drop(['Estimated_Departure_Time', 'Estimated_Arrival_Time'], axis=1)
test = test.drop(['Estimated_Departure_Time', 'Estimated_Arrival_Time'], axis=1)

print("EDT, EAT Done.")

EDT, EAT Done.


### 6.2. Distance 및 모든 값 object 처리

In [54]:
for i in range(51):
    train.loc[train['Distance'].between(i*100, (i+1)*100, 'left'), 'Distance'] = i
    test.loc[test['Distance'].between(i*100, (i+1)*100, 'left'), 'Distance'] = i

train = train.astype({'Distance':int})
test = test.astype({'Distance':int})

print("distance Done.")

train = train.astype({'Carrier_ID(DOT)':int})
test = test.astype({'Carrier_ID(DOT)':int})

train = train.astype({'EDT':object, 'EAT':object, 'Distance':object, 'Origin_Airport_ID':object, \
                     'Destination_Airport_ID':object, 'Carrier_ID(DOT)':object})
test = test.astype({'EDT':object, 'EAT':object, 'Distance':object, 'Origin_Airport_ID':object, \
                     'Destination_Airport_ID':object, 'Carrier_ID(DOT)':object})

print("CID Done.")

distance Done.
CID Done.


In [55]:
train.isnull().sum()

ID                             0
Origin_Airport_ID              0
Destination_Airport_ID         0
Distance                       0
Carrier_ID(DOT)                0
Tail_Number                    0
Delay                     727546
Day                            0
EDT                            0
EAT                            0
dtype: int64

In [56]:
test.isnull().sum()

ID                        0
Origin_Airport_ID         0
Destination_Airport_ID    0
Distance                  0
Carrier_ID(DOT)           0
Tail_Number               0
Day                       0
EDT                       0
EAT                       0
dtype: int64

In [58]:
train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 976567 entries, 1 to 999999
Data columns (total 10 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   ID                      976567 non-null  object
 1   Origin_Airport_ID       976567 non-null  object
 2   Destination_Airport_ID  976567 non-null  object
 3   Distance                976567 non-null  object
 4   Carrier_ID(DOT)         976567 non-null  object
 5   Tail_Number             976567 non-null  object
 6   Delay                   249021 non-null  object
 7   Day                     976567 non-null  object
 8   EDT                     976567 non-null  object
 9   EAT                     976567 non-null  object
dtypes: object(10)
memory usage: 82.0+ MB


## 7.결측치 처리한 것 저장

In [57]:
save_idx = input('몇 번째 전처리 방법인지 정수를 입력하세요 : ')
train_save_name = 'train_preprocess_' + save_idx
test_save_name = 'test_preprocess_' + save_idx
train.to_parquet(f'./data/{train_save_name}.parquet')
test.to_parquet(f'./data/{test_save_name}.parquet')

몇 번째 전처리 방법인지 정수를 입력하세요 : 9
