# Data Preprocessing

## import

In [1]:
# pip install scikit-learn
# pip install fastparquet

In [2]:
import pandas as pd
import numpy as np

pd.set_option('mode.chained_assignment',  None) # <==== 경고를 끈다

## Read Data

### CSV to Parquet

In [3]:
# 처음에만 한번 실행. run only at first
# def seed_everything(seed):
#     random.seed(seed)
#     os.environ['PYTHONHASHSEED'] = str(seed)
#     np.random.seed(seed)
# seed_everything(42) # Seed 고정

# def csv_to_parquet(csv_path, save_name):
#     df = pd.read_csv(csv_path)
#     df.to_parquet(f'./{save_name}.parquet')
#     del df
#     gc.collect()
#     print(save_name, 'Done.')
    
# csv_to_parquet('./open/train.csv', 'train')
# csv_to_parquet('./open/test.csv', 'test')

In [4]:
train = pd.read_parquet('./train.parquet')
test = pd.read_parquet('./test.parquet')
sample_submission = pd.read_csv('./open/sample_submission.csv', index_col = 0)

In [5]:
# Dataset Info.

# train.csv [파일]
# 1,000,000개의 데이터
# ID : 샘플 고유 id
# 항공편 운항 관련 정보
# Month: 해당 항공편의 출발 월
# Day_of_Month: Month에 해당하는 월의 날짜
# Estimated_Departure_Time: 전산 시스템을 바탕으로 측정된 비행기의 출발 시간 (현지 시각, HH:MM 형식)
# Estimated_Arrival_Time: 전산 시스템을 바탕으로 측정된 비행기의 도착 시간 (현지 시각, HH:MM 형식)
# Cancelled: 해당 항공편의 취소 여부 (0: 취소되지 않음, 1: 취소됨)
# Diverted: 해당 항공편의 경유 여부 (0: 취소되지 않음, 1: 취소됨)
# Origin_Airport: 해당 항공편 출발 공항의 고유 코드 (IATA 공항 코드)
# Origin_Airport_ID: 해당 항공편 출발 공항의 고유 ID (US DOT ID)
# Origin_State: 해당 항공편 출발 공항이 위치한 주의 이름
# Destination_Airport: 해당 항공편 도착 공항의 고유 코드 (IATA 공항 코드)
# Destination_Airport_ID: 해당 항공편 도착 공항의 고유 ID (US DOT ID)
# Destination_State: 해당 항공편 도착 공항이 위치한 주의 이름
# Distance: 출발 공항과 도착 공항 사이의 거리 (mile 단위)
# Airline: 해당 항공편을 운항하는 항공사
# Carrier_Code(IATA): 해당 항공편을 운항하는 항공사의 고유 코드 
# (IATA 공항 코드, 단 다른 항공사가 같은 코드를 보유할 수도 있음)
# Carrier_ID(DOT): 해당 항공편을 운항하는 항공사의 고유 ID (US DOT ID)
# Tail_Number: 해당 항공편을 운항하는 항공기의 고유 등록번호
# Delay: 항공편 지연 여부 (Not_Delayed, Delayed)
# 예측해야 하는 타깃
# 다수의 데이터에 레이블이 존재하지 않음
# 준지도학습을 통해 레이블링 가능


# test.csv [파일]
# 1,000,000개의 데이터
# ID : 샘플 고유 id
# 항공편 운항 관련 정보
# Month: 해당 항공편의 출발 월
# Day_of_Month: Month에 해당하는 월의 날짜
# Estimated_Departure_Time: 전산 시스템을 바탕으로 측정된 비행기의 출발 시간 (현지 시각, HH:MM 형식)
# Estimated_Arrival_Time: 전산 시스템을 바탕으로 측정된 비행기의 도착 시간 (현지 시각, HH:MM 형식)
# Cancelled: 해당 항공편의 취소 여부 (0: 취소되지 않음, 1: 취소됨)
# Diverted: 해당 항공편의 경유 여부 (0: 취소되지 않음, 1: 취소됨)
# Origin_Airport: 해당 항공편 출발 공항의 고유 코드 (IATA 공항 코드)
# Origin_Airport_ID: 해당 항공편 출발 공항의 고유 ID (US DOT ID)
# Origin_State: 해당 항공편 출발 공항이 위치한 주의 이름
# Destination_Airport: 해당 항공편 도착 공항의 고유 코드 (IATA 공항 코드)
# Destination_Airport_ID: 해당 항공편 도착 공항의 고유 ID (US DOT ID)
# Destination_State: 해당 항공편 도착 공항이 위치한 주의 이름
# Distance: 출발 공항과 도착 공항 사이의 거리 (mile 단위)
# Airline: 해당 항공편을 운항하는 항공사
# Carrier_Code(IATA): 해당 항공편을 운항하는 항공사의 고유 코드 
# (IATA 공항 코드, 단 다른 항공사가 같은 코드를 보유할 수도 있음)
# Carrier_ID(DOT): 해당 항공편을 운항하는 항공사의 고유 ID (US DOT ID)
# Tail_Number: 해당 항공편을 운항하는 항공기의 고유 등록번호

In [6]:
test.head(5)

Unnamed: 0,ID,Month,Day_of_Month,Estimated_Departure_Time,Estimated_Arrival_Time,Cancelled,Diverted,Origin_Airport,Origin_Airport_ID,Origin_State,Destination_Airport,Destination_Airport_ID,Destination_State,Distance,Airline,Carrier_Code(IATA),Carrier_ID(DOT),Tail_Number
0,TEST_000000,12,16,1156.0,,0,0,IAH,12266,Texas,SAT,14683,Texas,191.0,United Air Lines Inc.,UA,,N79402
1,TEST_000001,9,12,1500.0,1715.0,0,0,EWR,11618,New Jersey,ATL,10397,,746.0,Delta Air Lines Inc.,DL,19790.0,N3765
2,TEST_000002,3,6,1600.0,1915.0,0,0,ORD,13930,Illinois,LGA,12953,New York,733.0,United Air Lines Inc.,UA,19977.0,N413UA
3,TEST_000003,5,18,1920.0,2045.0,0,0,OAK,13796,California,LAX,12892,California,337.0,Southwest Airlines Co.,WN,19393.0,N905WN
4,TEST_000004,7,7,1915.0,2152.0,0,0,FLL,11697,Florida,LAX,12892,California,2343.0,JetBlue Airways,B6,20409.0,N945JT


In [7]:
train.head(5)

Unnamed: 0,ID,Month,Day_of_Month,Estimated_Departure_Time,Estimated_Arrival_Time,Cancelled,Diverted,Origin_Airport,Origin_Airport_ID,Origin_State,Destination_Airport,Destination_Airport_ID,Destination_State,Distance,Airline,Carrier_Code(IATA),Carrier_ID(DOT),Tail_Number,Delay
0,TRAIN_000000,4,15,,,0,0,OKC,13851,Oklahoma,HOU,12191,Texas,419.0,Southwest Airlines Co.,WN,19393.0,N7858A,
1,TRAIN_000001,8,15,740.0,1024.0,0,0,ORD,13930,Illinois,SLC,14869,Utah,1250.0,SkyWest Airlines Inc.,UA,20304.0,N125SY,
2,TRAIN_000002,9,6,1610.0,1805.0,0,0,CLT,11057,North Carolina,LGA,12953,New York,544.0,American Airlines Inc.,AA,19805.0,N103US,
3,TRAIN_000003,7,10,905.0,1735.0,0,0,LAX,12892,California,EWR,11618,New Jersey,2454.0,United Air Lines Inc.,UA,,N595UA,
4,TRAIN_000004,1,11,900.0,1019.0,0,0,SFO,14771,California,ACV,10157,California,250.0,SkyWest Airlines Inc.,UA,20304.0,N161SY,


In [8]:
train.shape,test.shape # train includes delady column

((1000000, 19), (1000000, 18))

In [9]:
train.info(),test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 19 columns):
 #   Column                    Non-Null Count    Dtype  
---  ------                    --------------    -----  
 0   ID                        1000000 non-null  object 
 1   Month                     1000000 non-null  int64  
 2   Day_of_Month              1000000 non-null  int64  
 3   Estimated_Departure_Time  890981 non-null   float64
 4   Estimated_Arrival_Time    890960 non-null   float64
 5   Cancelled                 1000000 non-null  int64  
 6   Diverted                  1000000 non-null  int64  
 7   Origin_Airport            1000000 non-null  object 
 8   Origin_Airport_ID         1000000 non-null  int64  
 9   Origin_State              890985 non-null   object 
 10  Destination_Airport       1000000 non-null  object 
 11  Destination_Airport_ID    1000000 non-null  int64  
 12  Destination_State         890921 non-null   object 
 13  Distance                  10

(None, None)

In [10]:
# 유일값 확인
'****** train ******',train.nunique(),'****** test ******',test.nunique()

('****** train ******',
 ID                          1000000
 Month                            12
 Day_of_Month                     31
 Estimated_Departure_Time       1365
 Estimated_Arrival_Time         1428
 Cancelled                         1
 Diverted                          1
 Origin_Airport                  374
 Origin_Airport_ID               374
 Origin_State                     52
 Destination_Airport             375
 Destination_Airport_ID          375
 Destination_State                52
 Distance                       1597
 Airline                          28
 Carrier_Code(IATA)               11
 Carrier_ID(DOT)                  28
 Tail_Number                    6430
 Delay                             2
 dtype: int64,
 '****** test ******',
 ID                          1000000
 Month                            12
 Day_of_Month                     31
 Estimated_Departure_Time       1413
 Estimated_Arrival_Time         1436
 Cancelled                         1
 Diverted    

In [11]:
# Cancelled는 Diverted 모두 1이므로 삭제해도 무방

col_drop=['Cancelled','Diverted' ]
train=train.drop(col_drop,axis=1)
test=test.drop(col_drop,axis=1)

## NaN

In [12]:
# ID : 샘플 고유 id
# 항공편 운항 관련 정보
# Month: 해당 항공편의 출발 월
# Day_of_Month: Month에 해당하는 월의 날짜

## Estimated_Departure_Time: 전산 시스템을 바탕으로 측정된 비행기의 출발 시간 (현지 시각, HH:MM 형식)
## Estimated_Arrival_Time: 전산 시스템을 바탕으로 측정된 비행기의 도착 시간 (현지 시각, HH:MM 형식)
## 출발시간 도착시간은 연착되지 않은 유사 항공편 데이터를 이용해본다

# Cancelled: 해당 항공편의 취소 여부 (0: 취소되지 않음, 1: 취소됨)
# Diverted: 해당 항공편의 경유 여부 (0: 취소되지 않음, 1: 취소됨)
# Origin_Airport: 해당 항공편 출발 공항의 고유 코드 (IATA 공항 코드)
# Origin_Airport_ID: 해당 항공편 출발 공항의 고유 ID (US DOT ID)

## Origin_State: 해당 항공편 출발 공항이 위치한 주의 이름
## 주의 이름은 출발 공항의 고유 코드가 같은 행을 찾아 주의 이름을 입력 but 공항코드가 있다면 굳이 필요치 않은 행으로 간주된다

# Destination_Airport: 해당 항공편 도착 공항의 고유 코드 (IATA 공항 코드)
# Destination_Airport_ID: 해당 항공편 도착 공항의 고유 ID (US DOT ID)

## Destination_State: 해당 항공편 도착 공항이 위치한 주의 이름
## Origin_State와 같은 맥락

# Distance: 출발 공항과 도착 공항 사이의 거리 (mile 단위)

## Airline: 해당 항공편을 운항하는 항공사
## Airline는 Carrier_ID와 같은 값일듯?

## Carrier_Code(IATA): 해당 항공편을 운항하는 항공사의 고유 코드 (IATA 공항 코드, 단 다른 항공사가 같은 코드를 보유할 수도 있음)
## 다른 항공사와 중복된 코드가 의미가 있을까? trail_number와 Airline을 둘다 안다면 값을 넣을수 있을듯?

## Carrier_ID(DOT): 해당 항공편을 운항하는 항공사의 고유 ID (US DOT ID)
## 항공사의 고유 ID는 Airline과 같은 값일듯?


# Tail_Number: 해당 항공편을 운항하는 항공기의 고유 등록번호
## Delay: 항공편 지연 여부 (Not_Delayed, Delayed)

In [13]:
# train NaN
pd.isnull(train).sum()

ID                               0
Month                            0
Day_of_Month                     0
Estimated_Departure_Time    109019
Estimated_Arrival_Time      109040
Origin_Airport                   0
Origin_Airport_ID                0
Origin_State                109015
Destination_Airport              0
Destination_Airport_ID           0
Destination_State           109079
Distance                         0
Airline                     108920
Carrier_Code(IATA)          108990
Carrier_ID(DOT)             108997
Tail_Number                      0
Delay                       744999
dtype: int64

In [14]:
# test NaN
pd.isnull(test).sum()

ID                               0
Month                            0
Day_of_Month                     0
Estimated_Departure_Time    108984
Estimated_Arrival_Time      109048
Origin_Airport                   0
Origin_Airport_ID                0
Origin_State                106505
Destination_Airport              0
Destination_Airport_ID           0
Destination_State           106523
Distance                         0
Airline                     106527
Carrier_Code(IATA)          108993
Carrier_ID(DOT)             109006
Tail_Number                      0
dtype: int64

### Time NaN

Estimated_Departure_Time: 전산 시스템을 바탕으로 측정된 비행기의 출발 시간 (현지 시각, HH:MM 형식)  
Estimated_Arrival_Time: 전산 시스템을 바탕으로 측정된 비행기의 도착 시간 (현지 시각, HH:MM 형식)  
- 출발시간 도착시간은 연착된, 연착되지 않은 항공편 데이터를 이용한다.  
- 비행시간을 알아본다 > 시분을 합쳐야하며, 날짜가 바뀌는 경우에 대처해야함 > 출발시간 - 도착시간 평균값을 구한다  
- 두가지 경우의 수를 모두 생각하여. 연착된것과 연착되지않은 것에 대입해야한다.  
- 출발시간 혹은 도착시간만 알 때는 평균값을 이용하여 넣어준다.
- 둘다 모를 때는 출발시간 최빈값을 넣어본다.

In [15]:
train['Estimated_Departure_Time'].count()

890981

#### HH:MM -> MM

In [16]:
def to_minutes(x):
    if np.isnan(x):
        return x
    else :
        x=str(int(x))
        if len(x)>2:
            h,m = int(x[:-2]),int(x[-2:])
        else:
            h,m = 0,int(x[-2:])
        return h*60+m

In [17]:
train['dep_time']=0
train['Arr_time']=0
test['dep_time']=0
test['Arr_time']=0

train['dep_time']=train['Estimated_Departure_Time'].apply(to_minutes)
train['Arr_time']=train['Estimated_Arrival_Time'].apply(to_minutes)
test['dep_time']=test['Estimated_Departure_Time'].apply(to_minutes)
test['Arr_time']=test['Estimated_Arrival_Time'].apply(to_minutes)

#### race_time = Arr_time - dep_time

In [18]:
train['race_time']=0
test['race_time']=0

x = [train,test]

for j in x :
    for i in range(len(j)):
        
        if j['dep_time'][i] < j['Arr_time'][i]:
            j['race_time'][i]=j['Arr_time'][i]-j['dep_time'][i]

        else :
            j['race_time'][i]=24*60+j['Arr_time'][i]-j['dep_time'][i]


In [19]:
train.head(5)

Unnamed: 0,ID,Month,Day_of_Month,Estimated_Departure_Time,Estimated_Arrival_Time,Origin_Airport,Origin_Airport_ID,Origin_State,Destination_Airport,Destination_Airport_ID,Destination_State,Distance,Airline,Carrier_Code(IATA),Carrier_ID(DOT),Tail_Number,Delay,dep_time,Arr_time,race_time
0,TRAIN_000000,4,15,,,OKC,13851,Oklahoma,HOU,12191,Texas,419.0,Southwest Airlines Co.,WN,19393.0,N7858A,,,,
1,TRAIN_000001,8,15,740.0,1024.0,ORD,13930,Illinois,SLC,14869,Utah,1250.0,SkyWest Airlines Inc.,UA,20304.0,N125SY,,460.0,624.0,164.0
2,TRAIN_000002,9,6,1610.0,1805.0,CLT,11057,North Carolina,LGA,12953,New York,544.0,American Airlines Inc.,AA,19805.0,N103US,,970.0,1085.0,115.0
3,TRAIN_000003,7,10,905.0,1735.0,LAX,12892,California,EWR,11618,New Jersey,2454.0,United Air Lines Inc.,UA,,N595UA,,545.0,1055.0,510.0
4,TRAIN_000004,1,11,900.0,1019.0,SFO,14771,California,ACV,10157,California,250.0,SkyWest Airlines Inc.,UA,20304.0,N161SY,,540.0,619.0,79.0


#### 평균 ( 지연된 것과 지연되지 않은 것)

race_time 이 NaN일 경우 찾기  
같은 경로를 운행한 비행기를 찾아야함  
Origin_Airport_ID와 Destination_Airport_ID 정도로 검색이 가능. 이때 delay not delay 포함해야함 -> 비행기 성능차이는 구분하기 힘듬  
NaN 행의 delay, not delay 확인해서 평균값을 넣어줌
dep time arr time 둘다 NaN 이면 ? -> delay 여부까지 모른다면 헬이다. 다빼는게 맞나?

In [20]:
train['Delay'].unique()

array([None, 'Not_Delayed', 'Delayed'], dtype=object)

In [21]:
train['Delay'].value_counts()

Delay
Not_Delayed    210001
Delayed         45000
Name: count, dtype: int64

race 는 평균 값 혹은 최빈 값으로 넣고  
dep와 arr을 추적

1. dep | arr 만 nan 인 경우  
2. dep & arr nan 인 경우  

race = arr - dep  
dep = arr - race  
arr = race + dep

검색속도 증가 방안  
race NaN 따로 모으기  
delay 부분 따로 모으기  

In [34]:
# race NaN / race

racedep_nan_train=train[train['race_time'].isnull() & train['dep_time'].isnull() & ~train['Arr_time'].isnull()].reset_index(drop=True) # race dep nan
racearr_nan_train=train[train['race_time'].isnull() & train['Arr_time'].isnull() & ~train['dep_time'].isnull()].reset_index(drop=True) # race arr nan
nan_train=train[train['race_time'].isnull()&train['Arr_time'].isnull()&train['dep_time'].isnull()].reset_index(drop=True) # race dep arr nan
race_train=train[~train['race_time'].isnull()].reset_index(drop=True) # race not nan

# # test 데이터 가공이 필요한가? + 테스트엔 delay가 없어서 불가능
# racedep_nan_test=test[test['race_time'].isnull() & test['dep_time'].isnull() & ~test['Arr_time'].isnull()].reset_index(drop=True)
# racearr_nan_test=test[test['race_time'].isnull() & test['Arr_time'].isnull() & ~test['dep_time'].isnull()].reset_index(drop=True)
# nan_test=test[test['race_time'].isnull()&test['Arr_time'].isnull()&test['dep_time'].isnull()].reset_index(drop=True)
# race_test=test[~test['race_time'].isnull()].reset_index(drop=True)

In [35]:
# delay
delayed_train=train[train['Delay']=='Delayed'].reset_index(drop=True)
no_delayed_train=train[train['Delay']=='Not_Delayed'].reset_index(drop=True)

In [36]:
# train dep 혹은 arr가 있는 경우

df = [racedep_nan_train,racearr_nan_train]
for x in df:
    print('before:',x['race_time'].isnull().sum())
    for i in range(len(x)):
        if x['Delay'][i] == 'Delayed':
            x['race_time'][i]=delayed_train[(delayed_train['Origin_Airport_ID']==x['Origin_Airport_ID'][i])&(delayed_train['Destination_Airport_ID']==x['Destination_Airport_ID'][i])]['race_time'].mean()
            x['dep_time'][i]=x['Arr_time'][i]-x['race_time'][i]
            
            if x['dep_time'][i] < 0 :
                x['dep_time'][i] += 24*60
                
        if x['Delay'][i] == 'Not_Delayed':
            x['race_time'][i]=no_delayed_train[(no_delayed_train['Origin_Airport_ID']==x['Origin_Airport_ID'][i])&(no_delayed_train['Destination_Airport_ID']==x['Destination_Airport_ID'][i])]['race_time'].mean()
            x['dep_time'][i]=x['Arr_time'][i]-x['race_time'][i]

            if x['dep_time'][i] < 0 :
                x['dep_time'][i] += 24*60
    print("after:",x['race_time'].isnull().sum())
    

97331
72698


In [59]:
# train dep arr 둘다 없는 경우 -> delay 파악이 되는 것만 다룬다.

nan_train.shape,nan_train['Delay'].value_counts(),nan_train['Delay'].isnull().sum()

((11688, 20),
 Delay
 Not_Delayed    2512
 Delayed         519
 Name: count, dtype: int64,
 8657)

In [61]:
nan_train=nan_train['Delay'].dropna().reset_index(drop=True)
nan_train.shape

In [62]:
# 취소 경유가 없으므로, 출발 도착 공항 id를 이용하여 출발시간, 비행시간 평균값을 넣고, 도착시간은 이를 이용하여 구한다




(3031,)

### Delay NaN

In [29]:
train['Delay'].unique()

array([None, 'Not_Delayed', 'Delayed'], dtype=object)

In [30]:
train['Delay'].value_counts()

Delay
Not_Delayed    210001
Delayed         45000
Name: count, dtype: int64

In [31]:
train['Delay'].count() # Not_Delayed + Delayed

255001

In [32]:
pd.isnull(train['Delay']).sum() # Nan

744999