# pandas DataFrame column 제거 및 분할(split)


머신러닝을 수행하기 위해 데이터를 준비 할 때, DataFrame에서 특정 column을 제거해야 하는 경우가 있습니다.



In [2]:
import pandas as pd

여러 column이 있는 더 큰 CSV 파일을 로드하겠습니다. **flight_delays.csv**는 항공편 및 비행 지연에 대한 정보를 제공하는 파일입니다.


In [3]:
delays_df = pd.read_csv('flight_delays.csv')
delays_df.head()

Unnamed: 0,FL_DATE,OP_UNIQUE_CARRIER,TAIL_NUM,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,CRS_ARR_TIME,ARR_TIME,ARR_DELAY,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE
0,2018-10-01,WN,N221WN,802,ABQ,BWI,905,903,-2,1450,1433,-17,225,210,197,1670
1,2018-10-01,WN,N8329B,3744,ABQ,BWI,1500,1458,-2,2045,2020,-25,225,202,191,1670
2,2018-10-01,WN,N920WN,1019,ABQ,DAL,1800,1802,2,2045,2032,-13,105,90,80,580
3,2018-10-01,WN,N480WN,1499,ABQ,DAL,950,947,-3,1235,1223,-12,105,96,81,580
4,2018-10-01,WN,N227WN,3635,ABQ,DAL,1150,1151,1,1430,1423,-7,100,92,80,580


## DataFrame에서 colummn 제거.

머신러닝을 수행하기 위해 데이터를 준비 할 때, DataFrame에서 특정 column을 제거해야 하는 경우가 있습니다.

예를 들어:
비행 지연 시간(ARR_DELAY)을 예측하기 위해 머신러닝 모델을 트레이닝 한다고 가정 합니다.

모델이 예정된 도착 시간(CRS_ARR_TIME)과 실제 도착 시간(ARR_TIME)을 알고있는 경우 예측 모델은 ARR_DELAY = ARR_TIME - CRS_ARR_TIME을 신속하게 이해합니다.

향후 항공편의 도착 시간을 예측할 때, 도착 시간(ARR_TIME)에 대한 값이 없어야 하고, 따라서 ARR_DELAY를 예측하도록 모델을 훈련 할 때 feature로 사용되지 않도록 DataFrame에서 이 column을 제거해야 합니다.




In [4]:
# DataFrame delays_df에서 ARR_TIME column을 제거 

#delays_df = delays_df.drop(['ARR_TIME'],axis=1)
new_df = delays_df.drop(columns=['ARR_TIME'])
new_df.head()

Unnamed: 0,FL_DATE,OP_UNIQUE_CARRIER,TAIL_NUM,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,CRS_ARR_TIME,ARR_DELAY,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE
0,2018-10-01,WN,N221WN,802,ABQ,BWI,905,903,-2,1450,-17,225,210,197,1670
1,2018-10-01,WN,N8329B,3744,ABQ,BWI,1500,1458,-2,2045,-25,225,202,191,1670
2,2018-10-01,WN,N920WN,1019,ABQ,DAL,1800,1802,2,2045,-13,105,90,80,580
3,2018-10-01,WN,N480WN,1499,ABQ,DAL,950,947,-3,1235,-12,105,96,81,580
4,2018-10-01,WN,N227WN,3635,ABQ,DAL,1150,1151,1,1430,-7,100,92,80,580


**inplace** 파라미터를 사용하여 기존 DataFrame에서 바로 column을 삭제합니다.

In [5]:
# DataFrame delays_df에서 ARR_TIME column을 제거 

#delays_df = delays_df.drop(['ARR_TIME'],axis=1)
delays_df.drop(columns=['ARR_TIME'], inplace=True)
delays_df.head()

Unnamed: 0,FL_DATE,OP_UNIQUE_CARRIER,TAIL_NUM,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,CRS_ARR_TIME,ARR_DELAY,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE
0,2018-10-01,WN,N221WN,802,ABQ,BWI,905,903,-2,1450,-17,225,210,197,1670
1,2018-10-01,WN,N8329B,3744,ABQ,BWI,1500,1458,-2,2045,-25,225,202,191,1670
2,2018-10-01,WN,N920WN,1019,ABQ,DAL,1800,1802,2,2045,-13,105,90,80,580
3,2018-10-01,WN,N480WN,1499,ABQ,DAL,950,947,-3,1235,-12,105,96,81,580
4,2018-10-01,WN,N227WN,3635,ABQ,DAL,1150,1151,1,1430,-7,100,92,80,580


일반적으로 정량적인 값(예를 들어, 거리, 분, 무게) 및 숫자가 아닐 수 있는 정성적인 값(예를 들어, 항공편이 출발 한 공항, 항공편을 운항 한 항공사 등)을 수치화된 값 기반으로 예측하기 위해 다양한 기술을 사용합니다.

정량적 데이터는 머신러닝 모델 트레이닝을 하기 전에 별도의 DataFrame으로 이동할 수 있습니다.

또한, 예측을 하기 원하는 라벨 값(ARR_DELAY)과 예측에 사용될 값들을 각각 분리된 DataFrame에 넣어서 예측 작업을 수월하게 진행할 수 있습니다. 예측에 사용될 데이터를 feature 데이터 라고 부릅니다.

이 과정을 수행하려면, 기존 DataFrame의 column에서 새 DataFrame을 생성해야 합니다.


In [7]:
# desc_df라는 새 DataFrame을 생성합니다.
# 모든 row와 다음 컬럼들을 포함해야 합니다. 
# ORIGIN, DEST, OP_CARRIER_FL_NUM, OP_UNIQUE_CARRIER, TAIL_NUM

desc_df = delays_df.loc[:,['ORIGIN', 'DEST', 'OP_CARRIER_FL_NUM', 'OP_UNIQUE_CARRIER', 'TAIL_NUM']]
desc_df.head()

Unnamed: 0,ORIGIN,DEST,OP_CARRIER_FL_NUM,OP_UNIQUE_CARRIER,TAIL_NUM
0,ABQ,BWI,802,WN,N221WN
1,ABQ,BWI,3744,WN,N8329B
2,ABQ,DAL,1019,WN,N920WN
3,ABQ,DAL,1499,WN,N480WN
4,ABQ,DAL,3635,WN,N227WN
