# 중복 데이터와 missing value(결측값) 처리

대부분의 머신러닝 알고리즘은 missing value을 발견하면 오류를 리턴합니다. 따라서 DataFrame에서 missing value가 있는 row를 제거해야합니다.


In [1]:
import pandas as pd

항공편 지연 데이터셋에는 항공편 및 항공편 지연에 대한 정보가 포함되어 있습니다.

In [2]:
delays_df = pd.read_csv('Lots_of_flight_data.csv')
delays_df.head()

Unnamed: 0,FL_DATE,OP_UNIQUE_CARRIER,TAIL_NUM,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,CRS_ARR_TIME,ARR_TIME,ARR_DELAY,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE
0,2018-10-01,WN,N221WN,802,ABQ,BWI,905,903.0,-2.0,1450,1433.0,-17.0,225,210.0,197.0,1670
1,2018-10-01,WN,N8329B,3744,ABQ,BWI,1500,1458.0,-2.0,2045,2020.0,-25.0,225,202.0,191.0,1670
2,2018-10-01,WN,N920WN,1019,ABQ,DAL,1800,1802.0,2.0,2045,2032.0,-13.0,105,90.0,80.0,580
3,2018-10-01,WN,N480WN,1499,ABQ,DAL,950,947.0,-3.0,1235,1223.0,-12.0,105,96.0,81.0,580
4,2018-10-01,WN,N227WN,3635,ABQ,DAL,1150,1151.0,1.0,1430,1423.0,-7.0,100,92.0,80.0,580


**info**는 DataFrame에 있는 row 수와 각 column에 대해 Null이 아닌 값의 수를 표시합니다. 이를 통해 어떤 column에  null값(missing value)이 있는지 확인할 수 있습니다.

In [3]:
delays_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300000 entries, 0 to 299999
Data columns (total 16 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   FL_DATE              300000 non-null  object 
 1   OP_UNIQUE_CARRIER    300000 non-null  object 
 2   TAIL_NUM             299660 non-null  object 
 3   OP_CARRIER_FL_NUM    300000 non-null  int64  
 4   ORIGIN               300000 non-null  object 
 5   DEST                 300000 non-null  object 
 6   CRS_DEP_TIME         300000 non-null  int64  
 7   DEP_TIME             296825 non-null  float64
 8   DEP_DELAY            296825 non-null  float64
 9   CRS_ARR_TIME         300000 non-null  int64  
 10  ARR_TIME             296574 non-null  float64
 11  ARR_DELAY            295832 non-null  float64
 12  CRS_ELAPSED_TIME     300000 non-null  int64  
 13  ACTUAL_ELAPSED_TIME  295832 non-null  float64
 14  AIR_TIME             295832 non-null  float64
 15  DISTANCE         

TAIL_NUM, DEP_TIME, DEP_DELAY, ARR_TIME, ARR_DELAY, ACTUAL_ELAPSED_TIME, AIR_TIME 

이 column들에 missing value가 포함되어 있습니다.

Missing value를 처리하는 많은 방법이 있으며, 가장 간단한 방법은 missing value가 있는 행을 삭제하는 것입니다.

**dropna**는 null(missing value)값이 포함 된 행을 삭제합니다.

In [4]:
delay_no_nulls_df = delays_df.dropna()   # Missing values가 있는 row 삭제
delay_no_nulls_df.info()                 # 확인을 위해 전체 row의 수와 Non-null value 수를 체크

<class 'pandas.core.frame.DataFrame'>
Int64Index: 295832 entries, 0 to 299999
Data columns (total 16 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   FL_DATE              295832 non-null  object 
 1   OP_UNIQUE_CARRIER    295832 non-null  object 
 2   TAIL_NUM             295832 non-null  object 
 3   OP_CARRIER_FL_NUM    295832 non-null  int64  
 4   ORIGIN               295832 non-null  object 
 5   DEST                 295832 non-null  object 
 6   CRS_DEP_TIME         295832 non-null  int64  
 7   DEP_TIME             295832 non-null  float64
 8   DEP_DELAY            295832 non-null  float64
 9   CRS_ARR_TIME         295832 non-null  int64  
 10  ARR_TIME             295832 non-null  float64
 11  ARR_DELAY            295832 non-null  float64
 12  CRS_ELAPSED_TIME     295832 non-null  int64  
 13  ACTUAL_ELAPSED_TIME  295832 non-null  float64
 14  AIR_TIME             295832 non-null  float64
 15  DISTANCE         


원본 DataFrame을 유지할 필요가 없는 경우는 새 DataFrame을 만드는 대신 원본 DataFrame의 row를 삭제하면됩니다.

**inplace=*True***는 지정된 DataFrame에서 row를 삭제합니다.


In [5]:
delays_df.dropna(inplace=True)
delays_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 295832 entries, 0 to 299999
Data columns (total 16 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   FL_DATE              295832 non-null  object 
 1   OP_UNIQUE_CARRIER    295832 non-null  object 
 2   TAIL_NUM             295832 non-null  object 
 3   OP_CARRIER_FL_NUM    295832 non-null  int64  
 4   ORIGIN               295832 non-null  object 
 5   DEST                 295832 non-null  object 
 6   CRS_DEP_TIME         295832 non-null  int64  
 7   DEP_TIME             295832 non-null  float64
 8   DEP_DELAY            295832 non-null  float64
 9   CRS_ARR_TIME         295832 non-null  int64  
 10  ARR_TIME             295832 non-null  float64
 11  ARR_DELAY            295832 non-null  float64
 12  CRS_ELAPSED_TIME     295832 non-null  int64  
 13  ACTUAL_ELAPSED_TIME  295832 non-null  float64
 14  AIR_TIME             295832 non-null  float64
 15  DISTANCE         

여러 데이터 소스에서 데이터를 로드하면 중복 row가 생길 수 있습니다.

In [6]:
airports_df = pd.read_csv('airportsDuplicateRows.csv')
airports_df.head()

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
2,Dulles,Washington,USA
3,Heathrow,London,United Kingdom
4,Schiphol,Amsterdam,Netherlands


**duplicates**를 사용하면 중복 row를 찾아냅니다.

row가 이전 row와 중복되면 **True**를 리턴합니다.

In [7]:
airports_df.duplicated()

0    False
1    False
2     True
3    False
4    False
5    False
6    False
7    False
dtype: bool

**drop_duplicates**는 중복 row를 삭제합니다.

In [8]:
airports_df.drop_duplicates(inplace=True)
airports_df

Unnamed: 0,Name,City,Country
0,Seattle-Tacoma,Seattle,USA
1,Dulles,Washington,USA
3,Heathrow,London,United Kingdom
4,Schiphol,Amsterdam,Netherlands
5,Changi,Singapore,Singapore
6,Pearson,Toronto,Canada
7,Narita,Tokyo,Japan
