# 03. 데이터 전처리

## 1. 누락 데이터 처리

### 누락 데이터 확인
데이터프레임의 요약 정보를 출력해주는 명령어인 info() 함수를 사용하여 누락 데이터의 개수를 확인할 수 있음.

In [1]:
import pandas as pd
import seaborn as sns # seaborn package의 내장 데이터셋(titanic)을 사용하기 위함

In [2]:
df = sns.load_dataset('titanic')
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


* 실행 결과를 살펴보면, RangeIndex에 전체 데이터의 개수를 확인할 수 있고, Data columns를 통해 각 변수별 유효한 데이터의 개수를 확인할 수 있음.
* 예를 들어 age 변수의 경우 714개의 유효한 정수형 데이터가 있는 것을 알 수 있습니다. 즉, 전체 데이터의 수 891에서 유효한 데이터의 수 714를 빼면 177개의 누락데이터가 있다는 것을 알 수 있음.
* 또한, value_counts() 함수를 이용하여 일부 변수를 선택 후, 변수의 누 락 데이터의 개수를 확인할 수 있음. value_counts() 함수는 변수의 빈 도분석을 실시하는 명령어로 dropna 옵션에 False를 입력하면 누락 데 이터를 표현할 수 있음.
* value_counts() 함수를 사용하는 방법은 다음과 같음.

In [4]:
nan_town = df['embark_town'].value_counts(dropna=False)
nan_town

Southampton    644
Cherbourg      168
Queenstown      77
NaN              2
Name: embark_town, dtype: int64

* 실행 결과를 살펴보면, embark_town의 요인에 대한 빈도수를 확인할 수 있고, NaN을 통해 2개의 누락데이터가 있다는 것을 알 수 있음. 여기서 dropna 옵션에 False를 지정하였을 때 누락데이터의 개수를 확인할 수 있음.
* 그리고, isnull()과 notnull() 함수를 이용하여 누락 데이터를 직접적으로 찾을 수 있음. isnull() 함수는 누락 데이터면 True로 값을 반환하고, 유효한 데이터가 존재하면 False를 반환하는 함수이고, notnull() 함수는 누락 데이터면 False로 값을 반환하고, 유효한 데이터가 존재하면 True를 반환하는 함수임.
* isnull()와 notnull() 함수를 사용하는 방법은 다음과 같음.

In [5]:
df.head().isnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


isnull() 함수를 적용하면 deck 변수의 누락데이터는 True로 반 환되고 나머지 유효한 값들은 False로 변환된 것을 확인할 수 있음.

In [6]:
df.head().notnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True


그리고 notnull() 함수를 적용하면 deck 변수의 누락 데이터는 False로 반환되고 나머지 유효한 값들은 True로 변환된 것을 확인할 수 있음.

### 누락 데이터 제거

누락 데이터를 제거하는 명령어인 dropna() 함수를 사용하는 방법은 다음과 같음.
> 데이터프레임객체.dropna(axis=0(행)/1(열), thresh=유효데이터개수 기준)  

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


주어진 데이터셋을 살펴보면 age 변수에 177개, embarked 변수에 2개, deck 변수에 688개, embark_town 변수에 2개의 누락데이터가 있는 것을 확인할 수 있음.

In [8]:
df_thresh = df.dropna(axis=1, thresh=495)
df_thresh.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 14 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  embark_town  889 non-null    object  
 12  alive        891 non-null    object  
 13  alone        891 non-null    bool    
dtypes: bool(2), category(1), float64(2), int64(4), object(5)
memory usage: 79.4+ KB


누락의 비율이 50%가 넘는 변수를 제거하기 위해 axis 옵션에 1을 입력 하고, thresh옵션에 유효데이터 개수의 기준을 495로 입력하여 누락이 많이 존재하는 변수를 제거할 수 있음.  
info() 함수를 통해 주어진 데이터셋에서는 deck 변수가 제거된 것을 확 인할 수 있음.


그리고 데이터프레임의 변수들 중 데이터 누락이 존재하면 안되는 중요한 변수가 존재하는 경우 데이터프레임의 레코드를 제거하는 것이 좋음.   
이를 위해 dropna() 함수를 사용하는 방법은 다음과 같음.
> 데이터프레임객체.dropna(subset=[기준변수명], how=’any’/‘all’, axis=0(행)/1(열))  

In [9]:
df_age = df.dropna(subset=['age'], how='any', axis=0)
df_age

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


* 주어진 데이터셋에서 age 변수가 중요하다고 할 때, age 변수에 누락이 있는 모든 레코드를 제거하는 것이 좋음.
* subset 옵션에 누락의 기준이 되는 변수명을 입력할 수 있음. 중요한 점 은 subset 옵션 입력시 기준 변수명을 리스트 형태로 입력을 해야함.
* how 옵션을 통해 subset 옵션에서 입력한 기준 변수명의 누락 기준을 설정할 수 있음. 
    1. any옵션을 입력하였을 때는 기준 변수 중 하나라도 누 락이 있는 경우 레코드를 제거하는 방식이고, 
    2. all옵션을 입력하였을 때는 기준 변수 모두에 누락이 있는 경우 레코드가 제거되는 방식임.
* 주어진 데이터셋을 출력하였을 때 888번 행에서 age 변수의 값이 누락 되어 있는 것을 확인할 수 있음.

### 누락 데이터 치환

- 데이터셋의 품질을 높일 목적으로 누락 데이터를 무작정 삭제해버리면 어렵게 수집한 데이터를 활용 못하게 됨.
- 데이터분석의 정확도는 데이터의 품질 외에도 데이터의 양에 의해서도 영향을 받으므로 데이터 중에서 일부가 누락되어 있더라도 나머지 데이터를 최대한 살려서 데이터 분석에 활용하는 것이 좋은 결과를 얻는 경우가 많음.
- 누락 데이터를 바꿔서 대체할 값으로는 데이터의 분포와 특성을 잘 나타 낼 수 있는 평균값, 최빈값 등을 활용함.
- 누락 데이터를 치환하는 명령어인 fillna() 함수를 사용하는 방법은 다음과 같음.
> 데이터프레임객체.fillna(대체값, inplace=False/True)  

In [10]:
mean_age = df['age'].mean(axis=0)
mean_age

29.69911764705882

In [11]:
df['age'].fillna(mean_age, inplace=True)
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


- 주어진 데이터셋에서 age 변수는 연속형 자료이므로 age 변수의 누락된 데이터를 mean() 함수를 이용하여 나머지 데이터의 평균값으로 치환할 수 있음.  
- 여기서 원본 객체를 변경하기 위해서 inplace=True 옵션을 추가해야 함.
- 5번 행의 age 변수의 값을 살펴보면, NaN값이 age 변수의 유효 데이터의 평균값(29.699118)으로 변경된 것을 알 수 있음. 만약 평균 대신 중간값을 사용하려면 median() 함수를 사용하면 됨.

In [12]:
df[825:835]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
825,0,3,male,29.699118,0,0,6.95,Q,Third,man,True,,Queenstown,no,True
826,0,3,male,29.699118,0,0,56.4958,S,Third,man,True,,Southampton,no,True
827,1,2,male,1.0,0,2,37.0042,C,Second,child,False,,Cherbourg,yes,False
828,1,3,male,29.699118,0,0,7.75,Q,Third,man,True,,Queenstown,yes,True
829,1,1,female,62.0,0,0,80.0,,First,woman,False,B,,yes,True
830,1,3,female,15.0,1,0,14.4542,C,Third,child,False,,Cherbourg,yes,False
831,1,2,male,0.83,1,1,18.75,S,Second,child,False,,Southampton,yes,False
832,0,3,male,29.699118,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
833,0,3,male,23.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
834,0,3,male,18.0,0,0,8.3,S,Third,man,True,,Southampton,no,True


-  그리고 주어진 데이터셋에서 embark_town 변수는 범주형 자료이므로 embark_town 변수의 누락된 데이터를 value_counts() 함수와 idxmax() 함수를 이용하여 나머지 데이터의 최빈값으로 치환할 수 있음. 
- 주어진 데이터셋을 출력하였을 때 829번 행에서 embark_town 변수의 값이 누락되어 있는 것을 확인할 수 있음.

In [13]:
most_freq = df['embark_town'].value_counts(dropna=True).idxmax()
most_freq

'Southampton'

In [14]:
df = sns.load_dataset('titanic')

df['embark_town'].fillna(most_freq, inplace=True)
df[825:835]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
825,0,3,male,,0,0,6.95,Q,Third,man,True,,Queenstown,no,True
826,0,3,male,,0,0,56.4958,S,Third,man,True,,Southampton,no,True
827,1,2,male,1.0,0,2,37.0042,C,Second,child,False,,Cherbourg,yes,False
828,1,3,male,,0,0,7.75,Q,Third,man,True,,Queenstown,yes,True
829,1,1,female,62.0,0,0,80.0,,First,woman,False,B,Southampton,yes,True
830,1,3,female,15.0,1,0,14.4542,C,Third,child,False,,Cherbourg,yes,False
831,1,2,male,0.83,1,1,18.75,S,Second,child,False,,Southampton,yes,False
832,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
833,0,3,male,23.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
834,0,3,male,18.0,0,0,8.3,S,Third,man,True,,Southampton,no,True


- NaN값이 embark_town 변수의 유효 데이터의 최빈값 (Southampton) 으로 변경된 것을 알 수 있음.
- 서로 이웃하고 있는 데이터끼리 유사성을 가질 가능성이 있는 경우도 있음. 이러한 경우 fillna() 함수에 method 옵션을 통하여 앞이나 뒤 에서 이웃하고 있는 값으로 치환해줄 수 있음.
- method 옵션에 ‘ffill’을 입력하면 NaN이 있는 행의 직전 행에 있는 값으로 변경하고, ‘bfill’을 입력하면 NaN이 있는 행의 바로 다음 행에 있는 값으로 변경함.
> 데이터프레임객체.fillna(method=’ffill’/‘bfill’, inplace=False/True)  

In [15]:
df[825:835] # embarked 열에서 결측치(829행) 확인

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
825,0,3,male,,0,0,6.95,Q,Third,man,True,,Queenstown,no,True
826,0,3,male,,0,0,56.4958,S,Third,man,True,,Southampton,no,True
827,1,2,male,1.0,0,2,37.0042,C,Second,child,False,,Cherbourg,yes,False
828,1,3,male,,0,0,7.75,Q,Third,man,True,,Queenstown,yes,True
829,1,1,female,62.0,0,0,80.0,,First,woman,False,B,Southampton,yes,True
830,1,3,female,15.0,1,0,14.4542,C,Third,child,False,,Cherbourg,yes,False
831,1,2,male,0.83,1,1,18.75,S,Second,child,False,,Southampton,yes,False
832,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
833,0,3,male,23.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
834,0,3,male,18.0,0,0,8.3,S,Third,man,True,,Southampton,no,True


 주어진 데이터셋을 출력하였을 때 829번 행에서 embark_town 변수의 값이 누락되어 있는 것을 확인할 수 있음.

In [16]:
df = sns.load_dataset('titanic')

df['embark_town'].fillna(method='ffill', inplace=True)
df[825:835]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
825,0,3,male,,0,0,6.95,Q,Third,man,True,,Queenstown,no,True
826,0,3,male,,0,0,56.4958,S,Third,man,True,,Southampton,no,True
827,1,2,male,1.0,0,2,37.0042,C,Second,child,False,,Cherbourg,yes,False
828,1,3,male,,0,0,7.75,Q,Third,man,True,,Queenstown,yes,True
829,1,1,female,62.0,0,0,80.0,,First,woman,False,B,Queenstown,yes,True
830,1,3,female,15.0,1,0,14.4542,C,Third,child,False,,Cherbourg,yes,False
831,1,2,male,0.83,1,1,18.75,S,Second,child,False,,Southampton,yes,False
832,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
833,0,3,male,23.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
834,0,3,male,18.0,0,0,8.3,S,Third,man,True,,Southampton,no,True


- 주어진 데이터셋에서 embark_town 변수의 누락된 데이터를 method 옵션의 ‘ffill’을 입력하여 바로 앞에 위치한 행의 값으로 변경할 수 있음.
- NaN값이 embark_town 변수의 NaN 바로 앞에 위치한 유효 데이터의 값 (Queenstown)으로 변경된 것을 알 수 있음.

In [17]:
df = sns.load_dataset('titanic')

df['embark_town'].fillna(method='bfill', inplace=True)
df[825:835]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
825,0,3,male,,0,0,6.95,Q,Third,man,True,,Queenstown,no,True
826,0,3,male,,0,0,56.4958,S,Third,man,True,,Southampton,no,True
827,1,2,male,1.0,0,2,37.0042,C,Second,child,False,,Cherbourg,yes,False
828,1,3,male,,0,0,7.75,Q,Third,man,True,,Queenstown,yes,True
829,1,1,female,62.0,0,0,80.0,,First,woman,False,B,Cherbourg,yes,True
830,1,3,female,15.0,1,0,14.4542,C,Third,child,False,,Cherbourg,yes,False
831,1,2,male,0.83,1,1,18.75,S,Second,child,False,,Southampton,yes,False
832,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True
833,0,3,male,23.0,0,0,7.8542,S,Third,man,True,,Southampton,no,True
834,0,3,male,18.0,0,0,8.3,S,Third,man,True,,Southampton,no,True


- 주어진 데이터셋에서 embark_town 변수의 누락된 데이터를 method 옵션의 ‘bfill’을 입력하여 바로 뒤에 위치한 행의 값으로 변경할 수 있음.
- NaN값이 embark_town 변수의 NaN 바로 뒤에 위치한 유효 데이터의 값 (Cherbourg)으로 변경된 것을 알 수 있음.


## 2. 중복 데이터 처리

- 동일한 대상이 중복으로 존재하게 되면 분석결과를 왜곡할 수 있음.
- 하나의 데이터셋에서 동일한 관측값이 2개 이상 중복되는 경우 중복 데이터를 찾아서 삭제해야 함.

### 중복 데이터 확인
- 동일한 관측값이 중복되는지 여부를 확인하기 위해 duplicated() 사용하여 데이터의 중복 여부를 확인할 수 있음.
- duplicated() 함수를 사용하는 방법은 다음과 같음.
> 데이터프레임객체.duplicated(subset=기준열 리스트)  

- 이전 행과 비교하여 중복되는 행이면 True를 반환하고, 처음 나 오는 행에 대해서는 False를 반환함. 
- 즉, duplicated() 함수를 적용하면 각 행의 중복 여부를 나타내는 불린 시리즈를 반환함.
- 0행의 데이터는 비교할 데이터가 없기 때문에 무조건 False로 판정함.

In [18]:
df_dict = {'c1':['a','a','b','a','b'],
          'c2':[1, 1, 1, 2, 2],
          'c3':[1, 1, 2, 2, 2]}

df = pd.DataFrame(df_dict)
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [19]:
df_dup = df.duplicated()
df_dup

0    False
1     True
2    False
3    False
4    False
dtype: bool

주어진 데이터프레임에 duplicated() 함수를 적용하면 1행이 이전에 나 온 행과 중복되므로 True가 출력되고, 중복되지 않은 나머지 열은 False가 출력된 것을 확인할 수 있음.

In [20]:
df_dup = df.duplicated(subset=['c2','c3'])
df_dup

0    False
1     True
2    False
3    False
4     True
dtype: bool

subset 옵션을 이용하여 주어진 데이터프레임의 c2와 c3열에 duplicated() 함수를 적용하면 1행과 4행이 이전에 나온 행과 중복되므 로 True가 출력되고, 중복되지 않은 나머지 열은 False가 출력된 것을 확인할 수 있음.

### 중복 데이터 제거

- 동일한 관측값이 중복되었을 때 이를 제거하는 drop_duplicates() 함수를 사용하여 중복된 데이터를 제거할 수 있음.
- drop_duplicates() 함수를 사용하는 방법은 다음과 같음.
> 데이터프레임객체.drop_duplicates(subset=기준열 리스트, inplace=False/True)  
- subset 옵션에 열 이름 리스트를 입력하여 중복 여부를 판별할 열을 지정할 수 있음. 만약 subset 옵션을 지정하지 않으면 모든 열에 대해서 중복 여부를 판별함.

In [21]:
df_dict = {'c1':['a','a','b','a','b'],
          'c2':[1, 1, 1, 2, 2],
          'c3':[1, 1, 2, 2, 2]}

df = pd.DataFrame(df_dict)
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [22]:
df2 = df.drop_duplicates()
df2

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


주어진 데이터프레임에 drop_duplicates() 함수를 적용하면 1행이 이전에 나온 행과 중복되므로 삭제된 것을 확인할 수 있음. 

In [23]:
df3 = df.drop_duplicates(subset=['c2','c3'])
df3

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2


subset 옵션을 이용하여 주어진 데이터프레임의 c2와 c3열에 drop_duplicates() 함수를 적용하면 1행과 4행이 이전에 나온 행과 중 복되므로 삭제된 것을 확인할 수 있음.