# pandas.DataFrame.drop

- DataFrame의 행이나 열을 삭제할 때 쓰이는 메서드     

참고: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

오늘 학습 내용 중 등장한 pandas의 drop 메서드 예시... 인줄 알았으나 <br>
dropna 메서드인 것을 나중에 확인;▼

In [39]:
# dropna는 결측치를 삭제해주는 메서드
# subset으로 특정옵션 선택
# how 옵션으로 선택한 컬럼 전부가 결측치인 행을 삭제하겠다는 의미로 'all'을 선택합니다
# ('any': 하나라도 결측치인 경우)
trade.dropna(how='all', subset=['수출건수', '수출금액', '수입건수', '수입금액', '무역수지'], inplace=True)

drop 메서드와 dropna 메서드 모두 확인해보자! <br>
먼저 drop 메서드부터 살펴보자

### 여기서 inplace=True의 의미가 궁금하다!
그러기 위해서 drop의 API 문서를 보고 전체적 의미를 파악해보자

![dataframe_drop.png](attachment:dataframe_drop.png)

### labels
- 삭제할 인덱스(행)나 컬럼(열)을 의미한다. 
- label로 쓰이는 튜플은 single label로 쓰일 수 있으며 리스트처럼 다뤄지지는 않는다.<br>

### axis
- 삭제할 줄이 행인지, 열인지를 체크
- axis=0(axis='index') 이면 인덱스(행)를 삭제
- axis=1(axis='column') 이면 컬럼(열)을 삭제
- 기본값은 0으로 설정되어 있다 <br>

### index
- labels, axis = 0 은 index=labels 와 동일한 표현이다 <br>

### columns
- labels, axis = 1 은 columns=labels 와 동일한 표현이다 <br>

### level
- MultiIndex에서 label이 삭제될 level <br>

### inplace
- 불값(True/False), 기본값은 False이다
- False라면 copy를 리턴하고, True라면 연산을 실행하고 None을 리턴한다. <br>

### errors
- ignore / raise, 기본값은 raise(KeyError 발생)
- ignore이라면 에러를 무시하고 label 삭제 진행한다

# #
in place의 뜻을 사전을 찾아보면, <br>
'~할 준비가 되어 있는, 가동할 준비가 되어 있는' 이라고 나온다. <br>

이 drop 메서드를 실행하면 리턴 값은 둘 중 하나, <br>
DataFrame / None이 나온다고 한다. <br>
inplace 값에 따라 연산 실행 전 값(False)가 리턴되거나, 연산이 실행된 결과(True)가 리턴되는 것으로 추정할 수 있다.

### 예시를 통해 확인해보자!

In [40]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(12).reshape(3, 4), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [41]:
# B, C 열을 삭제한다: 방법 1
df.drop(['B', 'C'], axis=1)

Unnamed: 0,A,D
0,0,3
1,4,7
2,8,11


In [42]:
# B, C 열을 삭제한다: 방법 2
df.drop(columns=['B', 'C'])

Unnamed: 0,A,D
0,0,3
1,4,7
2,8,11


In [43]:
# 0, 1 인덱스(행)를 삭제한다
# axis의 기본값이 0이므로, 값을 입력하지 않아도 삭제된다
df.drop([0, 1])

Unnamed: 0,A,B,C,D
2,8,9,10,11


예시를 살펴보면, 뒤에 있는 inplace나 error는 일반적으로 잘 쓰이는 것 같지는 않고, <br>
drop으로 삭제할 때에는, 해당 1)인덱스/컬럼 표시, 2)행인가 열인가 <br>
이 두 가지만 잘 체크하면 되는 것으로 보인다.

In [44]:
import pandas as pd
import numpy as np
import os

csv_file_path = os.getenv('HOME')+'/aiffel/data_preprocess/data/trade.csv'
trade = pd.read_csv(csv_file_path) 

# 위에서 기타사항이 전부 결측치이므로 기타사항 전체 열을 삭제해준다
trade = trade.drop('기타사항', axis=1)
trade.head()

Unnamed: 0,기간,국가명,수출건수,수출금액,수입건수,수입금액,무역수지
0,2015년 01월,중국,116932.0,12083947.0,334522.0,8143271.0,3940676.0
1,2015년 01월,미국,65888.0,5561545.0,509564.0,3625062.0,1936484.0
2,2015년 01월,일본,54017.0,2251307.0,82480.0,3827247.0,-1575940.0
3,2015년 02월,중국,86228.0,9927642.0,209100.0,6980874.0,2946768.0
4,2015년 02월,미국,60225.0,5021264.0,428678.0,2998216.0,2023048.0


오늘 학습에서도 위와 같이 쓰인 것을 알 수 있다.

이번에는 dropna 메서드를 살펴보자

* * *

# pandas.DataFrame.dropna

- DataFrame의 행이나 열을 삭제할 때 쓰이는 메서드     

참고: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

오늘 학습의 예시 dropna가 쓰인 코드▼를 살펴보기 위해, 역시 API 문서를 보자.

In [None]:
# dropna는 결측치를 삭제해주는 메서드
# subset으로 특정옵션 선택
# how 옵션으로 선택한 컬럼 전부가 결측치인 행을 삭제하겠다는 의미로 'all'을 선택합니다
# ('any': 하나라도 결측치인 경우)
trade.dropna(how='all', subset=['수출건수', '수출금액', '수입건수', '수입금액', '무역수지'], inplace=True)

![dataframe_dropna.png](attachment:dataframe_dropna.png)

### axis
- drop메서드에서 봤던 것과 마찬가지로 쓰인다
- 0(인덱스) 또는 1(columns)값이며, 기본값은 0이다

### how
- any 또는 all값을 넣는다, 기본값은 any
- NA(Nan) 값이 최소한 1개 있는 열이나 행을 삭제할 때: any
- 모든 값이 NA(Nan) 값을 가지는 열이나 행을 삭제할 때: all

### thresh
- int값으로 주어진 thresh 개수 이상의 non-NA 값 개수가 있는 행/열 삭제
(예시에서 더욱 잘 확인할 수 있다)

### subset
- 해당 행/열을 삭제할 때 고려할 다른 행/열 표시

### inplace
- 기본값 False
- True값이 주어지면 연산을 실행하고 리턴 값은 None
- inplace=True일 때 drop이 실행되는 것

# #
예시를 다시 살펴볼테지만, inplace값의 중요도는 dropna에서 높은 것으로 추정된다.

### 예시를 통해 확인해보자!

In [45]:
df = pd.DataFrame({"name": ['Alfred', 'Batman', 'Catwoman'],
                   "toy": [np.nan, 'Batmobile', 'Bullwhip'],
                   "born": [pd.NaT, pd.Timestamp("1940-04-25"),
                            pd.NaT]})
df

Unnamed: 0,name,toy,born
0,Alfred,,NaT
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [46]:
# Nan값이 하나라도 있는 인덱스가 삭제된다(기본값: axis=0)
df.dropna()

Unnamed: 0,name,toy,born
1,Batman,Batmobile,1940-04-25


In [47]:
# Nan값이 하나라도 있는 컬럼이 삭제된다
df.dropna(axis='columns')

Unnamed: 0,name
0,Alfred
1,Batman
2,Catwoman


In [48]:
df.dropna(how='all')

Unnamed: 0,name,toy,born
0,Alfred,,NaT
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [49]:
# non_NA 값이 2개 이상이면 keep한다
df.dropna(thresh=2)

Unnamed: 0,name,toy,born
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [50]:
# name, toy 항목을 기준으로 해서 해당 항목에 Nan 값이 있는 경우 삭제
df.dropna(subset=['name', 'toy'])

Unnamed: 0,name,toy,born
1,Batman,Batmobile,1940-04-25
2,Catwoman,Bullwhip,NaT


In [51]:
# 연산을 실행하고 타당한 항목 keep
# 다른 조건이 없으므로 Nan값이 하나도 없는 행만 추출되었다
df.dropna(inplace=True)
df

Unnamed: 0,name,toy,born
1,Batman,Batmobile,1940-04-25


다시 예시로 돌아오면,

In [52]:
# dropna는 결측치를 삭제해주는 메서드
# subset으로 특정옵션 선택
# how 옵션으로 선택한 컬럼 전부가 결측치인 행을 삭제하겠다는 의미로 'all'을 선택합니다
# ('any': 하나라도 결측치인 경우)
trade.dropna(how='all', subset=['수출건수', '수출금액', '수입건수', '수입금액', '무역수지'], inplace=True)

subset에 있는 다섯 가지 항목을 기준으로 해서, <br>
how='all', 즉 해당 컬럼의 값이 전부 Nan 값인 컬럼을 삭제할 것이고, <br>
inplace=True, 이렇게 실행된 결과 값을 keep하겠다, <br>
라는 의미로 이해해볼 수 있겠다.<br>

+) drop은 원본 파일이 <b>변경되지 않는다...!</b>