<a href="https://colab.research.google.com/github/Griotold/Projcet_Starship_Titanic/blob/main/starship/pd_drop().ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas.DataFrame.drop

- 프로젝트를 진행중에 아래와 같은 코드를 만났다.
train.drop(["PassengerId"], axis = 1, inplace = True)
- 자꾸 에러가 나길래, 공부를 좀 해봤다.


- 출처 : https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html
- DataFrame.drop(labels=None, axis=0, index=None, columns=Nome, level=None, inplace=False, errors='raise')
- Drop은 행과 열로부터 레이블들을 지정한다.
- 레이블 이름과 대응되는 축을 지정해줌으로써 행과 열을 지운다.
- 또는 직접적인 인덱스나 열 이름을들 지정해줌으로써 행과 열을 지운다.
- 다중 인덱스(multi-index)를 사용할 경우 등급을 지정해줌으로써 다른 등급의 레이블도 지울 수 있다.

## Parameters
### labels
- single label or list-like
- 인덱스 또는 열 레이블을 지운다. 
- 튜플은 single label 취급한다. list로 취급하지 않는다.

### axis 
- 0 or 'index : 인덱스 자체를 지운다.
- 1 or 'columns' : 열 자체를 지운다.
- default는 0 

### index
- single label or list-like
- axis를 지정해주는 것 대신에

### columns
- single label or list-like
- axis를 지정해주는 것 대신에
- 아래 예제에서 확인하자.

### level
- int or level name, optional
- 다중인덱스(multiindex)의 경우, 레이블들이 있는 단계가 지워진다

### inplace
- bool
- default는 False
- False라면, 복사를 반환하고
- True라면, 덮어씌우고 아무것도 반환하지 않는다.

### errors
- 'ignore', 'raise'
- default는 'raise'
- 'ignore'를 넣어주면 에러를 막아주고, 존재하는 레이블만 지워준다.

## 예제
- 아래 데이터프레임이 있다.
- 아래 데이터프레임에는 name, price, rating, category 칼럼이 있다.

In [29]:
import pandas as pd
df = pd.DataFrame(
    {'name': ['coffee', 'tea', 'juice', 'milk', 'ade'],
     'price': [3000, 4000, 5000, 2000, 5000],
     'rating': [4, 3.5, 3.7, 3, 2],
     'category': [1,2,3,4,4]})
display(df) 

Unnamed: 0,name,price,rating,category
0,coffee,3000,4.0,1
1,tea,4000,3.5,2
2,juice,5000,3.7,3
3,milk,2000,3.0,4
4,ade,5000,2.0,4


- 여기서 category 칼럼을 지워보자

In [30]:
df.drop(columns = ['category'])

Unnamed: 0,name,price,rating
0,coffee,3000,4.0
1,tea,4000,3.5
2,juice,5000,3.7
3,milk,2000,3.0
4,ade,5000,2.0


- 2개 이상의 칼럼을 지울 때는?

In [31]:
df.drop(columns=['category', 'rating'])

Unnamed: 0,name,price
0,coffee,3000
1,tea,4000
2,juice,5000
3,milk,2000
4,ade,5000


### 칼럼을 삭제하는 다른 방법
- 필요한 칼럼만 불러오기

In [32]:
df[['name', 'rating']]

Unnamed: 0,name,rating
0,coffee,4.0
1,tea,3.5
2,juice,3.7
3,milk,3.0
4,ade,2.0


## inplace = True
- drop() 메서드에 매개변수를 추가해보자.
- 비교를 위해 먼저, inplace = True를 쓰지 말고 코드를 실행해보자

In [33]:
df.drop(columns=['category'])

Unnamed: 0,name,price,rating
0,coffee,3000,4.0
1,tea,4000,3.5
2,juice,5000,3.7
3,milk,2000,3.0
4,ade,5000,2.0


- category 칼럼이 아주 잘 지워졌다.
- 여기서 다시 원래 데이터프레임을 불러온다면,

In [34]:
display(df)

Unnamed: 0,name,price,rating,category
0,coffee,3000,4.0,1
1,tea,4000,3.5,2
2,juice,5000,3.7,3
3,milk,2000,3.0,4
4,ade,5000,2.0,4


- category 칼럼이 다시 나타나는 것을 볼 수 있다.
- 별도로 df라는 객체에 저장을 안해주었기 때문이다.

### inplace 변수를 사용

In [35]:
df.drop(columns=['category'], inplace=True)
display(df)

Unnamed: 0,name,price,rating
0,coffee,3000,4.0
1,tea,4000,3.5
2,juice,5000,3.7
3,milk,2000,3.0
4,ade,5000,2.0


- inplace = True는 기존 데이터프레임에 덮어 씌우겠다는 것이다. 따로 저장하는 수고로움을 덜어주는 매개변수인 것이다.

## 다른 예제

In [36]:
import numpy as np
df = pd.DataFrame(np.arange(12).reshape(3, 4),
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


### 열 지우기
- axis = 1

In [37]:
# axis=1 -> 열 단위로 지워라
df.drop(['B', 'C'], axis=1)

Unnamed: 0,A,D
0,0,3
1,4,7
2,8,11


- axis 매개변수 대신에 columns 매개변수를 넣어줘도 동일하다.

In [38]:

df.drop(columns=['B', 'C'])

Unnamed: 0,A,D
0,0,3
1,4,7
2,8,11


### 행 지우기
- 인덱스를 통한 방법

In [39]:
df.drop([0, 1])

Unnamed: 0,A,B,C,D
2,8,9,10,11


### 다중 인덱스로 열이나 행 지우기

In [40]:
midx = pd.MultiIndex(levels=[['lama', 'cow', 'falcon'],
                             ['speed', 'weight', 'length']],
                     codes=[[0, 0, 0, 1, 1, 1, 2, 2, 2],
                            [0, 1, 2, 0, 1, 2, 0, 1, 2]])
df = pd.DataFrame(index=midx, columns=['big', 'small'],
                  data=[[45, 30], [200, 100], [1.5, 1], [30, 20],
                        [250, 150], [1.5, 0.8], [320, 250],
                        [1, 0.8], [0.3, 0.2]])
df


Unnamed: 0,Unnamed: 1,big,small
lama,speed,45.0,30.0
lama,weight,200.0,100.0
lama,length,1.5,1.0
cow,speed,30.0,20.0
cow,weight,250.0,150.0
cow,length,1.5,0.8
falcon,speed,320.0,250.0
falcon,weight,1.0,0.8
falcon,length,0.3,0.2


- 위 데이터 프레임에서 'falcon'의 'weight'를 지우기

In [41]:
df.drop(index=('falcon', 'weight'))

Unnamed: 0,Unnamed: 1,big,small
lama,speed,45.0,30.0
lama,weight,200.0,100.0
lama,length,1.5,1.0
cow,speed,30.0,20.0
cow,weight,250.0,150.0
cow,length,1.5,0.8
falcon,speed,320.0,250.0
falcon,length,0.3,0.2


- 'cow' 인덱스와 'small' 열 지우기

In [42]:
df.drop(index='cow', columns='small')

Unnamed: 0,Unnamed: 1,big
lama,speed,45.0
lama,weight,200.0
lama,length,1.5
falcon,speed,320.0
falcon,weight,1.0
falcon,length,0.3


- 모든 인덱스에 'length' 지우기

In [43]:
df.drop(index='length', level=1)

Unnamed: 0,Unnamed: 1,big,small
lama,speed,45.0,30.0
lama,weight,200.0,100.0
cow,speed,30.0,20.0
cow,weight,250.0,150.0
falcon,speed,320.0,250.0
falcon,weight,1.0,0.8
