# 데이터 Selection 및 Filtering
1. []
 - 컬럼 기반 필터링 또는 불린 인덱싱 필터링 제공
 
2. ix[], loc[], iloc[]
 - 명칭/위치 기반 인덱싱을 제공

3. **Boolean Indexing**
 - 조건식에 따른 필터링 제공

## ix, loc, iloc

- 명칭(Label)기반 인덱싱은 컬럼의 명칭을 기반으로 위치를 지정하는 방식<br/>'컬럼 명'같이 명칭으로 열 위치를 지정하는 방식
- 위치(Position)기반 인덱싱은 0을 출발점으로 하는 가로축, 세로축 좌표 기반의 행과 열 위치를 기반으로 데이터를 지정. 따라서, 행, 열 위치값으로 정수가 입력됨
<br/><br/><br/>
- ix[]: 명칭 기반과 위치 기반 인덱싱 함께 제공
- loc[]: 명칭 기반 인덱싱
- iloc[]: 위치 기반 인덱싱
<br/><br/><br/>
ix[]는 디버깅이 어려운 점이 있어서 pandas 0.20.0부터 사용하지 않는다.(현재 pandas 0.25.1사용 중)<br/>
iloc의 i는 index의 의미로 위치 기반 인덱싱이다.

![명칭 기반과 위치 기반 인덱싱](./assets/pandas_select_filtering01.png)

## Boolean indexing

위치기반, 명칭기반 인덱싱 모두 사용할 필요없이 조건식을 []안에 기입하여 간편하게 필터링을 수행

```python
boolean_df = df[df['Age']>60]
```

<br/><br/><br/>

## DataFrame의 []연산자

: 넘파이에서 []연산자는 행의 위치, 열의 위치, 슬라이싱 범위 등을 지정해 데이터를 가져올 수 있다. 하지만, DataFrame 바로 뒤에 있는 `[]`안에 들어갈 수 있는 것은 컬럼명 문자 또는(컬럼 명의 리스트 객체) 인덱스로 변환 가능한 표현식이다.

In [1]:
import pandas as pd

In [3]:
df = pd.read_csv('data/train.csv')
print('단일 컬럼 데이터 추출:\n', df['Pclass'].head(3))
print('여러 컬럼들의 데이터 추출\n', df[['Survived', 'Pclass']].head(3))
# print('[]안에 숫자 index는 KeyError 오류 발생\n', df[0]) #오류 발생

단일 컬럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64
여러 컬럼들의 데이터 추출
    Survived  Pclass
0         0       3
1         1       1
2         1       3


KeyError: 0

In [7]:
df[0:3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


Pandas의 index형태로 변환가능한 표현식은 []내에 입력할 수 있다.
df[0]는 오류가 발생하지만, df[0:3]와 같은 슬라이싱을 이용했다면 3(행)개의 데이터를 반환합니다.
<br/>
그러나, 슬라이싱을 사용하기보단 **정확한 표현을 위해 컬럼명으로 사용하길 추천!**

[ ]내에 조건식을 입력하여 불린 인덱싱을 수행할 수 있다.<br/>
DataFrame 바로 뒤에 있는 [ ]안에 들어갈 수 있는 것은 컬럼명과 불린인덱싱으로 범위를 좁혀서 코딩하는 것이 좋다

In [8]:
df[df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## DataFrame iloc[]연산자
위치 기반 인덱싱 제공

In [21]:
data_list = [['Male', 'TaeJune', 2019], ['Female', 'RoMe', 2020], ['Male', 'Jack', 2018], ['Male', 'Marine', 2018]]
col_name = ['Gender', 'Name', 'Year']
index_name = ['One', 'Two', 'Three', 'Four']
data_df = pd.DataFrame(data_list, columns=col_name, index=index_name)
data_df

Unnamed: 0,Gender,Name,Year
One,Male,TaeJune,2019
Two,Female,RoMe,2020
Three,Male,Jack,2018
Four,Male,Marine,2018


In [20]:
data_df.iloc[0,0]
#아래 코드는 오류 발생
# data_df.iloc[0, 'Name'] #iloc는 위치 기반 인덱싱
# data_df.iloc['One', 0] #iloc는 위치 기반 인덱싱

'Male'

## DataFrame loc[]연산자
명칭기반 인덱싱 제공

In [22]:
data_df.loc['One', 'Name']

'TaeJune'

In [23]:
data_df.loc['One']

Gender       Male
Name      TaeJune
Year         2019
Name: One, dtype: object

In [25]:
# 아래코드는 오류 발생
# data_df.loc['One',1] #loc는 명칭 기반 인덱싱

In [26]:
data_df.loc['One':'Two', 'Name']

One    TaeJune
Two       RoMe
Name: Name, dtype: object

## Boolean Indexing
헷갈리는 위치기반, 명칭기반 인덱싱을 사용할 필요없이 조건식을 []안에 기입하여 간편하게 필터링 수행

In [29]:
boolean_df = df[df['Age'] > 60]
print('Boolean_df Type:', type(boolean_df))
boolean_df.head(5)

Boolean_df Type: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. William Thomas",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. Frank",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [28]:
var_df = df['Age'] > 60
print('Boolean_var_df Type:', type(var_df))

Boolean_var_df Type: <class 'pandas.core.series.Series'>


In [31]:
df[df['Age']>60][['Name', 'Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


In [32]:
df[['Name', 'Age']][df['Age']>60].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


In [33]:
df.loc[df['Age']>60, ['Name', 'Age']].head(3) #행 위치, 컬럼 위치

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0


위와 같은 여러가지 방법으로 동일한 값을 얻어낼 수 있다.<br/>
<br/>
논리 연산자로 결합된 조건식도 `Boolean Indexing`으로 적용 가능하다.

In [34]:
df[ (df['Age']>60) & (df['Pclass'] == 1) & (df['Sex']=='female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


조건식을 변수로도 할당 가능하며, 복잡한 조건식은 변수로 할당하여 가독성을 향상 시킬 수 있다.

In [None]:
cond1 = df['Age'] > 60
cond2 = df['Pclass'] == 1
cond3 = df['Sex'] == 'female'
df[cond1&cond2&cond3]