# (3). 셀렉션 및 필터링
---

loc[ ],iloc[ ], 불린 인덱싱을 통해 원하는 값을 추출한다. numpy 문법과 헷갈리지 않도록 주의.


pandas의 경우 DataFrame의 []에 들어가는 값은

* 칼럼 명 문자 (또는 칼럼명의 리스트 객체)
* 인덱스로 변환 가능한 표현식


## 1. 기초
---

In [1]:
import pandas as pd

titanic_df = pd.read_csv(r'data/titanic_train.csv')

print('#단일 칼럼 데이터 추출:\n',titanic_df['Pclass'].head(3))

print('\n#여러 칼럼의 데이터 추출:\n',titanic_df[['Survived','Pclass']].head(3))

print('\n#[]안에 숫자 index는 KeyError 오류 발생: titanic_df[0] <- Error')

#단일 칼럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

#여러 칼럼의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3

#[]안에 숫자 index는 KeyError 오류 발생: titanic_df[0] <- Error


### []안에 인덱스 표현식은 입력 가능 (ex: 슬라이싱)
---
다만 문법 혼동방지를 위해 슬라이싱 사용은 비추천.

In [2]:
titanic_df[:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


### ★ 불린 인덱싱을 통한 데이터 추출
---
셀렉션에 자주 사용한다.

#### ex: Pclass값이 3인 데이터 3개 추출하기

In [3]:
titanic_df[ titanic_df['Pclass'] == 3 ].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 2. 명칭/위치 기반 인덱싱
---

#### 명칭 기반 인덱싱 - loc[]
DataFrame의 인덱스나 칼럼명으로 데이터에 접근

#### 위치 기반 인덱싱 - iloc[]
행과 열 위치값(정수형)으로 원하는 데이터에 접근

ix는 다루지 않는다.

### 예제를 위한 DF 추가

In [4]:
data = { 'Name':['A','B','C','D'],
        'Year':[2011,2016,2015,2015],
       'T/F':['T','F','T','F']}
data_df = pd.DataFrame(data, index=['one','two','three','four'])
data_df

Unnamed: 0,Name,Year,T/F
one,A,2011,T
two,B,2016,F
three,C,2015,T
four,D,2015,F



### 2-1. loc[ ] - 명칭 기반 인덱싱
---
DataFrame의 인덱스나 칼럼명으로 데이터에 접근

In [5]:
print(data_df.loc['one','Name'])
print(titanic_df.loc[0,'Name'])

A
Braund, Mr. Owen Harris


### 2-2. iloc[ ] - 위치 기반 인덱싱
---
행과 열 위치값(정수형)으로 원하는 데이터에 접근

In [6]:
print(data_df.iloc[0,0])
print(titanic_df.iloc[0,3])

A
Braund, Mr. Owen Harris


#### [행,열] 헝태로 접근하기에 iloc에 칼럼명을 쓰면 에러

* data_df.iloc[0,'Name'] -> Error

* data_df.iloc['one',0] -> Error

### 2-3. 인덱싱별 슬라이싱 차이점
---

#### n:m 범위를 추출할 경우
* 위치 기반(iloc): n ~ m-1까지 추출
* 명칭 기반(loc): n ~ m까지 추출

명칭 기반일 경우 index가 숫자형이 아닐 수도 있음. 즉, -1이 불가능하기에 m까지의 범위를 출력한다.

In [7]:
print('위치 기반 iloc 슬라이싱:\n',data_df.iloc[0:1,0],'\n')
print('명칭 기반 loc 슬라이싱:\n',data_df.loc['one':'two','Name'])

위치 기반 iloc 슬라이싱:
 one    A
Name: Name, dtype: object 

명칭 기반 loc 슬라이싱:
 one    A
two    B
Name: Name, dtype: object


#### 명칭 기반에서 인덱스가 정수형이라면 행에 정수로 써주면 됨.

In [8]:
titanic_df.loc[0:2,'Name']

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
Name: Name, dtype: object

### 2-4. DataFrame - 명칭/위치 기반 중 어느 것인가?
---

인덱스가 1~4까지의 정수형인 DataFrame을 생성한다.

In [9]:
#data_df를 reset_index()로 새로운 정수형 인덱스 지정
reset_df = data_df.reset_index()
reset_df = reset_df.rename(columns={'index':'old_index'})

#인덱스값에 1을 더해서 1부터 시작하는 새로운 인덱스값 생성
reset_df.index = reset_df.index + 1
reset_df

Unnamed: 0,old_index,Name,Year,T/F
1,one,A,2011,T
2,two,B,2016,F
3,three,C,2015,T
4,four,D,2015,F


#### reset_df.loc[0,'Name'] -> Error

인덱스에 0이 없으므로 오류가 발생한다.

### 첫번째 값을 출력하고 싶다면 - loc과 iloc

In [10]:
print(reset_df.loc[1,'Name'])
print(reset_df.iloc[:2,1])

A
1    A
2    B
Name: Name, dtype: object


### 결론:
명칭기반(loc[])의 경우 0이라는 인덱스값이 없기에 에러로 표시된다. 따라서 DataFrame은 명칭 기반 인덱싱으로 간주한다.

(추후 추가 혹은 수정 가능)

## 3. 불린 인덱싱 (★)
---

[ ], loc[ ]에서 불린 인덱싱이 지원된다.

iloc[ ]의 경우 정수형값이 아닌 불린 값에 대해서는 지원하지 않기에, 불린 인덱싱 불가능.


### 3-1. 예제를 통한 기초
---

### 예제1: 60세 이상 승객 출력하기

In [11]:
titanic_bool = titanic_df[ titanic_df['Age'] >= 60 ]
print(type(titanic_bool))
titanic_bool.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S


### 예제2: 60세 이상 승객의 이름과 나이만 출력하기                    

In [12]:
titanic_df[titanic_df['Age'] >= 60][['Age','Name']].head()

Unnamed: 0,Age,Name
33,66.0,"Wheadon, Mr. Edward H"
54,65.0,"Ostby, Mr. Engelhart Cornelius"
96,71.0,"Goldschmidt, Mr. George B"
116,70.5,"Connors, Mr. Patrick"
170,61.0,"Van der hoef, Mr. Wyckoff"


In [13]:
#loc[]을 이용해 동일하게 처리하기
titanic_df.loc[ titanic_df['Age'] >= 60 , ['Age','Name'] ].head()

Unnamed: 0,Age,Name
33,66.0,"Wheadon, Mr. Edward H"
54,65.0,"Ostby, Mr. Engelhart Cornelius"
96,71.0,"Goldschmidt, Mr. George B"
116,70.5,"Connors, Mr. Patrick"
170,61.0,"Van der hoef, Mr. Wyckoff"


### 3-2. 복합 조건 선택하기
---

* AND: &
* OR: |
* NOT: ~

### 예제3: 나이 60세 이상, 선실 1등급, 성별이 여성인 승객은?

In [14]:
titanic_df[ (titanic_df['Age']>=60) 
           & (titanic_df['Pclass']==1) 
           & (titanic_df['Sex']=='female') ][['Age','Pclass','Name']].head()

Unnamed: 0,Age,Pclass,Name
275,63.0,1,"Andrews, Miss. Kornelia Theodosia"
366,60.0,1,"Warren, Mrs. Frank Manley (Anna Sophia Atkinson)"
829,62.0,1,"Stone, Mrs. George Nelson (Martha Evelyn)"


### 개별조건을 변수에 할당하고, 그 변수를 결합하여 수행할 수도 있다. (★)

In [15]:
cond1 = titanic_df['Age']>=60
cond2 = titanic_df['Pclass']==1
cond3 = titanic_df['Sex']=='female'

titanic_df[cond1&cond2&cond3][['Age','Pclass','Name']].head()

Unnamed: 0,Age,Pclass,Name
275,63.0,1,"Andrews, Miss. Kornelia Theodosia"
366,60.0,1,"Warren, Mrs. Frank Manley (Anna Sophia Atkinson)"
829,62.0,1,"Stone, Mrs. George Nelson (Martha Evelyn)"
