### Data Selection & Filtering

In [1]:
import pandas as pd
import numpy as np

In [2]:
# data load
df = pd.read_csv('./titanic/train.csv')

#### DataFrame의 [] 연산자

In [3]:
# DataFrame[['칼럼명','칼럼명2']]을 통해 DataFrame 속 지정된 칼럼을 추출할 수 있습니다.
df[['Survived', 'Pclass']].head(3)

Unnamed: 0,Survived,Pclass
0,0,3
1,1,1
2,1,3


In [4]:
# []안에 인덱스 형태로 변환 가능한 표현식은 []내에 입력할 수 있습니다.
# 0~5까지의 row 추출.
df[0:6]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q


In [5]:
# [] Boolean Index도 가능합니다. (query와 비슷한 역할을 하기도 함.)
# df의 Pclass 칼럼이 3인 행들을 추출
df[df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


<정리>
1. DataFrame의 바로 뒤의 []연산자는 numpy의 []나 Series의 []와 다릅니다.
2. DataFrame의 바로 뒤의 [] 내 입력 값은 칼럼명 또는 칼럼명의 리스트를 통해 칼럼 지정 연산에 사용하거나, 불린 인덱스 용도로 사용됩니다.
3. DataFrame[0:2]와 같은 슬라이싱 연산으로 데이터를 추출하는 방법은 사용하지 않는 게 좋습니다.

#### DataFrame ix[] 연산자

넘파이 ndarray의 [] 연산자와 유사한 기능을 DataFrame에 제공하기 위해서 판다스는 ix[] 연산자를 판다스 개발 초기에 제공했습니다. </br>
ix[]는 ix[0,'Pclass'] (0번째 행, Pclass 열의 값), 또는  ix[0,2] 처럼 칼럼 위치 값 지정도 가능합니다.</br>
전자는 칼럼 명칭(label)기반의 인덱싱, 후자는 칼럼 위치(position)기반의 인덱싱입니다.</br>
두 방식 모두 제공하게 되면서 코드가 혼동되고, 가독성이 떨어져서 사라졌습니다.

#### DataFrame iloc[] 연산자

iloc[]는 위치 기반 인덱싱만 허용하기 때문에 행과 열 값으로 Integer 또는 integer형의 슬라이싱, 펜시 리스트 값을 입력해줘야 합니다.</br>
iloc[]은 boolean 인덱싱을 제공하지 않습니다.

In [15]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [7]:
# df의 인덱스 0(첫번째)행, 3번째 칼럼에 해당하는 값
df.iloc[0,3]

'Braund, Mr. Owen Harris'

#### DataFrame loc[] 연산자

loc[ ]는 명칭 기반을 데이터를 추출합니다. 따라서 행 위치에는 DataFrame index 값을, 그리고 열 이치에는 칼럼 명을 입력해줍니다.</br>
일반적으로 슬라이싱을 '시작 값': '종료 값'과 지정하면 '시작값'~ '종료 값' -1 까지의 범위를 의미합니다. </br>
하지만 loc에서의 슬라이싱의 경우 '종료 값'까지의 값을 포함합니다. 이는 '명칭 기반의 인덱싱' 특성 때문입니다.

In [22]:
# DataFrame row 0, column 'Survived'
df.loc[0, 'Survived']

0

In [23]:
# row 2~4, column Name~Ticket
df.loc[2:4, 'Name': 'Ticket']

Unnamed: 0,Name,Sex,Age,SibSp,Parch,Ticket
2,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803
4,"Allen, Mr. William Henry",male,35.0,0,0,373450


In [24]:
# row 2와 3, column 'Name'과 'Ticket'
df.loc[[2,4], ['Name','Ticket']]

Unnamed: 0,Name,Ticket
2,"Heikkinen, Miss. Laina",STON/O2. 3101282
4,"Allen, Mr. William Henry",373450


<주의할 점> </br>
1. 명칭 기반의 인덱싱과 위치 기반의 인덱싱의 차이를 이해하는 것이 중요합니다.
2. iloc[ ]은 위치 기반 인덱싱만 가능합니다. 따라서 행과 열 위치 값으로 정수형 값을 지정해 원하는 데이터를 반환합니다.
3. loc[ ]는 명칭 기반 인덱싱만 가능합니다. 따라서 행 위치에 DataFrame 인덱스가 오며, 열 위치에는 칼럼 명을 지정해 원하는 데이터를 반환합니다.
4. 명칭 기반 인덱싱에서 슬라이싱을 '시작점 : 종료점'으로 지정할 때 시작점에서 종료점을 포함한 위치에 있는 데이터를 반환합니다.

#### 불린 인덱싱

In [28]:
# 승객 중 나이(Age)가 60세 이상인 데이터를 추출
df_boolean = df[df['Age'] > 60]
print(type(df_boolean))
df_boolean.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. Engelhart Cornelius",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,"Van der hoef, Mr. Wyckoff",male,61.0,0,0,111240,33.5,B19,S


In [39]:
# 'Age'가 70이상인 데이터 중에서 'Name', 'Age', 'Cabin' 정보만을 추출.
df_boolean2 = df[df['Age'] > 70][['Name', 'Age', 'Cabin']]
df_boolean2

Unnamed: 0,Name,Age,Cabin
96,"Goldschmidt, Mr. George B",71.0,A5
116,"Connors, Mr. Patrick",70.5,
493,"Artagaveytia, Mr. Ramon",71.0,
630,"Barkworth, Mr. Algernon Henry Wilson",80.0,A23
851,"Svensson, Mr. Johan",74.0,


<복합 조건>
1. and 조건에는 &
2. or 조건에는 |
3. not 조건에는 ~

In [42]:
# 나이가 60세 이상이면서 선실이 1등급이면서, 성별이 여성인 승객을 추출
df[(df['Age']> 60)
   & (df['Pclass'] == 1)
   & (df['Sex'] == 'female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,
