#### [ 데이터 필터링 ]
- Series/DataFrame에서 조건에 맞는 원하는 데이터 추출
- 방법
    * Boolean Indexing Series
    * isin() / query()
- 필터링 연산자
    * 비교연산자 : >, >=, <, <=, ==, !=
    * 논리연산자 : &(and), |(or), ~(not)

[1] 모듈 로딩 및 데이터 준비 <hr>

In [27]:
## 모듈 로딩
import pandas as pd

In [28]:
## 데이터 준비
DATA_FILE = '../Data/titanic.csv'

## DF 인스턴스 생성
dataDF = pd.read_csv(DATA_FILE)

## 20개 행만 선택
# dataDF = dataDF.iloc[:20, :7]
dataDF = dataDF.loc[:20, 'survived':'fare']

display(dataDF,dataDF.columns, dataDF.shape)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare
0,0,3,male,22.0,1,0,7.25
1,1,1,female,38.0,1,0,71.2833
2,1,3,female,26.0,0,0,7.925
3,1,1,female,35.0,1,0,53.1
4,0,3,male,35.0,0,0,8.05
5,0,3,male,,0,0,8.4583
6,0,1,male,54.0,0,0,51.8625
7,0,3,male,2.0,3,1,21.075
8,1,3,female,27.0,0,2,11.1333
9,1,2,female,14.0,1,0,30.0708


Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare'], dtype='object')

(21, 7)

[2] 불린 인덱싱(Boolean Indexing) <hr>

In [29]:
## [조건] 생존자 데이터만 선택/추출
## - DF[컬럼명] : 컬럼선택
retSR = dataDF['survived'] == 1
print(retSR)

## - 전체 DF에서 A컬럼 데이터가 20이상인 데이터만 선택
dataDF1 = dataDF[ retSR ]
dataDF2 = dataDF[ dataDF['survived'] == 1 ]

## - 결과 확인 : 생존자의 나이와 성별만 확인
display(dataDF1[['age','sex']], dataDF2[['age','sex']])

0     False
1      True
2      True
3      True
4     False
5     False
6     False
7     False
8      True
9      True
10     True
11     True
12    False
13    False
14    False
15     True
16    False
17     True
18    False
19     True
20    False
Name: survived, dtype: bool


Unnamed: 0,age,sex
1,38.0,female
2,26.0,female
3,35.0,female
8,27.0,female
9,14.0,female
10,4.0,female
11,58.0,female
15,55.0,female
17,,male
19,,female


Unnamed: 0,age,sex
1,38.0,female
2,26.0,female
3,35.0,female
8,27.0,female
9,14.0,female
10,4.0,female
11,58.0,female
15,55.0,female
17,,male
19,,female


In [30]:
## [조건] 생존자 중에서 30대 남자 데이터만 선택/추출
## 생존자 == 1
## 30대 나이 : 30 <= ~ < 40
## 성별 == 'famale'
mask = (dataDF.survived == 1) & ( (dataDF.age >= 30) & (dataDF.age < 40) ) & (dataDF.sex == 'famale')
print(mask)

## - 전체 DF에서 A컬럼 데이터가 20이상인 데이터만 선택
dataDF[ mask ][ ['survived','sex','age'] ]




0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
dtype: bool


Unnamed: 0,survived,sex,age


In [None]:
##[조건] 성별이 남자인 데이터만 선택/추출
boolIdx1 = dataDF['성별'] == '여'  ## 방법1
boolIdx2 = dataDF.성별 == '남'     ## 방법2

## 전체 DF에서 조건에 맞는 데이터들만 선택/추출
dataDF1 = dataDF[ boolIdx1 ]                       ## 방법1
dataDF1 = dataDF[ dataDF['성별'] == '남'  ]         ## 방법2
dataDF2 = dataDF[ boolIdx2 ]

## 확인
display(dataDF1, dataDF2)

KeyError: '성별'

In [None]:
##[조건] 나이가 20세 이상인 데이터만 선택/추출
boolIdx = dataDF['나이'] >= 20
dataDF1 = dataDF[ boolIdx ]

print(dataDF1)

     이름    나이 성별
0   홍길동    27  남
1   마징가  2000  남
2  홍이장군    92  여


In [None]:
## [조건] 나이가 20세 이상이고 성별이 남자인 데이터 선택
mask = (dataDF.나이 >= 20) & (dataDF.성별 == '남')
dataDF1 = dataDF[ mask ]

dataDF2 = dataDF[(dataDF.나이 >= 20) & (dataDF.성별 == '남')]

display(dataDF1, dataDF2)

Unnamed: 0,이름,나이,성별
0,홍길동,27,남
1,마징가,2000,남


Unnamed: 0,이름,나이,성별
0,홍길동,27,남
1,마징가,2000,남
