#### [데이터 필터링]
- Series/DataFrame에서 조건에 맞는 원하는 데이터 추출
- 방법
    * Boolean Indexing Series
    * isin() / query()
- 필터링 연산자
    * 비교연산자: >, >=, <, >=, ==, !=
    * 논리연산자: &(and), |(or), ~(not)
    


In [127]:
import pandas as pd

In [128]:
# DF 인스턴스 생성
dataDF = pd.DataFrame({'A':[1,2,3], 'B':['a','b','c']})

display(dataDF)

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c


[1] isin()메서드:데이터 검사 <hr>

In [129]:
# [조건] DF의 데이터가 1,2,'a'인 데이터 검사
dataDF.isin([1, 2, 'a'])

Unnamed: 0,A,B
0,True,True
1,True,False
2,False,False


In [130]:
# [조건] DF의 데이터가 1,2,'a'가 아닌 데이터 검사
~dataDF.isin([1,2,'a'])

Unnamed: 0,A,B
0,False,False
1,False,True
2,True,True


In [131]:
# [조건] DF의 A 컬럼의 데이터가 1,5인지 검사
retSR1 = dataDF['A'].isin([1, 5])

otherSR = pd.Series([2,7,3,9])
print(otherSR)

retSR2 = dataDF['A'].isin(otherSR)

print('retSR2', retSR2, sep='\n')

# 전체 DF에서 A컬럼의 데이터가 1,5인 데이터만 선택
dataDF[retSR1]

0    2
1    7
2    3
3    9
dtype: int64
retSR2
0    False
1     True
2     True
Name: A, dtype: bool


Unnamed: 0,A,B
0,1,a


In [132]:
# 데이터 준비
DATA_FILE = '../02_PANDAS/Data/titanic.csv'

# DF 인스턴스 생성
dataDF = pd.read_csv(DATA_FILE)

# 20개 행만 선택
dataDF = dataDF.loc[:20, 'survived':'fare']
# dataDF = dataDF.iloc[:20, :7]

display(dataDF, dataDF.columns, dataDF.shape)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare
0,0,3,male,22.0,1,0,7.25
1,1,1,female,38.0,1,0,71.2833
2,1,3,female,26.0,0,0,7.925
3,1,1,female,35.0,1,0,53.1
4,0,3,male,35.0,0,0,8.05
5,0,3,male,,0,0,8.4583
6,0,1,male,54.0,0,0,51.8625
7,0,3,male,2.0,3,1,21.075
8,1,3,female,27.0,0,2,11.1333
9,1,2,female,14.0,1,0,30.0708


Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare'], dtype='object')

(21, 7)

[2] 불린 인덱싱(Boolean Indexing) <hr>

In [133]:
# [조건] 생존자 데이터만 선택/추출
# - DF[컬럼명]: 컬럼 선택
retSR = dataDF['survived'] == 1
display(retSR)

# - 전체 DF에서 A컬럼 데이터가 20 이상인 데이터만 선택
dataDF1 = dataDF[retSR]
dataDF2 = dataDF[dataDF['survived'] == 1]

# - 결과 확인 : 생존자의 나이와 성별만 확인
display(dataDF1[['age', 'sex']], dataDF2[['age', 'sex']])

0     False
1      True
2      True
3      True
4     False
5     False
6     False
7     False
8      True
9      True
10     True
11     True
12    False
13    False
14    False
15     True
16    False
17     True
18    False
19     True
20    False
Name: survived, dtype: bool

Unnamed: 0,age,sex
1,38.0,female
2,26.0,female
3,35.0,female
8,27.0,female
9,14.0,female
10,4.0,female
11,58.0,female
15,55.0,female
17,,male
19,,female


Unnamed: 0,age,sex
1,38.0,female
2,26.0,female
3,35.0,female
8,27.0,female
9,14.0,female
10,4.0,female
11,58.0,female
15,55.0,female
17,,male
19,,female


In [134]:
# [조건] 생존자 중에서 30대 남자인 데이터만 선택/추출
# dataDF['성별'] == '남'
bool_idx = ((dataDF.age >= 30) & (dataDF.age <= 39) & (dataDF.survived == 1) & (dataDF.sex == 'male'))
ret_data1 = dataDF.loc[bool_idx, ['survived', 'sex', 'age']]
ret_data2 = dataDF[bool_idx][['survived', 'sex', 'age']]
display(ret_data1)


Unnamed: 0,survived,sex,age


In [135]:
# [조건] 생존자 중에서 30대 여자인 데이터만 선택/추출
# dataDF['성별'] == '남'
bool_idx = ((dataDF.age >= 30) & (dataDF.age <= 39) & (dataDF.survived == 1) & (dataDF.sex == 'female'))
ret_data1 = dataDF.loc[bool_idx, ['survived', 'sex', 'age']]
ret_data2 = dataDF[bool_idx][['survived', 'sex', 'age']]
display(ret_data1)

Unnamed: 0,survived,sex,age
1,1,female,38.0
3,1,female,35.0


[3] query메서드 <hr> 

In [137]:
# DF 생성
df = pd.DataFrame({ 'A': range(1, 6),
                    'B': range(10, 0, -2),
                    'C C': range(10, 5, -1)})

In [142]:
# [조건] DF에서 A가 B보다 큰 데이터만 선택
mask = df.A > df.B
ret1 = df[mask]
display(ret1)

ret2 = df.query('A>B')
display(ret2)

Unnamed: 0,A,B,C C
4,5,2,6


Unnamed: 0,A,B,C C
4,5,2,6


In [None]:
# [조건] DF에서 A와 CC 컬럼의 값이 같은 데이터만 선택
mask = df.A == df['C C']
ret1 = df[~mask]
display(ret1)

df.query('A != "C C"')  # 공백 있으면 묶어줘야 함

Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7
4,5,2,6


Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7
4,5,2,6
