#### 【 데이터 필터링 】
- Series/DataFrame에서 조건에 맞는 원하는 데이터 추출
- 방법
    * Boolean Indexing Series
    * isin() / query()
- 필터링 연산자
    * 비교연산자 : >, >=, <, <= , ==, !=
    * 논리연산자 : &(and), |(or), ~(not)

[1] 모듈 로딩 및 데이터 준비

In [18]:
## 모듈 준비
import pandas as pd

In [19]:
## 데이터 준비
data = {
    'A' : [1,2,3],
    'B' : ['a','b','c'],
}
dataDF = pd.DataFrame(data)

display(dataDF)


Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c


In [20]:
## [조건] DF의 데이터가 1, 2, 'a' 인 데이터 검사
dataDF.isin([1,2,'a'])

Unnamed: 0,A,B
0,True,True
1,True,False
2,False,False


In [21]:
## [조건] DF의 데이터가 1, 2, 'a'이 아닌 데이터 검사
~dataDF.isin([1,2,'a'])

Unnamed: 0,A,B
0,False,False
1,False,True
2,True,True


In [22]:
## [조건] DF의 A컬럼의 데이터가 1, 5인지 검사
retSR1 = dataDF['A'].isin([1,5])

otherSR = pd.Series([2,7,3,9])
retSR2 = dataDF['A'].isin(otherSR)

print('retSR2', retSR2, sep='\n')

## 전체 DF에서 A컬럼의 데이터가 1,5인 데이터만 선택
dataDF[retSR1]

retSR2
0    False
1     True
2     True
Name: A, dtype: bool


Unnamed: 0,A,B
0,1,a


[3] query()를 이용한 필터링

In [23]:
## df 생성
df= pd.DataFrame({ 'A': range(1, 6),
                    'B': range(10, 0, -2),
                    'C C': range(10, 5, -1)})

display(df)

Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7
4,5,2,6


In [None]:
## [조건] DF에서 A가 B보다 큰 데이터만 선택
mask = df.A > df.B
display(mask)

df.query('A>B')



0    False
1    False
2    False
3    False
4     True
dtype: bool

1


In [26]:
## [조건] DF에서 A가 CC가 같은 데이터만
mask = df.A == df['C C']
ret1 = df[mask]
display(ret1)

df.query('A != "C C"')

Unnamed: 0,A,B,C C


Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7
4,5,2,6
