#### 【 데이터 필터링 】
- Series/DataFrame에서 조건에 맞는 원하는 데이터 추출 
- 방법
    * Boolean Indexing Series
    * isin() / query() 
- 필터링 연산자
    * 비교연산자 : >,>=, <, <=, ==, != 
    * 논리연산자 : &(and), |(or), ~(not)

[1] 모듈 로딩 및 데이터 준비<hr>

In [1]:
## 모듈 로딩
import pandas as pd 

In [10]:
## DF 인스턴스 생성 
dataDF = pd.DataFrame({'A':[1, 2, 3], 'B':['a','b','c']})

display(dataDF)

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c


[1] isin() 메서드 : 데이터 검사<hr>

In [11]:
## [조건] DF의 데이터가 1,2,'a'인 데이터 검사
dataDF.isin( [1,2,'a'] )

Unnamed: 0,A,B
0,True,True
1,True,False
2,False,False


In [12]:
## [조건] DF의 데이터가 1,2,'a'가 아닌 데이터 검사
~ dataDF.isin( [1,2,'a'] )

Unnamed: 0,A,B
0,False,False
1,False,True
2,True,True


In [17]:
## [조건] DF의 A 컬럼의 데이터가 1,5인지 검사
retSR1 = dataDF['A'].isin([1,5])

otherSR = pd.Series([2,7,3,9])
retSR2 = dataDF['A'].isin(otherSR)

print('retSR2', retSR2, sep='\n')

## 전체 DF에서 A컬럼의 데이터가 1,5인 데이터만 선택
dataDF[retSR1]

retSR2
0    False
1     True
2     True
Name: A, dtype: bool


Unnamed: 0,A,B
0,1,a


[3] query() 메서드 : 조건식을 문자열로 처리 <hr>

In [18]:
## DF 생성
df = pd.DataFrame({ 'A': range(1, 6),
                    'B': range(10, 0, -2), 
                    'C C': range(10, 5, -1)})

display(df)

Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7
4,5,2,6


In [22]:
## [조건] DF에서 A가 B보다 큰 데이터만 선택
mask = df.A > df.B
ret1 = df[ mask ]
display(ret1)

ret2 = df.query('A>B')
display(ret2)

Unnamed: 0,A,B,C C
4,5,2,6


Unnamed: 0,A,B,C C
4,5,2,6


In [None]:
## [조건] DF에서 A와 CC 컬럼의 값이 같은 데이터만 선택
mask = df.A == df['C C']
ret1 = df[ ~mask ]
display(ret1)

df.query('A != "C C"')

Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7
4,5,2,6


Unnamed: 0,A,B,C C
0,1,10,10
1,2,8,9
2,3,6,8
3,4,4,7
4,5,2,6


In [5]:
## DF 인스턴스 생성 및 확인
dataDF  = pd.DataFrame({'num_legs': [2, 4, 4], 
                        'num_wings': [2, 0, 0]},
                       index=['falcon', 'dog', 'cat'])
display( dataDF )

Unnamed: 0,num_legs,num_wings
falcon,2,2
dog,4,0
cat,4,0


[2] isin() 메서드 : 데이터/값 존재 여부<hr>

In [7]:
## [조건] 데이터/값이 0, 2인 데이터 선택/추출
resultDF = dataDF.isin([0, 2])
display(resultDF)

Unnamed: 0,num_legs,num_wings
falcon,True,True
dog,False,True
cat,False,True


In [8]:
## [조건] num_wings 데이터/값이 0, 3인 데이터 선택/추출
resultDF = dataDF.isin({'num_wings':[0, 3]})
display(resultDF)

Unnamed: 0,num_legs,num_wings
falcon,False,False
dog,False,True
cat,False,True


In [9]:
## [조건] 다른 Series/DataFrame에서 데이터 존재 여부
otherDF = pd.DataFrame({'num_legs': [8, 3], 
                        'num_wings': [0, 2]},
                        index=['spider', 'falcon'])

dataDF.isin(otherDF)

Unnamed: 0,num_legs,num_wings
falcon,False,True
dog,False,False
cat,False,False
