## 05. 비교 & 필터링

## 참고자료
* [Python 완전정복 시리즈] 2편 : Pandas DataFrame 완전정복 : https://wikidocs.net/book/7188

In [1]:
import pandas as pd
import numpy as np

## 비교 && 필터링

In [2]:
col = ['col1','col2','col3']
row = ['A','B','C']
df = pd.DataFrame(data=[[10,20,10],
                        [80,30,60],
                        [20,10,70]],index=row,columns=col)
df

Unnamed: 0,col1,col2,col3
A,10,20,10
B,80,30,60
C,20,10,70


In [6]:
# 스칼라값과의 비교
df.eq(10)

Unnamed: 0,col1,col2,col3
A,True,False,True
B,False,False,False
C,False,True,False


In [4]:
df.ne(20) # !=

Unnamed: 0,col1,col2,col3
A,True,False,True
B,True,True,True
C,False,True,True


In [7]:
# series와 비교
pd.Series([10,30], index=['col1', 'col3'])
df.gt(21)

Unnamed: 0,col1,col2,col3
A,False,False,False
B,True,True,True
C,False,False,True


In [10]:
s2 = pd.Series([10],index=["col4"])
df.lt(s2)  # 존재하지 않는 레이블 비교한다면 해당 레이블이 생성(broadcast)

Unnamed: 0,col1,col2,col3,col4
A,False,False,False,False
B,False,False,False,False
C,False,False,False,False


In [11]:
# axis에 따른 비교의 차이
df.le([10,20,30], axis="columns") # 열 기준으로 비교했을 때 각각 10, 20, 30 이하면 True

Unnamed: 0,col1,col2,col3
A,True,True,True
B,False,False,False
C,False,True,False


In [12]:
df.le([10,20,30], axis="index") # 행 기준으로 비교

Unnamed: 0,col1,col2,col3
A,True,False,True
B,False,False,False
C,True,True,False


In [13]:
# DataFrame의 비교

df2 = pd.DataFrame([[50],[50],[50]],index=row,columns=['col1'])
df2

Unnamed: 0,col1
A,50
B,50
C,50


In [14]:
df.ge(df2)

Unnamed: 0,col1,col2,col3
A,False,False,False
B,True,False,False
C,False,False,False


In [16]:
# 멀티 인덱스의 사용
row_mul = [['U','U','U','D','D','D'],['A','B','C','A','B','C']]
df_mul = pd.DataFrame(data=[[10,20,10],
                            [80,30,60],
                            [20,10,70],
                            [30,70,60],
                            [10,90,40],
                            [50,30,80]],index=row_mul,columns=col)
df_mul

Unnamed: 0,Unnamed: 1,col1,col2,col3
U,A,10,20,10
U,B,80,30,60
U,C,20,10,70
D,A,30,70,60
D,B,10,90,40
D,C,50,30,80


In [17]:
df.ge(df_mul, level=1)

Unnamed: 0,Unnamed: 1,col1,col2,col3
U,A,True,True,True
U,B,True,True,True
U,C,True,True,True
D,A,False,False,False
D,B,True,False,True
D,C,False,False,False


## dtype기반 열 선택 

In [18]:
col1 = [1, 2, 3, 4, 5]
col2 = ['one', 'two', 'three', 'four', 'five']
col3 = [1.5, 2.5, 3.5, 4.5, 5.5]
col4 = [True, False, False, True, True]
df = pd.DataFrame({"col1": col1, "col2": col2, "col3": col3, "col4": col4})
df

Unnamed: 0,col1,col2,col3,col4
0,1,one,1.5,True
1,2,two,2.5,False
2,3,three,3.5,False
3,4,four,4.5,True
4,5,five,5.5,True


In [20]:
result = df.select_dtypes(include=[float,bool])
result

Unnamed: 0,col3,col4
0,1.5,True
1,2.5,False
2,3.5,False
3,4.5,True
4,5.5,True


In [21]:
df.select_dtypes(exclude=['int64'])

Unnamed: 0,col2,col3,col4
0,one,1.5,True
1,two,2.5,False
2,three,3.5,False
3,four,4.5,True
4,five,5.5,True


In [22]:
df.select_dtypes(include=[float,object], exclude=['int64'])

Unnamed: 0,col2,col3
0,one,1.5
1,two,2.5
2,three,3.5
3,four,4.5
4,five,5.5


## 임계값 적용

In [23]:
col  = ['col1','col2','col3']
row  = ['row1','row2','row3']
data = [[-7,3,9],
        [6,-8,1],
        [-3,0,-7]]
df = pd.DataFrame(data,row,col)
df

Unnamed: 0,col1,col2,col3
row1,-7,3,9
row2,6,-8,1
row3,-3,0,-7


In [24]:
# 하한선 -4, 상한선 5로 clip 메서드 적용
# 즉, -4보다 작은수는 -4로. 5보다 큰 수는 5로 변경

df.clip(-4,5)

Unnamed: 0,col1,col2,col3
row1,-4,3,5
row2,5,-4,1
row3,-3,0,-4


In [28]:
# 임계값을 Series로 설정
s = pd.Series(data=[1,2,3], index=row)

In [29]:
df.clip(-s, s, axis=0)

Unnamed: 0,col1,col2,col3
row1,-1,1,1
row2,2,-2,1
row3,-3,0,-3


## 레이블 필터링

In [30]:
# filter는 내용물이 아니라 레이블에 대해서만 필터링

col  = ['alpha','beta','gamma','delta','epsilon']
row  = ['sigma','omega','lambda']
data = [[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]]
df = pd.DataFrame(data,row,col)
df


Unnamed: 0,alpha,beta,gamma,delta,epsilon
sigma,1,2,3,4,5
omega,6,7,8,9,10
lambda,11,12,13,14,15


In [31]:
# items 인수 사용

df.filter(items=['aplha', 'delta'])

Unnamed: 0,delta
sigma,4
omega,9
lambda,14


In [32]:
df.filter(items=['omega'], axis=0)

Unnamed: 0,alpha,beta,gamma,delta,epsilon
omega,6,7,8,9,10


In [33]:
df.filter(like='ta')

Unnamed: 0,beta,delta
sigma,2,4
omega,7,9
lambda,12,14


In [38]:
df.filter(regex='[mn]')

Unnamed: 0,gamma,epsilon
sigma,3,5
omega,8,10
lambda,13,15


In [39]:
col  = ['col1','col2','col3']
row  = ['row1','row2','row3','row4','row5']
data = [[1,2,3],[4,5,6],[7,8,9],[10,11,12],[13,14,15]]
df = pd.DataFrame(data,row,col)
df

Unnamed: 0,col1,col2,col3
row1,1,2,3
row2,4,5,6
row3,7,8,9
row4,10,11,12
row5,13,14,15


In [41]:
# n과 place의 사용

df.sample(2)

Unnamed: 0,col1,col2,col3
row2,4,5,6
row1,1,2,3


In [42]:
df.sample(10, replace=True)

Unnamed: 0,col1,col2,col3
row5,13,14,15
row3,7,8,9
row1,1,2,3
row4,10,11,12
row1,1,2,3
row5,13,14,15
row1,1,2,3
row5,13,14,15
row3,7,8,9
row4,10,11,12


In [43]:
# frac 사용
df.sample(frac=0.4)

Unnamed: 0,col1,col2,col3
row5,13,14,15
row4,10,11,12


In [45]:
# weights 통한 가중치의 사용
s = pd.Series(data=[10, 10, 3, 3, 1], index=row)
s

row1    10
row2    10
row3     3
row4     3
row5     1
dtype: int64

In [None]:
df.sample(2, weights=s)