In [None]:
import pandas as pd
import numpy as np


col = ['col1','col2','col3']
row = ['A','B','C']
df = pd.DataFrame(data=[[10,20,10],
                        [80,30,60],
                        [20,10,70]],index=row,columns=col)

print(df)

   col1  col2  col3
A    10    20    10
B    80    30    60
C    20    10    70


In [3]:
print(df.eq(10)) # 10과 같은 경우 True 표시

    col1   col2   col3
A   True  False   True
B  False  False  False
C  False   True  False


In [4]:
print(df.ne(20)) # 20과 같지 않는 경우 True 표시

    col1   col2  col3
A   True  False  True
B   True   True  True
C  False   True  True


In [5]:
s1 = pd.Series([10,30],index=["col1","col3"])
print(df.gt(s1)) # col1에서 10이상, col3에서 30이상이면 True

    col1   col2   col3
A  False  False  False
B   True  False   True
C   True  False   True


In [6]:
s2 = pd.Series([10],index=["col4"])
print(df.lt(s2)) # df에는 col4가 없기 때문에 col4가 브로드캐스트 됩니다.


    col1   col2   col3   col4
A  False  False  False  False
B  False  False  False  False
C  False  False  False  False


In [7]:
print(df.le([10,20,30], axis="columns")) # 열 기준으로 비교했을때 각각 10, 20, 30 이하면 True

    col1   col2   col3
A   True   True   True
B  False  False  False
C  False   True  False


In [8]:
print(df.le([10,20,30], axis="index")) # 행 기준으로 비교했을때 각각 10,20,30 이하면 True

    col1   col2   col3
A   True  False   True
B  False  False  False
C   True   True  False


In [9]:
df2 = pd.DataFrame([[50],[50],[50]],index=row,columns=['col1'])
print(df2)

   col1
A    50
B    50
C    50


In [10]:
print(df.ge(df2)) # col1에 대해서 각각50, 50, 50 이상이면 True

    col1   col2   col3
A  False  False  False
B   True  False  False
C  False  False  False


In [11]:
row_mul = [['U','U','U','D','D','D'],['A','B','C','A','B','C']]
df_mul = pd.DataFrame(data=[[10,20,10],
                            [80,30,60],
                            [20,10,70],
                            [30,70,60],
                            [10,90,40],
                            [50,30,80]],index=row_mul,columns=col)
print(df_mul)

     col1  col2  col3
U A    10    20    10
  B    80    30    60
  C    20    10    70
D A    30    70    60
  B    10    90    40
  C    50    30    80


In [12]:
print(df.ge(df_mul,level=1)) # level=1이기 때문에 A, B, C를 index로하는 두 DataFrame과의 비교처럼
                             # 진행됩니다.

      col1   col2   col3
U A   True   True   True
  B   True   True   True
  C   True   True   True
D A  False  False  False
  B   True  False   True
  C  False  False  False


# dtype기반 열 선택 (select_dtyps)

In [13]:
col1 = [1, 2, 3, 4, 5]
col2 = ['one', 'two', 'three', 'four', 'five']
col3 = [1.5, 2.5, 3.5, 4.5, 5.5]
col4 = [True, False, False, True, True]
df = pd.DataFrame({"col1": col1, "col2": col2, "col3": col3, "col4": col4})
print(df)

   col1   col2  col3   col4
0     1    one   1.5   True
1     2    two   2.5  False
2     3  three   3.5  False
3     4   four   4.5   True
4     5   five   5.5   True


In [None]:
# include에 포함될 type을 입력함으로써, 해당 type인 열만 반환하는것이 가능합니다.
result = df.select_dtypes(include=[float,bool])
print(result)

   col3   col4
0   1.5   True
1   2.5  False
2   3.5  False
3   4.5   True
4   5.5   True


In [15]:
# exclude에 제외할 type을 입력함으로써, 해당 type인 열만 제외하여 반환하는것이 가능합니다.
result = df.select_dtypes(exclude=['int64'])
print(result)

    col2  col3   col4
0    one   1.5   True
1    two   2.5  False
2  three   3.5  False
3   four   4.5   True
4   five   5.5   True


In [16]:
# ** include & exclude 혼합 사용**
# include에 포함될 type을, exclude에 제외할 type을 입력하여 혼용 인덱싱이 가능합니다.
result = df.select_dtypes(include =[float,object], exclude=['int64'])
print(result)

    col2  col3
0    one   1.5
1    two   2.5
2  three   3.5
3   four   4.5
4   five   5.5


# 임계값 적용 (clip)

In [18]:
col  = ['col1','col2','col3']
row  = ['row1','row2','row3']
data = [[-7,3,9],
        [6,-8,1],
        [-3,0,-7]]
df = pd.DataFrame(data,row,col)
print(df)

      col1  col2  col3
row1    -7     3     9
row2     6    -8     1
row3    -3     0    -7


In [19]:
# 일반적인 사용법
# 하한선을 -4로 상한선을 5로 clip메서드를 적용시켜보겠습니다.
# 즉, -4보다 작은수는 -4로. 5보다 큰 수 는 5로 변경되며 그 안의 수는 변경되지 않습니다.

print(df.clip(-4,5))

      col1  col2  col3
row1    -4     3     5
row2     5    -4     1
row3    -3     0    -4


In [20]:
# ** 임계값을 Series로 설정**
# 임계값을 Series형태로 설정하여 각행이나 열마다 원하는 임계값의 지정이 가능합니다.
# row1에는 -1~1, row2에는 -2~2, row3에는 -3~3으로 임계값을 지정해보겠습니다.
# 먼저 Series인 s를 설정해보겠습니다.

s = pd.Series(data=[1,2,3],index=row)
print(s)

row1    1
row2    2
row3    3
dtype: int64


In [21]:
# 이제 임계값을 -s 와 s로 설정하여 clip메서드를 적용해보겠습니다.
print(df.clip(-s,s,axis=0))

      col1  col2  col3
row1    -1     1     1
row2     2    -2     1
row3    -3     0    -3


# 레이블 필터링 (filter)

In [22]:
col  = ['alpha','beta','gamma','delta','epsilon']
row  = ['sigma','omega','lambda']
data = [[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]]
df = pd.DataFrame(data,row,col)
print(df)

        alpha  beta  gamma  delta  epsilon
sigma       1     2      3      4        5
omega       6     7      8      9       10
lambda     11    12     13     14       15


In [None]:
# omega행을 필터링해보겠습니다.
print(df.filter(items=['omega'], axis=0))

Empty DataFrame
Columns: []
Index: [sigma, omega, lambda]


In [26]:
# ** like 인수를 사용하는 경우**
# like인수를 이용해 'ta'가 포함된 열을 필터링해보겠습니다.
print(df.filter(like='ta'))

        beta  delta
sigma      2      4
omega      7      9
lambda    12     14


In [27]:
# ** regex 인수를 사용하는 경우**
# regex인수를 사용해서 m과 n이 포함된 열을 필터링 해보겠습니다.

# 정규표현식 [ ] 는 [ ] 안의 모든 문자가 포함된 경우를 말합니다.
# 즉, [mn]은m과 n이 포함된 경우입니다.
print(df.filter(regex='[mn]'))

        gamma  epsilon
sigma       3        5
omega       8       10
lambda     13       15


In [28]:
# g로 시작하는 경우에 대해 필터링 해보겠습니다.

# 정규표현식 ^는 ^뒤에있는 문자로 시작하는 문자열을 말합니다.
# 즉, ^g는 g로 시작하는 경우를 말합니다.
print(df.filter(regex='^g'))

        gamma
sigma       3
omega       8
lambda     13


In [None]:
# a로 끝나는 경우에 대해 필터링 해보겠습니다.

# 정규표현식 $는 $앞에있는 문자로 끝나는 문자열을 말합니다.
# 즉, a$는 a로 끝나는 경우를 말합니다.
print(df.filter(regex='a$'))

        alpha  beta  gamma  delta
sigma       1     2      3      4
omega       6     7      8      9
lambda     11    12     13     14


: 