## Logic in Python (and pandas)
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

1. 기본 데이터 준비 및 논리 연산자 활용
Pandas에서는 파이썬 기본 연산자인 and, or 대신 &(AND), |(OR), ~(NOT) 기호를 사용해야 합니다.

In [1]:
import pandas as pd
import numpy as np
df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6, np.nan],
        "b" : [7, 8, np.nan, 9, 9],
        "c" : [10, 11, 12, np.nan, 12]},
        index = pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',2),('e',3),('e',4)],
        names=['n','v']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [None]:
df.head() # 상위 5개 행 출력

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [None]:
df[df["b"] != 7] # 'b' 컬럼의 값이 7이 아닌 행들을 필터링

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [None]:
df['a'].isin([5]) # 'a' 컬럼에서 값이 5가 들어간 행을 찾음

n  v
d  1    False
   2     True
e  2    False
   3    False
   4    False
Name: a, dtype: bool

In [None]:
pd.isnull(df) # 결측치인 값들을 True로 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,False,False,False
d,2,False,False,False
e,2,False,True,False
e,3,False,False,True
e,4,True,False,False


In [None]:
df['a'].isnull().sum() # 'a' 컬럼의 결측치 개수 출력

1

In [None]:
pd.notnull(df) # 결측치가 아닌 값들을 True로 반환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,True,True,True
d,2,True,True,True
e,2,True,False,True
e,3,True,True,False
e,4,False,True,True


In [None]:
df.notnull().sum() # 각 컬럼별 결측치가 아닌 값의 개수

a    4
b    4
c    4
dtype: int64

In [None]:
df.a.notnull() # 'a' 컬럼의 결측치가 아닌 값의 개수를 셉니다.

n  v
d  1     True
   2     True
e  2     True
   3     True
   4    False
Name: a, dtype: bool

* &,|,~,^,df.any(),df.all() 
* and, or, not, xor, any, all

In [None]:
# 논리 연산자 OR(|) 사용 예제
# 조건 1: b 컬럼의 값이 7이거나(|)
# 조건 2: a 컬럼의 값이 5인 행을 찾아라
# 두 조건 중 하나라도 만족하면 가져옵니다.
df[(df.b == 7) | (df.a == 5)]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


In [None]:
df.head(2) # 상위 2개 행 출력

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


2. 샘플링과 슬라이싱 (Sampling & Slicing)
데이터가 너무 많을 때 무작위로 뽑거나 특정 위치의 데이터를 가져옵니다.

In [None]:
# 전체 데이터의 30% 비율(frac=0.3)을 무작위로 추출합니다
df.sample(frac=0.3)


Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
d,1,4.0,7.0,10.0


In [None]:
# 전체 데이터 중 개수(n=5)를 지정하여 5개를 무작위로 추출합니다.
df.sample(n=5)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,4,,9.0,12.0
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,3,6.0,9.0,
e,2,6.0,,12.0


In [None]:
# iloc(위치 기반 인덱싱)을 사용하여 뒤에서부터 2개의 행을 가져옵니다.
df.iloc[-2:]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


3. 큰 수 / 작은 수 추출 (nlargest, nsmallest)
새로운 예제 데이터를 만들고, 정렬(sort)을 하지 않고도 가장 큰 값이나 작은 값을 가진 행을 바로 뽑아냅니다.

In [16]:
df = pd.DataFrame({'a': [1, 10, 8, 11, -1],
                'b': list('abdce'),
                'c': [1.0, 2.0, np.nan, 3.0, 4.0]})
df

Unnamed: 0,a,b,c
0,1,a,1.0
1,10,b,2.0
2,8,d,
3,11,c,3.0
4,-1,e,4.0


In [None]:
# 'a' 컬럼을 기준으로 값이 가장 큰(nlargest) 상위 1개의 행을 가져옵니다.
# 결과: a가 11인 행 출력
df.nlargest(1, 'a')

Unnamed: 0,a,b,c
3,11,c,3.0


In [None]:
# 'a' 컬럼을 기준으로 값이 가장 작은(nsmallest) 하위 3개의 행을 가져옵니다.
# 결과: a가 -1, 1, 8인 행 출력
df.nsmallest(3, 'a')

Unnamed: 0,a,b,c
4,-1,e,4.0
0,1,a,1.0
2,8,d,


In [19]:
df

Unnamed: 0,a,b,c
0,1,a,1.0
1,10,b,2.0
2,8,d,
3,11,c,3.0
4,-1,e,4.0


4. any()와 all() 메서드 이해하기 (핵심)
데이터의 참(True)/거짓(False) 여부를 판별할 때 매우 중요한 기능입니다.

all(): "모두" True여야 결과가 True

any(): "하나라도" True면 결과가 True

이 기능을 테스트하기 위해 d, e, f라는 불리언(Boolean) 컬럼을 추가합니다.

In [None]:
# Return whether all elements are True, potentially over an axis.
# all, any 기능을 알아보기 위해 d, e 컬럼을 만들고 
# d에는 모두 True를 e에는 False 를 f에는 하나만 False를 생성
# 테스트용 컬럼 추가
df["d"] = True # 모든 값이 True
df["e"] = False # 모든 값이 False
df["f"] = True # 일단 모두 True로 생성
df.loc[1, "f"] = False # 1번 인덱스의 'f' 컬럼 값을 False로 변경
df

Unnamed: 0,a,b,c,d,e,f
0,1,a,1.0,True,False,True
1,10,b,2.0,True,False,False
2,8,d,,True,False,True
3,11,c,3.0,True,False,True
4,-1,e,4.0,True,False,True


In [None]:
# Return whether all elements are True, potentially over an axis.
# True, False 형태로 되어있는 컬럼에서 True, False 여부를 확인
# df.all()은 모두 True 일때만 True로 출력
# 결과: 'd' 컬럼만 True, 하나라도 False가 섞인 'f'는 False 반환
df.all()

a     True
b     True
c     True
d     True
e    False
f    False
dtype: bool

In [None]:
# Return whether any element is True, potentially over an axis.
# df.any()는 하나라도 True 라면 True로 출력
# 결과: 'd'와 'f'는 True가 있으므로 True 반환. 'e'는 전부 False라 False 반환.
df.any()

a     True
b     True
c     True
d     True
e    False
f     True
dtype: bool

In [24]:
# 응용 : 결측치 여부를 True(결측치아님) False(결측치)로 구함
df.notnull()

Unnamed: 0,a,b,c,d,e,f
0,True,True,True,True,True,True
1,True,True,True,True,True,True
2,True,True,False,True,True,True
3,True,True,True,True,True,True
4,True,True,True,True,True,True


In [None]:
# notnull 로 결측치 여부를 확인하고 결측치가 하나라도 있는 컬럼을 찾음
# 결과: 결측치가 하나라도 있는 'c' 컬럼은 False가 나옴.
df.notnull().all()

a     True
b     True
c    False
d     True
e     True
f     True
dtype: bool

In [None]:
# 의미: "값이 있는 데이터가 하나라도 있는가?"
# 결과: 모든 컬럼에 최소한 하나의 값은 있으므로 전부 True.
df.notnull().any()

a    True
b    True
c    True
d    True
e    True
f    True
dtype: bool

In [None]:
# isnull로 결측치 여부를 확인하고 결측치가 하나라도 있는 컬럼을 찾음
# 결과: 'c' 컬럼에 NaN이 포함되어 있으므로 'c'는 True가 나옴.
# 데이터 전처리 단계에서 결측치가 있는 컬럼을 찾아낼 때 유용합니다.
df.isnull().any()

a    False
b    False
c     True
d    False
e    False
f    False
dtype: bool