## Syntax – Creating DataFrames
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)]("https://colab.research.google.com/github/corazzon/cracking-the-pandas-cheat-sheet/blob/master/03-pandas_Subset_Observations_(Rows).ipynb")

* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

1. 라이브러리 임포트 및 예제 데이터 생성
먼저 Pandas와 NumPy를 불러오고, 실습에 사용할 데이터프레임을 만듭니다.

In [7]:
import pandas as pd

In [None]:
import numpy as np
# 예제 데이터프레임 생성
# 'a', 'b', 'c' 컬럼에 값을 할당하고, np.nan을 통해 결측치(비어있는 값)도 포함시킵니다.
df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6, np.nan],
        "b" : [7, 8, np.nan, 9, 9],
        "c" : [10, 11, 12, np.nan, 12]},
        # MultiIndex(다중 인덱스) 생성: 'n'과 'v'라는 두 개의 인덱스 레벨을 가집니다.
        index = pd.MultiIndex.from_tuples(
        [('d',1),('d',2),('e',2),('e',3),('e',4)],
        names=['n','v']))
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


## Subset Observations (Rows)

2. 조건에 따른 행 선택 (Filtering)
특정 조건(크다, 작다 등)을 만족하는 행만 뽑아내는 방법입니다.

In [None]:
# 1. 'a' 컬럼의 값이 7보다 작은 행만 선택
# 결과: a가 4, 5, 6인 행들이 출력됩니다. (NaN은 비교에서 제외됨)
df[df['a'] < 7]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,


In [None]:
# 2. 'c' 컬럼의 값이 7보다 크거나 같은 행만 선택
df[df['c'] >= 7] 

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,4,,9.0,12.0


3. 중복 데이터 제거 (Duplicate Handling)
데이터프레임에 완전히 동일한 행이 있을 때 제거하는 방법입니다.

In [None]:
# 중복된 행을 제거합니다. (기본값: 처음 나온 행을 남기고 뒤에 나오는 중복 행을 삭제)
# 여기서는 e-4 행(a:NaN, b:9, c:12)과 비슷한 데이터가 없어서 변화가 없어 보일 수 있으나,
# 만약 모든 컬럼('a', 'b', 'c')의 값이 완전히 같은 행이 있다면 하나만 남습니다.
df = df.drop_duplicates() 
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [None]:
# keep='last' 옵션: 중복된 값 중 '마지막'에 등장한 행을 남기고 앞의 것을 지웁니다.
df = df.drop_duplicates(keep='last')
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


4. 상위/하위 데이터 확인 및 특정 값 제외
데이터의 일부를 보거나 특정 값을 제외/포함하는 논리 연산입니다.

In [None]:
# 상위 5개 행을 출력합니다. (데이터가 5개뿐이라 전체가 출력됨)
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [None]:
# 'b' 컬럼의 값이 7이 아닌(!=) 행만 선택합니다.
df[df["b"] != 7]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [None]:
# 'a' 컬럼의 값 중에 5가 포함되어 있는지 확인합니다. (True/False로 반환)
df['a'].isin([5])

Unnamed: 0_level_0,Unnamed: 1_level_0,a
n,v,Unnamed: 2_level_1
d,1,False
d,2,True
e,2,False
e,3,False
e,4,False


5. 결측치(Null) 다루기
데이터에 비어있는 값(NaN)이 있는지 확인하고 개수를 셉니다.

In [None]:
# 데이터프레임 전체에서 결측치(NaN) 여부를 True/False로 표시합니다.
# NaN인 곳은 True로 표시됩니다.
pd.isnull(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,False,False,False
d,2,False,False,False
e,2,False,True,False
e,3,False,False,True
e,4,True,False,False


In [None]:
# 'a' 컬럼에 있는 결측치의 총개수를 셉니다. (예: 1개)
df['a'].isnull().sum()

np.int64(1)

In [None]:
# 결측치가 아닌(값이 있는) 곳을 True로 표시합니다.
pd.notnull(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,True,True,True
d,2,True,True,True
e,2,True,False,True
e,3,True,True,False
e,4,False,True,True


In [None]:
# 각 컬럼별로 결측치가 아닌(유효한) 데이터의 개수를 셉니다.
df.notnull().sum()

Unnamed: 0,0
a,4
b,4
c,4


In [None]:
# 'a' 컬럼에서 결측치가 아닌 행만 True/False로 반환합니다.
df.a.notnull()

Unnamed: 0_level_0,Unnamed: 1_level_0,a
n,v,Unnamed: 2_level_1
d,1,True
d,2,True
e,2,True
e,3,True
e,4,False


## Logic in Python (and pandas)
* &,|,~,^,df.any(),df.all()
* and, or, not, xor, any, all

In [None]:

df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


6. 논리 연산자 (AND, OR) 활용
여러 조건을 결합하여 데이터를 필터링합니다. Pandas에서는 and, or 대신 &, | 기호를 사용해야 합니다.

In [None]:
# 논리 연산자 설명:
# & : AND (둘 다 참이어야 함)
# | : OR (둘 중 하나만 참이면 됨)
# ~ : NOT (반대)

# 조건: 'b' 컬럼이 7 이거나(|) 'a' 컬럼이 5인 행을 선택
df[(df.b == 7) | (df.a == 5)]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


In [None]:
# 앞에서 2개의 행만 미리보기
df.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


7. 샘플링 (Sampling) 및 위치 기반 선택
전체 데이터 중 일부를 무작위로 추출하거나 위치를 지정해 가져옵니다.

In [None]:
# 전체 데이터의 30%(frac=0.3)를 무작위로 추출합니다.
df.sample(frac=0.3)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,2,6.0,,12.0
e,3,6.0,9.0,


In [None]:
# 전체 데이터 중 5개(n=5)를 무작위로 추출합니다.
df.sample(n=5)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0
d,1,4.0,7.0,10.0
e,2,6.0,,12.0
d,2,5.0,8.0,11.0


In [None]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [None]:
# 위치 기반 인덱싱(iloc): 뒤에서부터 2개의 행([-2:])을 가져옵니다.
df.iloc[-2:]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,4,,9.0,12.0


8. 가장 큰 수 / 작은 수 추출 (nlargest, nsmallest)
새로운 예제 데이터를 만들고, 특정 컬럼을 기준으로 가장 크거나 작은 값을 가진 행을 뽑습니다.

In [None]:
# 실습을 위해 새로운 데이터프레임 생성
df = pd.DataFrame({'a': [1, 10, 8, 11, -1],
                'b': list('abdce'),
                'c': [1.0, 2.0, np.nan, 3.0, 4.0]})
df

Unnamed: 0,a,b,c
0,1,a,1.0
1,10,b,2.0
2,8,d,
3,11,c,3.0
4,-1,e,4.0


In [None]:
# 'a' 컬럼을 기준으로 가장 큰 값(nlargest) 1개를 가진 행을 가져옵니다.
# 결과: a가 11인 행이 출력됨
df.nlargest(1, 'a')

Unnamed: 0,a,b,c
3,11,c,3.0


In [None]:
# 'a' 컬럼을 기준으로 가장 작은 값(nsmallest) 3개를 가진 행을 가져옵니다.
# 결과: a가 -1, 1, 8인 행들이 출력됨
df.nsmallest(3, 'a')

Unnamed: 0,a,b,c
4,-1,e,4.0
0,1,a,1.0
2,8,d,
