# Subset Observation 이란?

Subset Observation을 직역하자면 __"부분집합 관찰"__ 이다.  
즉, 주어진 데이터셋에서 __내가 보고 싶은 부분만을 관찰__ 하는 것을 의미한다.

In [1]:
import pandas as pd

df = pd.DataFrame(
        {"a" : [4 ,5, 6],
        "b" : [7, 8, 9],
        "c" : [10, 11, 12]},
        index = [1, 2, 3])

## 1. Rows

- drop_duplicates() -> 중복된 행을 생략하고 보여준다. 
    - drop_duplicates(keep = 'first') : 중복에 해당되는 첫번째 행 생략
    - drop_duplicates(keep = 'last') : 중복에 해당되는 마지막 행 생략
- isin() -> 열에 각 정보에 해당 데이터가 있는지 확인
    - isin() 의 인자는 __list-like objects__ 만 들어갈 수 있다 ex) df['a'].isin([5])
- isnull(), notnull() -> 열에 None 값이 있는지 참/거짓 반환
---

In [2]:
df[df.a < 7] # a 열의 정보 비교연산 -> 참에 해당되는 정보의 행 반환

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [3]:
df[df. b > 7]

Unnamed: 0,a,b,c
2,5,8,11
3,6,9,12


In [4]:
df. b > 7 # DataFrame 가 아닌 형태로 T/F 값 반환 가능

1    False
2     True
3     True
Name: b, dtype: bool

In [5]:
df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6],
        "b" : [7, 8, 9, 9],
        "c" : [10, 11, 12, 12]},
        index = [1, 2, 3, 4])

In [6]:
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12
4,6,9,12


In [7]:
df.drop_duplicates() # 중복된 값을 삭제해주는 기능

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [8]:
df #값이 사라지진 않는다

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12
4,6,9,12


In [9]:
#df.drop_duplicates(inplace=True) # 권장하진 않지만 원본 값의 변경을 불러온다
df = df.drop_duplicates() # 원본에 변경된 값을 할당시킨다
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [10]:
df = df.drop_duplicates(keep="last")
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [11]:
df[df["b"] != 7]

Unnamed: 0,a,b,c
2,5,8,11
3,6,9,12


In [12]:
import numpy as np

df = pd.DataFrame(
        {"a" : [4 ,5, 6,6, np.nan],
        "b" : [7, 8,np.nan, 9,9],
        "c" : [10, 11, 12,np.nan,12]},
        index = [1, 2, 3,4,5])

In [13]:
df.a.isin([5]) # a 열의 각 정보에  5 가 있는가?

1    False
2     True
3    False
4    False
5    False
Name: a, dtype: bool

In [14]:
df['a'].isin([5])

1    False
2     True
3    False
4    False
5    False
Name: a, dtype: bool

In [15]:
pd.isnull(df) # Null 값이 있는지 관찰

Unnamed: 0,a,b,c
1,False,False,False
2,False,False,False
3,False,True,False
4,False,False,True
5,True,False,False


In [16]:
df['a'].isnull()

1    False
2    False
3    False
4    False
5     True
Name: a, dtype: bool

In [17]:
df['a'].isnull().sum()

1

In [18]:
pd.notnull(df)

Unnamed: 0,a,b,c
1,True,True,True
2,True,True,True
3,True,False,True
4,True,True,False
5,False,True,True


In [19]:
df.notnull()

Unnamed: 0,a,b,c
1,True,True,True
2,True,True,True
3,True,False,True
4,True,True,False
5,False,True,True


### 논리 연산
---
- __*&, |,    ~,    ^,  df.any, df.all*__  
- and, or, not, xor , any, all
---

In [20]:
##df[df.b == 7] and df[df.a==5] => 에러가 난다 -> pandas 논리 연산자인 & 사용 필수
df[(df["b"] == 7) | (df["a"] == 5)] # 각 비교값을 다시 DataFrame 으로 표현

Unnamed: 0,a,b,c
1,4.0,7.0,10.0
2,5.0,8.0,11.0


## 2. Columns