# Subset Observation 이란?

Subset Observation을 직역하자면 __"부분집합 관찰"__ 이다.  
즉, 주어진 데이터셋에서 __내가 보고 싶은 부분만을 관찰__ 하는 것을 의미한다.

In [1]:
import pandas as pd

df = pd.DataFrame(
        {"a" : [4 ,5, 6],
        "b" : [7, 8, 9],
        "c" : [10, 11, 12]},
        index = [1, 2, 3])

## 1. Rows

- __drop_duplicates()__ -> 중복된 행을 생략하고 보여준다. 
    - drop_duplicates(keep = 'first') : 중복에 해당되는 첫번째 행 생략
    - drop_duplicates(keep = 'last') : 중복에 해당되는 마지막 행 생략
- __isin()__ -> 열에 각 정보에 해당 데이터가 있는지 확인
    - isin() 의 인자는 __list-like objects__ 만 들어갈 수 있다 ex) df['a'].isin([5])
- __isnull(), notnull()__ -> 열에 None 값이 있는지 참/거짓 반환
- __sample(n = 숫자)__ -> 해당 __숫자__만큼 랜덤한 개수의 행 반환 // __sample(frac = 숫자)__ -> 해당 __비율__만큼 랜덤한 개수의 행 반환
- __head() , tail()__ -> 시작과 마지막에서 해당 개수만큼 행 반환
- __df.iloc[start:end]__ -> start 번째 인덱스에서 end-1 번째 인덱스 행의 정보 반환
- __nlargest(num, column), nsmallest(num,column)__ -> 해당 column 의 num 개수 만큼의 최대, 최소 반환

---

In [2]:
df[df.a < 7] # a 열의 정보 비교연산 -> 참에 해당되는 정보의 행 반환

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [3]:
df[df. b > 7]

Unnamed: 0,a,b,c
2,5,8,11
3,6,9,12


In [4]:
df. b > 7 # DataFrame 가 아닌 형태로 T/F 값 반환 가능

1    False
2     True
3     True
Name: b, dtype: bool

In [5]:
df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6],
        "b" : [7, 8, 9, 9],
        "c" : [10, 11, 12, 12]},
        index = [1, 2, 3, 4])

In [6]:
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12
4,6,9,12


In [7]:
df.drop_duplicates() # 중복된 값을 삭제해주는 기능

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [8]:
df #값이 사라지진 않는다

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12
4,6,9,12


In [9]:
#df.drop_duplicates(inplace=True) # 권장하진 않지만 원본 값의 변경을 불러온다
df = df.drop_duplicates() # 원본에 변경된 값을 할당시킨다
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [10]:
df = df.drop_duplicates(keep="last")
df

Unnamed: 0,a,b,c
1,4,7,10
2,5,8,11
3,6,9,12


In [11]:
df[df["b"] != 7]

Unnamed: 0,a,b,c
2,5,8,11
3,6,9,12


In [12]:
import numpy as np

df = pd.DataFrame(
        {"a" : [4 ,5, 6,6, np.nan],
        "b" : [7, 8,np.nan, 9,9],
        "c" : [10, 11, 12,np.nan,12]},
        index = [1, 2, 3,4,5])

In [13]:
df.a.isin([5]) # a 열의 각 정보에  5 가 있는가?

1    False
2     True
3    False
4    False
5    False
Name: a, dtype: bool

In [14]:
df['a'].isin([5])

1    False
2     True
3    False
4    False
5    False
Name: a, dtype: bool

In [15]:
pd.isnull(df) # Null 값이 있는지 관찰

Unnamed: 0,a,b,c
1,False,False,False
2,False,False,False
3,False,True,False
4,False,False,True
5,True,False,False


In [16]:
df['a'].isnull()

1    False
2    False
3    False
4    False
5     True
Name: a, dtype: bool

In [17]:
df['a'].isnull().sum()

1

In [18]:
pd.notnull(df)

Unnamed: 0,a,b,c
1,True,True,True
2,True,True,True
3,True,False,True
4,True,True,False
5,False,True,True


In [19]:
df.notnull()

Unnamed: 0,a,b,c
1,True,True,True
2,True,True,True
3,True,False,True
4,True,True,False
5,False,True,True


### 논리 연산
---
- __*&, |,    ~,    ^,  df.any, df.all*__  
- and, or, not, xor , any, all
---

In [20]:
##df[df.b == 7] and df[df.a==5] => 에러가 난다 -> pandas 논리 연산자인 & 사용 필수
df[(df["b"] == 7) | (df["a"] == 5)] # 각 비교값을 다시 DataFrame 으로 표현

Unnamed: 0,a,b,c
1,4.0,7.0,10.0
2,5.0,8.0,11.0


In [22]:
df.tail(2) # 마지막 2개 행 정보 반환

Unnamed: 0,a,b,c
4,6.0,9.0,
5,,9.0,12.0


In [23]:
df.head(2) # 첫 2개 행 정보 반환

Unnamed: 0,a,b,c
1,4.0,7.0,10.0
2,5.0,8.0,11.0


In [27]:
df.sample(frac = 0.5) # 행의 개수에서 해당 비율만큼 랜덤한 정보 반환, 실행마다 바뀐다

Unnamed: 0,a,b,c
5,,9.0,12.0
3,6.0,,12.0


In [29]:
df.sample(n = 2) #가지고 있는 행의 개수 이하 제한

Unnamed: 0,a,b,c
2,5.0,8.0,11.0
5,,9.0,12.0


In [31]:
df.iloc[1:3] # 첫 인덱스에서 두번째 인덱스 이전까지의 행 정보 반환

Unnamed: 0,a,b,c
2,5.0,8.0,11.0
3,6.0,,12.0


In [33]:
df = pd.DataFrame({'population': [59000000, 65000000, 434000,
                                   434000, 434000, 337000, 11300,
                                   11300, 11300],
                    'GDP': [1937894, 2583560 , 12011, 4520, 12128,
                            17036, 182, 38, 311],
                    'alpha-2': ["IT", "FR", "MT", "MV", "BN",
                                "IS", "NR", "TV", "AI"]},
                  index=["Italy", "France", "Malta",
                          "Maldives", "Brunei", "Iceland",
                          "Nauru", "Tuvalu", "Anguilla"])

In [35]:
df.nlargest(2,'GDP') #GDP 열에서 가장 큰 정보의 행 2개 반환

Unnamed: 0,population,GDP,alpha-2
France,65000000,2583560,FR
Italy,59000000,1937894,IT


In [37]:
df.nsmallest(4,'population') # population 행에서 가장 작은 행 4 개 반환

Unnamed: 0,population,GDP,alpha-2
Nauru,11300,182,NR
Tuvalu,11300,38,TV
Anguilla,11300,311,AI
Iceland,337000,17036,IS


---
## 2. Columns

- __df.filter(regex = 'regex')__ -> 정규표현식이 이름에 포함된 Column 정보를 가져온다  
- __df.loc[ s:e , 'col_s ': 'col_e' ]__ -> s ~ e 행의 col_s ~ col_e 열의 정보 반환_(인덱스 순서가 아니다)_  
- __df.iloc[ s:e , [col_s:col_e] ]__ -> 인덱싱 순서에 기반 s ~ e-1 행과 col_s ~ col_e -1 열의 정보 반환

In [39]:
import seaborn as sns

In [40]:
df = sns.load_dataset('iris')

In [41]:
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [42]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [45]:
columns = ['sepal_width','sepal_length','species'] # list object 형성
df[columns].head()

Unnamed: 0,sepal_width,sepal_length,species
0,3.5,5.1,setosa
1,3.0,4.9,setosa
2,3.2,4.7,setosa
3,3.1,4.6,setosa
4,3.6,5.0,setosa


In [48]:
df.filter(regex = '_') # 이름에 _ 이 들어간 열 정보 반환

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [49]:
df.filter(regex = 'es$') # es 로 끝나는 이름

Unnamed: 0,species
0,setosa
1,setosa
2,setosa
3,setosa
4,setosa
...,...
145,virginica
146,virginica
147,virginica
148,virginica


In [50]:
df.filter(regex = '^s') # s 로 시작하는 이름

Unnamed: 0,sepal_length,sepal_width,species
0,5.1,3.5,setosa
1,4.9,3.0,setosa
2,4.7,3.2,setosa
3,4.6,3.1,setosa
4,5.0,3.6,setosa
...,...,...,...
145,6.7,3.0,virginica
146,6.3,2.5,virginica
147,6.5,3.0,virginica
148,6.2,3.4,virginica


In [52]:
df.filter(regex = '^(?!species).*') # species 를 제외환 열 반환

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [54]:
df.loc[2:5 , 'sepal_width':'petal_width'] # 행에 대한 인덱스와 열에 대한 인덱스 (2번~5번, sepal_width ~ petal_width)

Unnamed: 0,sepal_width,petal_length,petal_width
2,3.2,1.3,0.2
3,3.1,1.5,0.2
4,3.6,1.4,0.2
5,3.9,1.7,0.4


In [57]:
df.iloc[:5,[1,3]] # 인덱스 번호가 아닌 인덱스 순서로 가져온다

Unnamed: 0,sepal_width,petal_width
0,3.5,0.2
1,3.0,0.2
2,3.2,0.2
3,3.1,0.2
4,3.6,0.2
