# Subset Observation (Rows)

## 판다스 데이터 프레임 비교연산자로 색인하기, drop_duplicates()

> 전체 데이터 프레임에서 '특정 행'을 가져와보자!

In [3]:
import pandas as pd

df = pd.DataFrame(
        {"a" : [4 ,5, 6],
         "b" : [7, 8, 9],
         "c" : [10, 11, 12]},
        index = pd.MultiIndex.from_tuples(
            [('d',1),('d',2),('e',2)],
            names=['n','v']))

df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [4]:
# a에는 4, 5, 6만 있으니 7보다 큰 값이 없다
df[df.a > 7]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1


In [8]:
# 그러면 a의 요소중 7보다 작은 값들을 뽑아보자
df[df.a < 7]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [9]:
df[df.b > 7]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5,8,11
e,2,6,9,12


In [12]:
# df로 감싸주는 대괄호를 풀면 boolean이 나온다.
# df[]로 감싸주면 True로 나온 값들을 보여주게 되는 것이다.
print(df.b > 7)

print("\n\n")

print(df[df.b > 7])

n  v
d  1    False
   2     True
e  2     True
Name: b, dtype: bool



     a  b   c
n v          
d 2  5  8  11
e 2  6  9  12


### df[df.열 > n]과 df[df['열'] > n]은 같은 값이 나온다. 

In [13]:
df[df.c > 7]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [16]:
df[df['c'] > 7]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [17]:
# 중복되는 값이 없으니 이렇게 나온다
df.drop_duplicates()

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [22]:
# 임의로 중복되는 값을 만들어줘보자
df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6],
         "b" : [7, 8, 9, 9],
         "c" : [10, 11, 12, 12]},
        index = pd.MultiIndex.from_tuples(
            [('d',1),('d',2),('e',2), ('e',3)],
            names=['n','v']))

In [23]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12
e,3,6,9,12


In [24]:
# 중복된 것이 제거된 것이다. 
df.drop_duplicates()

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [32]:
# 이때, df.drop_duplicates(inplace = True) 를 해줄 경우 
# 원래의 df에서도 중복된 값이 사라지게 된다.
df.drop_duplicates(inplace = True)

In [33]:
# 짜잔. 
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


## 하지만, drop_duplicates(inplace = True)가 그닥 권장되진 않는다고 한다.
## 따라서 다음과 같은 코드가 더 권장된다고 함. 

```python
df = df.drop.duplicates()
df
```

In [35]:
df = df.drop_duplicates()
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,2,6,9,12


In [43]:
# 도움말을 통해 어떤 패러미터를 사용할 수 있는지가 나온다.
df.drop_duplicates?

In [45]:
# 중복된 row를 다시 생성해주자
df = pd.DataFrame(
        {"a" : [4 ,5, 6, 6],
         "b" : [7, 8, 9, 9],
         "c" : [10, 11, 12, 12]},
        index = pd.MultiIndex.from_tuples(
            [('d',1),('d',2),('e',2), ('e',3)],
            names=['n','v']))

# 중복되는 부분에서 마지막 행을 남겨준다.
df = df.drop_duplicates(keep = "last")
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4,7,10
d,2,5,8,11
e,3,6,9,12


## Logic in python and pandas 

> and, or, not, xor, any, all 연산 이해하기

In [46]:
# a열을 선택하여 7과 같지 않은 것을 가져온다.
df["a"] != 7

n  v
d  1    True
   2    True
e  3    True
Name: a, dtype: bool

In [47]:
df["b"] != 7

n  v
d  1    False
   2     True
e  3     True
Name: b, dtype: bool

In [48]:
# 이때, 위와 달리 7이 아닌 값만 dataframe형태로 가져와 색인을 보고싶다면?
df[df["b"] != 7]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,2,5,8,11
e,3,6,9,12


### df.column.isin([values])
- 특정 값이 들어있는지 확인하고 싶을 때 사용

In [49]:
# 특정 column의 이름을 써줘야 하니까 찾을 수 없다고 나오는 것.
df.column.isin?

Object `df.column.isin` not found.


In [53]:
df.a.isin?

In [56]:
df.a.isin([5])

n  v
d  1    False
   2     True
e  3    False
Name: a, dtype: bool

In [57]:
# df['ColumnName'].isin([value1, value2]) 의 형태도 가능하다. 
# ColumnName이 한글이나 특수문자인 경우 이렇게 쓰는 것이 더 좋다.
df['a'].isin([5, 6])

n  v
d  1    False
   2     True
e  3     True
Name: a, dtype: bool

### pd.isnull(obj)
- null 값에 True를 찍어준다.

In [58]:
pd.isnull(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,False,False,False
d,2,False,False,False
e,3,False,False,False


In [62]:
# null값이 없으니 df를 다시 정의해보자.
import numpy as np

df = pd.DataFrame(
    {"a" : [4, 5, 6, 6, np.nan],
     "b" : [7, 8, np.nan, 9, 9],
     "c" : [10, 11, 12, np.nan, 12]},
    index = pd.MultiIndex.from_tuples(
    [('d', 1), ('d', 2), ('e', 2), ('e', 3), ('e', 4)],
    names = ['n', 'v']))
    
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [63]:
# null값은 True로 나타남을 볼 수 있다.
pd.isnull(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,False,False,False
d,2,False,False,False
e,2,False,True,False
e,3,False,False,True
e,4,True,False,False


In [68]:
# 'a'column(열)에 null값이 있나 확인
df['a'].isnull()

n  v
d  1    False
   2    False
e  2    False
   3    False
   4     True
Name: a, dtype: bool

In [70]:
# 'a' column에 null값이 몇개 있나 확인
df['a'].isnull().sum()

1

### pd.notnull(obj)
- null 값이 아닌 것에 True를 찍어준다.
- null 값에는 False

In [71]:
pd.notnull(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,True,True,True
d,2,True,True,True
e,2,True,False,True
e,3,True,True,False
e,4,False,True,True


In [73]:
# 같은 결과가 나온다
df.notnull()

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,True,True,True
d,2,True,True,True
e,2,True,False,True
e,3,True,True,False
e,4,False,True,True


In [75]:
df.notnull().sum()

a    4
b    4
c    4
dtype: int64

In [77]:
# 특정 column에 대한 notnull값만 따로 구할 수도 있다. 

# a column(열)에 대한 notnull값

df.a.notnull()

n  v
d  1     True
   2     True
e  2     True
   3     True
   4    False
Name: a, dtype: bool

### 파이썬에서 쓰이는 연산자 : Logical and, or, not, xor, any, all
### 판다스에서 쓰이는 연산자 : &, |, ~, ^, df.any(), df.all() 
- 판다스에서 쓰이는 연산자는 다음과 같이 &, |, ~, ^, df.any(), df.all()  로 바꿔서 사용해야한다.

In [78]:
# df.any를 통해 값을 가져올 수 있다.
df.any()

a    True
b    True
c    True
dtype: bool

In [79]:
df.all()

a    True
b    True
c    True
dtype: bool

In [81]:
# ~(not)을 붙여주면? 결과가 바뀌게 된다.
print(df.a.notnull())

print("\n\n")

print(~df.a.notnull())

n  v
d  1     True
   2     True
e  2     True
   3     True
   4    False
Name: a, dtype: bool



n  v
d  1    False
   2    False
e  2    False
   3    False
   4     True
Name: a, dtype: bool


In [82]:
# and 연산자
1 and 2

2

In [83]:
# dataframe에서는 and연산자를 사용할 수 없다.

df[df.b == 7] and df[df.a == 5]

# value에러가 난다. 따라서 and라는 문자 대신 & 를 써주자.

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [84]:
df[df.b == 7] & df[df.a == 5]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,,,
d,2,,,


In [89]:
df[df.b == 7] | df[df.a == 5]

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,,,
d,2,,,


### head, tail로 데이터 미리 보기
- df.head(), df.tail() 은 각각 데이터의 상위/하위 5개의 항목을 디폴트로 보여준다.
- 패러미터에 입력하는 값만큼 더 보여줄 수 있다.
    - df.head(n)으로 입력하면 데이터의 상위 n개의 항목을 보여준다는 것. 

In [90]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [91]:
df.head()  # 디폴트가 5이다. 상위 5개의 항목만 보여주게 된다

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [92]:
df.tail()  # 디폴트가 마찬가지로 5개. 하위 5개의 항목만 보여주게 된다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0
e,2,6.0,,12.0
e,3,6.0,9.0,
e,4,,9.0,12.0


In [93]:
df.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
d,2,5.0,8.0,11.0


### obj.sample( frac = N ) 
- 데이터프레임에서 특정 `비율` N만큼 뽑아서 랜덤하게 샘플링하고 싶을 때 사용

In [119]:
# frac은 특정 비율로 데이터를 샘플링한다고 한다.
df.sample(frac=0.5)

# 실행을 할때마다 랜덤으로 샘플링을 한다. 비율을 0.5 => 0.7로 바꾼다고 하면 좀더 많은 데이터를 가져온다고 한다. 1을 입력하면 모두 가져온다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
e,3,6.0,9.0,
e,2,6.0,,12.0


### obj.sample( n = N )
- 데이터프레임에서 특정 `개수` N만큼 뽑아서 랜덤하게 샘플링하고 싶을때 사용

In [142]:
# 위의 코드랑 비교했을때 frac대신에 n이라는 매개변수를 사용한다.
df.sample(n=4)


# n = 10을 입력하면 value에러가 난다. 
# df에는 5개의 행만 있으므로 n은 5개 이하만큼만 입력해야한다.
# 특정 개수만큼 데이터를 가져오고싶을 때 사용한다.

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
n,v,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
d,1,4.0,7.0,10.0
e,3,6.0,9.0,
e,4,,9.0,12.0
e,2,6.0,,12.0


### obj.iloc[ a : b ]
- 행을 기준으로 가지고 올 수 있는 데이터를 가져온다. a에서 (b-1)번 인덱스까지 가져온다
- 앞의 인덱스와는 무관하게 몇번째의 인덱스인지로 해서 가져온다.

In [187]:
df.iloc[2:4]

Unnamed: 0,a,b,c
2,8,d,
3,10,c,3.0


### obj.nlargest(n, 'value')
- 'value'라는 이름의 column에서 가장 큰 수를 n개 가져오고싶을때 사용
- column이 숫자인 경우에 사용할 수 있다.

In [172]:
# 낯선 기능이다? 싶으면 ?를 붙여 도움말 기능을 사용하자. df.nlargest?   이렇게
df.nlargest?

In [174]:
df = pd.DataFrame({'a': [1, 10, 8, 10, -1],
                    'b': list('abdce'),
                    'c': [1.0, 2.0, np.nan, 3.0, 4.0]})
df

Unnamed: 0,a,b,c
0,1,a,1.0
1,10,b,2.0
2,8,d,
3,10,c,3.0
4,-1,e,4.0


In [181]:
df.nlargest(4, 'a')

Unnamed: 0,a,b,c
1,10,b,2.0
3,10,c,3.0
2,8,d,
0,1,a,1.0


### obj.nsmallest(n, 'value')
- 'value'라는 이름의 column에서 가장 작은 수를 n개 가져오고싶을때 사용
- column이 숫자인 경우에 사용할 수 있다.

In [183]:
df.nsmallest(2, 'a')

Unnamed: 0,a,b,c
4,-1,e,4.0
0,1,a,1.0
