In [1]:
import pandas as pd
import numpy as np

## Combining positional and label-based indexing

In [3]:
dfd = pd.DataFrame({'A' : [1, 2, 3], 'B':[4, 5, 6]}, index = list('abc'))
dfd

Unnamed: 0,A,B
a,1,4
b,2,5
c,3,6


In [4]:
dfd.loc[dfd.index[[0, 2]], 'A']

a    1
c    3
Name: A, dtype: int64

In [5]:
# 명시적으로 위치를 받고, .get_loc()를 사용해서ㅓ 위치를 선택
dfd.iloc[[0,2], dfd.columns.get_loc('A')]

a    1
c    3
Name: A, dtype: int64

In [6]:
# 여려 개의 indexer를 가져오기위해 .get_indexer() 를 사용한다.
dfd.iloc[[0,2], dfd.columns.get_indexer(['A', 'B'])]

Unnamed: 0,A,B
a,1,4
c,3,6


## Indexing with list with missing labels is deprecated

In [7]:
s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [10]:
s.loc[[1, 2]]

#error
#s.loc[[1, 2, 3]]

1    2
2    3
dtype: int64

### Reindexing ( ...? )

In [11]:
s.reindex([1, 2, 3])

1    2.0
2    3.0
3    NaN
dtype: float64

In [14]:
labels = [1, 2, 3]

In [15]:
s.loc[s.index.intersection(labels)]

1    2
2    3
dtype: int64

In [16]:
s = pd.Series(np.arange(4), index=['a', 'a', 'b', 'c'])

In [17]:
labels = ['c', 'd']

In [None]:
# 중복 index가 있는 경우에 다음과 같은 에러 메세지가 나온다.
s.reindex(labels)
# ValueError: cannot reindex from a duplicate axis

## Selecting random samples

In [21]:
s = pd.Series([0, 1, 2, 3, 4, 5])

In [22]:
s.sample()

0    0
dtype: int64

In [25]:
# 특정 열의 개수를 가지고 select 가능하다.
s.sample(n=3)

4    4
3    3
5    5
dtype: int64

In [26]:
# frac을 사용하여 row 개수를 정할 수 있다.
s.sample(frac=0.5)

3    3
1    1
4    4
dtype: int64

In [28]:
# 기본적으로 하나의 행을 한번씩만 출력하지만 replace 옵션을 사용하여 샘플링할 수 있다.

# without replacement (default):
s.sample(n=6, replace = False)

4    4
1    1
0    0
2    2
5    5
3    3
dtype: int64

In [29]:
# with replace
s.sample(n=6, replace = True)

1    1
3    3
4    4
4    4
0    0
3    3
dtype: int64

기본적으로 각 행은 같은 확률을 가진다.<br>
weights를 사용하여 각 행에 대한 가중치를 인위적으로 설정가능하다.<br>
가중치의 합계가 1이 아니면, 모든 가중치는 가중치의 합계로 나누어 다시 재분배한다.

In [30]:
s = pd.Series([0, 1, 2, 3, 4, 5])

In [31]:
example_weights = [0, 0, 0.2, 0.2, 0.2, 0.4]

In [33]:
s.sample(n=3, weights=example_weights)

5    5
4    4
3    3
dtype: int64

In [34]:
# If sum of weights is not 1, Weights will be re-normalized automatically
example_weights2 = [0.5, 0, 0, 0, 0, 0]

In [38]:
s.sample(n=1, weights = example_weights2)

0    0
dtype: int64

In [39]:
#DataFrame의 경우 weights에 열 이름을 문자열로 전달하여 DataFrame의 열을 샘플링 가중치로 사용할 수 있다

df2 = pd.DataFrame({'col1' : [9, 8, 7, 6], 'weight_columns': [0.5, 0.4, 0.1, 0]})

In [40]:
df2.sample(n=3, weights='weight_columns')

Unnamed: 0,col1,weight_columns
0,9,0.5
1,8,0.4
2,7,0.1


In [41]:
# axis 인자를 활용하여 행 대신 열을 샘플링할 수 있다.
df3 = pd.DataFrame({'col1' : [1, 2, 3], 'col2':[2, 3, 4]})

In [42]:
df3.sample(n=1, axis = 1)

Unnamed: 0,col1
0,1
1,2
2,3


In [45]:
df3.sample(n=1, axis = 0)

Unnamed: 0,col1,col2
2,3,4


Finally, one can also set a seed for sample’s random number generator using the random_state argument, which will accept either an integer (as a seed) or a NumPy RandomState object.

<br>
<br>
마지막으로, 인수를 sample사용하여의 난수 생성기에 대한 시드를 설정할 수도 있습니다. 이 random_state인수는 정수 (시드로) 또는 NumPy RandomState 객체를 허용합니다.

--> <Strong>랜덤 추출시 시드(seed) 값을 입력받으며, 같은 시드에서는 항상 같은 결과를 도출한다.</Strong>


In [46]:
df4 = pd.DataFrame({'col1' : [1, 2, 3], 'col2' : [2, 3, 4]})

# with a given seed, the sample will always draw the same rows
df4.sample(n=2, random_state=2)

Unnamed: 0,col1,col2
2,3,4
1,2,3


In [47]:
# 같은 값을 출력한다.
df4.sample(n=2, random_state=2)

Unnamed: 0,col1,col2
2,3,4
1,2,3


In [48]:
# 시드 값이 바뀌었기 때문에 다른 데이터가 샘플링된다.
df4.sample(n=2, random_state = 1)

Unnamed: 0,col1,col2
0,1,2
2,3,4


## Setting with enlargement

.loc[] 검색시 값이 존재하지않으면, 작업 확대(추가)를 수행할 수 있다.
Series의 경우 사실상 추가 작업이다.

In [51]:
se = pd.Series([1, 2, 3])
se

0    1
1    2
2    3
dtype: int64

In [52]:
se[5] = 5
se

0    1
1    2
2    3
5    5
dtype: int64

In [54]:
dfi = pd.DataFrame(np.arange(6).reshape(3, 2), columns=['A', 'B'])

dfi

Unnamed: 0,A,B
0,0,1
1,2,3
2,4,5


In [56]:
dfi.loc[:, 'C'] = dfi.loc[:, 'A'] 
dfi

Unnamed: 0,A,B,C
0,0,1,0
1,2,3,2
2,4,5,4


In [58]:
dfi.loc[3] = 5
dfi

Unnamed: 0,A,B,C
0,0,1,0
1,2,3,2
2,4,5,4
3,5,5,5


# Fast scalar value getting and setting

### use .at and .
<br>
<Strong>.at method</Strong><br>
Series에서의 사용
 --> Series.at['index_label']
<br>
DataFrame에서의 사용
 --> DataFrame.at['index_label','column_label']

<br>
<Strong>.iat method</Strong><br>
Series에서의 사용
 --> Series.iat[index_int]
<br>
DataFrame에서의 사용
 --> DataFrame.iat[index_int, column_int]


In [70]:
ex_s = pd.Series([0,1,2,3,4,5,6,7,8], index = ['r0', 'r1', 'r2', 'r3', 'r4', 'r5', 'r6', 'r7', 'r8'])
ex_s

r0    0
r1    1
r2    2
r3    3
r4    4
r5    5
r6    6
r7    7
r8    8
dtype: int64

In [72]:
ex_df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], index = ['r0', 'r1', 'r2'], columns=['c0', 'c1', 'c2'])
ex_df

Unnamed: 0,c0,c1,c2
r0,1,2,3
r1,4,5,6
r2,7,8,9


In [73]:
ex_s.at['r2']

2

In [74]:
ex_df.at['r2', 'c1']

8

In [75]:
ex_s.iat[4]

4

In [77]:
ex_df.iat[2, 1]

8

## Boolean Indexing

In [78]:
s = pd.Series(range(-3, 4))
s

0   -3
1   -2
2   -1
3    0
4    1
5    2
6    3
dtype: int64

In [79]:
# index 자리에 조건을 쓰고 그 조건에 해당하는 데이터만 나타낸다.
s[s > 0]

4    1
5    2
6    3
dtype: int64

In [80]:
s[(s < -1) | (s > 0.5)]

0   -3
1   -2
4    1
5    2
6    3
dtype: int64

In [81]:
s[~(s < 0)]

3    0
4    1
5    2
6    3
dtype: int64

In [82]:
df = pd.DataFrame(np.random.randn(6,4), index=list('abcdef'), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
a,-1.000914,-0.717531,-1.399539,-1.104245
b,-0.468263,0.491323,0.641375,-0.834017
c,1.697606,0.264782,-0.693826,-1.32511
d,0.672621,0.57596,0.366792,0.481484
e,1.292374,-0.032728,1.081074,2.395842
f,0.506908,0.742495,0.722699,-1.04534


In [83]:
df[df['A'] > 0]

Unnamed: 0,A,B,C,D
c,1.697606,0.264782,-0.693826,-1.32511
d,0.672621,0.57596,0.366792,0.481484
e,1.292374,-0.032728,1.081074,2.395842
f,0.506908,0.742495,0.722699,-1.04534


In [84]:
df2 = pd.DataFrame({'a': ['one', 'one', 'two', 'three', 'two', 'one', 'six'],
                   'b': ['x', 'y', 'y', 'x', 'y', 'x', 'x'],
                   'c': np.random.randn(7)})

In [86]:
# two, three 만 뽑기
# .startswith(l) --> l로 시작하는 것 찾기 
criterion = df2['a'].map(lambda x : x.startswith('t'))

In [87]:
df2[criterion]

Unnamed: 0,a,b,c
2,two,y,0.878302
3,three,x,-0.045132
4,two,y,1.425636


In [88]:
# 위와 결과는 같지만 처리속도가 느ㄹ니방법
df2[[x.startswith('t') for x in df2['a']]]

Unnamed: 0,a,b,c
2,two,y,0.878302
3,three,x,-0.045132
4,two,y,1.425636


In [90]:
df2[criterion & (df2['b'] == 'x')]

Unnamed: 0,a,b,c
3,three,x,-0.045132


In [91]:
# Boolean indexing을 통해 select도 가능하다
df2.loc[criterion & (df2['b'] == 'x'), 'b':'c']

Unnamed: 0,b,c
3,x,-0.045132


## indexing with isin

In [92]:
s = pd.Series(np.arange(5), index=np.arange(5)[::-1], dtype='int64')
s

4    0
3    1
2    2
1    3
0    4
dtype: int64

In [93]:
s.isin([2,4,6])

4    False
3    False
2     True
1    False
0     True
dtype: bool

In [94]:
s[s.isin([2,4,6])]

2    2
0    4
dtype: int64

In [95]:
s[s.index.isin([2, 4 ,6])]

4    0
2    2
dtype: int64

In [96]:
s.reindex([2, 4, 6])

2    2.0
4    0.0
6    NaN
dtype: float64

In [97]:
s_mi = pd.Series(np.arange(6), index=pd.MultiIndex.from_product([[0,1], ['a', 'b', 'c']]))
s_mi

0  a    0
   b    1
   c    2
1  a    3
   b    4
   c    5
dtype: int64

In [99]:
s_mi.iloc[s_mi.index.isin([(1, 'a'), (2, 'b'), (0, 'c')])]

0  c    2
1  a    3
dtype: int64

In [100]:
s_mi.iloc[s_mi.index.isin(['a', 'c', 'e'], level=1)]

0  a    0
   c    2
1  a    3
   c    5
dtype: int64

In [101]:
# isin with array
# 배열내 값에 대해 각 컬럼에 .isin을 적용한다.
df = pd.DataFrame({'vals': [1, 2, 3, 4], 'ids': ['a', 'b', 'f', 'n'], 'ids2': ['a', 'n', 'c', 'n']})

In [102]:
values = ['a', 'b', 1, 3]

In [103]:
df.isin(values)

Unnamed: 0,vals,ids,ids2
0,True,True,True
1,False,True,False
2,True,False,False
3,False,False,False


In [104]:
# 특정 열에 대한 특정 값을 일치시킬때 dict를 사용해도 된다.
values = {'ids' : ['a', 'b'], 'vals' : [1, 3]}

In [105]:
df.isin(values)

Unnamed: 0,vals,ids,ids2
0,True,True,False
1,False,True,False
2,True,False,False
3,False,False,False


In [106]:
#.all() --> 자체 기준을 모두 만족하는 행을 찾는다. 0 : column, 1 : row
values = {'ids' : ['a', 'b'], 'ids2' : ['a', 'c'], 'vals' : [1, 3]}

In [121]:
row_mask = df.isin(values).all(1)
row_mask

0     True
1    False
2    False
3    False
dtype: bool

In [113]:
df[row_mask]

Unnamed: 0,vals,ids,ids2
0,1,a,a


In [118]:
# .any() --> 자체 기준에 하나라도 만족하는 행을 찾는다. 0 : column, 1 : row
values2 = {'ids' : ['a'], 'ids2' : ['n']}

In [119]:
df[df.isin(values2).any(1)]

Unnamed: 0,vals,ids,ids2
0,1,a,a
1,2,b,n
3,4,n,n
