reference : https://stackoverflow.com/questions/16992713/translate-every-element-in-numpy-array-according-to-key

In [3]:
import seaborn as sns
import pandas as pd
import numpy as np
pd.options.display.max_rows = 6

In [4]:
df = sns.load_dataset('exercise').iloc[:,[1,2,5]]
df.head()

Unnamed: 0,id,diet,kind
0,1,low fat,rest
1,1,low fat,rest
2,1,low fat,rest
3,2,low fat,rest
4,2,low fat,rest


In [5]:
df['kind'].cat.categories

Index(['rest', 'walking', 'running'], dtype='object')

## 데이터 mapping (치환)

.replace 함수 : 지정된 값만 찾아 변경

In [6]:
map_dict= {'rest': 'first' , 'walking': 'second', 'running': 'third'}

In [42]:
df['kind'].replace(map_dict)

0       first
1       first
2       first
       ...   
87    running
88    running
89    running
Name: kind, Length: 90, dtype: object

### .map 함수 활용

replace 함수도 있지만 데이터가 많을수록 .map을 활용하는 것이 더 빠르다.

In [11]:
df['kind'].map(map_dict)

0     first
1     first
2     first
      ...  
87      NaN
88      NaN
89      NaN
Name: kind, Length: 90, dtype: object

단, dict에 지정하지 않은 값들은 Nan으로 처리된다. // numpy 방법은 해결 가능

In [38]:
map_dict= {'rest': 'first' , 'walking': 'second'}

In [10]:
df['kind'].map(map_dict)

0     first
1     first
2     first
      ...  
87      NaN
88      NaN
89      NaN
Name: kind, Length: 90, dtype: object

### numpy 활용

In [43]:
np.vectorize(map_dict.get)(df['kind'])

array(['first', 'first', 'first', 'first', 'first', 'first', 'first',
       'first', 'first', 'first', 'first', 'first', 'first', 'first',
       'first', 'first', 'first', 'first', 'first', 'first', 'first',
       'first', 'first', 'first', 'first', 'first', 'first', 'first',
       'first', 'first', 'second', 'second', 'second', 'second', 'second',
       'second', 'second', 'second', 'second', 'second', 'second',
       'second', 'second', 'second', 'second', 'second', 'second',
       'second', 'second', 'second', 'second', 'second', 'second',
       'second', 'second', 'second', 'second', 'second', 'second',
       'second', 'None', 'None', 'None', 'None', 'None', 'None', 'None',
       'None', 'None', 'None', 'None', 'None', 'None', 'None', 'None',
       'None', 'None', 'None', 'None', 'None', 'None', 'None', 'None',
       'None', 'None', 'None', 'None', 'None', 'None', 'None'],
      dtype='<U6')

dict에 지정하지 않은 값들은 자신의 값 그대로 활용 가능

In [29]:
np.vectorize(map_dict.get)(df['kind'], df['kind'])

array(['first', 'first', 'first', 'first', 'first', 'first', 'first',
       'first', 'first', 'first', 'first', 'first', 'first', 'first',
       'first', 'first', 'first', 'first', 'first', 'first', 'first',
       'first', 'first', 'first', 'first', 'first', 'first', 'first',
       'first', 'first', 'second', 'second', 'second', 'second', 'second',
       'second', 'second', 'second', 'second', 'second', 'second',
       'second', 'second', 'second', 'second', 'second', 'second',
       'second', 'second', 'second', 'second', 'second', 'second',
       'second', 'second', 'second', 'second', 'second', 'second',
       'second', 'running', 'running', 'running', 'running', 'running',
       'running', 'running', 'running', 'running', 'running', 'running',
       'running', 'running', 'running', 'running', 'running', 'running',
       'running', 'running', 'running', 'running', 'running', 'running',
       'running', 'running', 'running', 'running', 'running', 'running',
       'runni

참고

In [41]:
%timeit df['kind'].map(map_dict)

611 µs ± 5.63 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [34]:
%timeit np.vectorize(map_dict.get)(df['kind'])

165 µs ± 550 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
