- mapping : https://rfriend.tistory.com/387?category=675917
- string 컬럼 분리 : https://rfriend.tistory.com/448?category=675917

In [16]:
import pandas as pd
import numpy as np

In [2]:
df = pd.DataFrame({'name': ['kim', 'KIM', 'Kim', 'lee', 'LEE', 'Lee', 'wang', 'hong'], 
                   'value': [1, 2, 3, 4, 5, 6, 7, 8], 
                   'value_2': [100, 300, 200, 100, 100, 300, 50, 80]})
df

Unnamed: 0,name,value,value_2
0,kim,1,100
1,KIM,2,300
2,Kim,3,200
3,lee,4,100
4,LEE,5,100
5,Lee,6,300
6,wang,7,50
7,hong,8,80


## Mapping
- KIM, kim, Kim을 --> kim으로 lee,Lee,LEE를 --> lee로, 나머지를 others라는 항복으로 매핑하여 새로운 변수 name_2생성

In [3]:
# 1. 매핑정보 dict형으로 생성
name_mapping = {
    'KIM': 'kim',
    'Kim': 'kim', 
    'LEE': 'lee', 
    'Lee': 'lee', 
    'wang': 'others', 
    'hong': 'others'
}

In [7]:
# 2. dict.get() 함수를 이용하여 매핑/변환을 위한 사용자 함수 만들기
func = lambda x : name_mapping.get(x, x) # 매핑 정보가 없으면 입려값 그대로 반환

In [10]:
# 3. map() 함수 적용
df['name_2'] = df['name'].map(func)
df

Unnamed: 0,name,value,value_2,name_2
0,kim,1,100,kim
1,KIM,2,300,kim
2,Kim,3,200,kim
3,lee,4,100,lee
4,LEE,5,100,lee
5,Lee,6,300,lee
6,wang,7,50,others
7,hong,8,80,others


In [13]:
# +) name_2별 value, value_2 sum
df.groupby('name_2').sum()

Unnamed: 0_level_0,value,value_2
name_2,Unnamed: 1_level_1,Unnamed: 2_level_1
kim,6,600
lee,15,500
others,15,130


In [14]:
# +) 계층적 groupby
# name_2, name 계층적 groupby 후 value_2 컬럼에 대한 sum
df.groupby(['name_2','name'])['value_2'].sum()

name_2  name
kim     KIM     300
        Kim     200
        kim     100
lee     LEE     100
        Lee     300
        lee     100
others  hong     80
        wang     50
Name: value_2, dtype: int64

---
## String 컬럼 분리
df에서 __string 형태의 컬럼__을 특정 기준(separtor, delimeter)으로 분할하여 그 중 일부분을 새로운 컬럼으로 생성

- Sol1) Vectorization
- Sol2) For Loop

### 1) Vectorization

In [19]:
df = pd.DataFrame({'id': ['A_001', 'A_002', 'A_003', 'B_001', 'C_001', 'C_002'], 
                          'val': np.arange(6)})
df

Unnamed: 0,id,val
0,A_001,0
1,A_002,1
2,A_003,2
3,B_001,3
4,C_001,4
5,C_002,5


In [28]:
# id컬럼을 '_'를 기준으로 split 후 앞부분[0]을 grp라는 새로운 컬럼으로 생성
df['id'].str.split('_')

0    [A, 001]
1    [A, 002]
2    [A, 003]
3    [B, 001]
4    [C, 001]
5    [C, 002]
Name: id, dtype: object

In [30]:
df['id'].str.split('_')[0]

['A', '001']

In [27]:
df['id'].str.split('_').str

<pandas.core.strings.StringMethods at 0x140b4ca5fd0>

In [29]:
df['id'].str.split('_').str[0]

0    A
1    A
2    A
3    B
4    C
5    C
Name: id, dtype: object

In [32]:
# +) list로 만들기
df['id'].str.split('_').str[0].tolist()

['A', 'A', 'A', 'B', 'C', 'C']

### 2) For Loop
- vectorization 사용을 지향.
- For loop 느림

In [34]:
for i in range(df.shape[0]):
    df.loc[i,'grp'] = str(df.loc[i,'id']).split('_')[0]
    
df

Unnamed: 0,id,val,grp
0,A_001,0,A
1,A_002,1,A
2,A_003,2,A
3,B_001,3,B
4,C_001,4,C
5,C_002,5,C
