In [28]:
import pandas as pd
import seaborn as sns
pd.options.display.max_rows = 6

## 함수를 통한 Value 전처리

### map ( Series ) & apply( DataFrame ) & applymap( DataFrame )

In [29]:
tips = sns.load_dataset('tips')

In [30]:
def square(x):
    return x**2

#### .map은 Series에서만 적용이 가능하다.

In [31]:
tips['tip'].map(square) # apply로도 가능

0       1.0201
1       2.7556
2      12.2500
        ...   
241     4.0000
242     3.0625
243     9.0000
Name: tip, Length: 244, dtype: float64

In [32]:
# 각각의 컬럼이 함수의 args로 입력된다.
tips[['total_bill','tip','size']].apply(square) # DataFrame은 apply만 사용 가능

Unnamed: 0,total_bill,tip,size
0,288.6601,1.0201,4
1,106.9156,2.7556,9
2,441.4201,12.2500,9
...,...,...,...
241,513.9289,4.0000,4
242,317.5524,3.0625,4
243,352.6884,9.0000,4


In [33]:
# 각각의 row를 기준으로 계산할 수 있다.
def row_sum(row):
    return sum(row)

tips[['total_bill','tip','size']].apply(row_sum, axis=1) # axis = 1

0      20.00
1      15.00
2      27.51
       ...  
241    26.67
242    21.57
243    23.78
Length: 244, dtype: float64

In [34]:
# 추가 parameter를 설정하여 사용하는 방법
def nth_square(row, n):
    return row**n

tips[['total_bill','tip','size']].apply(nth_square, n=3) # kwargs를 명시하면 된다.

Unnamed: 0,total_bill,tip,size
0,4904.335099,1.030301,8
1,1105.507304,4.574296,27
2,9274.236301,42.875000,27
...,...,...,...
241,11650.768163,8.000000,8
242,5658.783768,5.359375,8
243,6623.488152,27.000000,8


#### .applymap은 모든 value에 적용이 되는 함수

In [35]:
# 모든 value가 각각 함수의 args로 입력된다.
tips[['total_bill','tip','size']].applymap(lambda x: x**2)

Unnamed: 0,total_bill,tip,size
0,288.6601,1.0201,4
1,106.9156,2.7556,9
2,441.4201,12.2500,9
...,...,...,...
241,513.9289,4.0000,4
242,317.5524,3.0625,4
243,352.6884,9.0000,4


### groupby를 활용하여 그룹별 전처리

#### transform : 각 그룹마다의 함수값(평균, 분산 등)을 활용할 수 있다는 점에서 apply와 다르다.

In [36]:
def zscore(x):
    return (x-x.mean())/x.std()

In [37]:
# 남자는 남자의 평균과 표준편차, 여자는 여자의 평균과 표준편차를 활용하여 계산한다.
tips.groupby('sex').tip.transform(zscore)

0     -1.572623
1     -0.960054
2      0.275590
         ...   
241   -0.731728
242   -0.899615
243    0.143642
Name: tip, Length: 244, dtype: float64

In [38]:
# 그룹별로 잘 계산이 되는 것을 확인할 수 있다.
print('0번 row')
print("전체로 계산 : ", (tips.tip[0]-tips.tip.mean())/tips.tip.std()) # 전체 평균
print("여자 그룹으로 계산 : ", (tips.tip[0]-tips.groupby('sex').tip.mean()['Female'])/tips.groupby('sex').tip.std()['Female'])
print('1번 row')
print("전체로 계산 : ", (tips.tip[1]-tips.tip.mean())/tips.tip.std()) # 전체 평균
print("남자 그룹으로 계산 : ", (tips.tip[1]-tips.groupby('sex').tip.mean()['Male'])/tips.groupby('sex').tip.std()['Male'])

0번 row
전체로 계산 :  -1.436993214215838
여자 그룹으로 계산 :  -1.5726234740675478
1번 row
전체로 계산 :  -0.9672172242446297
남자 그룹으로 계산 :  -0.9600537861856211


참고 : zscore의 x는 아래처럼 그룹으로 나누어진 tip 컬럼이 각각 들어간다.

In [42]:
tips.groupby('sex').tip.groups

{'Male': Int64Index([  1,   2,   3,   5,   6,   7,   8,   9,  10,  12,
             ...
             231, 232, 233, 234, 235, 236, 237, 239, 241, 242],
            dtype='int64', length=157),
 'Female': Int64Index([  0,   4,  11,  14,  16,  18,  21,  22,  29,  32,  33,  37,  51,
              52,  57,  66,  67,  71,  72,  73,  74,  82,  85,  92,  93,  94,
             100, 101, 102, 103, 104, 109, 111, 114, 115, 117, 118, 119, 121,
             124, 125, 127, 128, 131, 132, 133, 134, 135, 136, 137, 139, 140,
             143, 144, 145, 146, 147, 155, 157, 158, 162, 164, 168, 169, 178,
             186, 188, 191, 197, 198, 201, 202, 203, 205, 209, 213, 214, 215,
             219, 221, 223, 225, 226, 229, 238, 240, 243],
            dtype='int64')}