In [1]:
import pandas as pd
import seaborn as sns
pd.options.display.max_rows = 6

## 함수를 통한 Value 전처리

### map ( Series ) & apply( DataFrame ) & applymap( DataFrame )

In [2]:
tips = sns.load_dataset('tips')

In [3]:
def square(x):
    return x**2

#### .map은 Series에서만 적용이 가능하다.

In [4]:
tips['tip'].map(square) # apply로도 가능

0       1.0201
1       2.7556
2      12.2500
        ...   
241     4.0000
242     3.0625
243     9.0000
Name: tip, Length: 244, dtype: float64

In [5]:
# 각각의 컬럼이 함수의 args로 입력된다.
tips[['total_bill', 'tip', 'size']].apply(square) # DataFrame은 apply만 사용 가능

Unnamed: 0,total_bill,tip,size
0,288.6601,1.0201,4
1,106.9156,2.7556,9
2,441.4201,12.2500,9
...,...,...,...
241,513.9289,4.0000,4
242,317.5524,3.0625,4
243,352.6884,9.0000,4


In [33]:
# 각각의 row를 기준으로 계산할 수 있다.
def row_sum(row):
    return sum(row)


tips[['total_bill', 'tip', 'size']].apply(row_sum, axis=1) # axis = 1

0      20.00
1      15.00
2      27.51
       ...  
241    26.67
242    21.57
243    23.78
Length: 244, dtype: float64

In [34]:
# 추가 parameter를 설정하여 사용하는 방법
def nth_square(row, n):
    return row**n


tips[['total_bill','tip','size']].apply(nth_square, n=3) # kwargs를 명시하면 된다.

Unnamed: 0,total_bill,tip,size
0,4904.335099,1.030301,8
1,1105.507304,4.574296,27
2,9274.236301,42.875000,27
...,...,...,...
241,11650.768163,8.000000,8
242,5658.783768,5.359375,8
243,6623.488152,27.000000,8


#### .applymap은 모든 value에 적용이 되는 함수

In [35]:
# 모든 value가 각각 함수의 args로 입력된다.
tips[['total_bill','tip','size']].applymap(lambda x: x**2)

Unnamed: 0,total_bill,tip,size
0,288.6601,1.0201,4
1,106.9156,2.7556,9
2,441.4201,12.2500,9
...,...,...,...
241,513.9289,4.0000,4
242,317.5524,3.0625,4
243,352.6884,9.0000,4


### tqdm을 활용한 진행속도 확인

Series에서 map 대신 progress_map 함수 실행

In [10]:
from tqdm import tqdm

tqdm.pandas(desc="progres ... ")

tips['tip'].progress_map(square)


progres ... : 100%|██████████| 244/244 [00:00<00:00, 298718.67it/s]


0       1.0201
1       2.7556
2      12.2500
        ...   
241     4.0000
242     3.0625
243     9.0000
Name: tip, Length: 244, dtype: float64

데이터프레임에서 apply 대신 progress_apply 함수 실행

In [11]:
from tqdm import tqdm

tqdm.pandas(desc="progres ... ")

tips[['total_bill', 'tip', 'size']].progress_apply(square)


progres ... : 100%|██████████| 3/3 [00:00<00:00, 1311.81it/s]


Unnamed: 0,total_bill,tip,size
0,288.6601,1.0201,4
1,106.9156,2.7556,9
2,441.4201,12.2500,9
...,...,...,...
241,513.9289,4.0000,4
242,317.5524,3.0625,4
243,352.6884,9.0000,4
