In [15]:
import pandas as pd
import seaborn as sns
pd.options.display.max_rows = 6

## 함수를 통한 Value 전처리

### map ( Series ) & apply( DataFrame ) & applymap( DataFrame )

In [16]:
tips = sns.load_dataset('tips')

In [18]:
def square(x):
    return x**2

#### .map은 Series에서만 적용이 가능하다.

In [19]:
tips['tip'].map(square) # apply로도 가능

0       1.0201
1       2.7556
2      12.2500
        ...   
241     4.0000
242     3.0625
243     9.0000
Name: tip, Length: 244, dtype: float64

In [24]:
# 각각의 컬럼이 함수의 args로 입력된다.
tips[['total_bill','tip','size']].apply(square) # DataFrame은 apply만 사용 가능

Unnamed: 0,total_bill,tip,size
0,288.6601,1.0201,4
1,106.9156,2.7556,9
2,441.4201,12.2500,9
...,...,...,...
241,513.9289,4.0000,4
242,317.5524,3.0625,4
243,352.6884,9.0000,4


In [27]:
# 각각의 row를 기준으로 계산할 수 있다.
def row_sum(row):
    return sum(row)

tips[['total_bill','tip','size']].apply(row_sum, axis=1) # axis = 1

0      20.00
1      15.00
2      27.51
       ...  
241    26.67
242    21.57
243    23.78
Length: 244, dtype: float64

In [30]:
# 추가 parameter를 설정하여 사용하는 방법
def nth_square(row, n):
    return row**n

tips[['total_bill','tip','size']].apply(nth_square, n=3) # kwargs를 명시하면 된다.

Unnamed: 0,total_bill,tip,size
0,4904.335099,1.030301,8
1,1105.507304,4.574296,27
2,9274.236301,42.875000,27
...,...,...,...
241,11650.768163,8.000000,8
242,5658.783768,5.359375,8
243,6623.488152,27.000000,8


#### .applymap은 모든 value에 적용이 되는 함수

In [28]:
# 모든 value가 각각 함수의 args로 입력된다.
tips[['total_bill','tip','size']].applymap(lambda x: x**2)

Unnamed: 0,total_bill,tip,size
0,288.6601,1.0201,4
1,106.9156,2.7556,9
2,441.4201,12.2500,9
...,...,...,...
241,513.9289,4.0000,4
242,317.5524,3.0625,4
243,352.6884,9.0000,4


## 문자열인 Value 전처리

In [40]:
ebola = pd.read_csv('/home/yahwang/doit_pandas/data/country_timeseries.csv')
ebola = ebola.iloc[:10, [0,1,2,3,10,11]]
df = ebola.melt(id_vars=['Date', 'Day'])
df

Unnamed: 0,Date,Day,variable,value
0,1/5/2015,289,Cases_Guinea,2776.0
1,1/4/2015,288,Cases_Guinea,2775.0
2,1/3/2015,287,Cases_Guinea,2769.0
...,...,...,...,...
37,12/24/2014,277,Deaths_Liberia,3413.0
38,12/21/2014,273,Deaths_Liberia,
39,12/20/2014,272,Deaths_Liberia,3384.0


### .str 함수

#### split

In [41]:
df.variable.str.split('_', expand=True) # 각각 컬럼으로 분리

Unnamed: 0,0,1
0,Cases,Guinea
1,Cases,Guinea
2,Cases,Guinea
...,...,...
37,Deaths,Liberia
38,Deaths,Liberia
39,Deaths,Liberia


In [42]:
df.variable.str.split('_', expand=False)[:3] # 리스트로 분리

0    [Cases, Guinea]
1    [Cases, Guinea]
2    [Cases, Guinea]
Name: variable, dtype: object