[ Pandas & Matplotlib - 합수 맵핑 기능 ]

- Series 와 DataFrame 에 특정 함수를 연결/맵핑 시켜주는 기능
- python 의 map() 함수 와 유사
- Serie 에서는 원소가 함수에 전달
- DataFrame 에서는 Series 가 함수에 전달


[1] 모듈 로딩 & 데이터 준비 <hr>

In [28]:
#[1-1] 모듈로딩

import pandas as pd


In [29]:
# [1-2] 데이터 준비 
dataSR = pd.Series([11,22,33])

dataDF = pd.DataFrame([[10,20],[30,40]])

[2] Series & apply()메서드 <hr>

In [30]:
# Python의 map()

values = ['1','3','5','7','9','11']

# - 방법 1)
values[0] = int(values[0])
values[1] = int(values[1])
values[2] = int(values[2])

# - 방법 2)
for idx in range(len(values)):
    values[idx] = int(values[idx])

# - 방법 3)
for idx, _ in enumerate(values):
    values[idx] = int(values[idx])

# - 방법 4)

values= list(map(int, values))


# - 방법 5)
values= [int(v) for v in values]



In [31]:
# Series 의 원소 값을 float 해서 저장

dataSR.apply(float)

0    11.0
1    22.0
2    33.0
dtype: float64

In [32]:
# Series 의 원소 값을 str 해서 저장

dataSR.apply(str)

0    11
1    22
2    33
dtype: object

In [33]:
# Series의 원소 값을 2배로 만든 후 3으로 나눈 나머지 값으로 변환

def changeValue(x):
    print(f'x => {x}, {type(x)}')
    return (x*2)%3

dataSR.apply(changeValue)
dataSR.apply(lambda x:(x*2)%3)

x => 11, <class 'int'>
x => 22, <class 'int'>
x => 33, <class 'int'>


0    1
1    2
2    0
dtype: int64

In [34]:
# Series의 원소 값을 n배로 만든 후 3으로 나눈 나머지 값으로 변환

def changeValueN(x, n):
    print(f'x => {x}, {type(x)}')
    return (x*n)%3

dataSR.apply(changeValueN, args=(10,))

#dataSR.apply(lambda x:(x*2)%3)

x => 11, <class 'int'>
x => 22, <class 'int'>
x => 33, <class 'int'>


0    2
1    1
2    0
dtype: int64

[3] DataFrame & apply() 메서드 <hr>

In [39]:
# DataFrame 의 원소 값을 float로 변환
# DataFrame 의 Series 단위로 함수에 전달 
dataDF.apply(changeValue)

x => 0    10
1    30
Name: 0, dtype: int64, <class 'pandas.core.series.Series'>
x => 0    20
1    40
Name: 1, dtype: int64, <class 'pandas.core.series.Series'>


Unnamed: 0,0,1
0,2,1
1,0,2


In [44]:
# DataFrame 의 원소 값을 float로 변환
# DataFrame 의 Series 단위로 함수에 전달 

dataDF.apply(changeValue, axis=0)



dataDF.apply(changeValue, axis=1, result_type='reduce')


x => 0    10
1    30
Name: 0, dtype: int64, <class 'pandas.core.series.Series'>
x => 0    20
1    40
Name: 1, dtype: int64, <class 'pandas.core.series.Series'>
x => 0    10
1    20
Name: 0, dtype: int64, <class 'pandas.core.series.Series'>
x => 0    30
1    40
Name: 1, dtype: int64, <class 'pandas.core.series.Series'>


Unnamed: 0,0,1
0,2,1
1,0,2


In [45]:
# => 행단위 Series 전달
dataDF.apply(sum, axis=1)


0    30
1    70
dtype: int64

In [53]:
# => 행단위 Series 전달
# expand 열에 리스트와 유사한 결과 반환
# reduce 시리즈 반환
# broadcast 데이타프레임으로 반환
dataDF.apply(max, axis=1, result_type='broadcast')

Unnamed: 0,0,1
0,20,20
1,40,40


In [55]:
# DataFrame 의 원소 단위로 함수에 전달

dataDF.apply(sum, axis=1, result_type='broadcast')
dataDF.applymap(changeValue)


x => 10, <class 'int'>
x => 30, <class 'int'>
x => 20, <class 'int'>
x => 40, <class 'int'>


  dataDF.applymap(changeValue)


Unnamed: 0,0,1
0,2,1
1,0,2


In [57]:
# dataDF.applymap(float)
dataDF.map(changeValue)

x => 10, <class 'int'>
x => 30, <class 'int'>
x => 20, <class 'int'>
x => 40, <class 'int'>


Unnamed: 0,0,1
0,2,1
1,0,2


[4] Series 전체 전달 맵핑 함수 => pipe() <hr>

In [63]:
print(dataSR)
dataSR.pipe(sum)

0    11
1    22
2    33
dtype: int64


66

In [64]:
def checkValue(x):
    print(x, type(x))
    return x

In [65]:
# Series 에서 pipe() 메서드 사용시 전체 Series 전달
dataSR.pipe(checkValue)

0    11
1    22
2    33
dtype: int64 <class 'pandas.core.series.Series'>


0    11
1    22
2    33
dtype: int64

In [67]:
# DataFrame 에서 pipe() 메서드 사용시 DataFrame 전달

dataSR.pipe(changeValue)

x => 0    11
1    22
2    33
dtype: int64, <class 'pandas.core.series.Series'>


0    1
1    2
2    0
dtype: int64

In [68]:
# 제품 판매 데이터
df = pd.DataFrame([['item A',1,20900],
                   ['item B',1,3200],
                   ['item C',5,100],
                   ['item D',1,4000],
                   ['item E',3,5000]], columns= ['name', 'cut', 'price'])

# 특정 판매 개수를 만족하는 아이템 판매 기록을 필터링한 DataFrame을 반환

def cnt_filter(df,a):
    # 판매 개수에 해당하는 행만 추출
    cond = df.cont == a
    filter_df = df.loc[cond]
    return filter_df


# 아이템 가격을 Series 로 반환

def get_sr(df, col_name):
    return df[col_name]

# Series의 Valuse 를 모두 더함
def sum_val(sr):
    return sr.sum()


# 


In [None]:
# 일반적인 함수 사용법
# -> 판매 개수가 1개인 제품의 가격 합계
x = sum_val(get_sr(cnt_filter(df, 1), 'price'))


# pipe 기반 함수 사용
# -> 판매개수가 1개인 제품의 가격 합계
y = df.pipe(cnt_filter, 1).pipe(get_sr, 'price').pipe(sum_val)
# ------ (1) ------ 결과 => --- (2) ---- 결과 --> --(3) --
print(x,y)