In [1]:
import pandas as pd
import numpy as np

# Apply 문법

* [데이터프레임 또는 데이터프레임의 열].apply(사용자 정의 함수 또는 람다함수)

In [2]:
data = {
    '상품':['상품1','상품2','상품3','상품4','상품5'],
    '가격($)': [3, 8, 13, 4, 205]}
df = pd.DataFrame(data)
df

Unnamed: 0,상품,가격($)
0,상품1,3
1,상품2,8
2,상품3,13
3,상품4,4
4,상품5,205


* 사용자 정의 함수 apply 적용

In [3]:
def transform_won(dollar):
    won = dollar * 1337
    return won

In [4]:
df['가격($)'].apply(transform_won) # 가격($)에 있는 모든 열의 값이 apply 함수에 브로드캐스팅 된다.

0      4011
1     10696
2     17381
3      5348
4    274085
Name: 가격($), dtype: int64

In [5]:
# 가격(원) 열 새로 추가
df['가격(원)'] =  df['가격($)'].apply(transform_won)
df

Unnamed: 0,상품,가격($),가격(원)
0,상품1,3,4011
1,상품2,8,10696
2,상품3,13,17381
3,상품4,4,5348
4,상품5,205,274085


* 람다함수 apply 적용  
  간단한 사용자 함수를 정의할 때 사용

In [6]:
df.drop('가격(원)', axis=1, inplace=True)

In [7]:
df

Unnamed: 0,상품,가격($)
0,상품1,3
1,상품2,8
2,상품3,13
3,상품4,4
4,상품5,205


In [8]:
df['가격(원)'] =  df['가격($)'].apply(lambda dollar: dollar * 1337)
df

Unnamed: 0,상품,가격($),가격(원)
0,상품1,3,4011
1,상품2,8,10696
2,상품3,13,17381
3,상품4,4,5348
4,상품5,205,274085


# 판다스 기본 문법으로 전처리

In [9]:
df.drop('가격(원)', axis=1, inplace=True)
df

Unnamed: 0,상품,가격($)
0,상품1,3
1,상품2,8
2,상품3,13
3,상품4,4
4,상품5,205


In [10]:
df['가격(원)'] = df['가격($)'] * 1337
df

Unnamed: 0,상품,가격($),가격(원)
0,상품1,3,4011
1,상품2,8,10696
2,상품3,13,17381
3,상품4,4,5348
4,상품5,205,274085


### 중간 결론  
* 간단한 작업은 굳이 apply 함수를 사용할 필요가 없다.

# 조금 복잡한 경우의 apply 적용

In [11]:
def get_grade(price):
    if price < 10000:
        return '저가 상품'
    elif price <  100000:
        return '일반 상품'
    else:
        return '고가 상품'

In [12]:
df['등급'] = df['가격(원)'].apply(get_grade)
df

Unnamed: 0,상품,가격($),가격(원),등급
0,상품1,3,4011,저가 상품
1,상품2,8,10696,일반 상품
2,상품3,13,17381,일반 상품
3,상품4,4,5348,저가 상품
4,상품5,205,274085,고가 상품


In [13]:
df.drop('등급', axis=1, inplace=True)
df

Unnamed: 0,상품,가격($),가격(원)
0,상품1,3,4011
1,상품2,8,10696
2,상품3,13,17381
3,상품4,4,5348
4,상품5,205,274085


In [14]:
df['등급'] = df['가격(원)'].apply(lambda price: '저가' if price < 10000 else ('일반' if price < 100000 else '고급'))
df

Unnamed: 0,상품,가격($),가격(원),등급
0,상품1,3,4011,저가
1,상품2,8,10696,일반
2,상품3,13,17381,일반
3,상품4,4,5348,저가
4,상품5,205,274085,고급


## 중간결론

* 복잡한 사용자정의 전처리는 사용자 정의 함수를 apply 메소드에 적용하자!

# 복잡한 경우에서 사용자 전처리

In [28]:
import random

categories = ['의류', '가전제품', '식품', '화장품']

# 상품 데이터 생성
data = []
for _ in range(20):
    category = random.choice(categories)
    product = f'상품{_}'
    price = random.randint(10, 100)
    data.append([category, product, price])

In [16]:
df = pd.DataFrame(data, columns=['카테고리', '제품', '가격($)'])
df.head()

Unnamed: 0,카테고리,제품,가격($)
0,식품,상품0,24
1,의류,상품1,26
2,의류,상품2,14
3,의류,상품3,27
4,의류,상품4,46


In [17]:
df['가격(원)'] = df['가격($)'] * 1337
df.head()

Unnamed: 0,카테고리,제품,가격($),가격(원)
0,식품,상품0,24,32088
1,의류,상품1,26,34762
2,의류,상품2,14,18718
3,의류,상품3,27,36099
4,의류,상품4,46,61502


### 문제 풀어봅시다.  

* 각 카테고리별 할인률을 적용해 봅시다.
* 할인률을 적용한 열 이름을 '할인가격' 으로 한다.
* 카테고리별 할인율은 다음과 같다
    * 의류: 10%
    * 가전제품: 20%
    * 식품: 5%
    * 화장품: 15%

apply 메소드에 사용자 정의 함수를 구현해 풀어보세요!

In [32]:
def apply_discount(df):
    if df['카테고리'] == '의류':
        return df['가격(원)'] * 0.9
    elif df['카테고리'] == '가전제품':
        return df['가격(원)'] * 0.8
    elif df['카테고리'] == '식품':
        return df['가격(원)'] * 0.95
    elif df['카테고리'] == '화장품':
        return df['가격(원)'] * 0.85
    else:
        return df['가격(원)']

* 데이터프레임.apply(사용자정의함수명 또는 람다함수, axis=1)

In [34]:
df['할인가격'] = df.apply(apply_discount, axis=1)
df.head()

KeyError: '가격(원)'

# 조금 더 복잡한 케이스

* 위 수행 결과를 리뷰한 결과 아래와 같은 추가 요구사항이 도출이 되었다.
    * 요구사항1] 달러는 앞에 $ 추가한다. 그리고 세자리마다 , 추가한다.
    * 요구사항2] 원화는 금액위에 '원' 표시하고 세자리마다 , 추가
    * 요구사항3] 할인 금액은 정수로 표기
    * 요구사항4] 원본데이터는 숫자로 생성해야 된다.

In [35]:
import pandas as pd
import random

# 카테고리 리스트
categories = ['의류', '가전제품', '식품', '화장품']

# 상품 데이터 생성
# 요구사항4
data = []
for index in range(20):
    category = random.choice(categories)
    product = f'상품{index+1}'
    price = random.randint(10, 2000)
    data.append([category, product, price])
df = pd.DataFrame(data, columns=['카테고리', '제품', '가격($)'])
# 고객이 제공한 데이터
df.head()

Unnamed: 0,카테고리,제품,가격($)
0,식품,상품1,586
1,식품,상품2,115
2,화장품,상품3,674
3,식품,상품4,995
4,식품,상품5,1666


* 요구사항1

In [31]:
# 포멧이나 약식 포멧에서 {:,} <= 세자리수마다 ,를 붙이는 서식이 적용
df['가격($)'] = df['가격($)'].apply(lambda x: f'${x:,}')
df.head()

Unnamed: 0,카테고리,제품,가격($)
0,의류,상품1,$669
1,화장품,상품2,$801
2,가전제품,상품3,$595
3,가전제품,상품4,$587
4,가전제품,상품5,"$1,614"


* 요구사항2

In [22]:
# 원화는 금액위에 '원' 표시하고 세자리마다 , 추가
# df['가격($)'].str.replace('$','').str.replace(',','').astype(int) * 1337 # astype함수에서 숫자 변경시 int64아니라 int
df['가격(원)'] = df['가격($)'].str.replace('$','').str.replace(',','').astype(int) * 1337
df.head()

Unnamed: 0,카테고리,제품,가격($),가격(원)
0,의류,상품0,"$1,724",2304988
1,식품,상품1,"$1,920",2567040
2,가전제품,상품2,"$1,524",2037588
3,식품,상품3,"$1,765",2359805
4,의류,상품4,"$1,470",1965390


In [23]:
df['가격(원)'] = df['가격(원)'].apply(lambda x: f'{x:,}원')
df.head()

Unnamed: 0,카테고리,제품,가격($),가격(원)
0,의류,상품0,"$1,724","2,304,988원"
1,식품,상품1,"$1,920","2,567,040원"
2,가전제품,상품2,"$1,524","2,037,588원"
3,식품,상품3,"$1,765","2,359,805원"
4,의류,상품4,"$1,470","1,965,390원"


In [24]:
def apply_discount2(df):
    price_str = df['가격(원)'].replace(',', '').replace('원', '')
    price = int(price_str) # int(): 문자를 숫자로 변환하는 함수
    if df['카테고리'] == '의류':
        price =  price * 0.9
    elif df['카테고리'] == '가전제품':
        price = price * 0.8
    elif df['카테고리'] == '식품':
        price = price * 0.95
    elif df['카테고리'] == '화장품':
        price = price * 0.85
    else:
        price = price
        
    price = int(price)
    price = f'{price:,}원'
    return price

In [25]:
df['할인가격'] = df.apply(apply_discount2, axis=1)
df

Unnamed: 0,카테고리,제품,가격($),가격(원),할인가격
0,의류,상품0,"$1,724","2,304,988원","2,074,489원"
1,식품,상품1,"$1,920","2,567,040원","2,438,688원"
2,가전제품,상품2,"$1,524","2,037,588원","1,630,070원"
3,식품,상품3,"$1,765","2,359,805원","2,241,814원"
4,의류,상품4,"$1,470","1,965,390원","1,768,851원"
5,가전제품,상품5,$527,"704,599원","563,679원"
6,가전제품,상품6,"$1,331","1,779,547원","1,423,637원"
7,화장품,상품7,"$1,862","2,489,494원","2,116,069원"
8,의류,상품8,"$1,519","2,030,903원","1,827,812원"
9,의류,상품9,"$1,033","1,381,121원","1,243,008원"


# 판다스 연습은 아래에서

In [None]:
* 기초 문제
https://wikidocs.net/book/4852

* 더 심화된 문제는 빅데이터 처리기사에서 