# Pandas apply() and lambda function in Python

In [1]:
import pandas as pd

import datetime

In [2]:
train = pd.read_csv('./Data/Dacon/funda_train.csv')

In [4]:
train.sample()

Unnamed: 0,store_id,card_id,card_company,transacted_date,transacted_time,installment_term,region,type_of_business,amount
3787621,1242,2679238,f,2018-08-01,12:48,0,서울 양천구,,2000.0


In [9]:
train.isnull().sum() * 100 / len(train)

store_id             0.000000
card_id              0.000000
card_company         0.000000
transacted_date      0.000000
transacted_time      0.000000
installment_term     0.000000
region              31.155812
type_of_business    60.284311
amount               0.000000
dtype: float64

In [13]:
train['region'] = train['region'].fillna('시도정보없음 시군구정보없음')

In [16]:
train['region'].unique()

array(['시도정보없음 시군구정보없음', '서울 종로구', '충북 충주시', '부산 동래구', '경기 평택시', '부산 동구',
       '광주 동구', '경기 파주시', '대구 수성구', '경기 용인시', '서울 중구', '경기 안양시', '경기 수원시',
       '경기 화성시', '서울 송파구', '서울 마포구', '부산 부산진구', '서울 용산구', '충남 금산군',
       '서울 중랑구', '전남 목포시', '경기 안성시', '서울 영등포구', '서울 동작구', '경기 과천시',
       '경북 경주시', '인천 계양구', '서울 강서구', '경기 성남시', '인천 남동구', '서울 광진구',
       '서울 서대문구', '서울 은평구', '서울 강남구', '강원 강릉시', '서울 구로구', '서울 서초구',
       '경기 시흥시', '인천 서구', '서울 양천구', '경기 부천시', '경기 광주시', '서울 금천구',
       '서울 관악구', '인천 남구', '인천 동구', '충북 제천시', '광주 광산구', '인천 연수구', '인천 부평구',
       '경기 의왕시', '전남 순천시', '경기 이천시', '경기 의정부시', '경기 포천시', '경기 양주시',
       '경기 고양시', '충북 옥천군', '경기 광명시', '경기 구리시', '경기 남양주시', '경기 가평군',
       '전남 여수시', '경기 안산시', '경기 오산시', '경기 김포시', '서울 성동구', '전북 군산시',
       '경남 김해시', '경기 군포시', '제주 서귀포시', '서울 강북구', '제주 제주시', '부산 금정구',
       '경북 구미시', '광주 서구', '부산 사상구', '충남 천안시', '강원 원주시', '충남 아산시',
       '경북 포항시', '부산 강서구', '강원 횡성군', '대구 남구', '경남 양산시', '경남 창원시',
       '강원 양구군', '경남 통영시', '충남 당진시',

# Pandas apply()

In [27]:
# train 테이블에 region 컬럼에 들어있는 값 중 10001번째 데이터를 호출합니다.
sample = train['region'][10000]

# 텍스트 데이터를 공백을 기준으로 잘라서 리스트에 저장합니다.
sample_split = sample.split()

# 저장된 리스트에서 첫번째 원소를 가져옵니다.
sample_split[0]

'서울'

In [28]:
# split()
# 문자열 자료형에 대해서 더 알고 싶다면: https://wikidocs.net/13
train['region'][10000].split()[0]

'서울'

In [43]:
# 다양한 방법으로 데이터를 호출할 수 있음. 본인이 편한 방법을 선택하면 됨.
train['region'][10000]
train['region'].loc[10000]
train.loc[10000, 'region']

'서울 종로구'

## 시도 / 시군구 정보를 나누고 싶을 때

In [31]:
def get_sido(x):
    return x.split()[0]

In [54]:
def get_sigungu(x):
    return x.split()[1]

In [None]:
sido = []
sigungu = []
for i, v in train['region'].items():
    a = v.split()
    sido.append(v[0])
    sigungu.append(v[1])

In [78]:
sigungu = []
for i, v in train['region'].items():
    sigungu.append(get_sigungu(v))

In [80]:
train['sido'] = sido
train['sigungu'] = sigungu

In [83]:
# train[train['sido'] == '제주']

## apply()를 사용하면

In [None]:
for i, v in train['region'].items():
    pass

In [34]:
# 같은 함수를 컬럼에 일관적으로 적용해줄때 apply() 함수를 쓸 수 있다.
train['sido'] = train['region'].apply(get_sido)

# lambda

In [88]:
def get_sido(x):
    return x.split()[0]

In [None]:
get_sido = lambda x: x.split()[0]

In [35]:
get_sigungu = lambda x: x.split()[1]

In [36]:
train['sigungu'] = train['region'].apply(get_sigungu)

## 더 짧게

In [89]:
train['sigungu'] = train['region'].apply(lambda x: x.split()[1])

# 응용

In [43]:
train['transacted_date'] = pd.to_datetime(train['transacted_date'])

### Q1. 컬럼 `transacted_date`를 참조하여 결제가 있었던 연도를 뽑아내 `year`라는 칼럼에 저장하세요.

### Q2. 컬럼 `transacted_date`를 참조하여 결제가 있었던 월을 뽑아내 `month`라는 칼럼에 저장하세요.

In [52]:
# 힌트
sample = datetime.datetime.strptime('2019-09-30', '%Y-%m-%d').date()
print(sample.year)
print(sample.month)

2019
9
