## 데이터 전처리

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import joblib
import numpy as np
import pandas as pd

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

### 실습 데이터셋 준비

In [None]:
# z 파일을 읽고 price에 할당합니다.
price = joblib.load(filename = 'APT_Price_Data.z')

In [None]:
# price의 정보를 확인합니다.
price.info()

In [None]:
# price의 처음 5행을 출력합니다.
price.head()

### 열이름으로 열 선택

In [None]:
# 열이름을 문자열 스칼라로 지정하면 시리즈로 반환합니다.
price['지역코드']

In [None]:
# 열이름을 리스트로 지정하면 데이터프레임으로 반환합니다.
price[['지역코드']]

In [None]:
# 2개 이상의 열을 선택하려면 반드시 리스트로 지정해야 합니다.(배열 인덱싱)
# [참고] 열이름 순서를 변경하면 위치를 바꿔서 반환합니다.
price[['거래일', '전용면적', '층', '거래금액']]

In [None]:
# 연속하는 열을 선택하려면 loc 인덱서를 추가해야 합니다.(슬라이싱)
# [주의] loc 인덱서를 추가했다면 열을 선택할 때 반드시 콤마를 추가해야 합니다.
price.loc[:, '거래일':'거래금액']

### 조건에 맞는 열 선택

In [None]:
# price의 열별 자료형이 정수형이면 True, 아니면 False를 반환합니다.
price.dtypes == 'int64'

In [None]:
# price에서 정수형인 열을 선택합니다.(불리언 인덱싱)
price.loc[:, price.dtypes == 'int64']

In [None]:
# price의 열별 자료형의 수치(정수, 실수)형이면 True, 아니면 False를 반환합니다.
# [참고] 실행 결과를 1차원 시리즈로 반환합니다.
(price.dtypes == 'int64') | (price.dtypes == 'float64')

In [None]:
# price의 열별 자료형의 수치(정수, 실수)형이면 True, 아니면 False를 반환합니다.
# [참고] 위 코드와 결과가 같습니다.
price.dtypes.astype(str).isin(values = ['int64', 'float64'])

In [None]:
# price의 열이름에서 '거래'를 포함하면 True, 아니면 False를 반환합니다.
# [참고] 실행 결과를 1차원 배열로 반환합니다.
price.columns.str.contains(pat = '거래')

### 열이름으로 열 삭제

In [None]:
# price에서 열이름으로 삭제한 결과를 출력합니다.
# [주의] columns 매개변수를 생략하면 인덱스에서 찾습니다.
# [참고] 삭제할 열이 2개 이상이면 리스트를 지정합니다.
price.drop(columns = '지역코드')

In [None]:
# price의 처음 5행을 출력합니다.
# [참고] price는 여전히 지역코드를 포함하고 있습니다.
price.head()

In [None]:
# 열이름으로 삭제한 결과를 price에 재할당합니다.
price = price.drop(columns = '지역코드')
price.head()

### 열이름 변경

In [None]:
# price에서 일부 열이름을 변경한 결과를 출력합니다.
# [주의] columns 매개변수를 생략하면 안됩니다!
price.rename(columns = {'시도명': '시', '시군구': '구', '법정동': '동'})

In [None]:
# price의 열이름을 출력합니다.
price.columns

In [None]:
# price의 열이름을 일괄 변경합니다.
# [주의] 데이터프레임의 열 개수와 같은 길이의 리스트를 지정해야 합니다.
price.columns = ['아파트', '시', '구', '동', '지번', '건축년도', 
                 '거래일', '전용면적', '층', '거래금액']
price.head()

### 열별 자료형 변환

In [None]:
# 거래금액 원소에 있는 콤마를 삭제하고 재할당합니다.
price['거래금액'] = price['거래금액'].str.replace(pat = ',', repl = '') \
                                     .astype(dtype = float)

In [None]:
# price의 열별 자료형을 확인합니다.
price.dtypes

In [None]:
# price에서 일부 열의 자료형을 변환합니다.
price = price.astype(dtype = {'거래일': 'datetime64[ns]', '층': float})
price.dtypes

In [None]:
# 정수형으로 변환할 열이름으로 리스트를 생성합니다.
cols = ['층', '거래금액']

In [None]:
# price에서 일부 열을 선택하고 정수형으로 일괄 변환합니다.
price[cols] = price[cols].astype(dtype = int)
price.dtypes

### [참고] 문자열을 날짜형으로 변환

In [None]:
# 날짜 기본형이 아닌 문자열 리스트로 시리즈를 생성합니다.
birth = pd.Series(data = ['2000년 1월 1일'])
birth

In [None]:
# 날짜 기본형이 아닌 문자열 리스트를 날짜형으로 변환합니다.
birth = pd.to_datetime(arg = birth, format = '%Y년 %m월 %d일')

In [None]:
# birth의 첫 번째 원소를 선택합니다.
# [참고] 날짜시간 자료형은 '년-월-일 시:분:초.마이크로초' 형태로 출력합니다.
birth.iloc[0]

### [참고] 날짜시간 자료형 연산

In [None]:
# 현재 날짜시간 데이터를 생성합니다.
today = pd.Timestamp.today()

In [None]:
# today의 타임스태프를 출력합니다.
today.timestamp()

In [None]:
# 태어나서 현재까지 살아온 기간을 출력합니다.
# [참고] 날짜시간 자료형은 실수이므로 산술 연산이 가능합니다.
today - birth.iloc[0]

### [참고] 날짜시간 자료형 분해 함수

In [None]:
# 거래일에서 년(year)을 정수형 시리즈로 반환합니다.
price['거래일'].dt.year

In [None]:
# 거래일에서 월(month)을 정수형 시리즈로 반환합니다.
price['거래일'].dt.month

In [None]:
# 거래일에서 일(day)을 정수형 시리즈로 반환합니다.
price['거래일'].dt.day

In [None]:
# 거래일에서 영문 요일을 문자형 시리즈로 반환합니다.
price['거래일'].dt.day_name()

In [None]:
# 거래일에서 한글 요일을 문자형 시리즈로 반환합니다.
price['거래일'].dt.day_name(locale = 'ko_KR')

In [None]:
# 거래일에서 요일을 문자형 시리즈로 반환합니다.(로케일에 따라 결과가 달라집니다.)
price['거래일'].dt.strftime(date_format = '%A')

### 조건에 맞는 행 선택: 연속형 변수

In [None]:
# 거래금액이 120억 이상인 행을 선택하여 df1에 할당합니다.
df1 = price[price['거래금액'] >= 1200000]
df1

In [None]:
# 거래금액이 120억 미만이고 65층 이상인 행을 선택하여 df2에 할당합니다.
df2 = price[(price['거래금액'] < 1200000) & (price['층'] >= 65)]
df2

### [참고] 시리즈의 비교 연산 함수

In [None]:
# 층이 65 초과면 True, 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].gt(65).sum()

In [None]:
# 층이 65 이상이면 True, 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].ge(65).sum()

In [None]:
# 층이 65 미만이면 True, 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].lt(65).sum()

In [None]:
# 층이 65 이하면 True, 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].le(65).sum()

In [None]:
# 층이 65이면 True, 65가 아니면 False인 부울형 시리즈를 반환합니다.
price['층'].eq(65).sum()

In [None]:
# 층이 65가 아니면 True, 65이면 False인 부울형 시리즈를 반환합니다.
price['층'].ne(65).sum()

In [None]:
# 비교 연산 함수는 시리즈이므로 소괄호로 감싸지 않아도 됩니다.
price['거래금액'].lt(1200000) & price['층'].ge(65)

### 조건에 맞는 행 선택: 범주형 변수

In [None]:
# 구가 '강남구'인 행을 선택합니다.
price[price['구'].eq('강남구')]

In [None]:
# 구가 '강남구' 또는 '서초구'인 행을 선택합니다.
price[price['구'].eq('강남구') | price['구'].eq('서초구')]

In [None]:
# isin()은 시리즈 원소가 리스트에 있으면 True, 없으면 False로 반환합니다.
price[price['구'].isin(values = ['강남구', '서초구'])]

In [None]:
# str.contains()는 원소에 패턴 포함 여부를 True 또는 False로 반환합니다.
price[price['구'].str.contains(pat = '강남|서초')]

### [참고] 시리즈를 문자열로 처리하는 주요 함수

In [None]:
# 실습용 시리즈를 생성합니다.
addr = pd.Series(data = ['서울특별시 강남구', '경기도 성남시 분당구'])

In [None]:
# 문자열(원소)마다 지정한 패턴을 변경합니다.
addr.str.replace(pat = ' ', repl = '')

In [None]:
# 문자열(원소)을 지정한 패턴으로 분리한 결과를 데이터프레임으로 반환합니다.
addr.str.split(pat = ' ', expand = True)

In [None]:
# 문자열(원소)마다 지정한 패턴이 있으면 시작 인덱스를 반환합니다.
# [참고] 지정한 패턴이 없으면 -1을 반환합니다.
addr.str.find(sub = '시')

In [None]:
# 문자열(원소)을 지정한 인덱스로 자릅니다.
addr.str.slice(start = 0, stop = 2)

In [None]:
# 문자열(원소)마다 지정한 패턴에 해당하는 문자열을 추출합니다.
# [주의] 패턴을 소괄호로 감싸야 합니다.
addr.str.extract(pat = '([가-힣]+구)')

### 행이름으로 행 삭제

In [None]:
# df1의 처음 5행을 출력합니다.
df1.head()

In [None]:
# 삭제할 행이름을 drop()의 index 매개변수에 리스트로 지정합니다.
# [주의] 행이름에 없는 값을 지정하면 에러를 반환합니다.
df1.drop(index = [3571, 5067])

In [None]:
# df1의 인덱스(행이름)를 출력합니다.
df1.index

In [None]:
# 행이름을 슬라이싱한 코드로 행이름 리스트를 대신할 수 있습니다.
df1.drop(index = df1.index[0:2])

### 행이름 초기화

In [None]:
# 행이름을 초기화한 결과를 출력합니다.
# [참고] 기존 행이름을 데이터프레임의 첫 번째 열로 추가합니다.
df1.reset_index()

In [None]:
# 행이름을 초기화하지만 기존 행이름을 열로 추가하지 않습니다.
# [참고] drop 매개변수에 True를 지정하면 기존 행이름을 열로 추가하지 않습니다.
df1.reset_index(drop = True)

In [None]:
# 행이름을 초기화하면서 기존 행이름을 열로 추가하지 않고 df1에 재할당합니다.
df1 = df1.reset_index(drop = True)

In [None]:
# 특정 열을 인덱스로 지정한 결과를 출력합니다.
# [참고] 여러 열을 인덱스로 설정할 때 keys 매개변수에 열이름을 원소로 갖는
# 리스트를 지정합니다.
df1.set_index(keys = '아파트')

### 결측값 처리: 원본 데이터로 채워넣기

In [None]:
# price의 열별 결측값 개수를 확인합니다.
price.isna().sum()

In [None]:
# 지번이 결측값인 행을 선택합니다.
price[price['지번'].isna()]

In [None]:
# 지번이 결측인 아파트별로 원본 데이터를 채워넣습니다.
price.loc[price['아파트'].eq('서초포레스타2단지'), '지번'] = '384'
price.loc[price['아파트'].eq('힐스테이트 서초 젠트리스'), '지번'] = '557'

### 결측값 처리: 단순대체

In [None]:
# price의 열별 결측값 개수를 확인합니다.
price.isna().sum()

In [None]:
# 건축년도가 결측값인 행을 선택합니다.
price[price['건축년도'].isna()]

In [None]:
# 건축년도가 결측값인 행에서 결측값을 특정 값으로 대체한 결과를 반환합니다.
price[price['건축년도'].isna()].fillna(value = 9999)

### [참고] 결측값을 이전 셀 값으로 채우기

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

In [None]:
# 결측값 처리 예제 파일을 읽고 데이터프레임을 생성합니다.
na = pd.read_excel(io = 'NA_Sample.xlsx')

In [None]:
# na를 출력합니다. 구분에 결측값이 많습니다.
# [참고] xlsx에서 병합한 셀은 처음 값만 제대로 읽고 나머지는 결측값으로 채웁니다.
na

In [None]:
# 결측값을 이전 셀 값으로 채웁니다.
# [참고] method 매개변수에 'bfill'을 지정하면 결측값을 이후 셀 값으로 채웁니다.
na.fillna(method = 'ffill')

### 결측값 처리: 행 삭제

In [None]:
# price에서 결측값이 있는 모든 행을 삭제한 결과를 반환합니다.
price.dropna()

In [None]:
# 건축년도에서 결측값이 없는 행을 선택한 결과를 반환합니다.
# [참고] ~ 연산자는 isna() 실행 결과를 반전합니다.
# [참고] notna()를 대신 사용할 수 있습니다.
price[~price['건축년도'].isna()]

In [None]:
# 건축년도에서 결측값이 없는 행을 선택하고 price에 재할당합니다.
# [참고] 행 개수가 감소했습니다.(139919 -> 139917)
price = price[price['건축년도'].notna()]

In [None]:
# 건축년도를 정수형으로 변환합니다.
# [참고] 결측값(np.NAN)을 삭제하면 정수형으로 변환할 수 있습니다.
price['건축년도'] = price['건축년도'].astype(int)

### 파생변수 생성 : 연속형 변수

In [None]:
# 거래금액을 전용면적으로 나누고 3.3을 곱한 평당금액을 생성합니다.
price['평당금액'] = price['거래금액'] / price['전용면적'] * 3.3
price.head()

In [None]:
# pandas 옵션에서 실수를 출력하는 소수점 자리수를 설정합니다.
pd.set_option('display.float_format', lambda x: f'{x:.3f}')

In [None]:
# 거래금액을 10000으로 나누어 거래금액의 단위를 만원에서 억원으로 변경합니다.
price['거래금액'] = price['거래금액'] / 10000
price.head()

In [None]:
# 거래일에서 년을 정수형으로 반환하여 거래년도를 생성합니다.
price['거래년도'] = price['거래일'].dt.year

In [None]:
# 거래년도에서 건축년도를 뺀 경과년수를 생성합니다.
price['경과년수'] = price['거래년도'] - price['건축년도']

In [None]:
# 거래일에서 월을 문자형으로 반환하여 거래월을 생성합니다.
# [참고] 거래일에서 월을 '01월', '02월' 형태의 문자열로 반환합니다.
price['거래월'] = price['거래일'].dt.strftime(date_format = '%m월')
price.head()

### 파생변수 생성 : 범주형 변수

In [None]:
# 평당금액이 5000 이상이면 True, 아니면 False인 원소를 갖는 locs를 생성합니다.
# [참고] locs는 True 또는 False를 원소로 갖는 부울형 시리즈입니다.
locs = price['평당금액'].ge(5000)
locs.head()

In [None]:
# 평당금액을 '5천 이상', '5천 미만'으로 구분한 금액구간을 생성합니다.
# [참고] np.where()는 첫 번째 인수(조건)가 True일 때 두 번째 인수를, False일 때 
# 세 번째 인수를 배열로 반환합니다. 조건만 지정하면 True인 인덱스를 반환합니다.
price['금액구간'] = np.where(locs, '5천 이상', '5천 미만')
price.head()

### [참고] 구간화 함수

In [None]:
# 연속형 변수를 세 개 이상으로 분리할 때 np.where()를 중첩합니다.
np.where(price['평당금액'].ge(10000), 
         '1억 이상', 
         np.where(price['평당금액'].ge(5000), 
                  '5천 이상', 
                  '5천 미만'))

In [None]:
# 연속형 변수를 세 개 이상으로 분리할 때 np.select()를 사용합니다.
np.select(condlist = [price['평당금액'].ge(10000),
                      price['평당금액'].ge(5000),
                      price['평당금액'].ge(0)], 
          choicelist = ['1억 이상', '5천 이상', '5천 미만'])

### 파생변수 생성: 문자형 변수 결합

In [None]:
# 여러 문자형 변수를 + 연산자로 결합하여 주소를 생성합니다.
price['주소'] = price['시'] + ' ' + price['구'] + ' ' + \
                price['동'] + ' ' + price['지번']
price.head()

In [None]:
# 문자열로 결합할 문자형 열이름으로 리스트를 생성합니다.
cols = ['시', '구', '동', '지번']

In [None]:
# 데이터프레임의 행(시리즈)별로 문자열을 결합하는 함수를 반복 실행합니다.
price[cols].apply(func = lambda x: ' '.join(x), axis = 1)

### [참고] 같은 함수를 반복 실행하는 apply() 사용법

In [None]:
# 데이터프레임의 열(시리즈)별 원소 개수를 반환합니다.
price[cols].apply(func = len, axis = 0)

In [None]:
# 데이터프레임의 행(시리즈)별 원소 개수를 반환합니다.
price[cols].apply(func = len, axis = 1)

In [None]:
# 아파트(시리즈)의 원소(문자열)별 글자수를 반환합니다.
price['아파트'].map(arg = len)

In [None]:
# 아파트(시리즈)의 원소(문자열)별 글자수를 반환합니다.
price['아파트'].apply(func = len)

In [None]:
# 데이터프레임의 셀 값(문자열)별 글자수를 반환합니다.
price[cols].applymap(func = len)

### 외부 파일로 저장

In [None]:
# 전역 변수 목록을 출력합니다.
# [참고] 모든 자료형을 출력합니다.
%whos

In [None]:
# 데이터프레임만 출력합니다.
%whos -v DataFrame

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# 일부 변수를 z 파일로 저장합니다.
joblib.dump(value = [price, df1, df2], filename = 'APT_Price_Prep.z')

## End of Document