# 데이터프레임 전처리

###  실습 데이터셋 준비

In [None]:
# 관련 라이브러리를 호출합니다.
import os, chardet
import numpy as np
import pandas as pd

In [None]:
# 현재 작업경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업경로에 포함되어 있는 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 가격 xlsx 파일을 읽고 데이터프레임을 생성합니다.
%time price = pd.read_excel(io = 'APT_Price_Seoul_2020.xlsx')

In [None]:
# price의 처음 5행을 출력합니다.
price.head()

In [None]:
# price의 정보를 출력합니다.
price.info()

In [None]:
# 상세정보 xlsx 파일을 읽고 데이터프레임을 생성합니다.
%time detail = pd.read_excel(io = 'Naver_APT_Detail.xlsx')

In [None]:
# detail의 처음 5행을 출력합니다.
detail.head()

In [None]:
# detail의 정보를 출력합니다.
detail.info()

### [참고] csv 파일 읽을 때 날짜형으로 생성하는 방법

In [None]:
# cvs 파일명을 변수 fileNm으로 생성합니다.
fileNm = 'APT_Price_Seoul_2020.csv'

In [None]:
# csv 파일을 바이너리 모드로 읽습니다.
raw = open(file = fileNm, mode = 'rb').read()

In [None]:
# csv 파일의 문자 인코딩 방식을 확인합니다.
chardet.detect(raw[:100])

In [None]:
# csv 파일을 읽고 데이터프레임을 생성합니다.
%time df = pd.read_csv(filepath_or_buffer = fileNm)

In [None]:
# df의 정보를 확인합니다.
df.info()

In [None]:
# parse_dates 매개변수에 날짜형으로 읽을 열이름을 리스트로 지정합니다.
df = pd.read_csv(filepath_or_buffer = fileNm, parse_dates = ['거래일'])

In [None]:
# df의 정보를 다시 확인합니다.
df.info()

### 열 선택

In [None]:
# 열이름을 문자열로 지정하면 시리즈로 반환합니다.
price['거래금액']

In [None]:
# 열이름을 리스트로 지정하면 데이터프레임으로 반환합니다.
price[['거래금액']]

In [None]:
# 여러 열을 선택하려면 항상 리스트로 지정해야 합니다.
price[['거래일', '거래금액']]

In [None]:
# 열이름에 콜론을 사용하려면 loc 인덱서를 사용해야 합니다.(팬시 인덱싱)
price.loc[:, '거래일':'거래금액']

In [None]:
# 조건을 만족하는 열을 선택할 수 있습니다.(불리언 인덱싱)
price.loc[:, price.dtypes == 'int64']

### 열 삭제

In [None]:
# 삭제할 열이름을 drop() 함수에 리스트로 지정합니다.
price.drop(labels = ['일련번호'], axis = 1)

In [None]:
# price의 처음 5행을 출력합니다.
price.head()

In [None]:
# 열을 삭제한 결과를 price에 재할당합니다.
price = price.drop(labels = ['일련번호'], axis = 1)

In [None]:
# price의 처음 5행을 출력합니다.
price.head()

### 열이름 변경

In [None]:
# price의 열이름을 출력합니다.
price.columns

In [None]:
# rename() 함수로 일부 열이름을 변경합니다.
price.rename(columns = {'시도명': '시도', '시군구': '자치구'})

In [None]:
# columns 속성을 사용하면 열이름 전체를 변경합니다.
price.columns = ['아파트', '시도', '자치구', '읍면동', '지번', 
                 '거래일', '전용면적', '층', '거래금액']

In [None]:
# price의 처음 5행을 출력합니다.
price.head()

### 조건에 맞는 행 선택: 숫자형 변수

In [None]:
# 거래금액이 70억 이상인 행을 선택하여 df1에 할당합니다.
df1 = price[price['거래금액'] >= 700000].copy()

In [None]:
# df1의 처음 5행을 출력합니다.
df1.head()

In [None]:
# 거래금액이 70억 미만이고, 60층 이상인 행을 선택하여 df2에 할당합니다.
df2 = price[(price['거래금액'] < 700000) & (price['층'] >= 60)].copy()

In [None]:
# df2의 처음 5행을 출력합니다.
df2.head()

### [참고] 시리즈의 비교 연산 함수 소개

In [None]:
# 층이 60 초과일 때 True, 아닐 때 False를 갖는 시리즈를 반환합니다.
price['층'].gt(60).sum()

In [None]:
# 층이 60 이상일 때 True, 아닐 때 False를 갖는 시리즈를 반환합니다.
price['층'].ge(60).sum()

In [None]:
# 층이 60 미만일 때 True, 아닐 때 False를 갖는 시리즈를 반환합니다.
price['층'].lt(60).sum()

In [None]:
# 층이 60 이하일 때 True, 아닐 때 False를 갖는 시리즈를 반환합니다.
price['층'].le(60).sum()

In [None]:
# 층이 60일 때 True, 60이 아닐 때 False를 갖는 시리즈를 반환합니다.
price['층'].eq(60).sum()

In [None]:
# 층이 60이 아닐 때 True, 60일 때 False를 갖는 시리즈를 반환합니다.
price['층'].ne(60).sum()

### 조건에 맞는 행 선택: 범주형 변수

In [None]:
# 자치구가 '강남구'인 행을 선택합니다.
price[price['자치구'].eq('강남구')]

In [None]:
# 자치구가 '강남구' 및 '서초구'인 행을 선택합니다.
price[price['자치구'].eq('강남구') | price['자치구'].eq('서초구')]

In [None]:
# 자치구가 '강남구', '서초구' 또는 '송파구'인 행을 선택합니다.
price[price['자치구'].isin(['강남구', '서초구', '송파구'])]

In [None]:
# 자치구에서 패턴을 포함하는 행을 선택합니다.
price[price['자치구'].str.contains(pat = '강남|서초|송파')]

### [참고] 시리즈를 문자열로 처리하는 주요 함수 소개

In [None]:
# 주소로 데이터프레임을 생성합니다.
drID = pd.Series(data = ['서울 00-123456-01 ', ' 경기 01-654321-02'])

In [None]:
# 각 원소의 양 옆에 있는 공백을 삭제한 결과를 출력합니다.
drID.str.strip()

In [None]:
# 각 원소를 구분자로 분리해서 데이터프레임으로 반환합니다.
drID.str.split(pat = ' |-', expand = True)

In [None]:
# 각 원소에서 지정된 문자열이 있는 인덱스를 반환합니다. 
# 지정된 문자열이 없으면 -1을 반환합니다.
drID.str.find(sub = '서울')

In [None]:
# 각 원소에서 지정된 문자열 패턴을 변경합니다.
drID.str.replace(pat = ' ', repl = '')

In [None]:
# 각 원소에서 지정된 인덱스로 문자열을 잘라냅니다.
drID.str.slice(start = 0, stop = 3)

In [None]:
# 각 원소에서 지정된 정규표현식 패턴에 해당하는 문자열을 추출합니다.
drID.str.extract(pat = r'([가-힣]+)')

### 행이름으로 행 삭제 및 행이름 초기화

In [None]:
# df1을 출력합니다.
df1

In [None]:
# drop() 함수에 행이름을 스칼라 또는 리스트를 입력하여 행을 삭제합니다.
df1.drop(labels = [21625, 59241])

In [None]:
# 연속된 행이름을 슬라이싱으로 삭제할 수 있습니다.
df1.drop(labels = df1.index[0:2])

In [None]:
# df1의 행이름을 초기화한 결과를 출력합니다.
df1.reset_index()

In [None]:
# df1의 행이름을 초기화한 결과를 df1에 재할당합니다.
df1 = df1.reset_index(drop = True)

In [None]:
# df2의 행이름을 초기화한 결과를 df2에 재할당합니다.
df2 = df2.reset_index(drop = True)

### 결측값 처리: 단순대체

In [None]:
# 열별 결측값 개수를 확인합니다.
price.isna().sum()

In [None]:
# 지번이 결측값인 행만 선택합니다.
price[price['지번'].isna()]

In [None]:
# 데이터프레임에 포함된 결측값을 빈 문자열로 채웁니다.
price.iloc[4784:4787].fillna(value = '')

In [None]:
# 데이터프레임에 포함된 결측값을 이전 값으로 채웁니다.
price.iloc[4784:4787].fillna(method = 'ffill')

In [None]:
# 데이터프레임에 포함된 결측값을 이후 값으로 채웁니다.
price.iloc[4784:4787].fillna(method = 'bfill')

### 결측값 처리: 행 삭제

In [None]:
# 지번이 결측값이 아닌 행을 선택합니다.
price[price['지번'].notna()]

In [None]:
# price에서 결측값이 있는 모든 행을 삭제한 결과를 price에 재할당합니다.
price = price.dropna()

In [None]:
# [참고] subset 매개변수에 일부 열이름을 지정하면 해당 열에서 결측값이 있는 행을 삭제합니다.
price = price.dropna(subset = ['지번'])

In [None]:
# price의 행 길이를 확인합니다.
price.shape[0]

### 열 자료형 변환

In [None]:
# price의 열별 자료형을 확인합니다.
price.dtypes

In [None]:
# 거래일을 문자열로 변환합니다.
price['거래일'] = price['거래일'].astype('str')

In [None]:
# 거래금액을 실수형으로 변환합니다.
price['거래금액'] = price['거래금액'].astype('float')

In [None]:
# price의 열별 자료형을 다시 확인합니다.
price.dtypes

In [None]:
# 데이터프레임의 열별 자료형 변환 방법을 딕셔너리로 지정합니다.
price = price.astype({'거래일': 'datetime64', '층': 'float'})

In [None]:
# price의 열별 자료형을 확인합니다.
price.dtypes

In [None]:
# 정수형으로 변환할 열이름을 리스트로 지정합니다.
cols = ['층', '거래금액']

In [None]:
# 선택된 열을 정수형으로 동시에 변환합니다.
price[cols] = price[cols].astype('int')

In [None]:
# price의 열별 자료형을 다시 확인합니다.
price.dtypes

### [참고] 문자열을 날짜형으로 변환

In [None]:
# 날짜 기본형이 아닌 문자열로 데이터프레임을 생성합니다.
dates = pd.DataFrame(data = ['2021년 1월 1일'], columns = ['Date'])

In [None]:
# dates의 정보를 확인합니다.
dates.info()

In [None]:
# Date를 날짜형으로 변환하려고 하면 에러가 발생합니다.
dates['Date'].astype('datetime64')

In [None]:
# to_datetime() 함수의 format 매개변수에 날짜포맷을 지정하면 변환됩니다.
pd.to_datetime(arg = dates['Date'], format = '%Y년 %m월 %d일')

### [참고] 날짜 분해 함수 소개

In [None]:
# 날짜 변수에서 년(year)을 추출하고, 정수형 시리즈로 반환합니다.
price['거래일'].dt.year

In [None]:
# 날짜 변수에서 월(month)을 추출하고, 정수형 시리즈로 반환합니다.
price['거래일'].dt.month

In [None]:
# 날짜 변수에서 일(day)을 추출하고, 정수형 시리즈로 반환합니다.
price['거래일'].dt.day

In [None]:
# 날짜 변수에서 시(hour)를 추출하고, 정수형 시리즈로 반환합니다.
price['거래일'].dt.hour

In [None]:
# 날짜 변수에서 분(minute)을 추출하고, 정수형 시리즈로 반환합니다.
price['거래일'].dt.minute

In [None]:
# 날짜 변수에서 초(second)를 추출하고, 정수형 시리즈로 반환합니다.
price['거래일'].dt.second

In [None]:
# 날짜 변수에서 요일을 문자형 시리즈로 반환합니다.
price['거래일'].dt.strftime('%A')

### 파생변수 생성 : 연속형 변수

In [None]:
# 거래금액을 전용면적으로 나눈 연속형 파생변수를 생성합니다.
price['단위금액'] = price['거래금액'] / price['전용면적']

In [None]:
# price의 처음 5행을 출력합니다.
price.head()

In [None]:
# 단위금액을 반올림하여 소수점 둘째 자리까지 남깁니다.
price['단위금액'] = price['단위금액'].round(2)

In [None]:
# 거래금액을 만원 단위에서 억원 단위로 변경합니다.
price['거래금액'] = price['거래금액'] / 10000

In [None]:
# price의 처음 5행을 출력합니다.
price.head()

### [참고] 데이터프레임에 열 삽입

In [None]:
# price에서 단위금액을 삭제한 데이터프레임 imsi를 생성합니다.
imsi = price.drop(labels = ['단위금액'], axis = 1)

In [None]:
# imsi의 처음 5행을 출력합니다.
imsi.head()

In [None]:
# 데이터프레임의 원하는 위치에 새로운 열이름으로 시리즈를 삽입합니다.
imsi.insert(loc = 8, column = '단위금액', value = price['단위금액'])

In [None]:
# imsi의 처음 5행을 출력합니다.
imsi.head()

### 시리즈 데이터 지연

In [None]:
# 거래금액을 한 칸 뒤로 미룬 시리즈를 생성합니다.
imsi['거래금액'].shift(1)

In [None]:
# 음수를 지정하면 앞으로 당깁니다.
imsi['거래금액'].shift(-1)

In [None]:
# 거래금액을 1일 및 2일 지연시킨 새로운 변수를 추가합니다.
imsi['거래금액1'] = imsi['거래금액'].shift(1)
imsi['거래금액2'] = imsi['거래금액'].shift(2)

In [None]:
# imsi의 처음 5행을 출력합니다.
imsi.head()

### 시리즈의 이동 평균

In [None]:
# 정수 1~5를 원소로 갖는 시리즈를 생성합니다.(시계열 데이터로 가정합니다.)
nums = pd.Series(data = np.arange(1, 6))
nums

In [None]:
# nums로 3일 이동평균을 계산합니다.
nums.rolling(window = 3).mean()

In [None]:
# nums로 3일 이동평균을 계산할 때 최소 원소 개수를 1로 설정합니다.
nums.rolling(window = 3, min_periods = 1).mean()

In [None]:
# 결측값을 추가합니다.
nums.iloc[2] = np.nan
nums

In [None]:
# nums로 3일 이동평균을 계산합니다.
nums.rolling(window = 3, min_periods = 1).mean()

### 파생변수 생성 : 범주형 변수

In [None]:
# 단위금액이 1000 이상인 행에 '1천 이상'인 값을 갖는 금액구분 열을 생성합니다.
price.loc[price['단위금액'].ge(1000), '금액구분'] = '1천 이상'

In [None]:
# price의 처음 5행을 출력합니다.
price.head()

In [None]:
# 단위금액이 1000 미만인 행의 금액구분 열에 '1천 미만'인 값을 추가합니다.
price.loc[price['단위금액'].lt(1000), '금액구분'] = '1천 미만'

In [None]:
# price의 처음 5행을 다시 출력합니다.
price.head()

### [참고] 연속형 변수의 구간화 관련 함수 소개

In [None]:
# 조건 만족 여부에 따라 두 가지 값을 갖는 범주형 변수를 생성합니다.
np.where(price['단위금액'].ge(1000), '1천 이상', '1천 미만')

In [None]:
# 세 가지 이상의 조건을 리스트로 생성합니다.
# [주의] 반드시 조건을 소괄호로 묶어주어야 합니다.
cond = [(price['단위금액'].ge(2000)),
        (price['단위금액'].lt(2000) & price['단위금액'].ge(1000)),
        (price['단위금액'].lt(1000))]

In [None]:
# 조건에 따라 반환할 값을 리스트로 생성합니다.
value = ['2천 이상', '1천 이상', '1천 미만']

In [None]:
# 조건에 맞는 값을 반환합니다.
np.select(condlist = cond, choicelist = value)

### 파생변수 생성: 문자형 변수 결합

In [None]:
# 여러 개의 문자형 변수를 결합하여 주소를 생성합니다.
price['주소'] = price['시도'] + ' ' + price['자치구'] + ' ' + \
               price['읍면동'] + ' ' + price['지번']

In [None]:
# price의 처음 5행을 출력합니다.
price.head()

In [None]:
# 문자열로 결합할 문자형 열이름을 리스트로 설정합니다.
cols = ['시도', '자치구', '읍면동', '지번']

In [None]:
# 데이터프레임의 행별 원소를 하나의 문자열로 결합하는 함수를 반복 실행합니다.
price[cols].apply(func = lambda x: ' '.join(x), axis = 1)

### [참고] 같은 함수 반복 실행 실습

In [None]:
# 시리즈의 원소별로 지정된 함수를 반복 실행합니다.
price['아파트'].map(arg = len)

In [None]:
# 데이터프레임의 열(시리즈)별 원소 개수를 반환합니다.
price[cols].apply(func = len, axis = 0)

In [None]:
# 데이터프레임의 행(시리즈)별 원소 개수를 반환합니다.
price[cols].apply(func = len, axis = 1)

In [None]:
# 데이터프레임의 셀값(문자열)별 길이를 반환합니다.
price[cols].applymap(func = len)

### 데이터프레임 정렬

In [None]:
# 거래금액(시리즈)을 오름차순으로 정렬합니다.
price['거래금액'].sort_values()

In [None]:
# price를 거래금액 기준으로 오름차순 정렬합니다.
price.sort_values(by = ['거래금액'])

In [None]:
# price를 거래금액 기준으로 내림차순 정렬합니다.
price.sort_values(by = ['거래금액'], ascending = False)

In [None]:
# price를 층, 거래금액 순으로 내림차순 정렬합니다.
price.sort_values(by = ['층', '거래금액'], ascending = False)

In [None]:
# price를 층은 내림차순, 거래금액은 오름차순으로 정렬합니다.
price.sort_values(by = ['층', '거래금액'], ascending = [False, True])

### 그룹 설정 및 집계함수로 데이터 요약

In [None]:
# 자치구별 결측값이 아닌 거래금액 빈도수를 시리즈로 반환합니다.
price.groupby(by = ['자치구']).count()['거래금액']

In [None]:
# 자치구별 거래금액의 평균을 시리즈로 반환합니다.
price.groupby(by = ['자치구']).mean()['거래금액']

In [None]:
# 자치구별 거래금액의 표준편차를 시리즈로 반환합니다.
price.groupby(by = ['자치구']).std()['거래금액']

In [None]:
# 자치구별 거래금액의 최솟값을 시리즈로 반환합니다.
price.groupby(by = ['자치구']).min()['거래금액']

In [None]:
# 자치구별 거래금액의 최댓값을 시리즈로 반환합니다.
price.groupby(by = ['자치구']).max()['거래금액']

In [None]:
# 자치구별 거래금액의 다양한 기술통계량을 반환합니다.
price.groupby(by = ['자치구']).describe()['거래금액']

### [참고] 범주형 변수의 빈도수 확인 함수 소개

In [None]:
# 자치구의 범주별 빈도수를 내림차순으로 반환합니다.
price['자치구'].value_counts()

In [None]:
# 시리즈 인덱스를 오름차순으로 반환합니다.
price['자치구'].value_counts().sort_index()

In [None]:
# 빈도수를 오름차순으로 반환합니다.
price['자치구'].value_counts(ascending = True)

In [None]:
# 빈도수 대신 상대도수를 반환합니다.
price['자치구'].value_counts(normalize = True)

In [None]:
# 데이터프레임의 여러 변수 기준으로 빈도수를 반환합니다.
cols = ['자치구', '금액구분']
price.value_counts(subset = cols).sort_index().reset_index()

### 데이터프레임 구조 변경

In [None]:
# 두 범주형 변수 기준으로 집계한 Long type의 데이터프레임을 생성합니다.
elong = price.groupby(by = cols).count()['단위금액'].reset_index()

In [None]:
# elong의 처음 10행을 출력합니다.
elong.head(n = 10)

In [None]:
# 단위금액의 이름을 건수로 변경합니다.
elong = elong.rename(columns = {'단위금액': '거래건수'})

In [None]:
# elong의 처음 10행을 다시 출력합니다.
elong.head(n = 10)

In [None]:
# Long type을 Wide type으로 변경합니다.
widen = elong.pivot(index = '자치구', 
                    columns = '금액구분', 
                    values = '거래건수')

In [None]:
# widen의 인덱스를 초기화합니다.
widen = widen.reset_index()

In [None]:
# widen의 처음 10행을 출력합니다.
widen.head(n = 10)

In [None]:
# widen의 열이름을 출력합니다. name에 '금액구분'이 추가되어 있습니다.
widen.columns

In [None]:
# [참고] widen의 컬럼명 이름에 빈 문자열을 할당하면, 인덱스 위에 출력된 '금액구분'을 삭제할 수 있습니다.
widen.columns.name = ''

In [None]:
# Wide type을 Long type으로 변환한 결과를 출력합니다.
widen.melt(id_vars = '자치구', 
           value_vars = ['1천 미만', '1천 이상'], 
           var_name = '금액종류',
           value_name = '매매건수')

### 교차 테이블 생성

In [None]:
# 두 개의 범주형 변수의 빈도수인 교차 테이블을 생성합니다.
pd.crosstab(index = price['자치구'],
            columns = price['금액구분'],
            margins = True, 
            normalize = 'index')

### 피벗 테이블 생성

In [None]:
# 피벗 테이블은 집계함수를 이용하여 데이터를 요약합니다.
pd.pivot_table(data = price, 
               values = '단위금액', 
               index = '자치구', 
               columns = '금액구분', 
               aggfunc = np.mean)

### 데이터프레임 결합

In [None]:
# 열이름이 같은 두 개의 데이터프레임을 세로 방향으로 결합합니다.
pd.concat(objs = [df1, df2])

In [None]:
# 데이터프레임을 결합한 결과에서 행이름을 초기화합니다.
pd.concat(objs = [df1, df2], ignore_index = True)

In [None]:
# df2의 일부 열이름을 변경합니다.
df2 = df2.rename(columns = {'아파트': '아파트명'})

In [None]:
# 열이름이 다른 두 개의 데이터프레임을 세로 방향으로 결합합니다.
pd.concat(objs = [df1, df2], ignore_index = True)

In [None]:
# 행이름이 다른 두 개의 데이터프레임을 가로 방향으로 결합합니다.
pd.concat(objs = [df1, df2], axis = 1)

### 외래키 확인 및 전처리

In [None]:
# price의 주소와 detail의 지번주소에서 일치하는 원소 개수를 확인합니다.
len(set(price['주소']) & set(detail['지번주소']))

In [None]:
# 외래키로 사용할 price의 주소를 출력합니다.
price['주소'].head()

In [None]:
# 외래키로 사용할 detail의 지번주소를 출력합니다.
detail['지번주소'].head()

In [None]:
# price의 주소에서 '특별시'를 삭제합니다.
price['주소'] = price['주소'].str.replace(pat = '특별시', repl = '')

In [None]:
# price의 주소와 detail의 지번주소에서 일치하는 원소 개수를 다시 확인합니다.
len(set(price['주소']) & set(detail['지번주소']))

### [참고] 샘플링 함수 소개

In [None]:
# 관련 라이브러리를 호출합니다. 
import random

In [None]:
# 1~45의 정수에서 6개를 비복원추출하는 샘플링을 10번 반복합니다.
for i in range(10):
    random.seed(a = 1)
    lotto = random.sample(population = range(1, 46), k = 6)
    lotto.sort()
    print(lotto)

### [참고] 중복 원소 확인 함수 소개

In [None]:
# 재현 가능한 결과를 얻기 위해 임의의 수를 생성하기 전에 시드를 고정합니다.
random.seed(a = 3)

In [None]:
# 1~5의 정수에서 3개를 복원추출합니다.
nums = random.choices(population = range(1, 6), k = 3)

In [None]:
# nums를 시리즈로 변환하고 출력합니다.
nums = pd.Series(data = nums)
nums

In [None]:
# nums에서 순방향으로 중복된 원소를 True로 반환합니다.
nums.duplicated(keep = 'first')

In [None]:
# nums에서 역방향으로 중복된 원소를 True로 반환합니다.
nums.duplicated(keep = 'last')

In [None]:
# nums에서 중복된 모든 원소를 True로 반환합니다.
nums.duplicated(keep = False)

### 데이터프레임 중복 확인 및 제거

In [None]:
# detail의 지번주소에서 중복된 건수를 출력합니다.
detail['지번주소'].duplicated().sum()

In [None]:
# detail의 지번주소가 중복이면 True, 아니면 False인 시리즈 dup을 생성합니다.
dup = detail['지번주소'].duplicated(keep = False)

In [None]:
# dup이 True인 행만 남기고 지번주소 기준으로 오름차순 정렬한 결과를 반환합니다.
detail[dup].sort_values(by = ['지번주소'])

In [None]:
# detail의 지번주소가 중복일 때 첫 번째 행만 남기고 detail에 재할당합니다.
detail = detail.drop_duplicates(subset = ['지번주소'], keep = 'first')

In [None]:
# detail의 형태를 확인합니다. 행 길이가 25개 감소했습니다.(9145 -> 9120)
detail.shape[0]

### 데이터프레임 병합

In [None]:
# 두 개의 데이터프레임으로 내부 병합을 실행합니다.
pd.merge(left = price, 
         right = detail, 
         how = 'inner', 
         left_on = '주소', 
         right_on = '지번주소')

In [None]:
# detail의 외래키 이름을 변경합니다.
detail = detail.rename(columns = {'지번주소': '주소'})

In [None]:
# detail의 처음 5행을 출력합니다.
detail.head()

In [None]:
# 외래키 이름이 같으면 on 매개변수를 사용하거나, 생략할 수 있습니다.
apt = pd.merge(left = price, right = detail, how = 'inner', on = '주소')

In [None]:
# apt의 정보를 확인합니다.
apt.info()

### 외부 파일로 저장

In [None]:
# 현재 작업경로를 확인합니다.
os.getcwd()

In [None]:
# apt를 xlsx 파일로 저장합니다.
apt.to_excel(excel_writer = 'APT_List_Seoul_2020.xlsx', index = None)

In [None]:
# apt를 csv 파일로 저장합니다.
apt.to_csv(path_or_buf = 'APT_List_Seoul_2020.csv', index = None)

In [None]:
# 현재 작업경로에 포함된 폴더명과 파일명을 출력합니다.
os.listdir()

## End of Document