In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
import platform

from matplotlib import font_manager, rc
plt.rcParams['axes.unicode_minus'] = False

if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~')

# 1. 법정동 코드 가공

In [4]:
#
locCode=pd.read_excel('../data/법정동코드.xlsx')
locCode.head()

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자
0,1100000000,서울특별시,,,,19880423,
1,1111000000,서울특별시,종로구,,,19880423,
2,1111010100,서울특별시,종로구,청운동,,19880423,
3,1111010200,서울특별시,종로구,신교동,,19880423,
4,1111010300,서울특별시,종로구,궁정동,,19880423,


In [5]:
#읍면동이 NaN인 데이터 추출 > 읍면동 제외
locCode=locCode.dropna(subset=['읍면동명'])
locCode.head()

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자
2,1111010100,서울특별시,종로구,청운동,,19880423,
3,1111010200,서울특별시,종로구,신교동,,19880423,
4,1111010300,서울특별시,종로구,궁정동,,19880423,
5,1111010400,서울특별시,종로구,효자동,,19880423,
6,1111010500,서울특별시,종로구,창성동,,19880423,


In [6]:
# 시군구가 NaN이 아닌 데이터 추출 > 시도명 제외
locCode=locCode.dropna(subset=['시군구명'])
locCode.head()

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자
2,1111010100,서울특별시,종로구,청운동,,19880423,
3,1111010200,서울특별시,종로구,신교동,,19880423,
4,1111010300,서울특별시,종로구,궁정동,,19880423,
5,1111010400,서울특별시,종로구,효자동,,19880423,
6,1111010500,서울특별시,종로구,창성동,,19880423,


In [7]:
# 법정동 코드 컬럼에서 5자리 추출합니다.
# 예) 서울특별시 종로구 > 11000
locCode['법정동코드']=locCode['법정동코드'].astype(str)
locCode['지역코드']=locCode['법정동코드'].str.slice(start=0, stop=5)
locCode.head()


Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자,지역코드
2,1111010100,서울특별시,종로구,청운동,,19880423,,11110
3,1111010200,서울특별시,종로구,신교동,,19880423,,11110
4,1111010300,서울특별시,종로구,궁정동,,19880423,,11110
5,1111010400,서울특별시,종로구,효자동,,19880423,,11110
6,1111010500,서울특별시,종로구,창성동,,19880423,,11110


In [8]:
# 시도명이 서울특별시인 데이터만 추출 후 시도명, 시군구명, 지역코드 컬럼만 추출 
loc1 = locCode[locCode['시도명']=="서울특별시"]
loc1

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자,지역코드
2,1111010100,서울특별시,종로구,청운동,,19880423,,11110
3,1111010200,서울특별시,종로구,신교동,,19880423,,11110
4,1111010300,서울특별시,종로구,궁정동,,19880423,,11110
5,1111010400,서울특별시,종로구,효자동,,19880423,,11110
6,1111010500,서울특별시,종로구,창성동,,19880423,,11110
...,...,...,...,...,...,...,...,...
488,1174010600,서울특별시,강동구,둔촌동,,19880423,,11740
489,1174010700,서울특별시,강동구,암사동,,19880423,,11740
490,1174010800,서울특별시,강동구,성내동,,19880423,,11740
491,1174010900,서울특별시,강동구,천호동,,19880423,,11740


In [9]:
locCode

Unnamed: 0,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자,지역코드
2,1111010100,서울특별시,종로구,청운동,,19880423,,11110
3,1111010200,서울특별시,종로구,신교동,,19880423,,11110
4,1111010300,서울특별시,종로구,궁정동,,19880423,,11110
5,1111010400,서울특별시,종로구,효자동,,19880423,,11110
6,1111010500,서울특별시,종로구,창성동,,19880423,,11110
...,...,...,...,...,...,...,...,...
20551,5013032022,제주특별자치도,서귀포시,표선면,하천리,20060701,,50130
20552,5013032023,제주특별자치도,서귀포시,표선면,성읍리,20060701,,50130
20553,5013032024,제주특별자치도,서귀포시,표선면,가시리,20060701,,50130
20554,5013032025,제주특별자치도,서귀포시,표선면,세화리,20060701,,50130


# 2. 실거래가 데이터 가공

In [10]:
# 실거래가 데이터 불러오기
apt = pd.read_csv('../data/2020년 서울 아파트 실거래가.csv', encoding="cp949")
apt.head()

Unnamed: 0,법정동명,건물면적,층정보,건물주용도코드,건물주용도,거래금액,건축년도,아파트명
0,장위동,59.92,5.0,2001,아파트,749000000,0.0,래미안 장위포레카운티
1,길음동,84.77,18.0,2001,아파트,1200000000,0.0,롯데캐슬 클라시아
2,구로동,36.9,1.0,2001,아파트,105000000,1994.0,궁전아트빌라
3,산천동,59.55,2.0,2001,아파트,830000000,2001.0,리버힐삼성
4,이촌동,64.43,5.0,2001,아파트,735000000,1971.0,강변


In [11]:
# 데이터 프레임의 컬럼을 확인합니다.
apt.columns

Index(['법정동명', '건물면적', '층정보', '건물주용도코드', '건물주용도', '거래금액', '건축년도', '아파트명'], dtype='object')

In [12]:
# 데이터 프레임의 크기(차원)을 조회합니다
apt.shape

(176001, 8)

In [13]:
# 불러온 데이터에 NA값이 있는지 조회합니다.
apt.isnull().sum()

법정동명           0
건물면적           0
층정보        12163
건물주용도코드        0
건물주용도          0
거래금액           0
건축년도         565
아파트명       12163
dtype: int64

In [14]:
# 실거래가 데이터프레임 정보 조회
apt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176001 entries, 0 to 176000
Data columns (total 8 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   법정동명     176001 non-null  object 
 1   건물면적     176001 non-null  float64
 2   층정보      163838 non-null  float64
 3   건물주용도코드  176001 non-null  int64  
 4   건물주용도    176001 non-null  object 
 5   거래금액     176001 non-null  int64  
 6   건축년도     175436 non-null  float64
 7   아파트명     163838 non-null  object 
dtypes: float64(3), int64(2), object(3)
memory usage: 10.7+ MB


In [15]:
# 실거래가 데이터프레임 정보 조회 (거래금액 컬럼 변경 확인)
apt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 176001 entries, 0 to 176000
Data columns (total 8 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   법정동명     176001 non-null  object 
 1   건물면적     176001 non-null  float64
 2   층정보      163838 non-null  float64
 3   건물주용도코드  176001 non-null  int64  
 4   건물주용도    176001 non-null  object 
 5   거래금액     176001 non-null  int64  
 6   건축년도     175436 non-null  float64
 7   아파트명     163838 non-null  object 
dtypes: float64(3), int64(2), object(3)
memory usage: 10.7+ MB


In [16]:
# 범주화된 전용면적의 고유값을 확인합니다.


In [17]:
apt['건물면적'].unique()

array([ 59.92,  84.77,  36.9 , ..., 536.52, 292.27, 294.03])

# 3. 데이터 프레임 결합

In [18]:
# 지역 코드를 기준으로 법정동 코드 데이터 프레임과 아파트 실거래가 데이터 프레임을 결합합니다.
df=pd.merge(apt,loc1,left_on=['법정동명'], right_on=['읍면동명'])
df

Unnamed: 0,법정동명,건물면적,층정보,건물주용도코드,건물주용도,거래금액,건축년도,아파트명,법정동코드,시도명,시군구명,읍면동명,동리명,생성일자,말소일자,지역코드
0,장위동,59.92,5.0,2001,아파트,749000000,0.0,래미안 장위포레카운티,1129013800,서울특별시,성북구,장위동,,19880423,,11290
1,장위동,116.91,2.0,2001,아파트,1270000000,0.0,래미안장위퍼스트하이,1129013800,서울특별시,성북구,장위동,,19880423,,11290
2,장위동,59.99,17.0,2001,아파트,820000000,0.0,래미안장위퍼스트하이,1129013800,서울특별시,성북구,장위동,,19880423,,11290
3,장위동,62.55,,1001,단독주택,714600000,1970.0,,1129013800,서울특별시,성북구,장위동,,19880423,,11290
4,장위동,84.48,12.0,2001,아파트,1150000000,0.0,꿈의숲 아이파크,1129013800,서울특별시,성북구,장위동,,19880423,,11290
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
179813,구수동,29.98,5.0,2002,연립주택,295000000,2015.0,동원스위트홈,1144011300,서울특별시,마포구,구수동,,19880423,,11440
179814,구수동,64.20,3.0,2002,연립주택,508000000,2009.0,근상프리즘1동,1144011300,서울특별시,마포구,구수동,,19880423,,11440
179815,구수동,29.95,2.0,2002,연립주택,380000000,2015.0,동원스위트홈,1144011300,서울특별시,마포구,구수동,,19880423,,11440
179816,구수동,41.21,3.0,2002,연립주택,390000000,2015.0,동원스위트홈(16-5),1144011300,서울특별시,마포구,구수동,,19880423,,11440


In [21]:
df1 = df[["법정동명","건물면적","층정보","건물주용도코드","건물주용도","거래금액","건축년도","아파트명,"시군구명","읍면동명","지역코드"]]
df1

SyntaxError: invalid syntax (<ipython-input-21-ff0c38cea914>, line 1)