## 2차 작업
1. 쓰지 않는 컬럼 삭제
2. 계약 당시 건물 나이 추가

In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv('./processed/preprocessed_2013.csv',header=0)

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68210 entries, 0 to 68209
Data columns (total 16 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  68210 non-null  int64  
 1   시군구         68210 non-null  object 
 2   번지          68210 non-null  object 
 3   본번          68210 non-null  int64  
 4   부번          68210 non-null  int64  
 5   단지명         68210 non-null  object 
 6   전용면적(㎡)     68210 non-null  float64
 7   계약년월        68210 non-null  int64  
 8   계약일         68210 non-null  int64  
 9   거래금액(만원)    68210 non-null  object 
 10  층           68210 non-null  int64  
 11  건축년도        68210 non-null  int64  
 12  도로명         68210 non-null  object 
 13  주소          68210 non-null  object 
 14  위도          68210 non-null  float64
 15  경도          68210 non-null  float64
dtypes: float64(3), int64(7), object(6)
memory usage: 8.3+ MB


In [4]:
df.head(3)

Unnamed: 0.1,Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,주소,위도,경도
0,0,서울특별시 강남구 개포동,655-2,655,2,개포2차현대아파트(220),77.75,201309,8,57000,2,1988,언주로 103,서울특별시 강남구 개포동 언주로 103,37.481305,127.052897
1,1,서울특별시 강남구 개포동,655-2,655,2,개포2차현대아파트(220),77.75,201312,16,57000,2,1988,언주로 103,서울특별시 강남구 개포동 언주로 103,37.481305,127.052897
2,2,서울특별시 강남구 개포동,658-1,658,1,개포6차우성아파트1동~8동,67.28,201302,11,55000,5,1987,언주로 3,서울특별시 강남구 개포동 언주로 3,37.476264,127.056742


#### 1. 쓰지 않는 컬럼 삭제

In [5]:
dropped = df.drop(['Unnamed: 0'],axis=1)
dropped.head(3)

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,주소,위도,경도
0,서울특별시 강남구 개포동,655-2,655,2,개포2차현대아파트(220),77.75,201309,8,57000,2,1988,언주로 103,서울특별시 강남구 개포동 언주로 103,37.481305,127.052897
1,서울특별시 강남구 개포동,655-2,655,2,개포2차현대아파트(220),77.75,201312,16,57000,2,1988,언주로 103,서울특별시 강남구 개포동 언주로 103,37.481305,127.052897
2,서울특별시 강남구 개포동,658-1,658,1,개포6차우성아파트1동~8동,67.28,201302,11,55000,5,1987,언주로 3,서울특별시 강남구 개포동 언주로 3,37.476264,127.056742


#### 2. 계약 당시 건물 나이 추가

In [6]:
contract_year = pd.to_datetime(dropped['계약년월'].map(lambda x:str(x)[:4])).dt.year
build_year = pd.to_datetime(dropped['건축년도'].astype(str)).dt.year

building_age = contract_year - build_year
building_age.name = '건물나이'

building_age

0        25
1        25
2        26
3        26
4        26
         ..
68205    10
68206    10
68207    10
68208    10
68209    10
Name: 건물나이, Length: 68210, dtype: int64

In [7]:
df_building_age = pd.concat([dropped.copy(),building_age],axis=1)
df_building_age

Unnamed: 0,시군구,번지,본번,부번,단지명,전용면적(㎡),계약년월,계약일,거래금액(만원),층,건축년도,도로명,주소,위도,경도,건물나이
0,서울특별시 강남구 개포동,655-2,655,2,개포2차현대아파트(220),77.75,201309,8,57000,2,1988,언주로 103,서울특별시 강남구 개포동 언주로 103,37.481305,127.052897,25
1,서울특별시 강남구 개포동,655-2,655,2,개포2차현대아파트(220),77.75,201312,16,57000,2,1988,언주로 103,서울특별시 강남구 개포동 언주로 103,37.481305,127.052897,25
2,서울특별시 강남구 개포동,658-1,658,1,개포6차우성아파트1동~8동,67.28,201302,11,55000,5,1987,언주로 3,서울특별시 강남구 개포동 언주로 3,37.476264,127.056742,26
3,서울특별시 강남구 개포동,658-1,658,1,개포6차우성아파트1동~8동,67.28,201302,22,58250,4,1987,언주로 3,서울특별시 강남구 개포동 언주로 3,37.476264,127.056742,26
4,서울특별시 강남구 개포동,658-1,658,1,개포6차우성아파트1동~8동,67.28,201305,10,60000,5,1987,언주로 3,서울특별시 강남구 개포동 언주로 3,37.476264,127.056742,26
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
68205,서울특별시 중랑구 중화동,274-51,274,51,한영(101),76.12,201302,15,22300,3,2003,동일로144길 74,서울특별시 중랑구 중화동 동일로144길 74,37.606480,127.082147,10
68206,서울특별시 중랑구 중화동,274-75,274,75,한영(102),72.22,201310,10,23700,4,2003,동일로144길 74,서울특별시 중랑구 중화동 동일로144길 74,37.606480,127.082147,10
68207,서울특별시 중랑구 중화동,274-75,274,75,한영(102),46.84,201310,22,17200,7,2003,동일로144길 74,서울특별시 중랑구 중화동 동일로144길 74,37.606480,127.082147,10
68208,서울특별시 중랑구 중화동,274-76,274,76,한영(103),58.46,201306,26,20000,2,2003,동일로144길 74,서울특별시 중랑구 중화동 동일로144길 74,37.606480,127.082147,10


#### SAVE FILE

In [8]:
df_building_age.to_csv('./processed/preprocessed_2013_2.csv',index=False)