# **1. 모듈 import**

In [1]:
import pandas as pd
import numpy as np

# 경고 메시지 무시
import warnings
warnings.filterwarnings("ignore")

# **2. 아파트 데이터 불러오기**

## 1) 아파트 데이터

In [2]:
# 기존 데이터에서 전처리 완료된 data
apt = pd.read_csv('apartment_20230829.csv')

print('청약홈 수정 데이터의 shape :', apt.shape)
apt.head(1)

청약홈 수정 데이터의 shape : (3327, 41)


Unnamed: 0,아파트명,법정동주소,위도,경도,세대수,임대세대수,최고층,최저층,최대공급면적,최소공급면적,...,대학,광역,기초,소매,음식,교육,장례식장,보건의료,유원지오락,총인구수
0,올림픽파크 포레온,서울특별시 강동구 둔촌1동 170-1,37.522886,127.140539,12032,1046.0,35.0,20.0,114.42,46.21,...,5,서울,강동구,12030,4934,1344,19,332,431,460141


# **3. 데이터 전처리**

## 1) 아파트명, 법정동 주소 공백제거

In [3]:
# 아파트명 공백제거
apt['아파트명'] = apt['아파트명'].str.replace(' ', '')
apt['아파트명']

0        올림픽파크포레온
1        올림픽파크포레온
2        올림픽파크포레온
3        올림픽파크포레온
4        올림픽파크포레온
          ...    
3322    신독산솔리힐뉴포레
3323    신독산솔리힐뉴포레
3324    신독산솔리힐뉴포레
3325    신독산솔리힐뉴포레
3326    신독산솔리힐뉴포레
Name: 아파트명, Length: 3327, dtype: object

In [4]:
# 법정동주소 공백제거
apt['법정동주소'] = apt['법정동주소'].str.replace(' ', '')
apt['법정동주소']

0       서울특별시강동구둔촌1동170-1
1       서울특별시강동구둔촌1동170-1
2       서울특별시강동구둔촌1동170-1
3       서울특별시강동구둔촌1동170-1
4       서울특별시강동구둔촌1동170-1
              ...        
3322    서울특별시금천구독산동234-72
3323    서울특별시금천구독산동234-72
3324    서울특별시금천구독산동234-72
3325    서울특별시금천구독산동234-72
3326    서울특별시금천구독산동234-72
Name: 법정동주소, Length: 3327, dtype: object

## 2) 2023년 분양 아파트 포함/미포함 분할
- 2023년 분양 아파트 기준으로 df 분리한 후 각각 진행
- 새로운 컬럼 만든 후 두 개의 df concat함.

In [5]:
# apt df의 '아파트명' 유니크 값 리스트
list(apt['아파트명'].unique())

['올림픽파크포레온',
 '강동헤리티지자이',
 '강동중앙하이츠시티',
 '힐스테이트리슈빌강일',
 'e편한세상강일어반브릿지',
 '고덕강일제일풍경채',
 '고덕아르테스미소지움',
 '강동밀레니얼중흥S-클래스',
 '힐데스하임천호',
 '힐스테이트천호역젠트리스(주상복합)',
 '둔촌현대수린나',
 '디에이치퍼스티어아이파크',
 '대치푸르지오써밋',
 '산성역자이푸르지오(성남)',
 '이안모란센트럴파크',
 '위례자이더시티',
 '판교밸리자이1단지',
 '판교밸리자이2단지',
 '판교밸리자이3단지',
 '중앙하이츠금광프리미엄아파트',
 '매교역푸르지오SKVIEW(수원)',
 '수원센트럴아이파크자이',
 '수원성중흥S-클래스',
 '만강아파트',
 '힐스테이트푸르지오수원',
 '쌍용더플래티넘오목천역',
 '북수원자이렉스비아',
 '화서역푸르지오브리시엘',
 '영흥공원푸르지오파크비엔',
 '영통롯데캐슬엘클래스1블록',
 '영통롯데캐슬엘클래스2블록',
 '한화포레나수원원천',
 '영통푸르지오트레센츠(A1BL)',
 '영통푸르지오파인베르(A2BL)',
 '영통자이',
 '서광교파크스위첸',
 '더샵광교산퍼스트파크',
 '서광교파크뷰',
 '한화포레나수원장안',
 '북수원하우스토리',
 '영통아이파크캐슬3단지',
 '수원하늘채더퍼스트1단지',
 '수원하늘채더퍼스트2단지',
 '수원아이파크시티10단지',
 '힐스테이트광교중앙역퍼스트',
 '광명자이더샵포레나',
 '철산자이더헤리티지',
 '광명센트럴아이파크',
 '광명푸르지오센트베르',
 '광명푸르지오포레나',
 '광명제10R구역호반써밋그랜드에비뉴',
 '신영지웰에스테이트개봉역',
 '천왕역모아엘가트레뷰',
 '남구로역동일센타시아',
 '더샵송도마리나베이',
 'KTX송도역서해그랑블더파크',
 '송도역경남아너스빌',
 'KTX송도역서해그랑블',
 '더샵송도아크베이(B3BL)',
 '힐스테이트레이크송도4차',
 '송도LuxeOceanSKVIEW',
 '더샵송도센터니얼',
 '송도하늘채아이비원(M2-3-1,2BL)',
 '송도

In [6]:
# 2023년 청약홈 분양 아파트명 리스트
분양아파트_2023 = [
'청계SKVIEW', '래미안라그란데', '수유시그니티', '롯데캐슬이스트폴', '강동중앙하이츠시티', '용산호반써밋에이디션', '둔촌현대수린나', '청량리롯데캐슬하이루체', '서울대벤처타운역푸르지오', 'DMC가재울아이파크', '새절역두산위브트레지움', '엘리프미아역2단지', '엘리프미아역1단지', '휘경자이디센시아', '센트레빌아스테리움시그니처', '영등포자이디그니티', '등촌지와인',
'포레나인천학익', '인천용현경남아너스빌', '인천연희공원호반써밋파크에디션', '서희스타힐스스타디움센트럴씨티', '인천검단신도시AB19블럭호반써밋', '미추홀루브루숭의', '칸타빌더스위트', '왕길역금호어울림에듀그린', '검단신도시금강펜테리움3차센트럴파크', '송도역경남아너스빌', '더샵아르테', '더샵부평센트럴시티10년분양전환공공임대주택', '동인천역파크푸르지오10년분양전환공공임대주택',
'광명소하신원아침도시2', '광명소하신원아침도시1', '용인센트레빌그리니에', '진위역서희스타힐스더파크뷰', '효성해링턴플레이스목감역', '평택고덕국제신도시A-49블록호반써밋3차', '광명센트럴아이파크', '이천중리우미린트리쉐이드', '시흥롯데캐슬시그니처2블록', '시흥롯데캐슬시그니처1블록', '평택브레인시티대광로제비앙모아엘가', '이안평택안중역', 'e편한세상동탄파크아너스A56블럭',
'지제역반도체밸리제일풍경채2블록', '오산세교하우스토리더센트럴', '부천역청담더마크', '청광플러스원', '운정자이시그니처', '인덕원퍼스비엘', '시흥센트럴헤센', '중앙하이츠금광프리미엄아파트', '시화MTV푸르지오디오션', '광명자이더샵포레나', '해링턴플레이스다산파크', 'e편한세상용인역플랫폼시티', '해링턴플레이스진사(2BL)', '해링턴플레이스진사(1BL)', '봉담중흥S-클래스센트럴에듀', 
'동탄신도시금강펜테리움6차센트럴파크(A59블럭)', '이안시그니처역곡', '동탄파크릭스A55BL', '파주운정신도시디에트르센트럴', '파주운정신도시B2블록운정호수공원누메르', '평택화양서희스타힐스센트럴파크', '고덕자이센트로', 'e편한세상동탄파크아너스A56블럭', '힐스테이트평택화양', '그린나래', '구리역롯데캐슬시그니처', '수원성중흥S-클래스', '회천2차대광로제비앙센트럴'
]

In [7]:
# 우리 아파트 리스트에는 안나오는 값 -> 8개 
없는아파트명 = ['등촌지와인', '더샵부평센트럴시티10년분양전환공공임대주택', '동인천역파크푸르지오10년분양전환공공임대주택', '광명소하신원아침도시2', '광명소하신원아침도시1', '용인센트레빌그리니에', '파주운정신도시B2블록운정호수공원누메르', '그린나래']
len(없는아파트명)

8

In [10]:
# 2023년 분양 아파트에 포함되는 행만 선택
apt_in = apt[apt['아파트명'].apply(lambda x: x in 분양아파트_2023)]

print('2023년 이후 분양 아파트명 포함 :', apt_in.shape)

2023년 이후 분양 아파트명 포함 : (338, 41)


In [8]:
# 2023년 분양 아파트에 포함되지 않은 행만 선택
apt_not_in = apt[apt['아파트명'].apply(lambda x: x not in 분양아파트_2023)]

print('2023년 이후 분양 아파트명 불포함 :', apt_not_in.shape)

2023년 이후 분양 아파트명 불포함 : (2989, 41)


# **4. 변수 추가**
- 2023년 1월 기준 개정 전/후 투기과열지구, 분양가상한제
- 평당공급액

## 1) (개정후) 투기과열지구 & 분양가상한제 변수
- 개정 후 지역 ['강남', '서초', '송파', '용산']로 모두 동일
- 해당 지역이 포함되면 1 아니면 0

### (1) apt in df 투기과열지구/분양가상한제_개정후

In [11]:
개정후_투기과열 = ['강남', '서초', '송파', '용산']
apt_in['투기과열지구_개정후'] = apt_in['기초'].apply(lambda x : 1 if any(기초 in x for 기초 in 개정후_투기과열) else 0 )

In [12]:
개정후_분양가상한제 = ['강남', '서초', '송파', '용산']

apt_in['분양가상한제_개정후'] = apt_in['기초'].apply(lambda x : 1 if any(기초 in x for 기초 in 개정후_분양가상한제) else 0 )

### (2) not in df 투기과열지구/분양가상한제_개정후

In [13]:
개정후_투기과열 = ['강남', '서초', '송파', '용산']
apt_not_in['투기과열지구_개정후'] = apt_not_in['기초'].apply(lambda x : 1 if any(기초 in x for 기초 in 개정후_투기과열) else 0 )

In [14]:
개정후_분양가상한제 = ['강남', '서초', '송파', '용산']
apt_not_in['분양가상한제_개정후'] = apt_not_in['기초'].apply(lambda x : 1 if any(기초 in x for 기초 in 개정후_분양가상한제) else 0 )

### (3) df concat
- in + not in 2023 아파트명

In [15]:
# 분리한 데이터프레임 apt_in, apt_not_in 행방향으로 concat하기
apt_df = pd.concat([apt_in, apt_not_in], ignore_index=True, axis=0)

In [16]:
apt_df.head(1)
print('기존 df의 shape :', apt.shape)
print('수정 후 df의 shape :', apt_df.shape)

기존 df의 shape : (3327, 41)
수정 후 df의 shape : (3327, 43)


## 2) (개정전) 투기과열지구 & 분양가상한제 변수
- 2022년 분양 정보

### (1) 투기과열지구_개정전
- '서울', '과천', '수정', '분당', '하남', '광명'

In [21]:
개정전_투기과열 = ['서울', '과천', '수정', '분당', '하남', '광명']

apt_df['투기과열지구_개정전'] = apt_df['법정동주소'].apply(lambda x: 1 if any(법정동주소 in x for 법정동주소 in 개정전_투기과열) else 0)

### (2) 분양가상한제_개정전
- [전지역 : '강남', '서초', '송파', '강동', '영등포', '마포', '성동', '동작', '양천', '용산', '중구', '광진', '서대문', \
'강서구(5개동)  : 방화동', '공항동', '마곡동', '등촌동', '화곡동', \
'노원구(4개동)  : 상계동', '중계동', '하계동', '월계동', \
'동대문구(8개동) : 제기동', '회기동', '이문동', '휘경동', '청량리동', '답십리동', '전농동', '용두동', \
'성북구(13개동) : 정릉동', '성북동', '동소문동(2/3가), '삼선동(1/2/3가)', '보문동(1가)', '안암동(3가)', '동선동(4가)', '돈암동', '길음동', '장위동', \
'은평구(7개동) : 갈현동', '불광동', '대조동', '역촌동', '신사동', '증산동', '수색동', \
'과천시(5갸동) : 별양동', '부림동', '원문동', '주암동', '중앙동', \
'하남시(4개동) : 창우동', '신장동', '덕풍동', '풍산동', \
'광명시(4개동) : 광명동', '소하동', '철산동', '하안동']

In [23]:
개정전_분양가상한제 = ['강남', '서초', '송파', '강동', '영등포', '마포', '성동', '동작', '양천', '용산', '서울중구', '광진', '서대문', \
                  '강서구방화동', '강서구공항동', '강서구마곡동', '강서구등촌동', '강서구화곡동', \
                  '노원구상계동', '노원구중계동', '노원구하계동', '노원구월계동', \
                  '동대문구제기동', '동대문구회기동', '동대문구이문동', '동대문구휘경동', '동대문구청량리동', '동대문구답십리동', '동대문구전농동', '동대문구용두동', \
                  '성북구정릉동', '성북구성북동', '성북구동소문동2가', '성북구동소문동3가', '성북구삼선동1가', '성북구삼선동2가', '성북구삼선동3가', '성북구보문동1가', '성북구안암동3가', '성북구동선동4가', '성북구돈암동', '성북구길음동', '성북구장위동', \
                  '은평구갈현동', '은평구불광동', '은평구대조동', '은평구역촌동', '은평구신사동', '은평구증산동', '은평구수색동', \
                  '과천시별양동', '과천시부림동', '과천시원문동', '과천시주암동', '과천시중앙동', \
                  '하남시창우동', '하남시신장동', '하남시덕풍동', '하남시풍산동', \
                  '광명시광명동', '광명시소하동', '광명시철산동', '광명시하안동'
                  '안암동132-17']

apt_df['분양가상한제_개정전'] = apt_df['법정동주소'].apply(lambda x: 1 if any(법정동주소 in x for 법정동주소 in 개정전_분양가상한제) else 0)

## 3) 평당공급액 변수 만들기

In [27]:
apt_df['평당공급액'] = (apt_df['공급액(만원)'] / apt_df['공급면적']) * 3.3
apt_df.head(1)

Unnamed: 0,아파트명,법정동주소,위도,경도,세대수,임대세대수,최고층,최저층,최대공급면적,최소공급면적,...,교육,장례식장,보건의료,유원지오락,총인구수,투기과열지구_개정후,분양가상한제_개정후,투기과열지구_개정전,분양가상한제_개정전,평당공급액
0,강동중앙하이츠시티,서울특별시강동구길동415-5번지,37.537347,127.137091,96,0.0,18.0,18.0,60.528,53.4593,...,1344,19,332,431,460141,0,0,1,1,4772.700238


# **5. 잘 만들어졌는지 확인**

## 1) 개정후 투기과열지구
- 서울 강남, 서초, 송파, 용산

In [28]:
# 개정후 투기과열지구 해당지역 = 1 -> 확인완료(잘들어감)
apt_df[apt_df['투기과열지구_개정후'] == 1]['법정동주소'].unique()

array(['서울특별시용산구한강로2가210-1번지', '서울특별시강남구개포1동660-4번지일원',
       '서울시강남구대치동963번지일원', '서울특별시서초구신반포로19길10(반포동1-1)',
       '서울시서초구잠원동74번지외1필지', '서울특별시서초구서초동1451-65번지', '서울시서초구서초동1486-17',
       '서울특별시송파구거여동651', '서울특별시송파구거여동606번지'], dtype=object)

In [29]:
# 개정후 투기과열지구 해당지역 = 0 -> 확인완료(잘들어감)
apt_df[apt_df['투기과열지구_개정후'] == 0]['법정동주소'].unique()

array(['서울특별시강동구길동415-5번지', '서울특별시강동구둔촌동632번지', '경기도성남시중원구금광동3125번지',
       '경기도수원시팔달구지동349-1번지', '경기도광명시광명1동9-8번지', '경기도광명시광명2동88-14번지',
       '인천광역시연수구옥련동271-17번지', '서울특별시동대문구이문동257-42번지', '서울특별시동대문구휘경동172번지',
       '서울특별시동대문구청량리동61-647번지', '경기도의왕시내손동661번지', '인천광역시서구불로동산54',
       '인천광역시서구불로동547-10', '인천광역시서구원당동810-1번지', '인천광역시서구연희동166-10번지',
       '인천광역시서구오류동1719-5번지', '경기도평택시장안동평택브레인시티일반산업단지공동2BL',
       '경기도평택시고덕동1693-197', '경기도평택시고덕동1860-2', '경기도평택시현덕면운정리산75-5',
       '경기도평택시현덕면화양리산184-2', '경기도평택시진위면갈곶리239-60번지', '경기도평택시장당동614',
       '경기도안성시공도읍진사리33번지', '경기도안성시공도읍진사리29-13번지', '경기도용인시기흥구마북동355-3',
       '인천광역시미추홀구학익2동290-1', '인천시미추홀구용현동627-12', '인천광역시미추홀구숭의동462',
       '인천광역시미추홀구숭의동177-13', '인천광역시미추홀구주안동1545-2번지', '경기도화성시봉담읍동화리181-1',
       '경기도화성시신동460', '경기도화성시신동238', '경기도화성시신동산165', '경기도이천시중리동107',
       '경기도부천시괴안동117번지', '경기도부천시심곡동192-7', '경기도파주시목동동산26번지',
       '경기도파주시목동동916', '경기도구리시인창동289-29번지', '서울특별시강북구미아동195번지',
       '서울특별시강북구미아동194-2번지', '서울특별시강북구수유동87-5

## 2) 개정전 투기과열지구
- 서울 전 지역
- 과천, 성남(수정, 분당), 하남, 광명

In [30]:
# 개정전 투기과열지구 해당지역 = 1 -> 확인완료(잘들어감)
apt_df[apt_df['투기과열지구_개정전'] == 1]['법정동주소'].unique()

array(['서울특별시강동구길동415-5번지', '서울특별시강동구둔촌동632번지', '경기도광명시광명1동9-8번지',
       '경기도광명시광명2동88-14번지', '서울특별시동대문구이문동257-42번지', '서울특별시동대문구휘경동172번지',
       '서울특별시동대문구청량리동61-647번지', '서울특별시강북구미아동195번지', '서울특별시강북구미아동194-2번지',
       '서울특별시강북구수유동87-5번지', '서울특별시은평구역촌동189-1번지', '서울특별시은평구신사동170-12번지',
       '서울특별시광진구자양동680-63번지', '서울특별시영등포구양평동1가265-1번지',
       '서울특별시관악구신림동316-62번지', '서울특별시성동구성동구용답동121번지',
       '서울특별시서대문구남가좌동289-54번지', '서울특별시용산구한강로2가210-1번지',
       '서울특별시강동구둔촌1동170-1', '서울특별시강동구길동160번지', '서울특별시강동구강일동72',
       '서울특별시강동구상일동554-38', '서울특별시강동구고덕동136', '서울시강동구상일동555',
       '서울특별시강동구천호동423-200', '서울시강동구천호동437-5', '서울시강동구성내동48-6번지일대',
       '서울특별시강남구개포1동660-4번지일원', '서울시강남구대치동963번지일원', '경기도성남시수정구신흥동1132',
       '경기도성남시수정구창곡동512', '경기도성남수정구고등동582', '경기도성남수정구고등동585',
       '경기도성남수정구고등동601', '경기도광명시철산동235번지', '경기도광명시광명동322번지일원',
       '경기도광명시광명동42-42번지', '경기도광명시광명동373-3', '서울특별시구로구개봉동171-2번지',
       '서울특별시구로구오리로7길4', '서울특별시구로구가리봉동113-1번지', '서울시동대문구용두동753-9번지일대',
       '서울시동대문구장안동41

In [31]:
# 개정전 투기과열지구 해당지역 = 0 -> 확인완료(잘들어감)
apt_df[apt_df['투기과열지구_개정전'] == 0]['법정동주소'].unique()

array(['경기도성남시중원구금광동3125번지', '경기도수원시팔달구지동349-1번지', '인천광역시연수구옥련동271-17번지',
       '경기도의왕시내손동661번지', '인천광역시서구불로동산54', '인천광역시서구불로동547-10',
       '인천광역시서구원당동810-1번지', '인천광역시서구연희동166-10번지', '인천광역시서구오류동1719-5번지',
       '경기도평택시장안동평택브레인시티일반산업단지공동2BL', '경기도평택시고덕동1693-197',
       '경기도평택시고덕동1860-2', '경기도평택시현덕면운정리산75-5', '경기도평택시현덕면화양리산184-2',
       '경기도평택시진위면갈곶리239-60번지', '경기도평택시장당동614', '경기도안성시공도읍진사리33번지',
       '경기도안성시공도읍진사리29-13번지', '경기도용인시기흥구마북동355-3', '인천광역시미추홀구학익2동290-1',
       '인천시미추홀구용현동627-12', '인천광역시미추홀구숭의동462', '인천광역시미추홀구숭의동177-13',
       '인천광역시미추홀구주안동1545-2번지', '경기도화성시봉담읍동화리181-1', '경기도화성시신동460',
       '경기도화성시신동238', '경기도화성시신동산165', '경기도이천시중리동107', '경기도부천시괴안동117번지',
       '경기도부천시심곡동192-7', '경기도파주시목동동산26번지', '경기도파주시목동동916',
       '경기도구리시인창동289-29번지', '경기도오산시궐동684-2번지', '경기도남양주시다산동3473번지외24필지',
       '경기도남양주시퇴계원읍퇴계원로102-8번지', '경기도양주시덕계동903', '경기도시흥시은행동248-30번지',
       '경기도시흥시은행동288-1', '경기도시흥시정왕동2715', '경기도시흥시논곡동162-3번지',
       '경기도시흥시월곶동1064-1', '경기도성남시중원구하대원동147-5번지',
    

## 3) 개정후 분양가상한제
- 서울 강남, 서초, 송파, 용산

In [32]:
# 개정후 분양가상한제 해당지역 = 1 -> 확인완료(잘들어감)
apt_df[apt_df['분양가상한제_개정후'] == 1]['법정동주소'].unique()

array(['서울특별시용산구한강로2가210-1번지', '서울특별시강남구개포1동660-4번지일원',
       '서울시강남구대치동963번지일원', '서울특별시서초구신반포로19길10(반포동1-1)',
       '서울시서초구잠원동74번지외1필지', '서울특별시서초구서초동1451-65번지', '서울시서초구서초동1486-17',
       '서울특별시송파구거여동651', '서울특별시송파구거여동606번지'], dtype=object)

In [33]:
# 개정후 분양가상한제 해당지역 = 0 -> 확인완료(잘들어감)
apt_df[apt_df['분양가상한제_개정후'] == 0]['법정동주소'].unique()

array(['서울특별시강동구길동415-5번지', '서울특별시강동구둔촌동632번지', '경기도성남시중원구금광동3125번지',
       '경기도수원시팔달구지동349-1번지', '경기도광명시광명1동9-8번지', '경기도광명시광명2동88-14번지',
       '인천광역시연수구옥련동271-17번지', '서울특별시동대문구이문동257-42번지', '서울특별시동대문구휘경동172번지',
       '서울특별시동대문구청량리동61-647번지', '경기도의왕시내손동661번지', '인천광역시서구불로동산54',
       '인천광역시서구불로동547-10', '인천광역시서구원당동810-1번지', '인천광역시서구연희동166-10번지',
       '인천광역시서구오류동1719-5번지', '경기도평택시장안동평택브레인시티일반산업단지공동2BL',
       '경기도평택시고덕동1693-197', '경기도평택시고덕동1860-2', '경기도평택시현덕면운정리산75-5',
       '경기도평택시현덕면화양리산184-2', '경기도평택시진위면갈곶리239-60번지', '경기도평택시장당동614',
       '경기도안성시공도읍진사리33번지', '경기도안성시공도읍진사리29-13번지', '경기도용인시기흥구마북동355-3',
       '인천광역시미추홀구학익2동290-1', '인천시미추홀구용현동627-12', '인천광역시미추홀구숭의동462',
       '인천광역시미추홀구숭의동177-13', '인천광역시미추홀구주안동1545-2번지', '경기도화성시봉담읍동화리181-1',
       '경기도화성시신동460', '경기도화성시신동238', '경기도화성시신동산165', '경기도이천시중리동107',
       '경기도부천시괴안동117번지', '경기도부천시심곡동192-7', '경기도파주시목동동산26번지',
       '경기도파주시목동동916', '경기도구리시인창동289-29번지', '서울특별시강북구미아동195번지',
       '서울특별시강북구미아동194-2번지', '서울특별시강북구수유동87-5

## 4) 개정전 분양가상한제
- [전지역 : '강남', '서초', '송파', '강동', '영등포', '마포', '성동', '동작', '양천', '용산', '중구', '광진', '서대문', \
'강서구(5개동)  : 방화동', '공항동', '마곡동', '등촌동', '화곡동', \
'노원구(4개동)  : 상계동', '중계동', '하계동', '월계동', \
'동대문구(8개동) : 제기동', '회기동', '이문동', '휘경동', '청량리동', '답십리동', '전농동', '용두동', \
'성북구(13개동) : 정릉동', '성북동', '동소문동(2/3가), '삼선동(1/2/3가)', '보문동(1가)', '안암동(3가)', '동선동(4가)', '돈암동', '길음동', '장위동', \
'은평구(7개동) : 갈현동', '불광동', '대조동', '역촌동', '신사동', '증산동', '수색동', \
'과천시(5갸동) : 별양동', '부림동', '원문동', '주암동', '중앙동', \
'하남시(4개동) : 창우동', '신장동', '덕풍동', '풍산동', \
'광명시(4개동) : 광명동', '소하동', '철산동', '하안동']

- 참고 : https://study-up.kr/496

In [34]:
# 개정전 분양가상한제 해당지역 = 1 > 수정필요
apt_df[apt_df['분양가상한제_개정전'] == 1]['법정동주소'].unique()

array(['서울특별시강동구길동415-5번지', '서울특별시강동구둔촌동632번지', '서울특별시동대문구이문동257-42번지',
       '서울특별시동대문구휘경동172번지', '서울특별시동대문구청량리동61-647번지', '서울특별시은평구역촌동189-1번지',
       '서울특별시은평구신사동170-12번지', '서울특별시광진구자양동680-63번지',
       '서울특별시영등포구양평동1가265-1번지', '서울특별시성동구성동구용답동121번지',
       '서울특별시서대문구남가좌동289-54번지', '서울특별시용산구한강로2가210-1번지',
       '서울특별시강동구둔촌1동170-1', '서울특별시강동구길동160번지', '서울특별시강동구강일동72',
       '서울특별시강동구상일동554-38', '서울특별시강동구고덕동136', '서울시강동구상일동555',
       '서울특별시강동구천호동423-200', '서울시강동구천호동437-5', '서울시강동구성내동48-6번지일대',
       '서울특별시강남구개포1동660-4번지일원', '서울시강남구대치동963번지일원', '경기도광명시철산동235번지',
       '경기도광명시광명동322번지일원', '경기도광명시광명동42-42번지', '경기도광명시광명동373-3',
       '서울시동대문구용두동753-9번지일대', '서울특별시서초구신반포로19길10(반포동1-1)',
       '서울시서초구잠원동74번지외1필지', '서울특별시서초구서초동1451-65번지', '서울시서초구서초동1486-17',
       '서울특별시성북구장위동62-1번지', '서울특별시성북구길음동542-1번지', '인천광역시계양구효성동152-1번지',
       '인천광역시계양구효성동24-15', '서울시동작구흑석동253-89번지일대', '서울시동작구상도동904',
       '서울시강서구마곡동744', '서울특별시강서구화곡동1027-50', '서울시강서구공항동1378',
       '서울시은평구수색동341-6번지일원', 

### <span style="color:red">0으로 바꾸기 필요!</span> 
- 개정전 분양가상한제
- [인천광역시계양구효성동152-1번지, 인천광역시계양구효성동24-15] 

In [35]:
# 개정전 분양가상한제 해당지역 = 0 -> 수정필요
apt_df[apt_df['분양가상한제_개정전'] == 0]['법정동주소'].unique()

array(['경기도성남시중원구금광동3125번지', '경기도수원시팔달구지동349-1번지', '경기도광명시광명1동9-8번지',
       '경기도광명시광명2동88-14번지', '인천광역시연수구옥련동271-17번지', '경기도의왕시내손동661번지',
       '인천광역시서구불로동산54', '인천광역시서구불로동547-10', '인천광역시서구원당동810-1번지',
       '인천광역시서구연희동166-10번지', '인천광역시서구오류동1719-5번지',
       '경기도평택시장안동평택브레인시티일반산업단지공동2BL', '경기도평택시고덕동1693-197',
       '경기도평택시고덕동1860-2', '경기도평택시현덕면운정리산75-5', '경기도평택시현덕면화양리산184-2',
       '경기도평택시진위면갈곶리239-60번지', '경기도평택시장당동614', '경기도안성시공도읍진사리33번지',
       '경기도안성시공도읍진사리29-13번지', '경기도용인시기흥구마북동355-3', '인천광역시미추홀구학익2동290-1',
       '인천시미추홀구용현동627-12', '인천광역시미추홀구숭의동462', '인천광역시미추홀구숭의동177-13',
       '인천광역시미추홀구주안동1545-2번지', '경기도화성시봉담읍동화리181-1', '경기도화성시신동460',
       '경기도화성시신동238', '경기도화성시신동산165', '경기도이천시중리동107', '경기도부천시괴안동117번지',
       '경기도부천시심곡동192-7', '경기도파주시목동동산26번지', '경기도파주시목동동916',
       '경기도구리시인창동289-29번지', '서울특별시강북구미아동195번지', '서울특별시강북구미아동194-2번지',
       '서울특별시강북구수유동87-5번지', '경기도오산시궐동684-2번지', '경기도남양주시다산동3473번지외24필지',
       '경기도남양주시퇴계원읍퇴계원로102-8번지', '경기도양주시덕계동903', '경기도시흥시은행동248-30번지',

### <span style="color:red">1로 바꾸기 필요!</span>
- 개정전 분양가상한제 
- ['서울특별시중구인현동2가240', '서울특별시중구입정동189-1번지', '서울특별시중구입정동2-4번지', 서울특별시성북구안암동132-17, 경기도광명시광명1동9-8번지, 경기도광명시광명2동88-14번지]

# **6. 잘 못들어간 데이터 수정**

**분양가상한제_개정전 수정필요!**
- 0으로 바꾸기 필요! -> [인천광역시계양구효성동152-1번지, 인천광역시계양구효성동24-15]
- 1로 바꾸기 필요! -> ['서울특별시중구인현동2가240', '서울특별시중구입정동189-1번지', '서울특별시중구입정동2-4번지', 서울특별시성북구안암동132-17, 경기도광명시광명1동9-8번지, 경기도광명시광명2동88-14번지]

In [36]:
# 인천광역시 주소 1 -> 0으로 수정
apt_df.loc[(apt_df['분양가상한제_개정전'] == 1) & (apt_df['법정동주소'] == '인천광역시계양구효성동24-15'), '분양가상한제_개정전'] = 0
apt_df.loc[(apt_df['분양가상한제_개정전'] == 1) & (apt_df['법정동주소'] == '인천광역시계양구효성동152-1번지'), '분양가상한제_개정전'] = 0

In [37]:
# 수정확인
apt_df[apt_df['분양가상한제_개정전'] == 1]['법정동주소'].unique() # 수정완료!

array(['서울특별시강동구길동415-5번지', '서울특별시강동구둔촌동632번지', '서울특별시동대문구이문동257-42번지',
       '서울특별시동대문구휘경동172번지', '서울특별시동대문구청량리동61-647번지', '서울특별시은평구역촌동189-1번지',
       '서울특별시은평구신사동170-12번지', '서울특별시광진구자양동680-63번지',
       '서울특별시영등포구양평동1가265-1번지', '서울특별시성동구성동구용답동121번지',
       '서울특별시서대문구남가좌동289-54번지', '서울특별시용산구한강로2가210-1번지',
       '서울특별시강동구둔촌1동170-1', '서울특별시강동구길동160번지', '서울특별시강동구강일동72',
       '서울특별시강동구상일동554-38', '서울특별시강동구고덕동136', '서울시강동구상일동555',
       '서울특별시강동구천호동423-200', '서울시강동구천호동437-5', '서울시강동구성내동48-6번지일대',
       '서울특별시강남구개포1동660-4번지일원', '서울시강남구대치동963번지일원', '경기도광명시철산동235번지',
       '경기도광명시광명동322번지일원', '경기도광명시광명동42-42번지', '경기도광명시광명동373-3',
       '서울시동대문구용두동753-9번지일대', '서울특별시서초구신반포로19길10(반포동1-1)',
       '서울시서초구잠원동74번지외1필지', '서울특별시서초구서초동1451-65번지', '서울시서초구서초동1486-17',
       '서울특별시성북구장위동62-1번지', '서울특별시성북구길음동542-1번지', '서울시동작구흑석동253-89번지일대',
       '서울시동작구상도동904', '서울시강서구마곡동744', '서울특별시강서구화곡동1027-50',
       '서울시강서구공항동1378', '서울시은평구수색동341-6번지일원', '서울시은평구수색동115-5번지일대',
       '서울시은평구수색동189', '서울시

In [38]:
# 인천광역시 주소 0 -> 1으로 수정

apt_df.loc[(apt_df['분양가상한제_개정전'] == 0) & (apt_df['법정동주소'] == '서울특별시중구인현동2가240'), '분양가상한제_개정전'] = 1
apt_df.loc[(apt_df['분양가상한제_개정전'] == 0) & (apt_df['법정동주소'] == '서울특별시중구입정동189-1번지'), '분양가상한제_개정전'] = 1
apt_df.loc[(apt_df['분양가상한제_개정전'] == 0) & (apt_df['법정동주소'] == '서울특별시중구입정동2-4번지'), '분양가상한제_개정전'] = 1
apt_df.loc[(apt_df['분양가상한제_개정전'] == 0) & (apt_df['법정동주소'] == '서울특별시성북구안암동132-17'), '분양가상한제_개정전'] = 1
apt_df.loc[(apt_df['분양가상한제_개정전'] == 0) & (apt_df['법정동주소'] == '경기도광명시광명1동9-8번지'), '분양가상한제_개정전'] = 1
apt_df.loc[(apt_df['분양가상한제_개정전'] == 0) & (apt_df['법정동주소'] == '경기도광명시광명2동88-14번지'), '분양가상한제_개정전'] = 1

In [39]:
# 수정확인
apt_df[apt_df['분양가상한제_개정전'] == 0]['법정동주소'].unique() # 수정완료!

array(['경기도성남시중원구금광동3125번지', '경기도수원시팔달구지동349-1번지', '인천광역시연수구옥련동271-17번지',
       '경기도의왕시내손동661번지', '인천광역시서구불로동산54', '인천광역시서구불로동547-10',
       '인천광역시서구원당동810-1번지', '인천광역시서구연희동166-10번지', '인천광역시서구오류동1719-5번지',
       '경기도평택시장안동평택브레인시티일반산업단지공동2BL', '경기도평택시고덕동1693-197',
       '경기도평택시고덕동1860-2', '경기도평택시현덕면운정리산75-5', '경기도평택시현덕면화양리산184-2',
       '경기도평택시진위면갈곶리239-60번지', '경기도평택시장당동614', '경기도안성시공도읍진사리33번지',
       '경기도안성시공도읍진사리29-13번지', '경기도용인시기흥구마북동355-3', '인천광역시미추홀구학익2동290-1',
       '인천시미추홀구용현동627-12', '인천광역시미추홀구숭의동462', '인천광역시미추홀구숭의동177-13',
       '인천광역시미추홀구주안동1545-2번지', '경기도화성시봉담읍동화리181-1', '경기도화성시신동460',
       '경기도화성시신동238', '경기도화성시신동산165', '경기도이천시중리동107', '경기도부천시괴안동117번지',
       '경기도부천시심곡동192-7', '경기도파주시목동동산26번지', '경기도파주시목동동916',
       '경기도구리시인창동289-29번지', '서울특별시강북구미아동195번지', '서울특별시강북구미아동194-2번지',
       '서울특별시강북구수유동87-5번지', '경기도오산시궐동684-2번지', '경기도남양주시다산동3473번지외24필지',
       '경기도남양주시퇴계원읍퇴계원로102-8번지', '경기도양주시덕계동903', '경기도시흥시은행동248-30번지',
       '경기도시흥시은행동288-1', '경기도시흥시정왕동2715', '경기도

In [40]:
len(apt['아파트명'].unique())

548

In [41]:
len(apt_df['아파트명'].unique())

# # 유니크값 줄었을 때 확인하는 코드
# set(apt['아파트명']) - set(apt2['아파트명'])
# len(set(apt['아파트명']) - set(apt2['아파트명']))

548

# **7. 데이터 전처리**

## 1) 형변환

In [42]:
# bool -> int로 변환
apt_df['대형건설사'] = apt_df['대형건설사'].astype(int)

In [44]:
# float -> int
cols = ['소매', '음식', '교육', '보건의료', '유원지오락', '총인구수']
apt_df[cols] = apt_df[cols].replace("'", "")

# cols 리스트에 포함된 열들의 데이터 타입을 문자열에서 정수로 변환
for col in cols :
    apt_df[col] = apt_df[col].str.replace(',', '').astype('int64')

In [47]:
# apt_df.info() # 형변환 후 확인 

## 2) 평당 공급액 소수점
- 소수점 4자리 수까지만 표기 

In [49]:
apt_df[['평당공급액']].head(1)

Unnamed: 0,평당공급액
0,4772.700238


In [50]:
# 평당공급액      3133 non-null   float64 소수점 줄이기 -> 4자리까지만
apt_df['평당공급액'] = apt_df['평당공급액'].round(4)
apt_df[['평당공급액']].head(1)

Unnamed: 0,평당공급액
0,4772.7002


In [53]:
# 결과 데이터프레임
apt_df.head(1)

Unnamed: 0,아파트명,법정동주소,위도,경도,세대수,임대세대수,최고층,최저층,최대공급면적,최소공급면적,...,교육,장례식장,보건의료,유원지오락,총인구수,투기과열지구_개정후,분양가상한제_개정후,투기과열지구_개정전,분양가상한제_개정전,평당공급액
0,강동중앙하이츠시티,서울특별시강동구길동415-5번지,37.537347,127.137091,96,0.0,18.0,18.0,60.528,53.4593,...,1344,19,332,431,460141,0,0,1,1,4772.7002


# **8. CSV로 저장**

In [57]:
apt_df.to_csv('apartment_20230829_R1.csv')