## 라이브러리 임포트

In [1]:
from sqlalchemy import create_engine
import pandas as pd
import numpy as np
from ydata_profiling import ProfileReport
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings(action='ignore')
import json
import requests
import configparser
import re
from tqdm.auto import tqdm, trange
import pprint

  from pandas_profiling import ProfileReport


In [49]:
# row 생략 없이 출력
pd.set_option('display.max_rows', None)
# col 생략 없이 출력
pd.set_option('display.max_columns', None)

In [4]:
# row 10개
pd.set_option('display.max_rows', 10)
# col 10개
pd.set_option('display.max_columns', 10)

In [50]:
# 값이 길때 생략없이 출력
pd.set_option('display.max_colwidth', -1)

# 데이터 전처리

1. **데이터 정제 (Cleaning)**
    - **결측치 처리**: 결측값을 삭제하거나 대체
    - **이상치 탐지 및 처리**: 예를 들어 z-score나 IQR(사분위범위) 방식을 사용해서 이상치를 탐지하고 처리
    - **중복 데이터 처리**: 중복된 데이터를 제거
2. **데이터 변환 (Transformation)**
    - **정규화**: 데이터의 범위를 [0, 1] 또는 [-1, 1]로 조정
    - **표준화**: 평균이 0이고 표준편차가 1이 되도록 데이터를 변환
    - **원-핫 인코딩**: 범주형 변수를 수치형 변수로 변환
    - **특성 스케일링**: 특성의 범위를 조정
3. **데이터 축소 (Reduction)**
    - **차원 축소**: PCA, t-SNE 등의 방식으로 데이터의 차원 축소
    - **특성 선택**: 중요한 특성만을 선택하여 모델의 성능 향상
4. **데이터 파생 (Derivation)**
    - 존재하는 변수를 기반으로 새로운 변수 생성
5. **데이터 통합 (Integration)**
    - 여러 데이터 소스(테이블, 파일 등)을 하나로 통합

## 1. 데이터 정제(Cleaning)

### 데이터 불러오기

In [3]:
pd.set_option('mode.chained_assignment',  None)  # SettingWithCopyWarning 무시

# SQLAlchemy를 사용하여 데이터베이스 연결
engine = create_engine("mysql+pymysql://admin:lazyestate@database-1.cr1v98drjdof.ap-northeast-2.rds.amazonaws.com:3306/LE")

# houseinfo_raw 데이터를 DataFrame으로 받기
df_raw = pd.read_sql_table('houseinfo_raw', engine.connect())


### 데이터 확인

In [4]:
df_raw.head()

Unnamed: 0,no,case_number,property_type,city,district,neighborhood,address_number,apartment_block,floor,room,...,auction_date,percentage,result,auction_count,appraised_value,minimum_bid_price,sale_price,sale_rate,number_of_bidders,image
0,1,2020-104683(1),아파트,서울특별시,서초구,잠원동,58-24,323동,2.0,210,...,2023-08-10,100,매각,0,2,2,2,110,1,http://img1.speedauction.co.kr/new_gamimg/2021/A01/2020/104683/54307.jpg
1,2,2022-108221(1),아파트,서울특별시,중구,황학동,2545,102동,27.0,2702,...,2023-08-10,64,매각,2,1,640,755,76,7,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2022/108221/54216_AUTO_263.jpg
2,3,2023-218(1),아파트,서울특별시,강남구,압구정동,481,91동,6.0,604,...,2023-08-10,100,매각,0,3,3,3,108,2,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2023/218/32919_AUTO_46.jpg
3,4,2023-100156(1),아파트,서울특별시,중구,신당동,843,106동,7.0,704,...,2023-08-10,80,매각,1,901,720,871,97,11,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2023/100156/212086.jpg
4,5,2022-112350(1),아파트,서울특별시,동작구,신대방동,720,103동,4.0,403,...,2023-08-09,64,매각,2,1,979,1,78,9,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2022/112350/19898_AUTO_110.jpg


In [5]:
df_raw.tail()

Unnamed: 0,no,case_number,property_type,city,district,neighborhood,address_number,apartment_block,floor,room,...,auction_date,percentage,result,auction_count,appraised_value,minimum_bid_price,sale_price,sale_rate,number_of_bidders,image
968,969,2020-1667(1),아파트,서울특별시,양천구,신정동,327,1319동,2.0,202,...,2020-08-12,100,배당종결,0,1,1,1,106,4,http://img1.speedauction.co.kr/new_gamimg/2020/A04/2020/1667/150053.jpg
969,970,2019-9300(1),아파트,서울특별시,동작구,동작동,331,104동,14.0,1401,...,2020-08-11,100,배당종결,0,888,888,938,106,6,http://img1.speedauction.co.kr/new_gamimg/2020/A01/2019/9300/97639.jpg
970,971,2019-5754(1),아파트,서울특별시,은평구,녹번동,279-1,102동,4.0,404,...,2020-08-11,80,배당종결,1,471,376,475,101,10,http://img1.speedauction.co.kr/new_gamimg/2020/A03/2019/5754/96377.jpg
971,972,2019-52200(1),아파트,서울특별시,은평구,진관동,10,741동,6.0,601,...,2020-08-11,80,배당종결,1,1,984,1,82,2,http://img1.speedauction.co.kr/new_gamimg/2020/A03/2019/52200/11619_AUTO_66.jpg
972,973,2019-56363(1),아파트,서울특별시,은평구,응암동,197-78,2동,2.0,202,...,2020-08-11,80,배당종결,1,142,113,131,93,4,http://img1.speedauction.co.kr/new_gamimg/2020/A03/2019/56363/98602.jpg


In [6]:
df_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 973 entries, 0 to 972
Data columns (total 22 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   no                 973 non-null    int64         
 1   case_number        973 non-null    object        
 2   property_type      973 non-null    object        
 3   city               973 non-null    object        
 4   district           973 non-null    object        
 5   neighborhood       967 non-null    object        
 6   address_number     965 non-null    object        
 7   apartment_block    652 non-null    object        
 8   floor              932 non-null    float64       
 9   room               962 non-null    object        
 10  apartment_name     709 non-null    object        
 11  full_address       973 non-null    object        
 12  auction_date       973 non-null    datetime64[ns]
 13  percentage         973 non-null    object        
 14  result    

In [7]:
df_raw.describe()

Unnamed: 0,no,floor,auction_count,appraised_value,minimum_bid_price,sale_price,sale_rate,number_of_bidders
count,973.0,932.0,973.0,973.0,973.0,973.0,973.0,973.0
mean,487.0,8.332618,1.025694,340.830421,359.941418,352.18705,95.13258,6.121274
std,281.025206,6.677864,1.157529,330.663299,308.081919,323.197658,23.763017,7.58733
min,1.0,1.0,0.0,1.0,1.0,1.0,9.0,1.0
25%,244.0,3.0,0.0,1.0,2.0,2.0,77.0,2.0
50%,487.0,7.0,1.0,294.0,344.0,331.0,95.0,4.0
75%,730.0,12.0,2.0,624.0,612.0,637.0,110.0,8.0
max,973.0,58.0,11.0,998.0,998.0,998.0,230.0,73.0


In [8]:
df = df_raw.set_index('no')
df

Unnamed: 0_level_0,case_number,property_type,city,district,neighborhood,address_number,apartment_block,floor,room,apartment_name,...,auction_date,percentage,result,auction_count,appraised_value,minimum_bid_price,sale_price,sale_rate,number_of_bidders,image
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,2020-104683(1),아파트,서울특별시,서초구,잠원동,58-24,323동,2.0,210,신반포아파트,...,2023-08-10,100,매각,0,2,2,2,110,1,http://img1.speedauction.co.kr/new_gamimg/2021/A01/2020/104683/54307.jpg
2,2022-108221(1),아파트,서울특별시,중구,황학동,2545,102동,27.0,2702,롯데캐슬베네치아,...,2023-08-10,64,매각,2,1,640,755,76,7,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2022/108221/54216_AUTO_263.jpg
3,2023-218(1),아파트,서울특별시,강남구,압구정동,481,91동,6.0,604,현대아파트,...,2023-08-10,100,매각,0,3,3,3,108,2,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2023/218/32919_AUTO_46.jpg
4,2023-100156(1),아파트,서울특별시,중구,신당동,843,106동,7.0,704,신당동삼성아파트,...,2023-08-10,80,매각,1,901,720,871,97,11,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2023/100156/212086.jpg
5,2022-112350(1),아파트,서울특별시,동작구,신대방동,720,103동,4.0,403,보라매이편한세상,...,2023-08-09,64,매각,2,1,979,1,78,9,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2022/112350/19898_AUTO_110.jpg
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
969,2020-1667(1),아파트,서울특별시,양천구,신정동,327,1319동,2.0,202,목동신시가지아파트,...,2020-08-12,100,배당종결,0,1,1,1,106,4,http://img1.speedauction.co.kr/new_gamimg/2020/A04/2020/1667/150053.jpg
970,2019-9300(1),아파트,서울특별시,동작구,동작동,331,104동,14.0,1401,동작동금강케이씨씨아파트,...,2020-08-11,100,배당종결,0,888,888,938,106,6,http://img1.speedauction.co.kr/new_gamimg/2020/A01/2019/9300/97639.jpg
971,2019-5754(1),아파트,서울특별시,은평구,녹번동,279-1,102동,4.0,404,,...,2020-08-11,80,배당종결,1,471,376,475,101,10,http://img1.speedauction.co.kr/new_gamimg/2020/A03/2019/5754/96377.jpg
972,2019-52200(1),아파트,서울특별시,은평구,진관동,10,741동,6.0,601,,...,2020-08-11,80,배당종결,1,1,984,1,82,2,http://img1.speedauction.co.kr/new_gamimg/2020/A03/2019/52200/11619_AUTO_66.jpg


**\[부가 설명] 부동산 경매 과정**

- 경매 개시: 부동산 경매가 시작되는 단계입니다. 채권자가 채무자의 부채를 회수하기 위해 법원에 경매를 신청하게 됩니다.
- 경매 진행: 부동산의 감정 평가가 이루어진 후, 시작 가격을 기준으로 경매가 진행됩니다.
- 매각 결정: 최고 입찰자가 나타나면, 그에게 부동산이 매각되기로 결정됩니다.
- 대금 납부: 최고 입찰자는 정해진 기간 내에 낙찰 금액을 납부해야 합니다.
- 배당 절차: 낙찰 금액이 납부되면, 그 금액은 각종 채권자와 권리자들에게 배당됩니다. 이때의 배당 순위는 법적 규정과 해당 부동산에 대한 권리 설정 순서에 따라 결정됩니다.
- 배당 종결: 모든 권리자들에게 배당이 완료되면 배당 절차가 종료됩니다. 이를 "배당 종결"이라고 합니다.
- "배당 종결" 이후에는 해당 부동산과 관련된 경매 절차가 모두 종료된 것으로 간주되며, 이 부동산에 대한 추가적인 경매 관련 절차는 진행되지 않습니다.

In [9]:
df.result.value_counts()

배당종결    809
매각      98 
잔금납부    66 
Name: result, dtype: int64

In [10]:
# for column in df.columns:
#     print(f"Column: {column}")
#     print(df[column].value_counts())
#     print("-" * 50)

In [11]:
# for column in df.columns:
#     plt.figure(figsize=(10,6))
#     sns.countplot(data=df, x=column, order=df[column].value_counts().index)
#     plt.title(f"Value Counts for {column}")
#     plt.xticks(rotation=45)
#     plt.show()


In [12]:
# profile = ProfileReport(df, title="Pandas Profiling Report")
# profile.to_widgets()


### 1.1 결측치 확인&처리

In [13]:
# 결측치 개수 확인
df.isnull().sum()

case_number          0  
property_type        0  
city                 0  
district             0  
neighborhood         6  
address_number       8  
apartment_block      321
floor                41 
room                 11 
apartment_name       264
full_address         0  
auction_date         0  
percentage           0  
result               0  
auction_count        0  
appraised_value      0  
minimum_bid_price    0  
sale_price           0  
sale_rate            0  
number_of_bidders    0  
image                0  
dtype: int64

In [14]:
# 결측치가 있는 행만 선택
df_missing_data = df[df.isnull().any(axis=1)]
print(df_missing_data.isnull().sum())  # 확인
df_missing_data

case_number          0  
property_type        0  
city                 0  
district             0  
neighborhood         6  
address_number       8  
apartment_block      321
floor                41 
room                 11 
apartment_name       264
full_address         0  
auction_date         0  
percentage           0  
result               0  
auction_count        0  
appraised_value      0  
minimum_bid_price    0  
sale_price           0  
sale_rate            0  
number_of_bidders    0  
image                0  
dtype: int64


Unnamed: 0_level_0,case_number,property_type,city,district,neighborhood,address_number,apartment_block,floor,room,apartment_name,...,auction_date,percentage,result,auction_count,appraised_value,minimum_bid_price,sale_price,sale_rate,number_of_bidders,image
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
6,2022-112435(1),아파트,서울특별시,서초구,잠원동,32-22,,6.0,601,보미리전빌,...,2023-08-09,64,매각,2,1,1,1,79,6,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2022/112435/18980_AUTO_122.jpg
13,2023-101999(1),아파트,서울특별시,강남구,역삼동,,,,,디오빌역삼,...,2023-08-08,80,매각,1,414,331,411,99,17,http://img1.speedauction.co.kr/new_gamimg/2023/A01/2023/101999/114799.jpg
15,2022-2083(1),아파트,서울특별시,은평구,역촌동,36-37,,,801,,...,2023-08-08,64,매각,2,427,273,305,71,2,http://img1.speedauction.co.kr/new_gamimg/2023/A03/2022/2083/314092.jpg
19,2022-962(1),아파트,서울특별시,송파구,마천동,22-3,,9.0,901,한주리버뷰아파트,...,2023-08-07,64,매각,2,700,448,539,77,1,http://img1.speedauction.co.kr/new_gamimg/2023/A02/2022/962/50996_AUTO_274.jpg
23,2022-109735(1),아파트,서울특별시,도봉구,쌍문동,639-1,,3.0,302,아파트,...,2023-08-02,80,매각,1,324,259,291,90,3,http://img1.speedauction.co.kr/new_gamimg/2023/A05/2022/109735/149379.jpg
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
962,2020-101215(1),아파트,서울특별시,영등포구,양평동,3,101동,4.0,408,,...,2020-08-18,100,배당종결,0,563,563,632,112,4,http://img1.speedauction.co.kr/new_gamimg/2020/A04/2020/101215/45472_AUTO_201.jpg
965,2018-104051(1),아파트,서울특별시,강서구,등촌동,715,108동,4.0,401,,...,2020-08-12,100,배당종결,0,785,785,1,131,32,http://img1.speedauction.co.kr/new_gamimg/2019/A04/2018/104051/905098.jpg
966,2019-7393(1),아파트,서울특별시,영등포구,당산동,5,411동,24.0,2401,,...,2020-08-12,100,배당종결,0,1,1,1,101,1,http://img1.speedauction.co.kr/new_gamimg/2020/A04/2019/7393/134353.jpg
971,2019-5754(1),아파트,서울특별시,은평구,녹번동,279-1,102동,4.0,404,,...,2020-08-11,80,배당종결,1,471,376,475,101,10,http://img1.speedauction.co.kr/new_gamimg/2020/A03/2019/5754/96377.jpg


#### 1.1.1 주소 결측치 확인&처리
1. full_address에서 동, 층, 호수 정보 추출하여 결측치 입력
2. 카카오 openapi 서비스를 사용해 나머지 결측치 입력

In [15]:
# 주소 컬럼만 추출
address_columns= ['case_number', 'city', 'district', 'neighborhood', 'address_number', 'apartment_block', 'floor', 'room', 'apartment_name', 'full_address']
df_missing_data_address = df_missing_data[address_columns]
df_missing_data_address

Unnamed: 0_level_0,case_number,city,district,neighborhood,address_number,apartment_block,floor,room,apartment_name,full_address
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
6,2022-112435(1),서울특별시,서초구,잠원동,32-22,,6.0,601,보미리전빌,"서울특별시 서초구 잠원동 32-22 6층601호 (잠원동,보미리전빌)"
13,2023-101999(1),서울특별시,강남구,역삼동,,,,,디오빌역삼,"서울특별시 강남구 언주로 427, 17층1708호 (역삼동,디오빌역삼)"
15,2022-2083(1),서울특별시,은평구,역촌동,36-37,,,801,,서울특별시 은평구 역촌동 36-37 801호
19,2022-962(1),서울특별시,송파구,마천동,22-3,,9.0,901,한주리버뷰아파트,"서울특별시 송파구 마천동 22-3 9층901호 (마천동,한주리버뷰아파트)"
23,2022-109735(1),서울특별시,도봉구,쌍문동,639-1,,3.0,302,아파트,"서울특별시 도봉구 쌍문동 639-1 3층302호 (쌍문동,아파트)"
...,...,...,...,...,...,...,...,...,...,...
962,2020-101215(1),서울특별시,영등포구,양평동,3,101동,4.0,408,,서울특별시 영등포구 양평동3가 55-1 경남아너스빌 제101동 제4층 제408호
965,2018-104051(1),서울특별시,강서구,등촌동,715,108동,4.0,401,,서울특별시 강서구 등촌동 715 등촌동아이파크 제108동 제4층 제401호
966,2019-7393(1),서울특별시,영등포구,당산동,5,411동,24.0,2401,,서울특별시 영등포구 당산동5가 42 당산삼성래미안 제411동 제24층 제2401호
971,2019-5754(1),서울특별시,은평구,녹번동,279-1,102동,4.0,404,,서울특별시 은평구 녹번동 279-1 해주드림빌 제102동 제4층 제404호


##### 1.1.1.1 full_address에서 동, 층, 호수 정보 추출

In [16]:
# 동, 층, 호 결측치 개수 확인
print('동:', df_missing_data_address['apartment_block'].isnull().sum())
print('층:', df_missing_data_address['floor'].isnull().sum())
print('호:', df_missing_data_address['room'].isnull().sum())

동: 321
층: 41
호: 11


In [17]:
# 패턴 정의
pattern_block = r'(\d+동|제\d+동|\d+-\d+호)' 
pattern_floor = r' (제?\d+)층 ?'
pattern_room = r'(?:제?\d+층)?(\d{2,4}호)'

# 아파트 동, 층, 호수 추출
df_missing_data_address['apartment_block'] = df_missing_data_address['full_address'].apply(
    lambda x: re.search(pattern_block, x).group(1).replace("제", "") if re.search(pattern_block, x) else np.nan)
df_missing_data_address['floor'] = df_missing_data_address['full_address'].apply(
    lambda x: re.search(pattern_floor, x).group(1).replace("제", "") if re.search(pattern_floor, x) else np.nan)
df_missing_data_address['room'] = df_missing_data_address['full_address'].apply(
    lambda x: re.search(pattern_room, x).group(1).replace("제", "").replace("호", "") if re.search(pattern_room, x) else np.nan)

# 동 정보에서 "102-601호" 형식의 문자열을 "102동"으로 변경
df_missing_data_address['apartment_block'] = df_missing_data_address['apartment_block'].apply(
    lambda x: x.split('-')[0]+'동' if '-' in str(x) else x)

# 층 정보가 누락된 경우 호수 정보를 바탕으로 층 정보를 채움
mask_missing_floor = df_missing_data_address['floor'].isnull()
df_missing_data_address.loc[mask_missing_floor, 'floor'] = df_missing_data_address['room'][mask_missing_floor].apply(
    lambda x: x[:-2] if isinstance(x, str) else np.nan)

# 결과 확인
df_missing_data_address

Unnamed: 0_level_0,case_number,city,district,neighborhood,address_number,apartment_block,floor,room,apartment_name,full_address
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
6,2022-112435(1),서울특별시,서초구,잠원동,32-22,,6,601,보미리전빌,"서울특별시 서초구 잠원동 32-22 6층601호 (잠원동,보미리전빌)"
13,2023-101999(1),서울특별시,강남구,역삼동,,,17,1708,디오빌역삼,"서울특별시 강남구 언주로 427, 17층1708호 (역삼동,디오빌역삼)"
15,2022-2083(1),서울특별시,은평구,역촌동,36-37,,8,801,,서울특별시 은평구 역촌동 36-37 801호
19,2022-962(1),서울특별시,송파구,마천동,22-3,,9,901,한주리버뷰아파트,"서울특별시 송파구 마천동 22-3 9층901호 (마천동,한주리버뷰아파트)"
23,2022-109735(1),서울특별시,도봉구,쌍문동,639-1,,3,302,아파트,"서울특별시 도봉구 쌍문동 639-1 3층302호 (쌍문동,아파트)"
...,...,...,...,...,...,...,...,...,...,...
962,2020-101215(1),서울특별시,영등포구,양평동,3,101동,4,408,,서울특별시 영등포구 양평동3가 55-1 경남아너스빌 제101동 제4층 제408호
965,2018-104051(1),서울특별시,강서구,등촌동,715,108동,4,401,,서울특별시 강서구 등촌동 715 등촌동아이파크 제108동 제4층 제401호
966,2019-7393(1),서울특별시,영등포구,당산동,5,411동,24,2401,,서울특별시 영등포구 당산동5가 42 당산삼성래미안 제411동 제24층 제2401호
971,2019-5754(1),서울특별시,은평구,녹번동,279-1,102동,4,404,,서울특별시 은평구 녹번동 279-1 해주드림빌 제102동 제4층 제404호


In [18]:
# 동, 층, 호 결측치 개수 확인
print('동:', df_missing_data_address['apartment_block'].isnull().sum())
print('층:', df_missing_data_address['floor'].isnull().sum())
print('호:', df_missing_data_address['room'].isnull().sum())

동: 293
층: 3
호: 7


In [19]:
# 직접 수정

# 수정하려는 주소와 해당 값들
address_values = {
    # 호 정보 직접 수정
    # '서울특별시 용산구 원효로4가 110-1 나동호 풍전아파트':(),
    '서울특별시 양천구 신월동 413-3 제2층 제2호':(np.nan, 2, '2'),
    '서울특별시 영등포구 신길동 340-1 다동 2층7호':('다동', 2, '7'),
    '서울특별시 용산구 한남동 1-35 유엔맨숀 제5층 제에이호':(np.nan, 5, '에이'),
    '서울특별시 영등포구 여의도동 11-1 순복음아파트 제13층 제2호':(np.nan, 13, '2'),
    '서울특별시 서대문구 홍제동 247-19 홍일아파트 제지하층':(np.nan, -1, np.nan),
    '서울특별시 용산구 이촌동 193-5 강서아파트 제1동호 내제지하층나동1호':('101동', -1, '1' ),
    
    # # 외 #필지
    # "서울특별시 서대문구 홍제동 132-5외 1필지 에이원아파트 제6층 제604호": ("에이원동", "6", "604호"),
    # "서울특별시 서초구 방배동 806-5외 2필지 윈저빌 제5,6층 제502호": ("윈저빌동", "5,6", "502호"),
    # "서울특별시 금천구 독산동 917-3외 3필지 해찬아파트 제6,7층 제601호": ("해찬아파트동", "6,7", "601호"),
    # "서울특별시 서초구 서초동 1506-47외 1필지 신구블레스벨리 제1층 제101호": ("신구블레스벨리동", "1", "101호"),
    # "서울특별시 마포구 신공덕동 167외 2필지 메트로디오빌 제23층 제2302호": ("메트로디오빌동", "23", "2302호"),

    # # 복층
    # "서울특별시 서초구 양재동 286-6 양재테크노아파트 제4,5층 제401호": ("양재테크노동", "4,5", "401호"),
    # "서울특별시 서초구 서초동 1496-24 트라움하우스3 제4,5층 제502호": ("트라움하우스동", "4,5", "502호"),
    # "서울특별시 서초구 서초동 1427-7 한승미메이드 제가동 제5,6층 제502호": ("가동", "5,6", "502호"),

    # 동 정보 수정
    "서울특별시 은평구 역촌동 62-16 3층 에이동308호": ('에이동', 3, '308'),
    "서울특별시 중랑구 상봉동 501 39층에이-이스트3903호 (상봉동,상봉 듀오트리스)": ('에이-이스트', 39, '3903'),
    "서울특별시 동대문구 장안동 580 씨동 12층1206호 (장안동,위더스빌)": ('씨동', 12, '1206'),
    "서울특별시 용산구 한강로2가 419 17층에이-1701호 (용산동5가,아스테리움용산)": ('에이동', 17, '1701'),
    "서울특별시 강남구 도곡동 467 비동 16층1603호 (도곡동,타워팰리스)": ('비동', 16, '1603'),
    "서울특별시 강남구 도곡동 467 씨동 54층5406호 (도곡동,타워팰리스)": ('씨동', 54, '5406'),
    "서울특별시 관악구 신림동 746-43 가동 9층 905호 (신림동,건영아파트)": ('가동', 9, '905'),
    "서울특별시 강남구 삼성동 87 사우스윙동 22층 2202호 (삼성동, 아이파크삼성동)": ('사우스윙동', 22, '2202'),
    "서울특별시 영등포구 여의도동 37 제에이동 제11층 제1105호 (여의도동, 미성아파트)": ('에이동', 11, '1105'),
    "서울특별시 용산구 동자동 45외 1필지 센트레빌아스테리움서울 제비동 제32층 제3201호": ('비동', 32, '3201'),
    "서울특별시 강남구 도곡동 467 타워팰리스 제비동 제39층 제3904호": ('비동', 39, '3904'),
    "서울특별시 강남구 삼성동 87 아이파크삼성동 제사우스윙동 제18층 제1803호": ('사우스윙동', 18, '1803'),
    "서울특별시 강남구 도곡동 467-6 대림아크로빌 제에이동 제15층 제1502호": ('에이동', 15, '1502'),
    "서울특별시 영등포구 여의도동 61 여의도금호리첸시아 제14층 제에이1403호": (np.nan, 14, '1403'),
    "서울특별시 영등포구 여의도동 42 한양아파트 제에이치동 제3층 제307호": ('에이치동', 3, '307'),
    "서울특별시 송파구 송파대로 345 근린생활시설1에이동 지1층비091호 (가락동,헬리오시티)": ('에이동', -1, '비091'),
    "서울특별시 용산구 이촌동 301-162 현대아파트(건축물대장상:현대맨숀) 제나동 제3층 제301호": ('나동', 3, '301'),
    "서울특별시 마포구 공덕동 467 롯데캐슬프레지던트 제15층 제에이-1502호": ('에이동', 15, '1502'),
    "서울특별시 강남구 도곡동 467 타워팰리스 제비동 제58층 제5806호": ('비동', 58, '5806'),
    # "서울특별시 노원구 월계동 448-3외 2필지 삼창아파트 제다동(통칭:C동) 제401호": (),
    "서울특별시 송파구 문정동 645-2 에이치비지니스파크 제지4층 제씨-비403호": ('씨동', -4, '비403'),
    "서울특별시 영등포구 여의도동 21-2 공작아파트 제에이동 제9층 제909호": ('에이동', 9, '909'),
    "서울특별시 광진구 광장동 135-1 현대리버빌 제에이동 제4층 제402호": ('에이동', 4, '402'),
    "서울특별시 서대문구 홍은동 277-145 교수아파트 에이동 제지하층 제비01호": ('에이동', -1, '비01'),
    "서울특별시 양천구 목동 905-22 목동트윈빌 제30층 제디-3004호": ('디동', 30, '3004'),
    "서울특별시 강남구 청담동 104-5외 1필지 삼호빌라 제씨동 제3층 제303호": ('씨동', 3, '303'),
    "서울특별시 강남구 도곡동 467-29 타워팰리스 제지동 제22층 제2207호": ('지동', 22, '2207'),
    "서울특별시 송파구 잠실동 40 갤러리아팰리스 제에이동 제33층 제3307호": ('에이동', 33, '3307'),
    "서울특별시 관악구 신림동 739 뉴서울아파트 제나동 제2층 제202호": ('나동', 2, '202'),
    "서울특별시 동대문구 장안동 372-9 청솔아파트 제에이동 제9층 제901호": ('에이동', 9, '901'),
    "서울특별시 용산구 한남동 72-1 한남동리첸시아 제11층 제씨-1102호": ('씨동', 11, '1102'),

    # 지하
    "서울특별시 용산구 원효로1가 17-66 지하1층비101호 (원효로1가,원효로1가 로얄카운티-3)": (np.nan, -1, "비101")

}

# 각 주소의 값을 수정
for address, (block, floor, room) in address_values.items():
    index_to_modify = df_missing_data_address[df_missing_data_address['full_address'] == address].index[0]
    df_missing_data_address.loc[index_to_modify, 'apartment_block'] = block
    df_missing_data_address.loc[index_to_modify, 'floor'] = floor
    df_missing_data_address.loc[index_to_modify, 'room'] = room

In [20]:
# 동, 층, 호 결측치 개수 확인
print('동:', df_missing_data_address['apartment_block'].isnull().sum())
print('층:', df_missing_data_address['floor'].isnull().sum())
print('호:', df_missing_data_address['room'].isnull().sum())

동: 263
층: 1
호: 2


In [21]:
display(
    df_missing_data_address[df_missing_data_address['apartment_block'].isnull()],
    df_missing_data_address[df_missing_data_address['room'].isnull()], 
    df_missing_data_address[df_missing_data_address['floor'].isnull()]
)

Unnamed: 0_level_0,case_number,city,district,neighborhood,address_number,apartment_block,floor,room,apartment_name,full_address
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
6,2022-112435(1),서울특별시,서초구,잠원동,32-22,,6,601,보미리전빌,"서울특별시 서초구 잠원동 32-22 6층601호 (잠원동,보미리전빌)"
13,2023-101999(1),서울특별시,강남구,역삼동,,,17,1708,디오빌역삼,"서울특별시 강남구 언주로 427, 17층1708호 (역삼동,디오빌역삼)"
15,2022-2083(1),서울특별시,은평구,역촌동,36-37,,8,801,,서울특별시 은평구 역촌동 36-37 801호
19,2022-962(1),서울특별시,송파구,마천동,22-3,,9,901,한주리버뷰아파트,"서울특별시 송파구 마천동 22-3 9층901호 (마천동,한주리버뷰아파트)"
23,2022-109735(1),서울특별시,도봉구,쌍문동,639-1,,3,302,아파트,"서울특별시 도봉구 쌍문동 639-1 3층302호 (쌍문동,아파트)"
...,...,...,...,...,...,...,...,...,...,...
951,2019-8860(1),서울특별시,양천구,목동,907-12,,16,1601,,서울특별시 양천구 목동 907-12 부영그린타운1차 제16층 제1601호
954,2019-3760(6),서울특별시,관악구,신림동,1474-6,,9,902,,서울특별시 관악구 신림동 1474-6 삼성 아파트 제9층 제902호
955,2019-101114(1),서울특별시,강남구,삼성동,108-1,,3,301,삼성동아셈아파트,서울특별시 강남구 삼성동 108-1외 1필지 삼성동아셈아파트 제3층 제301호
960,2019-106474(1),서울특별시,강서구,화곡동,343-35,,3,307,성재센트리움아파트,서울특별시 강서구 화곡동 343-35외 3필지 성재센트리움아파트 제3층 제307호


Unnamed: 0_level_0,case_number,city,district,neighborhood,address_number,apartment_block,floor,room,apartment_name,full_address
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
60,2022-54893(1),서울특별시,용산구,나동,,,,,풍전아파트,서울특별시 용산구 원효로4가 110-1 나동호 풍전아파트
666,2020-2232(1),서울특별시,서대문구,홍제동,247-19,,-1.0,,홍일아파트,서울특별시 서대문구 홍제동 247-19 홍일아파트 제지하층


Unnamed: 0_level_0,case_number,city,district,neighborhood,address_number,apartment_block,floor,room,apartment_name,full_address
no,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
60,2022-54893(1),서울특별시,용산구,나동,,,,,풍전아파트,서울특별시 용산구 원효로4가 110-1 나동호 풍전아파트


In [22]:
# 채워진 결측치 정보 df에 반영
df.update(df_missing_data_address)

##### 1.1.1.2 카카오 openapi 서비스를 사용해 나머지 결측치 입력

In [77]:
# 카카오 api에 주소 검색하기 위해 full_address에서 번지주소까지만 잘라낸 cleaned_address 생성
df.cleaned_address = [re.search(r'([\w\s가-힣-]+? \d+-?\d*)', address).group(1) if re.search(r'([\w\s가-힣-]+? \d+-?\d*)', address) else address for address in df.full_address]
df.cleaned_address 

['서울특별시 서초구 잠원동 58-24',
 '서울특별시 중구 황학동 2545',
 '서울특별시 강남구 압구정동 481',
 '서울특별시 중구 신당동 843',
 '서울특별시 동작구 신대방동 720',
 '서울특별시 서초구 잠원동 32-22',
 '서울특별시 관악구 남현동 1135',
 '서울특별시 영등포구 신길동 769-1',
 '서울특별시 도봉구 쌍문동 56',
 '서울특별시 동작구 상도동 445',
 '서울특별시 중구 신당동 851',
 '서울특별시 동작구 상도동 431',
 '서울특별시 강남구 언주로 427',
 '서울특별시 은평구 진관동 140',
 '서울특별시 은평구 역촌동 36-37',
 '서울특별시 은평구 진관동 102',
 '서울특별시 중랑구 묵동 20',
 '서울특별시 성동구 마장동 817',
 '서울특별시 송파구 마천동 22-3',
 '서울특별시 성동구 행당동 377',
 '서울특별시 성동구 응봉동 98',
 '서울특별시 동대문구 답십리동 1014',
 '서울특별시 도봉구 쌍문동 639-1',
 '서울특별시 은평구 대조동 89-258',
 '서울특별시 서대문구 홍은동 188-72',
 '서울특별시 서대문구 홍제동 469',
 '서울특별시 용산구 한강로3가 91',
 '서울특별시 서대문구 홍제동 132-5',
 '서울특별시 마포구 상암동 1637',
 '서울특별시 마포구 신수동 462',
 '서울특별시 마포구 신수동 462',
 '서울특별시 도봉구 방학동 740',
 '서울특별시 성북구 길음동 1278',
 '서울특별시 노원구 상계동 1068',
 '서울특별시 동대문구 휘경동 365',
 '서울특별시 노원구 월계동 320-11',
 '서울특별시 노원구 상계동 637',
 '서울특별시 노원구 하계동 271-3',
 '서울특별시 강남구 대치동 65',
 '서울특별시 강남구 대치동 65',
 '서울특별시 강남구 대치동 65',
 '서울특별시 강북구 미아동 813',
 '서울특별시 노원구 공릉동 745',
 '서울특별시 성북구 정릉동 239',
 '

In [78]:
# kakao api key가 담긴 파일에서 api key 읽어오기


# ConfigParser 객체 생성
config = configparser.ConfigParser()

# config.ini 파일 읽기
config.read('config.ini')

# 값을 가져오기
kakao_api_key = config['kakao_api_key']['kakao_api_key']

In [79]:
# kakao api를 사용하여 full_address를 검색하고 상세 정보 받아오기
kakao_response = []

for no, address in tqdm(zip(df.index, df.cleaned_address), total=len(df)):
    url = f'https://dapi.kakao.com/v2/local/search/address.json?query={address}'
    headers = {
        "Authorization": "KakaoAK " + kakao_api_key
    }
    response = requests.get(url, headers=headers).json()
    
    # 각 응답에 'no' 값을 추가
    response['no'] = no
    
    kakao_response.append(response)


  0%|          | 0/973 [00:00<?, ?it/s]

In [80]:
# 카카오 api로 받아온 정보를 json파일로 저장

with open('kakao_response.json', 'w') as json_file:
    json.dump(kakao_response, json_file)

In [81]:
# JSON 파일에서 kakao_response 불러오기
with open('kakao_response.json', 'r') as json_file:
    kakao_response_loaded = json.load(json_file)

In [57]:
# pprint.pprint(kakao_response_loaded)

# Check for empty responses
empty_responses_indices = [response['no'] for response in kakao_response_loaded if not response['documents']]

empty_responses_count = len(empty_responses_indices)
# empty_responses_count, empty_responses_indices

In [42]:
empty_responses_count

183

In [52]:
filtered_df_multiple_houses = df[df['full_address'].str.contains('외 \d+필지')]
filtered_df_multiple_floors = df[df['full_address'].str.contains(',\d+층')]
display(filtered_df_multiple_floors[['case_number', 'full_address']])

Unnamed: 0_level_0,case_number,full_address
no,Unnamed: 1_level_1,Unnamed: 2_level_1
110,2022-1399(1),"서울특별시 서초구 방배동 806-5외 2필지 윈저빌 제5,6층 제502호"
209,2020-1883(2),"서울특별시 서초구 양재동 286-6 양재테크노아파트 제4,5층 제401호"
310,2022-1364(1),"서울특별시 금천구 독산동 917-3외 3필지 해찬아파트 제6,7층 제601호"
539,2020-5182(1),"서울특별시 서초구 서초동 1496-24 트라움하우스3 제4,5층 제502호"
707,2020-103024(1),"서울특별시 서초구 서초동 1427-7 한승미메이드 제가동 제5,6층 제502호"


In [53]:
filtered_df_multiple_floors.to_csv("houseinfo_복층의심.csv")
filtered_df_multiple_houses.to_csv("houseinfo_외필지.csv")

In [None]:
list(filtered_df_multiple_houses