# 데이터 소스 무결성 검증: 공공데이터포털 vs Kakao API

본 노트북은 결측된 아파트명 및 주소 정보를 보완하기 위해 고려된 두 가지 외부 데이터 소스(**국토교통부 건축물대장 API**와 **Kakao Local API**)의 매칭 정확도를 비교 분석합니다.

## 1. 검증 개요
- **목적**: 가장 신뢰할 수 있는 결측치 보완(Imputation) 소스 선정
- **대상**: 전체 데이터셋 중 무작위 추출된 500개 샘플
- **지표**: 정확한 건물명 반환 성공률 (Exact Match Rate)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

# 시각화 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False
%matplotlib inline

## 2. 검증 로그 데이터 로드
사전에 수행된 API 교차 검증 스크립트(`09_9_compare_public_vs_kakao.py`)의 실행 로그를 로드합니다.

In [None]:
log_path = '../data/analysis_steps/source_comparison_results.csv'

if os.path.exists(log_path):
    df = pd.read_csv(log_path)
    print(f"Dataset Loaded Successfully: {df.shape}")
    print("Columns:", df.columns.tolist())
else:
    # 로그 파일이 없으면 분석을 진행할 수 없으므로 에러 처리
    raise FileNotFoundError(f"검증 로그 파일을 찾을 수 없습니다: {log_path}\n 먼저 '09_9_compare_public_vs_kakao.py' 스크립트를 실행하여 검증 데이터를 생성하십시오.")

df.head()

## 3. 매칭 결과 집계
각 API의 응답 상태를 집계하여 비교합니다.

In [None]:
# Kakao API Status
kakao_counts = df['Kakao_Status'].value_counts()
k_success = kakao_counts.get('Success', 0)

# Public Data API Status
public_counts = df['Public_Status'].value_counts()
p_exact = public_counts.get('Exact Match', 0)
p_partial = public_counts.get('Address Only', 0)
p_fail = public_counts.get('API Fail', 0)

print(f"Kakao Success: {k_success / len(df) * 100:.1f}%")
print(f"Public Success: {p_exact / len(df) * 100:.1f}%")

## 4. 상세 시각화 (Visualization)
요청된 공공데이터포털 API의 응답 상세 분포와 두 API 간의 성능 차이를 시각화합니다.

In [None]:
plt.figure(figsize=(15, 6))

# ------------------------------------------------------
# 1. 성능 비교 (Bar Chart)
# ------------------------------------------------------
plt.subplot(1, 2, 1)
sources = ['Kakao API', 'Public Data API']
scores = [k_success, p_exact]
colors = ['#3498db', '#95a5a6']

bars = plt.bar(sources, scores, color=colors, width=0.5)
plt.title('정확한 건물명 매칭 성공 건수 (n=500)')
plt.ylabel('Count')
plt.grid(axis='y', linestyle='--', alpha=0.5)

for bar in bars:
    height = bar.get_height()
    plt.text(bar.get_x() + bar.get_width()/2., height + 10,
             f'{int(height)}건\n({height/len(df)*100:.1f}%)',
             ha='center', va='bottom', fontweight='bold')

# ------------------------------------------------------
# 2. 공공데이터 응답 상세 (Pie Chart)
# ------------------------------------------------------
plt.subplot(1, 2, 2)

sizes_pub = [p_exact, p_partial, p_fail]
labels_pub = [
    f'Exact Match (성공)\n{p_exact}건',
    f'Address Only (참고)\n{p_partial}건',
    f'Fail / Error (실패)\n{p_fail}건'
]
colors_pub = ['#2ecc71', '#f1c40f', '#e74c3c']
explode = (0.1, 0, 0)

plt.pie(sizes_pub, labels=labels_pub, colors=colors_pub, autopct='%1.1f%%', 
        startangle=140, explode=explode, shadow=True)
plt.title('공공데이터포털 API 응답 상태 상세')

plt.tight_layout()
plt.show()

## 5. 결론 (Conclusion)
- **카카오 API**는 좌표로부터 구체적인 아파트명을 복원하는 데 있어 **>99%**의 높은 성공률을 기록하여, '아파트명' 파생변수의 데이터 무결성을 확보하는 데 기여했습니다.
- 반면, **공공데이터포털** API 호출 결과는 성공률이 약 25%에 불과하며, 대다수의 경우 정확한 가격 예측에 필요한 건물명을 식별하지 못하는 것으로 나타났습니다.
- **최종 의사결정**: 공간 정보 보간 및 결측치 처리를 위한 핵심 소스로 **카카오 API 방식**을 유지하고 활용하는 것이 타당합니다.