## 개요 ##


- 빅데이터 수집 및 전처리.
- 머신러닝 앙상블 알고리즘 중 XGBoost 사용.
- 랜덤 포레스트와 XGBoost 알고리즘으로 아파트 매매 가격 예측 인공지능 모델을 제작 및 비교.


## 데이터 ##


- 데이터 세트를 제공하는 플랫폼인 캐글(kaggle)을 통해  오픈 API를 이용하여 데이터 불러오기


- 캐글 홈페이지(www.kaggle.com)에 접속 -> 로그인 -> 오른쪽 상단의 프로필 ‘Your Profile’
- Your Profile에 들어가 ‘Edit Public Profile’ 클릭 -> settings -> API 탭의 ‘Create New API Token’ 을 클릭  
-‘kaggle.json’을 다운로드


## 앙상블 머신러닝 랜덤 포레스트 ##


- 랜덤 포레스트는 의사결정 트리 알고리즘 여러 개가 결합된 앙상블 학습 방법으로, 분류에 사용된다.
- 랜덤 포레스트는 학습 과정에서 구성한 다수의 결정 트리로부터 평균 예측 값을 출력함으로써 회귀 분석, 즉, 수치를 예측하는 것도 가능하다.
- 가장 큰 특징은 무작위성(Random)에 의해 결정 트리들이 서로 다른 특성을 갖는다는 점이다.
- 이 특성으로 각 트리들의 예측이 비상관화되며, 결과적으로 일반화 성능을 향상시킨다.


## 앙상블 머신러닝 에이다 부스트(agaboost) ##


- XGBoost를 이해해기 위해 에이다 부스트를 먼저 알아야 한다.
- 부스팅은 약한 분류기를 세트로 붂어 정확도를 예측하는 기법이다.
- 약한 분류기들은 한 번에 하나씩 순차적으로 학습을 진행한다.
- 약한 분류기는 노드 하나에 두 개의 리프를 지닌 단순 구조의 트리로 '스텀프'라고 부른다.
- 먼저 학습된 분류기는 제대로 분류를 해 내는 데이터와 제대로 분류를 해 내지 못하는 데이터들이 발생한다.
- 이들을 다음 분류기에 전달한다.
- 다음 분류기는 이전 분류기로부터 받은 정보를 활용해 잘 분류해 내지 못한 데이터들을 견산하는 데 가중치를 높인다.
- 최종 분류기는 이전에 학습한 약한 분류기들에 각각의 가중치를 적용하고 조합하여 학습을 진행한다. 이를 에이다 부스트라 한다.
- 결과적으로 성능이 낮은 약한 분류기들을 조합하여 최종적으로 조금 더 성능이 좋은 강한 분류기 하나를 만드는 것이다.


## 앙상블 머신러닝 XGBoost ##


- XGBoost는 트리 기반의 앙상블 머신러닝 알고리즘이다.
- 기존 글라디언트 부스팅 알고리즘에 CART(Classification and Regression Trees) 모형을 기반으로 병렬 처리가 가능하게 만들어져 학습 시간을 획기적으로 줄인다.
- XGBoost의 약한 분류기는 데이터의 하위 집합에서 학습되고 예측을 수행하는 간단한 의사결정 트리 모델이다.
- 이러한 약한 분류기의 앙상블을 사용하여 최종 예측을 수행하고, 여러 모델의 강점을 결합하여 보다 정확한 모델을 생성한다.

In [3]:
import os

# 현재 디렉토리에서 'kaggle.json' 위치 지정
os.environ["KAGGLE_CONFIG_DIR"] = os.getcwd()

print("Kaggle 환경변수가 설정되었습니다!")


Kaggle 환경변수가 설정되었습니다!


In [4]:
# Kaggle 데이터 다운로드
!kaggle datasets download -d brainer3220/korean-real-estate-transaction-data




Dataset URL: https://www.kaggle.com/datasets/brainer3220/korean-real-estate-transaction-data
License(s): DbCL-1.0
Downloading korean-real-estate-transaction-data.zip to C:\Users\3호실-09




  0%|          | 0.00/59.2M [00:00<?, ?B/s]
  2%|1         | 1.00M/59.2M [00:00<00:47, 1.28MB/s]
  3%|3         | 2.00M/59.2M [00:00<00:23, 2.58MB/s]
  7%|6         | 4.00M/59.2M [00:01<00:10, 5.54MB/s]
 14%|#3        | 8.00M/59.2M [00:01<00:04, 11.9MB/s]
 20%|##        | 12.0M/59.2M [00:01<00:03, 14.3MB/s]
 24%|##3       | 14.0M/59.2M [00:01<00:03, 14.9MB/s]
 29%|##8       | 17.0M/59.2M [00:01<00:02, 16.3MB/s]
 34%|###3      | 20.0M/59.2M [00:01<00:02, 18.7MB/s]
 39%|###8      | 23.0M/59.2M [00:02<00:02, 13.3MB/s]
 42%|####2     | 25.0M/59.2M [00:02<00:02, 12.6MB/s]
 46%|####5     | 27.0M/59.2M [00:02<00:03, 10.7MB/s]
 49%|####8     | 29.0M/59.2M [00:02<00:02, 10.9MB/s]
 56%|#####5    | 33.0M/59.2M [00:03<00:02, 12.0MB/s]
 61%|######    | 36.0M/59.2M [00:03<00:01, 14.1MB/s]
 66%|######5   | 39.0M/59.2M [00:03<00:01, 16.8MB/s]
 69%|######9   | 41.0M/59.2M [00:03<00:01, 16.6MB/s]
 73%|#######2  | 43.0M/59.2M [00:03<00:01, 15.2MB/s]
 76%|#######5  | 45.0M/59.2M [00:03<00:01, 13.3MB/s]
 

In [6]:
import zipfile

with zipfile.ZipFile("korean-real-estate-transaction-data.zip", "r") as zip_ref:
    zip_ref.extractall(".")  # 현재 디렉토리에 압축 해제
print("압축 해제 완료!")



압축 해제 완료!


In [9]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv("./Apart Deal.csv")


df.head()

  df = pd.read_csv("./Apart Deal.csv")


Unnamed: 0,지역코드,법정동,거래일,아파트,지번,전용면적,층,건축년도,거래금액
0,31110.0,학성동,5/30/2020 0:00,남운학성타운,379,135.58,8,1991.0,26700
1,31110.0,남외동,1/3/2020 0:00,남외푸르지오1차,506-1,101.6,2,2006.0,35500
2,31110.0,남외동,1/3/2020 0:00,에일린의뜰,500,84.992,11,2007.0,36500
3,31110.0,남외동,1/3/2020 0:00,남외푸르지오1차,506-1,118.706,8,2006.0,43000
4,31110.0,남외동,1/4/2020 0:00,남외푸르지오2차,501-1,84.9636,7,2007.0,38700


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5002839 entries, 0 to 5002838
Data columns (total 9 columns):
 #   Column  Dtype  
---  ------  -----  
 0   지역코드    float64
 1   법정동     object 
 2   거래일     object 
 3   아파트     object 
 4   지번      object 
 5   전용면적    float64
 6   층       object 
 7   건축년도    float64
 8   거래금액    object 
dtypes: float64(3), object(6)
memory usage: 343.5+ MB


In [11]:
df.describe()

Unnamed: 0,지역코드,전용면적,건축년도
count,5002839.0,5002839.0,5002763.0
mean,35625.52,75.33272,2001.677
std,11442.16,26.07859,9.460423
min,11110.0,9.26,1961.0
25%,28200.0,59.71,1995.0
50%,41281.0,76.7181,2001.0
75%,43745.0,84.96,2009.0
max,50130.0,424.32,2023.0
