In [None]:
# 목표

#각 주택의 판매 가격을 예측하는 것은 당신의 일입니다. 테스트 세트의 각 Id에 대해 SalePrice 변수의 값을 예측해야 합니다.

# 미터법

# 제출은 예측 값의 로그와 관찰된 판매 가격의 로그 사이의 루트-Mean-Squared-오차(RMSE)로 평가됩니다. (로그를 기록한다는 것은 비싼 집과 싼 집을 예측하는 오류가 결과에 똑같이 영향을 미친다는 것을 의미한다.)

# 제출 파일 형식

# 파일에 헤더가 포함되어야 하며 다음과 같은 형식을 가져야 합니다.

# 아이디, 판매 가격
# 1461,169000.1
# 1462,187724.1233
# 1463,175221
# 등등.

머신러닝 데이터 분석 파이프라인 (종합 정리)

1.  **데이터 불러오기 및 초기 탐색 (Initial Data Loading & Inspection)**
    * **목표:** 원본 데이터를 로드하고, 데이터의 기본적인 구조, 컬럼 타입, 결측치 유무, 통계적 요약 등을 빠르게 파악합니다.
    * **주요 작업:** `df.head()`, `df.info()`, `df.describe()`, `df.isnull().sum()` 등 사용.

2.  **EDA (Exploratory Data Analysis - 탐색적 데이터 분석)**
    * **목표:** 데이터를 깊이 있게 이해하고, 피처들의 분포, 피처 간의 관계, 피처와 타겟 변수 간의 관계, 이상치 등을 시각화 및 통계 분석을 통해 탐색하여 모델링을 위한 인사이트를 얻습니다.
    * **주요 작업:** 히스토그램, 박스플롯, 산점도, **상관관계 분석(히트맵)** 등. 이 단계에서 피처들의 특성을 파악하고 전처리 및 피처 엔지니어링 방향을 결정합니다.

3.  **데이터 전처리 (Data Preprocessing)**
    * **목표:** 원본 데이터를 머신러닝 모델이 학습할 수 있는 깨끗하고 적절한 수치형 형태로 변환합니다.
    * **주요 작업:**
        * **결측치 처리:** `NaN` 값을 채우거나 제거합니다.
        * **범주형 피처 인코딩:** 문자열 범주를 숫자로 변환합니다 (원-핫 인코딩, 라벨 인코딩 등).
        * **수치형 피처 스케일링/변환:** 피처 값의 범위를 조정하거나(정규화, 표준화), 왜곡된 분포를 변환합니다.
        * **이상치 처리:** 이상치를 제거하거나 변환합니다.

4.  **다중공선성 확인 & 피처 엔지니어링 (Feature Engineering)**
    * **목표:** 기존 피처들을 조합하거나 변형하여 모델의 성능을 향상시킬 수 있는 새로운, 더 의미 있는 피처를 생성합니다.
    * **주요 작업:** 기존 컬럼의 정보를 활용하여 새로운 컬럼 만들기 (예: `Room` + `Service` = `TotalSpending`, `Name`에서 `Title` 추출, `PassengerId`에서 `GroupSize` 추출 등).

5.  **데이터셋 분리 (Data Splitting) - 핵심 평가 단계 포함**
    * **목표:** 모델 학습에 사용할 데이터(`X_train`, `y_train`)와 모델 성능을 **객관적으로 검증**할 데이터(`X_val`, `y_val`)를 분리하여 모델의 **일반화 능력**을 평가합니다. 최종 제출을 위한 `test` 데이터셋(`X_test`)은 별도로 존재합니다.
    * **주요 작업:** `train` 데이터 내에서 `X`(독립변수)와 `y`(종속변수)를 정의한 후, `sklearn.model_selection.train_test_split`을 사용하여 `X_train`, `X_val`, `y_train`, `y_val`로 나눕니다.
    * (`test.csv`로부터 전처리된 `X_test`는 `y_test` 없이 예측용으로만 준비됩니다.)

6.  **모델 선택 및 학습 (Model Selection & Training)**
    * **목표:** 문제의 유형(분류, 회귀 등)에 적합한 머신러닝 모델을 선택하고, **`X_train`과 `y_train`으로 모델을 훈련시킵니다.**
    * **주요 작업:** `RandomForestClassifier`, `LogisticRegression` 등 모델 선택 및 `model.fit(X_train, y_train)`으로 학습.

7.  **모델 평가 (Model Evaluation) - 검증 데이터셋 활용**
    * **목표:** 훈련된 모델이 **`X_val` 데이터에 대해** 얼마나 잘 작동하는지 평가하여, 모델의 **일반화 성능**을 객관적으로 파악합니다.
    * **주요 작업:** `y_val_pred = model.predict(X_val)` 수행 후, `accuracy_score`, `precision_score`, `recall_score`, `f1_score`, `classification_report` 등을 사용하여 `y_val`과 `y_val_pred`를 비교 분석합니다.

8.  **모델 튜닝 및 개선 (Model Tuning & Improvement)**
    * **목표:** 평가 결과를 바탕으로 모델의 성능을 최적화하기 위해 모델의 하이퍼파라미터를 조정하거나(그리드 서치, 랜덤 서치), 다른 모델을 시도하거나, 앙상블 기법을 적용합니다. 이 과정은 5, 6, 7단계를 반복하며 이루어집니다.

9.  **최종 예측 및 제출 (Final Prediction & Submission)**
    * **목표:** 충분히 만족스러운 성능을 가진 모델을 사용하여 **정답을 알 수 없는 `test` 데이터셋(`X_test`)에 대해 최종 예측을 수행하고, 캐글 요구 형식에 맞춰 제출 파일을 생성합니다.**
    * **주요 작업:** `final_predictions = model.predict(X_test)` 수행 후, `PassengerId`와 `final_predictions`를 포함하는 `submission.csv` 파일을 생성합니다.


In [15]:
import pandas as pd

# 1. 데이터 불러오기
#train = pd.read_csv('/Users/rick/Library/Mobile Documents/com~apple~CloudDocs/Study/통계&빅데이터/Kaggle/house_price/Data/train.csv') # 맥북 dir
#test = pd.read_csv('/Users/rick/Library/Mobile Documents/com~apple~CloudDocs/Study/통계&빅데이터/Kaggle/house_price/Data/test.csv') # 맥북 dir
train = pd.read_csv(r"C:\Users\ccmedia\iCloudDrive\Study\통계&빅데이터\Kaggle\house_price\Data\train(1).csv") # 회사 노트북 dir
test = pd.read_csv(r"C:\Users\ccmedia\iCloudDrive\Study\통계&빅데이터\Kaggle\house_price\Data\test(1).csv") # 회사 노트북 dir
# 모든 컬럼 보기 설정
#pd.set_option('display.max_columns', None)
# 모든 행 보기 설정
#pd.set_option('display.max_rows', None)
# 탐색 완료 후, 기본 설정으로 되돌리기 (선택 사항)
# pd.reset_option('display.max_columns')
# pd.reset_option('display.max_rows')

# 1.1 train, test 데이터 행 병합
# train.info() # 81 col, target ('SalePrice') 차이
# test.info() # 80 col
target = train['SalePrice'] # target 분리
train_without_trg = train.drop('SalePrice', axis=1) # target 삭제
train_id = train_without_trg['Id'] # Id 저장
test_id = test['Id'] # Id 저장
train_without_trg = train_without_trg.drop('Id', axis=1) # Id 삭제
test = test.drop('Id', axis=1) # Id 삭제
data_concat = pd.concat([train_without_trg, test], axis=0, ignore_index=True) # 행방향 데이터 병합 (index의 신규 생성)
# train.info()
# print(train.columns.tolist()) # 데이터프레임 컬럼명 확인
# 각 컬럼 별 결측치 개수 세기
Nan_cnt = data_concat.isnull().sum()
# 전체 행 수 
Total_rows = data_concat.shape[0]
# 결측치 비율
Nan_ratio = Nan_cnt / Total_rows * 100
# 결측치가 있는 컬럼과 비율 높은 순서로 정렬
Nan_data = pd.DataFrame({
    'Nan Count': Nan_cnt,
    'Nan Ratio (%)': Nan_ratio
})
Nan_data = Nan_data[Nan_data['Nan Count'] > 0].sort_values(by='Nan Ratio (%)', ascending=False)
print(Nan_data)
'''               Nan Count  Nan Ratio (%)
PoolQC             2909      99.657417 해결
MiscFeature        2814      96.402878 해결
Alley              2721      93.216855 해결
Fence              2348      80.438506 해결
MasVnrType         1766      60.500171 해결
FireplaceQu        1420      48.646797 해결
LotFrontage         486      16.649538 해결
GarageFinish        159       5.447071 해결
GarageQual          159       5.447071 해결
GarageCond          159       5.447071 해결
GarageYrBlt         159       5.447071 해결
GarageType          157       5.378554 해결
BsmtExposure         82       2.809181 해결
BsmtCond             82       2.809181 해결
BsmtQual             81       2.774923 해결
BsmtFinType2         80       2.740665 해결
BsmtFinType1         79       2.706406 해결
MasVnrArea           23       0.787941 해결
MSZoning              4       0.137033
BsmtFullBath          2       0.068517
BsmtHalfBath          2       0.068517
Functional            2       0.068517
Utilities             2       0.068517
GarageArea            1       0.034258
GarageCars            1       0.034258
Electrical            1       0.034258 해결
KitchenQual           1       0.034258
TotalBsmtSF           1       0.034258
BsmtUnfSF             1       0.034258
BsmtFinSF2            1       0.034258
BsmtFinSF1            1       0.034258
Exterior2nd           1       0.034258
Exterior1st           1       0.034258
SaleType              1       0.034258
'''

# 2.1.1. PoolQC 결측치 처리
# print(data_concat['PoolQC'].value_counts(dropna=False))
# 결과
# NaN    1453
# Gd        3
# Ex        2
# Fa        2
data_concat['PoolQC_Fill'] = data_concat['PoolQC'].fillna('No Pool') # 결측을 No Pool
# 2.1.2. PoolQC_Fill 전처리
data_concat['PoolQC_Fill'].map({'No Pool':0, 'Fa':1, 'Gd':2, 'Ex':3})
# print(data_concat['PoolQC_Fill'].map({'No Pool':0, 'Fa':1, 'Gd':2, 'Ex':3}).value_counts(dropna=False)) # 수정 데이터 확인
data_concat['PoolQC_Pre'] = data_concat['PoolQC_Fill'].map({'No Pool':0, 'Fa':1, 'Gd':2, 'Ex':3})
data_concat['PoolQC_Pre'].unique() # array([0, 3, 1, 2])
# 2.2.1. FireplaceQu 결측치 처리
print(data_concat['FireplaceQu'].value_counts(dropna=False))
# FireplaceQu
# NaN    690
# Gd     380
# TA     313
# Fa      33
# Ex      24
# Po      20
data_concat['FireplaceQu_Fill'] = data_concat['FireplaceQu'].fillna('No Fireplace') # 결측치 처리
# 2.2.2. FireplaceQu 전처리
#data_concat['FireplaceQu_Fill'].map({'No Fireplace':0, 'Po':1, 'Fa':2, 'TA':3, 'Gd':4, 'Ex':5}).unique() # 전처리 진행 결과
data_concat['FireplaceQu_Pre'] = data_concat['FireplaceQu_Fill'].map({'No Fireplace':0, 'Po':1, 'Fa':2, 'TA':3, 'Gd':4, 'Ex':5})
# print(data_concat['FireplaceQu_Pre'].unique()) # 전처리 결과 확인
# 2.3.1. MiscFeature(기타 특징) 결측치 처리
# data_concat['MiscFeature'].unique() # nan, 'Shed', 'Gar2', 'Othr', 'TenC'
# Elev	Elevator
# Gar2	2nd Garage (if not described in garage section)
# Othr	Other
# Shed	Shed (over 100 SF)
# TenC	Tennis Court
# NA    None
# data_concat['MiscFeature'].fillna('No MiscFeature').unique() # 데이터 확인
data_concat['MiscFeature_Fill'] = data_concat['MiscFeature'].fillna('No MiscFeature') # 결측치 처리
# 2.3.2. MiscFeature 원-핫 인코딩 (명목형 데이터)
MiscFeature_encoded = pd.get_dummies(data_concat['MiscFeature_Fill'], prefix='MiscFeature') # prefix_값 처럼 컬럼명 생성
# print(MiscFeature_encoded.columns) 데이터 확인
data_concat = pd.concat([data_concat, MiscFeature_encoded], axis=1) # 데이터프레임 병합(axis=1, 열방향)
# data_concat.drop(columns=['MiscFeature_Fill'], inplace=True) # 결측치 처리 컬럼 삭제(원본 보존)
# 2.4.1. Alley(골목 접근성) 결측치 처리
data_concat['Alley'].unique() # 데이터 확인
# nan, 'Grvl', 'Pave'
data_concat['Alley_Fill'] = data_concat['Alley'].fillna('No Alley') # 'No Alley', 'Grvl', 'Pave'
# 2.4.2. Alley 전처리
Alley_encoded = pd.get_dummies(data_concat['Alley_Fill'], prefix='Alley') # 원핫 인코딩
data_concat = pd.concat([data_concat, Alley_encoded], axis=1) # 데이터프레임 병합 (열방향)
# 2.5.1. Fence(울타리 품질) 결측치 처리
data_concat['Fence'].unique() # 데이터 확인
# GdPrv	Good Privacy
# MnPrv	Minimum Privacy
# GdWo	Good Wood
# MnWw	Minimum Wood/Wire
# NA	No Fence
data_concat['Fence_Fill'] = data_concat['Fence'].fillna('No Fence') # 'No Fence'...
# 2.5.2. Fence 전처리
Fence_encoded = pd.get_dummies(data_concat['Fence_Fill'], prefix='Fence') # 원핫 인코딩
data_concat = pd.concat([data_concat, Fence_encoded], axis=1) # 데이터프레임 병합 (열방향)
# 2.6.1. MasVnrType(석조 베니어 유형) 결측치 처리
data_concat['MasVnrType'].unique() # 'BrkFace', nan, 'Stone', 'BrkCmn'
data_concat['MasVnrType_Fill'] = data_concat['MasVnrType'].fillna('No MasVnrType') # 명목형 결측치 처리(유형 미존재로)
# 2.6.2. MasVnrType(석조 베니어 유형) 전처리
MasVnrType_encoded = pd.get_dummies(data_concat['MasVnrType_Fill'], prefix='MasVnrType') # 원핫인코딩
data_concat = pd.concat([data_concat, MasVnrType_encoded], axis=1) # 데이터프레임 병합(열방향 axis=1)
# 2.7.1. LotFrontage(주택에 연결된 도로 폭) 결측치 처리
data_concat['LotFrontage'].describe()
data_concat['LotFrontage_Fill'] = data_concat['LotFrontage'].fillna(data_concat['LotFrontage'].median()) # 결측치 중앙값으로 대치
data_concat['LotFrontage_Fill'].isnull().sum() # 결과확인
# 2.8.1. GarageType(창고 타입) 결측치 처리
data_concat['GarageType'].unique() # 'Attchd', 'Detchd', 'BuiltIn', 'CarPort', nan, 'Basment', '2Types'
data_concat['GarageType_Fill'] = data_concat['GarageType'].fillna('No Garage') # 결측치 처리
GarageTypeEncoded = pd.get_dummies(data_concat['GarageType_Fill'], prefix='GarageType') # 원핫인코딩
data_concat = pd.concat([data_concat, GarageTypeEncoded], axis=1) # 컬럼 병합
'''col_drop_list = [
'GarageType_2Types', 'GarageType_Attchd', 'GarageType_Basment', 'GarageType_BuiltIn', 'GarageType_CarPort', 'GarageType_Detchd', 'GarageType_No Garage'
]
data_concat.drop(columns=col_drop_list, inplace=True)
''' # 원핫인코딩 부분 삭제 방법
# 2.9.1. GarageYrBlt(창고 제작년도) 결측치 처리
data_concat['GarageYrBlt'].unique() # 연속형의 데이터의 결측치 처리
data_concat['GarageYrBlt_Fill'] = data_concat['GarageYrBlt'].fillna(0) # 결측치 처리
#data_concat.drop(columns=['HasGrage', 'IsNoGrage'], inplace=True) # 잘못된 피처 삭제
data_concat['IsNoGarage'] = data_concat['GarageYrBlt'].isnull().astype(int) # 항목형 컬럼 생성(창고 보유 여부)
# 2.10.1.  GarageFinish(차고 마감 상태), GarageQual(차고 품질), GarageCond(차고 상태) 결측치 처리
# data_concat['GarageFinish'].unique()
data_concat['GarageFinish_Fill'] = data_concat['GarageFinish'].fillna(0) # 결측치 처리
data_concat['GarageFinish_Pre'] = data_concat['GarageFinish_Fill'].map({0:0, 'Unf':1, 'RFn':2, 'Fin':3}) # 순서형 결측치 처리
data_concat['GarageQual_Fill'] = data_concat['GarageQual'].fillna(0) # 결측치 처리
data_concat['GarageQual_Pre'] = data_concat['GarageQual_Fill'].map({0:0, 'Po':1, 'Fa':2, 'TA':3, 'Gd':4, 'Ex':5}) # 순서형 결측치 처리
data_concat['GarageCond_Fill'] = data_concat['GarageCond'].fillna(0) # 결측치 처리
data_concat['GarageCond_Pre'] = data_concat['GarageCond_Fill'].map({0:0, 'Po':1, 'Fa':2, 'TA':3, 'Gd':4, 'Ex':5}) # 순서형 결측치 처리
# 2.11.1. BsmtFinType2 전처리
#data_concat['BsmtFinType2'].unique() # 'Unf', 'BLQ', nan, 'ALQ', 'Rec', 'LwQ', 'GLQ']
data_concat['BsmtFinType2_Fill'] = data_concat['BsmtFinType2'].fillna(0) # 결측처리
#data_concat['BsmtFinType2_Fill'].unique() # 변환 확인
data_concat['BsmtFinType2_Pre'] = data_concat['BsmtFinType2_Fill'].map({0:0, 'Unf':1, 'LwQ':2, 'Rec':3, 'BLQ':4, 'ALQ':5, 'GLQ':6}) # 순서형 전처리
# 2.12.1. BsmtFinType1 전처리
#data_concat['BsmtFinType1'].unique() # 'Unf', 'BLQ', nan, 'ALQ', 'Rec', 'LwQ', 'GLQ']
data_concat['BsmtFinType1_Fill'] = data_concat['BsmtFinType1'].fillna(0) # 결측처리
#data_concat['BsmtFinType1_Fill'].unique() # 변환 확인
data_concat['BsmtFinType1_Pre'] = data_concat['BsmtFinType1_Fill'].map({0:0, 'Unf':1, 'LwQ':2, 'Rec':3, 'BLQ':4, 'ALQ':5, 'GLQ':6}) # 순서형 전처리
#data_concat['BsmtFinType1_Pre'].unique()
# 2.13.1. BsmtExposure 전처리
data_concat['BsmtExposure'].unique()
data_concat['BsmtExposure_Fill'] = data_concat['BsmtExposure'].fillna(0) # 결측처리
data_concat['BsmtExposure_Fill'].unique() # 변환 확인
data_concat['BsmtExposure_Pre'] = data_concat['BsmtExposure_Fill'].map({0:0, 'No':1, 'Mn':2, 'Av':3, 'Gd':4}) # 순서형 전처리
data_concat['BsmtExposure_Pre'].unique()
# 2.14.1. BsmtCond 전처리
data_concat['BsmtCond'].unique()
data_concat['BsmtCond_Fill'] = data_concat['BsmtCond'].fillna(0) # 결측처리
data_concat['BsmtCond_Fill'].unique() # 변환 확인
data_concat['BsmtCond_Pre'] = data_concat['BsmtCond_Fill'].map({0:0, 'Po':1, 'Fa':2, 'TA':3, 'Gd':4}) # 순서형 전처리
data_concat['BsmtCond_Pre'].unique()
# 2.15.1. BsmtQual 전처리
data_concat['BsmtQual'].unique()
data_concat['BsmtQual_Fill'] = data_concat['BsmtQual'].fillna(0) # 결측처리
data_concat['BsmtQual_Fill'].unique() # 변환 확인
data_concat['BsmtQual_Pre'] = data_concat['BsmtQual_Fill'].map({0:0, 'Fa':1, 'TA':2, 'Gd':3, 'Ex':4}) # 순서형 처리
data_concat['BsmtQual_Pre'].unique()
# 2.16.1 MasVnrArea 전처리
data_concat['MasVnrArea'].unique() # 연속형
data_concat['MasVnrArea_Fill'] = data_concat['MasVnrArea'].fillna(0)
# 2.17.1 Electrical 전처리
data_concat['Electrical'].unique() # 연속형
data_concat['Electrical_Fill'] = data_concat['Electrical'].fillna(data_concat['Electrical'].mode()[0]) # 최빈값으로 결측값 처리
# data_concat['Electrical_Fill'].unique() # 데이터 확인
#print(pd.get_dummies(data_concat['Electrical_Fill']) )
Electrical_Encode = pd.get_dummies(data_concat['Electrical_Fill'], prefix='Electrical') # 원핫 인코딩
data_concat = pd.concat([data_concat, Electrical_Encode], axis=1) # 컬럼 병합
print(data_concat.columns.tolist()) # 컬럼 확인

# 3.1. 범주형 피처 전처리
#object_columns = data_concat.select_dtypes(include='object').columns.tolist() # 현재 data_concat 데이터프레임의 object 타입 컬럼들 확인
#print(object_columns)
# ['MSZoning', 'Street', 'LotShape', 'LandContour', 'Utilities', 'LotConfig', 'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType', 'HouseStyle', 'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'ExterQual', 'ExterCond', 'Foundation', 'Heating', 'HeatingQC', 'CentralAir', 'KitchenQual', 'Functional', 'PavedDrive', 'SaleType', 'SaleCondition']
# MSZoning, Neighborhood, HouseStyle, SaleType, SaleCondition 선택하여 추가 전처리 진행.
# 3.1.1 MSZoning 전처리
#print(data_concat['MSZoning'].unique()) # ['RL' 'RM' 'C (all)' 'FV' 'RH']
# data_concat['MSZoning'].isnull().sum() # Null 체크
MSZoning_Encode = pd.get_dummies(data_concat['MSZoning'], prefix='MSZoning')
# print(MSZoning_Encode) # 데이터 확인
data_concat = pd.concat([data_concat, MSZoning_Encode], axis=1)
# 3.1.2 Neighborhood 전처리
# print(data_concat['Neighborhood'].unique()) # ['CollgCr' 'Veenker' 'Crawfor' 'NoRidge' 'Mitchel' 'Somerst' 'NWAmes' 'OldTown' 'BrkSide' 'Sawyer' 'NridgHt' 'NAmes' 'SawyerW' 'IDOTRR' 'MeadowV' 'Edwards' 'Timber' 'Gilbert' 'StoneBr' 'ClearCr' 'NPkVill' 'Blmngtn' 'BrDale' 'SWISU' 'Blueste']
Neighborhood_Encode = pd.get_dummies(data_concat['Neighborhood'], prefix='Neighborhood')
#print(Neighborhood_Encode)
data_concat = pd.concat([data_concat, Neighborhood_Encode], axis=1)
# 3.1.3 HouseStyle 전처리
#print(data_concat['HouseStyle'].unique()) #['2Story' '1Story' '1.5Fin' '1.5Unf' 'SFoyer' 'SLvl' '2.5Unf' '2.5Fin']
HouseStyle_Encode = pd.get_dummies(data_concat['HouseStyle'], prefix='HouseStyle')
#print(HouseStyle_Encode)
data_concat = pd.concat([data_concat, HouseStyle_Encode], axis=1)
# 3.1.4 SaleType 전처리
#print(data_concat['SaleType'].unique()) # ['WD' 'New' 'COD' 'ConLD' 'ConLI' 'CWD' 'ConLw' 'Con' 'Oth']
SaleType_Encode = pd.get_dummies(data_concat['SaleType'], prefix='SaleType')
print(SaleType_Encode)
data_concat = pd.concat([data_concat, SaleType_Encode], axis=1)
# 3.1.5 SaleCondition 전처리
#print(data_concat['SaleCondition'].unique()) # ['Normal' 'Abnorml' 'Partial' 'AdjLand' 'Alloca' 'Family']
SaleCondition_Encode = pd.get_dummies(data_concat['SaleCondition'], prefix='SaleCondition')
print(SaleCondition_Encode)
data_concat = pd.concat([data_concat, SaleCondition_Encode], axis=1)

# # 4.1. 다중공선성 분석 - 에러 발생으로 인한 중지
# import statsmodels.api as sm # 다중공선성 
# from statsmodels.stats.outliers_influence import variance_inflation_factor # 다중공선성 
# object_columns = data_concat.select_dtypes(include=['int64', 'float64', 'bool']).columns.tolist() # 현재 data_concat 데이터프레임의 object 타입 컬럼들 확인
# #print(object_columns)
# filtered_object_columns = [col for col in object_columns if col not in ['Id', 'SalePrice']]
# #print(filtered_object_columns) # X 데이터 프레임 목록
# cols_without_nulls = data_concat[filtered_object_columns].columns[data_concat[filtered_object_columns].isnull().sum() == 0].tolist() #널 값이 없는 숫자형 및 불리언 컬럼들
# print(cols_without_nulls)
# X = data_concat[cols_without_nulls] # X 데이터 프레임 구성
# X_with_const = sm.add_constant(X) # 상수항 추가(회귀 모델은 종종 절편(intercept)을 포함합니다. VIF를 계산할 때도 이 절편을 나타내는 상수항을 독립 변수(X)에 추가해주는 것이 일반적)
# zero_variance_cols = X_with_const.columns[X_with_const.var() == 0].tolist()
# if len(zero_variance_cols) > 0:
#     print(f"\n--- 분산이 0인 컬럼들 ({len(zero_variance_cols)}개) ---")
#     print(zero_variance_cols)
#     print("이 컬럼들은 VIF 계산에 방해가 되므로 제거합니다.")
#     X_with_const = X_with_const.drop(columns=zero_variance_cols)
# else:
#     print("\n분산이 0인 컬럼은 없습니다.")
# vif_data = pd.DataFrame() # VIF 결과를 저장할 데이터프레임 초기화
# vif_data["feature"] = X_with_const.columns
# vif_data["VIF"] = [variance_inflation_factor(X_with_const.values, i) for i in range(X_with_const.shape[1])]
# # VIF 값을 기준으로 내림차순 정렬하여 출력
# vif_data = vif_data.sort_values(by="VIF", ascending=False).reset_index(drop=True)
# print("\n--- VIF 분석 결과 (VIF 높은 순) ---")
# print(vif_data)
# # 높은 VIF 값을 가진 컬럼 식별
# # 일반적으로 VIF가 10을 넘으면 심각한 다중공선성으로 간주합니다.
# high_vif_features = vif_data[vif_data['VIF'] > 10]
# print("\n--- VIF > 10인 특성들 ---")
# print(high_vif_features)

# 5. 모델 학습
without_object_columns = data_concat.select_dtypes(include=['int64', 'float64', 'bool']).columns.tolist() # 현재 data_concat 데이터프레임의 object 타입 컬럼들 확인
#print(object_columns)
filtered_object_columns = [col for col in without_object_columns if col not in ['Id', 'SalePrice']]
#print(filtered_object_columns) # X 데이터 프레임 목록
cols_without_nulls = data_concat[filtered_object_columns].columns[data_concat[filtered_object_columns].isnull().sum() == 0].tolist() #널 값이 없는 숫자형 및 불리언 컬럼들
#print(len(cols_without_nulls))
# SalePrice 행 개수로 인해 train, test 분리
X_train = data_concat[cols_without_nulls].iloc[:len(train), :] # data_concat의 앞 부분 1460행 train.csv
#X_test = 
X_test = data_concat[cols_without_nulls].iloc[:len(test), :] # data_concat의 뒷 부분 1459행 train.csv
# 5.1 선형회귀 모델 학습
# from sklearn.linear_model import LinearRegression # 선형 회귀 모델 불러오기
# #from sklearn.model_selection import data_concat_test_split # 학습/검증 데이터 분리 (이번에는 사용하지 않음)
# X= X_train
# y = target
# # 1. 선형회귀 모델 객체 생성
# model = LinearRegression()
# # 2. 모델 학습
# model.fit(X,y)
# # 3. 모델 예측 수행
# predictions = model.predict(X_test)
# print("예측완료")
# # --- 제출 파일 생성 ---
# submission = pd.DataFrame({'Id': test_id, 'SalePrice': predictions})
# submission.to_csv('house_price_self_submission.csv', index=False)
# print("\n제출 파일 'house_price_self_submission.csv' 저장 완료.")
# 5.2 XGBoost 모델 학습
import xgboost as xgb # XGBoost
# 초기 하이퍼파라미터 설정 (가장 기본적인 설정으로 시작)
xgb_model = xgb.XGBRegressor(
    objective='reg:squarederror', # 회귀 문제의 목적 함수 (MSE 기반)
    n_estimators=100,             # 트리의 개수 (더 늘릴 수 있음)
    learning_rate=0.1,            # 학습률
    max_depth=5,                  # 트리의 최대 깊이
    random_state=42,              # 재현성을 위한 시드 값
    n_jobs=-1                     # 모든 코어 사용
)
print("\nXGBoost 모델 학습 시작...")
xgb_model.fit(X_train, target)
print("XGBoost 모델 학습 완료!")
# XGBoost 모델 예측 수행
xgb_predictions = xgb_model.predict(X_test)
print("\nXGBoost 예측 완료!")
# 제출 파일 생성
submission = pd.DataFrame({'Id': test_id, 'SalePrice': xgb_predictions})
submission.to_csv('house_price_self_XGBoost_submission.csv', index=False)
print("\n제출 파일 'house_price_self_XGBoost_submission.csv' 저장 완료.")

              Nan Count  Nan Ratio (%)
PoolQC             2909      99.657417
MiscFeature        2814      96.402878
Alley              2721      93.216855
Fence              2348      80.438506
MasVnrType         1766      60.500171
FireplaceQu        1420      48.646797
LotFrontage         486      16.649538
GarageQual          159       5.447071
GarageYrBlt         159       5.447071
GarageCond          159       5.447071
GarageFinish        159       5.447071
GarageType          157       5.378554
BsmtExposure         82       2.809181
BsmtCond             82       2.809181
BsmtQual             81       2.774923
BsmtFinType2         80       2.740665
BsmtFinType1         79       2.706406
MasVnrArea           23       0.787941
MSZoning              4       0.137033
BsmtFullBath          2       0.068517
Functional            2       0.068517
BsmtHalfBath          2       0.068517
Utilities             2       0.068517
BsmtFinSF1            1       0.034258
Exterior2nd           1  

In [13]:
#print(target.info())
import os
print(os.getcwd())

c:\Users\ccmedia\iCloudDrive\Study\통계&빅데이터\Kaggle\house_price


In [None]:
'''
PoolQC: NaN을 'No Pool'로 채우고 순서형 인코딩 완료.
FireplaceQu: NaN을 'No Fireplace'로 채우고 순서형 인코딩 완료.
MiscFeature: NaN을 'No MiscFeature'로 채우고 원-핫 인코딩 및 병합 완료.
Alley: NaN을 'No Alley'로 채우고 원-핫 인코딩 및 병합 완료.
Fence: NaN을 'No Fence'로 채우고 원-핫 인코딩 및 병합 완료.
MasVnrType: NaN을 'No MasVnrType'으로 채우고 원-핫 인코딩 및 병합 완료.
LotFrontage: NaN을 중앙값으로 대치하고 새로운 컬럼 생성 완료.
GarageType: NaN을 'No Garage'로 채우고 원-핫 인코딩 및 병합 완료.
GarageYrBlt: NaN을 중앙값으로 대치하고 새로운 컬럼 생성 완료. 창고가 없다는 컬럼('Garage_Not') 생성 완료
GarageFinish: NaN을 0으로 채우고 순서형 인코딩 완료.
GarageQual: NaN을 0으로 채우고 순서형 인코딩 완료.
GarageCond: NaN을 0으로 채우고 순서형 인코딩 완료.
BsmtFinType2: NaN을 0으로 채우고 순서형 인코딩 완료.
BsmtExposure: NaN을 0으로 채우고 순서형 인코딩 완료.
BsmtFinType1: NaN을 0으로 채우고 순서형 인코딩 완료.
BsmtCond: NaN을 0으로 채우고 순서형 인코딩 완료.
BsmtQual: NaN을 0으로 채우고 순서형 인코딩 완료.
MasVnrArea: NaN을 0으로 채우기
Electrical: NaN을 최빈값으로 채우고, 인코딩.
'''
#train.drop(columns=['HasGrage', 'IsNoGrage'], inplace=True)
#print(train.columns.tolist())
#train['HasGrage'].head(100)
#train.isnull().sum()[train.isnull().sum() > 0].sort_values(ascending=False) #결측 피처 확인

