In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('housingdata.csv')
df.head()
df.tail() #데이터셋 끝부분에도 데이터가 있는지 확인
df.shape
df.info() #문자열 데이터 없음 확인

In [None]:
#결측치 유무 확인 (총 6개의 열에 각 20개씩 결측치가 존재함)
missing_data = df.isnull().sum()

missing_data

In [None]:
'''
결측치 처리방법
 1. 삭제 -> 데이터셋이 적어서 삭제할 경우 데이터 수가 너무 적어짐
 2. 대체 -> 보통 이상치의 영향을 덜 받는 중앙값으로 대체 (평균은 이상치의 영향을 많이 받음 like 조던 연봉)
 3. 예측 -> 회귀모델 사용하여 예측하여 대체
'''
#결측치 중앙값으로 대체하기
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='median')
df_imputed = imputer.fit_transform(df)
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print(df_imputed)
print(np.sum(np.isnan(df_imputed)))

In [31]:
'''
이상치 처리방법

1. 이상치 탐지 
    1) IQR : 1사분위수와 3사분위수 사이의 범위(가운데 50%). 일반적으로 ±IQR *1.5를 이상치로 판단
    2) Z-score : 평균에서 얼마나 떨어져있는지 확인. 일반적으로 Z-score ±3을 이상치로 판단
    선택 기준 : 데이터가 정규분포를 따르면 Z-score가 유리 / 비정규분포이거나 왜곡된 분포면 IQR이 유리

2. 이상치 처리
    - 이상치 탐지방법 선택을 위해 정규분포를 따르는지 확인
        - 시각화 한 후 확인. 정규분포를 따른다면 종모양 히스토그램이 나타남
        - 통계적 검정 확인 : p-value가 0.05 이상이면 정규성을 따르는 것으로 간주
'''

#통계적 검정 확인(Shapiro-Wilk Test)
from scipy.stats import shapiro
stat, p_value = shapiro(df_imputed)
print("Test Statistic:", stat)
print("p-value:", p_value)

'''
test statistic 값이 1과 가까우면 정규분포로 볼 수 있으나 약 0.52으로 멀리 떨어져있음.
p-value는 0.05보다 크면 정규분포로 간주하는데, 7.241262860650192e-88로 매우 작음.
즉, 해당 데이터는 비정규분포로 IQR 이상치 탐지를 활용하여 처리하는 것이 유리하다고 판단 됨.
'''

#IQR 이상치 탐지
Q1 = np.quantile(df_imputed, 0.25, axis=0)
Q3 = np.quantile(df_imputed, 0.75, axis=0)
IQR = Q3 - Q1

#IQR 1.5배 이상치 처리
outliers = ((df_imputed < (Q1 - 1.5 * IQR)) | (df_imputed > (Q3 + 1.5 * IQR))).any(axis=1)
#print(outliers.sum())

#이상치 삭제
df_cleaned = pd.DataFrame(df_imputed[~outliers])

Test Statistic: 0.5187699604533358
p-value: 7.241262860650192e-88


  res = hypotest_fun_out(*samples, **kwds)


In [None]:
df_cleaned.info()

In [34]:
#독립변수(X), 종속변수(y) 분리
X = df_cleaned.drop('MEDV' , axis=1)
y = df_cleaned['MEDV']

In [35]:
#train데이터와 test데이터 분리
from sklearn.model_selection import train_test_split, cross_val_score
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [36]:
#특성 스케일링
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [26]:
#모델 학습
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor

models = {
    'Linear Regression': LinearRegression(),
    'Ridge Regression': Ridge(alpha=1.0),
    'Lasso Regression': Lasso(alpha=0.1),
    'Random Forest': RandomForestRegressor(random_state=42, n_estimators=100)
}

results = {}

for name, model in models.items():
    # Training the model
    model.fit(X_train, y_train)
    
    # Predicting
    y_pred = model.predict(X_test)

In [None]:
from sklearn.pipeline import Pipeline
# 모델 학습 및 평가 (Pipeline 활용)
for name, model in models.items():
    # Pipeline 생성
    pipeline = Pipeline([
        ('scaler', StandardScaler()),  # 데이터 스케일링
        ('model', model)               # 모델 적용
    ])
    
    # 교차 검증 실행
    cv_scores = cross_val_score(pipeline, X_train, y_train, cv=5, scoring='r2')
    
    # 최종 학습 및 예측
    pipeline.fit(X_train, y_train)
    y_pred = pipeline.predict(X_test)
    
    # 평가 지표 계산
    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    r2 = r2_score(y_test, y_pred)
    
    # 결과 저장
    results[name] = {
        'RMSE': rmse,
        'R2': r2,
        'CV_R2_mean': cv_scores.mean(),
        'CV_R2_std': cv_scores.std()
    }

# 결과 출력
for name, result in results.items():
    print(f"\n{name} 결과:")
    print(f"RMSE: {result['RMSE']:.2f}")
    print(f"R2 Score: {result['R2']:.2f}")
    print(f"Cross-validation R2: {result['CV_R2_mean']:.2f} (+/- {result['CV_R2_std'] * 2:.2f})")

In [None]:
# 결과 시각화
metrics = ['RMSE', 'R2', 'CV_R2_mean']
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

for i, metric in enumerate(metrics):
    values = [results[model][metric] for model in results.keys()]
    axes[i].bar(results.keys(), values)
    axes[i].set_title(metric)
    axes[i].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()