<a href="https://colab.research.google.com/github/jsyoo1229/orm/blob/main/240123_%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D_%ED%9A%8C%EA%B7%80.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 회귀분석
* 타겟이 연속형이기 때문에 회귀를 적용해야한다

In [None]:
import pandas as pd
dataset = pd.read_csv('/content/california_housing_train.csv')

In [None]:
print(dataset)

In [None]:
dataset.info()

In [None]:
dataset.describe()

In [None]:
df = dataset

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 로그 변환 수행
df['log_median_income'] = np.log(df['median_income'])

# 원래 데이터와 로그 변환된 데이터의 분포 비교를 위한 시각화
plt.figure(figsize=(12, 6))

# 원래 데이터의 분포 (median_income)
plt.subplot(1, 2, 1)
sns.histplot(df['median_income'], kde=True, bins=30)
plt.title('Original Median Income Distribution')

# 로그 변환된 데이터의 분포 (log_median_income)
plt.subplot(1, 2, 2)
sns.histplot(df['log_median_income'], kde=True, bins=30)
plt.title('Log Transformed Median Income Distribution')

plt.tight_layout()
plt.show()

In [None]:
# 로그 변환된 데이터 확인
df[['median_income', 'log_median_income']].head()

In [None]:
# 데이터 분포 확인을 위한 히스토그램
df.hist(bins=20, figsize=(12, 8))
plt.tight_layout()
plt.show()

# 상관 관계 분석을 위한 히트맵
plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(), annot=True, fmt='.2f', cmap='coolwarm')
plt.show()

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 독립변수와 종속변수 분리
X = df.drop('median_house_value', axis=1)
y = df['median_house_value']

# 학습 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 선형 회귀 모델 생성 및 학습
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
# 테스트 데이터에 대한 예측 수행
y_pred = model.predict(X_test)

# 모델 성능 평가
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print('MSE:', mse)
print('R² Score:', r2)

In [None]:
# 선형 회귀 모델의 계수 출력
coefficients = pd.DataFrame(model.coef_, X.columns, columns=['Coefficient'])
print(coefficients)

# 계수의 중요도 해석
# 예: 'median_income'의 계수가 높고 유의미하다면, 이 변수는 주택 가격에 큰 영향을 미치는 것으로 해석할 수 있습니다.


In [None]:
from sklearn.preprocessing import StandardScaler

# 표준화를 위한 객체 생성
scaler = StandardScaler()

# 독립변수에 대한 스케일링 수행
X_scaled = scaler.fit_transform(X)

# 스케일링된 데이터로 학습 데이터와 테스트 데이터 분리
X_train_scaled, X_test_scaled, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=0)

# 스케일링된 데이터로 선형 회귀 모델 재학습
model_scaled = LinearRegression()
model_scaled.fit(X_train_scaled, y_train)

# 스케일링 전후 모델 성능 비교
y_pred = model.predict(X_test)
y_pred_scaled = model_scaled.predict(X_test_scaled)

mse_before = mean_squared_error(y_test, y_pred)
mse_after = mean_squared_error(y_test, y_pred_scaled)

print('MSE before scaling:', mse_before)
print('MSE after scaling:', mse_after)

MSE before scaling: 4737434289.781313
MSE after scaling: 4737434289.781304
