<a href="https://colab.research.google.com/github/Kangseok-Jeon/From_ML_To_LLM/blob/main/01_linear_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# ==========================================
# 01. Linear Regression (선형 회귀)
# ==========================================
#
# - 목적: 독립 변수(X)와 종속 변수(y) 사이의 선형 관계를 모델링
# - 적용 사례:
#   * 주택 가격 예측
#   * 판매량 예측
#   * 경제 지표 분석 등
#
# - 핵심 개념:
#   * 데이터가 직선 형태의 관계를 가질 때 사용
#   * 모델 식: y = aX + b
#     - a: 기울기 (slope)
#     - b: 절편 (intercept)
#
# - 이 예시에서는:
#   * California Housing 데이터셋을 사용
#   * 'AveRooms' (평균 객실 수)로 주택 가격을 선형 회귀로 예측
# ==========================================

# 기본 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 사이킷런 (scikit-learn)
from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

In [None]:
# 데이터 로드
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

# 훈련/테스트 데이터 분리 (8:2 비율)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 선형 회귀 모델 생성
model = LinearRegression()

# 훈련 데이터로 학습
model.fit(X_train, y_train)

# 학습 결과 출력
print(f"각 변수 계수 (기여도): {model.coef_}")
print(f"절편 (Intercept): {model.intercept_:.4f}")

각 변수 계수 (기여도): [ 4.48674910e-01  9.72425752e-03 -1.23323343e-01  7.83144907e-01
 -2.02962058e-06 -3.52631849e-03 -4.19792487e-01 -4.33708065e-01]
절편 (Intercept): -37.0233


In [None]:
# 테스트 데이터 예측
predictions = model.predict(X_test)

# 평가 지표
mse = mean_squared_error(y_test, predictions)
r2 = r2_score(y_test, predictions)

print(f"평균 제곱 오차 (MSE): {mse:.4f}")
print(f"결정 계수 (R^2 Score): {r2:.4f}")

평균 제곱 오차 (MSE): 0.5559
결정 계수 (R^2 Score): 0.5758
