# 회귀 분석

## 학습 목표
- 선형 회귀(Linear Regression) 이해 및 구현
- KNN 회귀(KNeighborsRegressor) 학습
- 다중 회귀 분석과 규제(Ridge, Lasso) 기법
- 실제 데이터셋(보스톤 주택가격)을 활용한 회귀 분석

## 데이터 분석 기본 개념
- **사이킷런**: 입력데이터는 2D tensor, 출력은 1D tensor 형태
- **회귀 분석**: 연속적인 수치 값을 예측하는 머신러닝 기법


## 1. 단순 선형 회귀 (공부시간 vs 성적)

공부시간이라는 **특성이 딱 하나**인 단순한 회귀 분석부터 시작해보겠습니다.


In [1]:
# 1-1. 데이터 준비 (공부시간 vs 성적)
import numpy as np 

# 공부시간 - 특성이 딱 하나 
X = [[20], [19], [17], [18], [12], [14], [10], [9], [16], [6]]
# 평균값 (성적)
y = [100, 100, 90, 90, 60, 70, 40, 40, 70, 30]

X = np.array(X)
y = np.array(y) 

print("X shape:", X.shape)
print("y shape:", y.shape)
print("\n공부시간(X):", X.flatten())
print("성적(y):", y)


X shape: (10, 1)
y shape: (10,)

공부시간(X): [20 19 17 18 12 14 10  9 16  6]
성적(y): [100 100  90  90  60  70  40  40  70  30]


In [2]:
# 1-2. 데이터 분할
from sklearn.model_selection import train_test_split 

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

print("훈련셋 크기:", X_train.shape)
print("테스트셋 크기:", X_test.shape)


훈련셋 크기: (7, 1)
테스트셋 크기: (3, 1)


In [3]:
# 1-3. 선형 회귀 모델
from sklearn.linear_model import LinearRegression

model = LinearRegression()   # 하이퍼파라미터 없음. 과대든 과소든 할수있는건 데이터셋 늘려주기 밖에 없다.
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("=== 선형 회귀 결과 ===")
print("훈련셋 점수:", model.score(X_train, y_train))
print("테스트셋 점수:", model.score(X_test, y_test))
print("기울기:", model.coef_) 
print("절편:", model.intercept_)

# 수동 계산으로 검증
y_pred2 = X_test * model.coef_ + model.intercept_
print("\n=== 예측 결과 비교 ===")
print("실제값(y_test):", y_test)
print("예측값(y_pred):", y_pred)
print("수동계산(y_pred2):", y_pred2.flatten())


=== 선형 회귀 결과 ===
훈련셋 점수: 0.9612227324913892
테스트셋 점수: 0.9502758714851357
기울기: [5.46268657]
절편: -8.567164179104466

=== 예측 결과 비교 ===
실제값(y_test): [90 30 40]
예측값(y_pred): [84.29850746 24.20895522 46.05970149]
수동계산(y_pred2): [84.29850746 24.20895522 46.05970149]


### 다중회귀분석의 경우
다중회귀분석에서는 가중치가 많습니다. 각 독립변수마다 별도의 가중치를 가져옵니다.

**수식**: `w1*x1 + w2*x2 + w3*x3 + ... + wn*xn`

**행렬 형태**:
```
(w1, w2, w3, ..., wn) × (x1, x2, x3, x4, ..., xn)
```


In [4]:
# 1-4. KNN 이웃 회귀 알고리즘 
from sklearn.neighbors import KNeighborsRegressor

model = KNeighborsRegressor(n_neighbors=3)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("=== KNN 회귀 결과 ===")
print("훈련셋 점수:", model.score(X_train, y_train))
print("테스트셋 점수:", model.score(X_test, y_test))
print("실제값(y_test):", y_test)
print("예측값(y_pred):", y_pred)


=== KNN 회귀 결과 ===
훈련셋 점수: 0.8616452991452992
테스트셋 점수: 0.5161290322580647
실제값(y_test): [90 30 40]
예측값(y_pred): [86.66666667 56.66666667 56.66666667]


## 2. mglearn 라이브러리를 활용한 회귀 분석

**mglearn**: 사이킷런 책 저자가 차트 그리기를 편하게 하고 가끔 가짜 데이터를 만들어보라고 만든 라이브러리입니다.


In [5]:
# 2-1. mglearn 데이터셋 생성
# mglearn이 설치되지 않은 경우를 대비해 대체 데이터 생성
try:
    import mglearn
    X, y = mglearn.datasets.make_wave(n_samples=200)
    print("mglearn 라이브러리 사용")
except ImportError:
    print("mglearn이 설치되지 않아 대체 데이터를 생성합니다.")
    # 대체 데이터 생성
    np.random.seed(42)
    X = np.random.randn(200, 1)
    y = 0.5 * X.flatten() + 0.3 * np.random.randn(200)

print("X 처음 10개:")
print(X[:10])
print("\ny 처음 10개:")
print(y[:10])
print(f"\nX shape: {X.shape}, y shape: {y.shape}")


mglearn이 설치되지 않아 대체 데이터를 생성합니다.
X 처음 10개:
[[ 0.49671415]
 [-0.1382643 ]
 [ 0.64768854]
 [ 1.52302986]
 [-0.23415337]
 [-0.23413696]
 [ 1.57921282]
 [ 0.76743473]
 [-0.46947439]
 [ 0.54256004]]

y 처음 10개:
[ 0.35569328  0.09910321  0.64875964  1.07765554 -0.5303775  -0.39841599
  0.94411699  0.53785315 -0.08022289  1.42709947]

X shape: (200, 1), y shape: (200,)


In [6]:
# 2-2. 데이터 분할 및 모델 학습
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

# 선형 회귀
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("=== mglearn 데이터 - 선형 회귀 결과 ===")
print("훈련셋 점수:", model.score(X_train, y_train))
print("테스트셋 점수:", model.score(X_test, y_test))
print("기울기:", model.coef_) 
print("절편:", model.intercept_)

# 수동 계산으로 검증
y_pred2 = X_test * model.coef_ + model.intercept_
print("\n=== 예측 결과 비교 ===")
print("실제값(y_test) 처음 5개:", y_test[:5])
print("예측값(y_pred) 처음 5개:", y_pred[:5])
print("수동계산(y_pred2) 처음 5개:", y_pred2.flatten()[:5])


=== mglearn 데이터 - 선형 회귀 결과 ===
훈련셋 점수: 0.7263400136424352
테스트셋 점수: 0.7731889803646269
기울기: [0.53127862]
절편: 0.021803415819858035

=== 예측 결과 비교 ===
실제값(y_test) 처음 5개: [ 0.29877754  0.13147707  1.05445568  0.05283082 -0.33947119]
예측값(y_pred) 처음 5개: [ 0.1977966   0.41413492  0.45880394 -0.16027348 -0.09691759]
수동계산(y_pred2) 처음 5개: [ 0.1977966   0.41413492  0.45880394 -0.16027348 -0.09691759]


In [7]:
# 2-3. KNN 이웃 회귀 알고리즘 
model = KNeighborsRegressor(n_neighbors=3)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print("=== mglearn 데이터 - KNN 회귀 결과 ===")
print("훈련셋 점수:", model.score(X_train, y_train))
print("테스트셋 점수:", model.score(X_test, y_test))
print("실제값(y_test) 처음 5개:", y_test[:5])
print("예측값(y_pred) 처음 5개:", y_pred[:5])


=== mglearn 데이터 - KNN 회귀 결과 ===
훈련셋 점수: 0.8477279775448504
테스트셋 점수: 0.6430910461065564
실제값(y_test) 처음 5개: [ 0.29877754  0.13147707  1.05445568  0.05283082 -0.33947119]
예측값(y_pred) 처음 5개: [ 0.19433492  0.44510106  0.40374249 -0.17776799 -0.38242148]


## 3. 보스톤 주택가격 데이터 - 다중 회귀 분석

### 다중회귀분석의 특징
- **공분산**: 특성간에 서로 영향을 주고받는 것을 따져보고 필요없는 특성은 제거하는게 맞습니다
- **R**: 기본적으로 제거해줍니다
- **Python**: 우리가 직접 해야 합니다

### 규제(Regularization) 기법
- **선형회귀분석**: 다중공선성문제, 여러 특성간에 서로 너무 밀접해서 필요없는 요소들을 고려하지 않습니다
- **특성의 개수가 많을 경우**: 처리능력이 떨어집니다
- **해결책**: 가중치를 규제하면 과대적합을 막을 수 있습니다

### Ridge vs Lasso
- **Ridge**: 계수를 완전히 0으로 만들지는 못합니다 (L2 정규화)
- **Lasso**: 가중치를 0에 가깝게 하다가 불필요한 요소가 있으면 아예 0으로 만들기도 합니다 (L1 정규화)
- **alpha**: 하이퍼파라미터. 0으로 놓으면 규제를 안하겠다는 뜻(LinearRegression과 동일), 키우면 규제가 높아집니다


In [8]:
# 3-1. 보스톤 주택가격 데이터 로드
import pandas as pd

url = "http://lib.stat.cmu.edu/datasets/boston"

# 분리문자가 공백이 아니고 \s+, skiprows = 22줄 건너뛰기, 제목줄이 없다.
try:
    df = pd.read_csv(url, sep=r"\s+", skiprows=22, header=None)
    print("온라인 데이터 로드 성공")
    print("데이터 형태:", df.shape)
    print("\n처음 10행:")
    print(df.head(10))
except Exception as e:
    print(f"온라인 데이터 로드 실패: {e}")
    print("대체 데이터를 생성합니다...")
    
    # 대체 데이터 생성 (보스톤 데이터셋과 유사한 형태)
    np.random.seed(42)
    n_samples = 506
    n_features = 13
    df = pd.DataFrame(np.random.randn(n_samples, n_features))
    print("대체 데이터 생성 완료")
    print("데이터 형태:", df.shape)


온라인 데이터 로드 성공
데이터 형태: (1012, 11)

처음 10행:
          0      1      2    3      4      5     6       7    8      9     10
0    0.00632  18.00   2.31  0.0  0.538  6.575  65.2  4.0900  1.0  296.0  15.3
1  396.90000   4.98  24.00  NaN    NaN    NaN   NaN     NaN  NaN    NaN   NaN
2    0.02731   0.00   7.07  0.0  0.469  6.421  78.9  4.9671  2.0  242.0  17.8
3  396.90000   9.14  21.60  NaN    NaN    NaN   NaN     NaN  NaN    NaN   NaN
4    0.02729   0.00   7.07  0.0  0.469  7.185  61.1  4.9671  2.0  242.0  17.8
5  392.83000   4.03  34.70  NaN    NaN    NaN   NaN     NaN  NaN    NaN   NaN
6    0.03237   0.00   2.18  0.0  0.458  6.998  45.8  6.0622  3.0  222.0  18.7
7  394.63000   2.94  33.40  NaN    NaN    NaN   NaN     NaN  NaN    NaN   NaN
8    0.06905   0.00   2.18  0.0  0.458  7.147  54.2  6.0622  3.0  222.0  18.7
9  396.90000   5.33  36.20  NaN    NaN    NaN   NaN     NaN  NaN    NaN   NaN


In [9]:
# 3-2. 데이터 전처리
# numpy의 hstack 함수: 수평방향으로 배열을 이어붙이는 함수
# 짝수행에 홀수를 갖다가 붙인다. df.values[::2, :] -> 0,2,4,6,8... : 전체컬럼 
# 홀수행에 앞에 열 2개만 df.values[1::2, :2] 

try:
    # 원본 보스톤 데이터 처리 방식
    X = np.hstack([df.values[::2, :], df.values[1::2, :2]])
    y = df.values[1::2, 2]  # 이 열이 target
    print("원본 보스톤 데이터 처리 방식 적용")
except:
    # 대체 데이터의 경우 단순 처리
    X = df.values[:, :-1]  # 마지막 열 제외한 모든 열
    y = df.values[:, -1]   # 마지막 열을 타겟으로
    print("대체 데이터 처리 방식 적용")

print("X shape:", X.shape)
print("y shape:", y.shape)
print("\nX 처음 10개:")
print(X[:10])
print("\ny 처음 10개:")
print(y[:10])

# 행의 개수가 같아야 머신러닝 연산을 수행한다. 결과가 입력한 데이터 개수만큼 있어야 한다


원본 보스톤 데이터 처리 방식 적용
X shape: (506, 13)
y shape: (506,)

X 처음 10개:
[[6.3200e-03 1.8000e+01 2.3100e+00 0.0000e+00 5.3800e-01 6.5750e+00
  6.5200e+01 4.0900e+00 1.0000e+00 2.9600e+02 1.5300e+01 3.9690e+02
  4.9800e+00]
 [2.7310e-02 0.0000e+00 7.0700e+00 0.0000e+00 4.6900e-01 6.4210e+00
  7.8900e+01 4.9671e+00 2.0000e+00 2.4200e+02 1.7800e+01 3.9690e+02
  9.1400e+00]
 [2.7290e-02 0.0000e+00 7.0700e+00 0.0000e+00 4.6900e-01 7.1850e+00
  6.1100e+01 4.9671e+00 2.0000e+00 2.4200e+02 1.7800e+01 3.9283e+02
  4.0300e+00]
 [3.2370e-02 0.0000e+00 2.1800e+00 0.0000e+00 4.5800e-01 6.9980e+00
  4.5800e+01 6.0622e+00 3.0000e+00 2.2200e+02 1.8700e+01 3.9463e+02
  2.9400e+00]
 [6.9050e-02 0.0000e+00 2.1800e+00 0.0000e+00 4.5800e-01 7.1470e+00
  5.4200e+01 6.0622e+00 3.0000e+00 2.2200e+02 1.8700e+01 3.9690e+02
  5.3300e+00]
 [2.9850e-02 0.0000e+00 2.1800e+00 0.0000e+00 4.5800e-01 6.4300e+00
  5.8700e+01 6.0622e+00 3.0000e+00 2.2200e+02 1.8700e+01 3.9412e+02
  5.2100e+00]
 [8.8290e-02 1.2500e+01 7.8700e+00

In [10]:
# 3-3. 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

print("훈련셋 크기:", X_train.shape)
print("테스트셋 크기:", X_test.shape)


훈련셋 크기: (379, 13)
테스트셋 크기: (127, 13)


In [11]:
# 3-4. 선형 회귀 분석
model = LinearRegression() 
model.fit(X_train, y_train)

print("=== LinearRegression ===")
print("훈련셋 점수:", model.score(X_train, y_train))
print("테스트셋 점수:", model.score(X_test, y_test))
print("기울기들 개수:", len(model.coef_))
print("기울기들:", model.coef_)
print("절편:", model.intercept_)

# 보스톤 주택가격데이터의 특성의 개수는 13개임, 즉 가중치도 13개가 나온다.


=== LinearRegression ===
훈련셋 점수: 0.748087259862344
테스트셋 점수: 0.6844267283527108
기울기들 개수: 13
기울기들: [-1.28322638e-01  2.95517751e-02  4.88590934e-02  2.77350326e+00
 -1.62388292e+01  4.36875476e+00 -9.24808158e-03 -1.40086668e+00
  2.57761243e-01 -9.95694820e-03 -9.23122944e-01  1.31854199e-02
 -5.17639519e-01]
절편: 29.836420163838763


### 규제 기법 적용

**과대적합 문제**:
- 가중치가 너무 크거나 작으면 훈련데이터셋에 초점이 맞춰집니다
- 가중치를 규제하자!

**Ridge vs Lasso**:
- **Lasso**: 가중치를 0에 가깝게 하다가 불필요한 요소가 있으면 아예 0으로 만들기도 합니다. 모델을 심플하게 만듭니다
- **Ridge**: 계수를 완전히 0으로 만들지는 못합니다

**하이퍼파라미터 alpha**:
- 0으로 놓으면 규제를 아무것도 안하겠다 (LinearRegression과 똑같음)
- alpha를 키우면 규제가 높아집니다
- 적절한 alpha를 찾는게 중요합니다


In [12]:
# 3-5. Ridge 회귀 (L2 정규화)
from sklearn.linear_model import Ridge 

model = Ridge(alpha=10) 
model.fit(X_train, y_train)

print("=== Ridge (alpha=10) ===")
print("훈련셋 점수:", model.score(X_train, y_train))
print("테스트셋 점수:", model.score(X_test, y_test))
print("기울기들 개수:", len(model.coef_))
print("기울기들:", model.coef_)
print("절편:", model.intercept_)


=== Ridge (alpha=10) ===
훈련셋 점수: 0.7398240895568372
테스트셋 점수: 0.6724237562438142
기울기들 개수: 13
기울기들: [-0.12137453  0.03421897 -0.01307037  1.8210257  -1.68747299  4.09010212
 -0.01841796 -1.18806788  0.24351944 -0.01208251 -0.76717881  0.01369631
 -0.5734354 ]
절편: 22.652200585179752


In [None]:
# 3-6. Lasso 회귀 (L1 정규화)
from sklearn.linear_model import Lasso 

model = Lasso(alpha=10)  # 숫자가 커질수록 규제가 커진다
model.fit(X_train, y_train)

print("=== Lasso (alpha=10) ===")
print("훈련셋 점수:", model.score(X_train, y_train))
print("테스트셋 점수:", model.score(X_test, y_test))
print("기울기들 개수:", len(model.coef_))
print("기울기들:", model.coef_)
print("절편:", model.intercept_)

# 0이 된 계수들 확인
zero_coef_count = sum(coef == 0 for coef in model.coef_)
print(f"\n0이 된 계수의 개수: {zero_coef_count}/{len(model.coef_)}")
print("Lasso는 불필요한 특성의 계수를 0으로 만들어 특성 선택 효과가 있습니다.")


## 4. 전체 모델 비교

### 중요한 포인트들
- **alpha 값이 적절해야 합니다**: 머신러닝 알고리즘은 하이퍼파라미터를 우리가 수작업으로 찾아야 합니다
- **딥러닝 vs 머신러닝**: 딥러닝은 자동으로 찾습니다. 이미지, 흑백사진의 경우는 머신러닝이나 딥러닝이나 비슷합니다
- **규제의 효과**: 과대적합을 방지하고 일반화 성능을 향상시킵니다


In [15]:
# 4-1. 여러 alpha 값으로 Ridge와 Lasso 비교
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, Ridge, Lasso

# 한글 폰트 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

alpha_values = [0.1, 1, 10, 100]
models = ['LinearRegression', 'Ridge', 'Lasso']

print("=== 다양한 alpha 값으로 모델 비교 ===")
print(f"{'모델':<15} {'alpha':<8} {'훈련셋 점수':<12} {'테스트셋 점수':<12}")
print("-" * 50)

# LinearRegression (규제 없음)
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)
print(f"{'LinearRegression':<15} {'None':<8} {model_lr.score(X_train, y_train):<12.4f} {model_lr.score(X_test, y_test):<12.4f}")

# Ridge 회귀
for alpha in alpha_values:
    model_ridge = Ridge(alpha=alpha)
    model_ridge.fit(X_train, y_train)
    print(f"{'Ridge':<15} {alpha:<8} {model_ridge.score(X_train, y_train):<12.4f} {model_ridge.score(X_test, y_test):<12.4f}")

print()

# Lasso 회귀
for alpha in alpha_values:
    model_lasso = Lasso(alpha=alpha)
    model_lasso.fit(X_train, y_train)
    print(f"{'Lasso':<15} {alpha:<8} {model_lasso.score(X_train, y_train):<12.4f} {model_lasso.score(X_test, y_test):<12.4f}")


=== 다양한 alpha 값으로 모델 비교 ===
모델              alpha    훈련셋 점수       테스트셋 점수     
--------------------------------------------------
LinearRegression None     0.7481       0.6844      
Ridge           0.1      0.7480       0.6838      
Ridge           1        0.7461       0.6790      
Ridge           10       0.7398       0.6724      
Ridge           100      0.7213       0.6754      

Lasso           0.1      0.7369       0.6660      
Lasso           1        0.6948       0.6517      
Lasso           10       0.5374       0.4946      
Lasso           100      0.2122       0.2581      


## 5. 학습 요약

### 오늘 학습한 내용
1. **단순 선형 회귀**: 하나의 특성으로 예측
2. **KNN 회귀**: 이웃 기반 회귀 알고리즘
3. **다중 선형 회귀**: 여러 특성을 사용한 회귀
4. **Ridge 회귀**: L2 정규화를 통한 과대적합 방지
5. **Lasso 회귀**: L1 정규화를 통한 특성 선택 효과

### 핵심 포인트
- **하이퍼파라미터 튜닝**: alpha 값을 적절히 조정하는 것이 중요
- **과대적합 vs 과소적합**: 규제를 통해 균형을 맞춤
- **특성 선택**: Lasso는 불필요한 특성의 계수를 0으로 만듦
- **모델 평가**: 훈련셋과 테스트셋 점수를 비교하여 일반화 성능 확인

### 다음 단계
- 교차 검증을 통한 더 정확한 모델 평가
- 다른 회귀 알고리즘들과의 비교
- 특성 엔지니어링 기법 적용
