# 선형모델


---
---



In [None]:
# 0) 환경 점검: 설치된 폰트 실제 파일이 있는지 먼저 확인
!ls -R /usr/share/fonts | head -n 50

# 1) (이미 설치했다면 생략 가능) 한글 폰트 설치
!apt-get -y update
!apt-get -y install fonts-nanum fonts-noto-cjk

# 2) 시스템 폰트 캐시 재생성
!fc-cache -fv

# 3) Matplotlib 내부 폰트 캐시 삭제 (중요)
import os, shutil
import matplotlib
cache_dir = matplotlib.get_cachedir()      # 보통 ~/.cache/matplotlib
# print("matplotlib cache:", cache_dir)
shutil.rmtree(cache_dir, ignore_errors=True)

# 4) 런타임 재시작 필요 없이, 폰트 매니저 강제 리로드
from matplotlib import font_manager
_ = font_manager._load_fontmanager(try_read_cache=False)

# 5) 폰트 존재 여부 확인 (fc-list와 파이썬에서 모두 확인)
# !fc-list | grep -i "nanum\|noto" | head -n 40

# from matplotlib import font_manager
# fonts = font_manager.findSystemFonts()
# [f for f in fonts if ("Nanum" in f or "NotoSansCJK" in f or "Noto" in f)][:10]


# 6) 한글 폰트 지정
import seaborn as sns
import numpy as np
from matplotlib import font_manager, pyplot as plt

font_path = "/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf"
font_manager.fontManager.addfont(font_path)
family_name = font_manager.FontProperties(fname=font_path).get_name()
# print("적용할 패밀리명:", family_name)

plt.rcParams["font.family"] = family_name
plt.rcParams["axes.unicode_minus"] = False
print("✅ 나눔폰트 설정 완료")# 폰트 지정

## **1. 선형모델 이해**
- **선형모델**은 머신러닝의 기초이자 많은 복잡한 모델의 출발점 해석 가능성이 중요한 상황에서 특히 유용함
- 선형 모델은 입력 특징(feature)의 선형 결합( 𝑤^⊤ 𝑥+𝑏)으로 예측하고  
- 분류는 이를 로지스틱/소프트맥스로 확률화하며,  
- 정규화(L1/L2) 로 과적합을 억제하는  
- 빠르고 해석 가능한 볼록 최적화 기반의 **기본선(Baseline)모델**

### 예제 : 간단 선형모델

In [None]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, LogisticRegression
from sklearn.datasets import make_regression, make_classification

# 회귀 데이터
X_reg, y_reg = make_regression(n_samples=100, n_features=5, random_state=42)

# 분류 데이터
X_clf, y_clf = make_classification(n_samples=100, n_features=5, random_state=42)

# 회귀 모델들
linear_reg = LinearRegression().fit(X_reg, y_reg)
ridge_reg = Ridge(alpha=1.0).fit(X_reg, y_reg)
lasso_reg = Lasso(alpha=1.0).fit(X_reg, y_reg)

# 분류 모델
logistic_clf = LogisticRegression().fit(X_clf, y_clf)

print("선형회귀 R²:", linear_reg.score(X_reg, y_reg))
print("릿지회귀(L2) R²:", ridge_reg.score(X_reg, y_reg))
print("라쏘회귀(L1) R²:", lasso_reg.score(X_reg, y_reg))
print("로지스틱회귀 정확도:", logistic_clf.score(X_clf, y_clf))

### 예제 : Tensorflow를 이용한 다층 신경망 회귀 모델

In [None]:
import tensorflow as tf
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split

# 복잡한 데이터 생성
X, y = make_regression(n_samples=1000,
                       n_features=10,
                       noise=0.1,
                       random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("=== 다층 신경망 회귀 모델 ===")

# 다층 모델 구성
model = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(10,)),  # 은닉층 1
    tf.keras.layers.Dense(32, activation='relu'),                     # 은닉층 2
    tf.keras.layers.Dense(1)                                          # 출력층
])

# 컴파일 및 훈련
model.compile(optimizer='adam', loss='mse', metrics=['mae'])
model.fit(X_train, y_train, epochs=100, validation_split=0.2, verbose=1)

# 평가
test_loss, test_mae = model.evaluate(X_test, y_test, verbose=0)
print(f"테스트 MSE: {test_loss:.2f}")
print(f"테스트 MAE: {test_mae:.2f}")



---



## **선형 회귀**

- 데이터의 추세를 그래프로 표현하여 이후의 패턴을 예측하는 데 활용하는 통계 분석 방법론 --> **회귀 분석**
- label(Y)과 feature(X)의 관계를 잘 설명하는 모델을 만드는 것 --> **머신러닝**
- 최적의 직선을 기반으로 예측하는 알고리즘 --> **선형 회귀(Linear Regression)**

- $𝑦(𝑤, 𝑥)=𝑤_0+ 𝑤_1 𝑥_1  +...+ 𝑤_𝑝 𝑥_𝑝$   
    - $ 𝒙 = 독립변수,   w = 가중치,   y = 종속변수$

### **예제 : 기본 선형 회귀**

### **예제 : Tensorflow(딥러닝)를 이용한 선형회귀**

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

# 1. 데이터 생성
X, y = make_regression(n_samples=100, n_features=1, noise=10, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 2. 모델 생성 및 훈련
model = LinearRegression()
model.fit(X_train, y_train)

# 3. 예측
y_pred = model.predict(X_test)

# 4. 성능 평가
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)

print(f"R² Score: {r2:.3f}")
print(f"MSE: {mse:.3f}")
print(f"모델 계수: {model.coef_[0]:.3f}")
print(f"절편: {model.intercept_:.3f}")

In [None]:
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

plt.rcParams["font.family"] = "NanumBarunGothic"

print("TensorFlow 버전:", tf.__version__)

# 1. 데이터 준비
print("=== 데이터 생성 ===")
X, y = make_regression(n_samples=1000, n_features=1, noise=10, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 데이터 정규화 (선택사항이지만 권장)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"훈련 데이터 크기: {X_train.shape}")
print(f"테스트 데이터 크기: {X_test.shape}")

# 2. 모델 구성
print("\n=== 모델 구성 ===")
model = tf.keras.Sequential([
    tf.keras.layers.Dense(1, input_shape=(1,))  # 입력 1개, 출력 1개
])

# 3. 모델 컴파일
model.compile(
    optimizer='adam',           # 최적화 알고리즘
    loss='mean_squared_error',  # 손실 함수
    metrics=['mae']             # 평가 지표
)

# 모델 구조 확인
model.summary()

# 4. 모델 훈련
print("\n=== 모델 훈련 ===")
history = model.fit(
    X_train_scaled, y_train,
    epochs=100,              # 훈련 반복 횟수
    batch_size=32,           # 배치 크기
    validation_split=0.2,    # 검증 데이터 비율
    verbose=1                # 훈련 과정 출력
)

# 5. 모델 평가
print("\n=== 모델 평가 ===")
test_loss, test_mae = model.evaluate(X_test_scaled, y_test, verbose=0)
print(f"테스트 손실 (MSE): {test_loss:.2f}")
print(f"테스트 MAE: {test_mae:.2f}")

# 6. 예측
y_pred = model.predict(X_test_scaled)

# R² Score 계산
from sklearn.metrics import r2_score
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.3f}")

# 7. 결과 시각화
plt.figure(figsize=(12, 4))

# 훈련 과정
plt.subplot(1, 3, 1)
plt.plot(history.history['loss'], label='훈련 손실')
plt.plot(history.history['val_loss'], label='검증 손실')
plt.title('훈련 과정')
plt.xlabel('Epoch')
plt.ylabel('손실')
plt.legend()

# 예측 결과
plt.subplot(1, 3, 2)
plt.scatter(X_test, y_test, alpha=0.6, label='실제값')
plt.scatter(X_test, y_pred, alpha=0.6, label='예측값')
plt.title('예측 결과')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()

# 실제 vs 예측
plt.subplot(1, 3, 3)
plt.scatter(y_test, y_pred, alpha=0.6)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.title('실제 vs 예측')
plt.xlabel('실제값')
plt.ylabel('예측값')

plt.tight_layout()
plt.show()

### **[실습] 선형회귀 실습하기**

#### **1) 데이터 구성하기**

In [None]:
# 라이브러리 불러오기 (numpy, matplotlib)
import numpy as np
import matplotlib.pyplot as plt

# 렌덤 시드 고정
np.random.seed(2024)

In [None]:
# x는 1~10, y = 4*x+7인 학습 데이터 생성하기
x = []
y = []
for i in range(1,11):
    x.append(i)
    y.append(4*i+7)

In [None]:
x = list(range(1,11))
y = [4*i+7 for i in x]

In [None]:
# 데이터 확인하기
print('x : ', x)
print('y : ', y)

#### **2) 선형회귀 학습 하기**

In [None]:
# 선형회귀 라이브러리 불러오기
from sklearn.linear_model import LinearRegression
# 선형회귀 생성하기
reg = LinearRegression()

In [None]:
# 학습을 위해 1행10열 구성 데이터를 10행 1열로 변경하기
# 사이킷런은 ndarray 타입을 input으로 받는다.
x = np.array(x).reshape(-1, 1)

# 데이터 확인하기
print("학습 데이터 확인")
print('x :' ,x)
print('x.shape : ', x.shape)

In [None]:
# 학습하기
reg.fit(x,y)

In [None]:
# 산식 추정을 위한 기울기(coef) 및 절편(intercept) 확인하기
print(f'''기울기 및 절편 확인 coef = {reg.coef_}, intercept = {reg.intercept_} ''')

In [None]:
# 절편과 기울기로 결과를 수동 계산하여 비교값 생성하기
coef_intercept = x * reg.coef_[0] + reg.intercept_
print("계산 결과")
print(coef_intercept)

#### **3) 결과 비교를 위해 그래프 그리기**

In [None]:
# scatter plot 그래프그리기
plt.scatter(x, y, color = 'r', s = 20)
# 선 그래프 그리기
plt.plot(x, coef_intercept, color = 'orange')
# coef 값 그래프 내에 텍스트 삽입하기
plt.text(7, 20, 'coef = %.0f'%reg.coef_[0], size = 12)
# intercept 값 그래프 내에 텍스트 삽입하기
plt.text(7, 18, 'intercept_ = %.0f'%reg.intercept_, size = 12)
# x축(가로) label 설정하기
plt.xlabel('x')
# y축(세로) label 설정하기
plt.ylabel('y')
plt.show()

### **[실습] 사례기반 선형회귀 모델링**

#### **1) 데이터 전처리하기**

In [None]:
# 판다스 라이브러리 불러오기
import pandas as pd

In [None]:
# 데이터 불러오기
df = pd.read_csv("국민건강보험공단_건강검진정보_20211229.CSV", encoding='cp949')

In [None]:
# pandas display 옵션 조정을 통해 View 범위 확장하기
pd.set_option('display.max_columns', None) # display 옵션을 통한 전체 열 확장

In [None]:
# 데이터 확인하기 (상위 5개)
df.head()

In [None]:
# 가설을 참고하여 데이터 일부 삭제하기
# 시력, 청력, 치아 관련 칼럼은 관계없다는 가정으로 열 제거하기
df.drop(["치아우식증유무", '치석','시력(좌)', '시력(우)', '청력(좌)',  '청력(우)', '구강검진 수검여부'], axis=1, inplace=True)

In [None]:
# 기준년도 칼럼 확인하기 (모두 '2020' 동일 값이므로 '기준년도' 칼럼 삭제)
print("기준년도 칼럼 확인")
df.기준년도.value_counts()

In [None]:
# 가입자 일련번호 칼럼 확인하기 (모두 unique한 값으로 확인되어 '가입자 일련번호' 컬럼 삭제)
print("가입자 일련번호 칼럼 확인")
df["가입자 일련번호"].value_counts()

In [None]:
# 성별코드 칼럼 확인하기
print("성별코드 칼럼 확인")
df.성별코드.value_counts()

In [None]:
# 불필요한 데이터 삭제하기
df.drop(["기준년도", '가입자 일련번호', '데이터 공개일자', '성별코드', '시도코드'], axis=1, inplace=True)

In [None]:
# 별도의 test 데이터 추출하기
test = df[df['LDL 콜레스테롤'].isnull()]

In [None]:
# NaN 데이터 행 단위로 삭제하기
train = df.dropna(axis=0)

In [None]:
# 학습 데이터 확인하기
print("학습 데이터 확인")
train.head(1)

In [None]:
# 정답 데이터 생성하기
y = train['LDL 콜레스테롤']

In [None]:
# 학습 데이터 생성하기
x = train.drop('LDL 콜레스테롤', axis=1)

In [None]:
# validation set 추출을 위한 train_test_split 라이브러리 불러오기
from sklearn.model_selection import train_test_split

In [None]:
# scikit learn 예시 코드 비율 대로 불러오기
X_train, X_test, y_train, y_test = train_test_split(
    x, y, test_size=0.33, random_state=42)

In [None]:
# 학습/검증 데이터 확인하기
print("학습/검증 데이터 확인")
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)

#### **2) 선형회귀 학습 및 추론하기**

In [None]:
# 1. 라이브러리 불러오기
from sklearn.linear_model import LinearRegression
# 2. 모델 생성하기
reg = LinearRegression()
# 3. 학습하기
reg.fit(X_train,y_train)
# 4. 예측하기
reg.predict(X_test)

In [None]:
# 기울기와 절편 확인하기
print(f'''기울기 및 절편 확인
기울기확인 coef = {reg.coef_}
절편확인 intercept = {reg.intercept_}''')

In [None]:
# 각각 데이터에 대해 가중치(or 회귀계수) 확인하기
print("전체 컬럼에 대해서 가중치 확인")
print('-'*30)
for index ,columns in enumerate(X_train.columns):
    print(f"{columns}(x{index}) = {reg.coef_[index]}")

#### **3) 예측을 통한 최종 검증하기**

In [None]:
# 예측하기
y_pred = reg.predict(X_test)

In [None]:
# 결과 검증을 위해 MSE 라이브러리 불러오기
# 최종적으로는 RMSE를 사용하기
from sklearn.metrics import mean_squared_error

In [None]:
# mse 라이브러리 에서 RMSE 는 squared 옵션을 False로 설정하기
rmse = mean_squared_error(y_test, y_pred)

In [None]:
# 주요 Feature 삭제 전 rmse 확인하기
print(f'''주요 Feature 삭제 전 rmse = {round(rmse,3)}''')

#### **4) 가중치의 의미 확인하기**

In [None]:
# 주요 Feature 삭제를 위해 칼럼명 재확인하기
train.columns

In [None]:
# 주요 Feature 삭제하기
x = x.drop(['총 콜레스테롤', '트리글리세라이드', 'HDL 콜레스테롤'],axis = 1)

In [None]:
# scikit learn 예시 코드 비율 대로 불러오기
X_train, X_test, y_train, y_test = train_test_split(
    x, y, test_size=0.33, random_state=42)

#### **5) 선형회귀 모델 재학습하기**

In [None]:
# 선형회귀 재생성 및 학습하기
lr = LinearRegression()
lr.fit(X_train,y_train)

In [None]:
# 각각 데이터에 대해 가중치(or 회귀계수) 확인하기
print(f'''coef
{lr.coef_}
intercept
{lr.intercept_}''')

#### **6) 가중치 비교하기**

In [None]:
# 검증 데이터로 예측하기
y_pred = lr.predict(X_test)

In [None]:
# 각각 데이터에 대해 가중치(또는 회귀계수) 확인하기
print("가중치 확인")
for index ,columns in enumerate(X_train.columns):
    print(f"{columns} = {reg.coef_[index]}")

In [None]:
# 주요 Feature 삭제 후 RMSE 확인하기
rmse_2 = mean_squared_error(y_test, y_pred)

In [None]:
# 가중치가 큰 특성을 삭제 했을 때 영향을 많이 받는지 확인하기
print(f'''주요 Feature 삭제 후 rmse = {round(rmse_2,3)}''')



---

