### ↓ 통계적 모형을 활용한 분석 (statsmodels)


In [1]:
import pandas as pd
import random
# statsmodels의 formula api
import statsmodels.formula.api as smf

# 난수 시드 설정.
random.seed(1)

X = list(range(1, 11))
y = [2*x + 1 + random.gauss(0, 1) for x in X]
data = pd.DataFrame({'X': X, 'y': y})

# OLS(최소 제곱법) 선형 회귀 모델 생성 및 학습.
# y: 종속 변수, X: 독립 변수. (하단 '~(틸다)'기준으로 왼쪽이 종속 변수, 오른쪽이 독립 변수.)
model = smf.ols(formula='y ~ X', data=data).fit()    # 선형 회귀 모델을 OLS 방법으로 생성. 학습을 위해 'fit()'함수 사용.

# 모델 요약 결과 출력.
print(model.summary())

'''
R-squared(결정계수): 해당 값이 1에 가까울수록 모델이 정확하게 데이터를 묘사했다는 의미.
'''

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.977
Model:                            OLS   Adj. R-squared:                  0.975
Method:                 Least Squares   F-statistic:                     345.0
Date:                Thu, 04 Dec 2025   Prob (F-statistic):           7.28e-08
Time:                        13:16:44   Log-Likelihood:                -12.020
No. Observations:                  10   AIC:                             28.04
Df Residuals:                       8   BIC:                             28.65
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      1.7622      0.615      2.866      0.0

### ↓ 기계학습을 활용한 분석 (scikit-learn)

In [2]:
# scikit-learn의 앙상블(ensemble) 알고리즘 중 RandomForestClassifier(랜덤포레스트 분류기)
from sklearn.ensemble import RandomForestClassifier
# 모델 평가를 위한 데이터 분할(split) 함수.
from sklearn.model_selection import train_test_split
# 모델의 정확도(accuracy)르르 측정하는 함수.
from sklearn.metrics import accuracy_score
# 예제 데이터셋(유방암 데이터) 로드 함수.
from sklearn.datasets import load_breast_cancer

# 데이터 로드 및 분할.
cancer = load_breast_cancer()
X, y = cancer.data, cancer.target

# 학습/테스트 데이터셋 분할.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 랜덤 포레스트 모델 생성.
model = RandomForestClassifier()
# 모델 학습. (입력 데이터, 결과 데이터)
model.fit(X_train, y_train)

# 예측 및 정확도 평가.
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(accuracy)

'''
accuracy: 사용한 성능 평가.
96%의 정확도를 보임.
'''

0.9649122807017544
