# 머신러닝 - 로지스틱 회귀 - 다중분류

**2019-2023 [FinanceData.KR]()**

## LogisticRegression
LogisticRegression(C=1.0, max_iter=100)
* C: 규제(L2)강도의 역수(클수록 규제가 느슨)
* max_iter:반복회수(무한루프 방지)

In [None]:
from sklearn.datasets import make_blobs
from sklearn.linear_model import LogisticRegression

# 데이터 생성
X, y = make_blobs(n_samples=150, n_features=2, centers=3, cluster_std=2.0, shuffle=True, random_state=0)

# Logistic Regression 모델 훈련
lr = LogisticRegression(C=10, max_iter=200)
lr.fit(X, y)

In [None]:
print(lr.coef_)
print(lr.intercept_)

In [None]:
#@title 결정 경계 시각화
import numpy as np
import matplotlib.pyplot as plt

x1_min, x1_max = X[:, 0].min() - 1, X[:, 0].max() + 1
x2_min, x2_max = X[:, 1].min() - 1, X[:, 1].max() + 1
x1_range = np.linspace(x1_min, x1_max, 100)
x2_range = np.linspace(x2_min, x2_max, 100)
x1_grid, x2_grid = np.meshgrid(x1_range, x2_range)
X_grid = np.column_stack((x1_grid.ravel(), x2_grid.ravel()))
y_pred_grid = lr.predict(X_grid)
y_pred_grid = y_pred_grid.reshape(x1_grid.shape)

# 데이터 및 결정 경계 시각화
plt.figure()
plt.contourf(x1_grid, x2_grid, y_pred_grid, cmap='viridis', alpha=0.3)
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis', edgecolors='k')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Decision Boundary Visualization with Logistic Regression')
plt.colorbar(label='y')
plt.show()


In [None]:
## 예측해보기
lr.predict(X[:5])

In [None]:
## 계수 확인
lr.coef_, lr.intercept_

In [None]:
# 계수(coef)의 shape
lr.coef_.shape # class=3, feature=2

In [None]:
## 확률값 확인(1)
lr.predict_proba(X[:5])

In [None]:
## 확률값 확인(2)
import pandas as pd

prob = pd.DataFrame(lr.predict_proba(X), columns=['Class 0', 'Class 1', 'Class 2'])
prob[:10] # 처음 10건

In [None]:
prob.sum(axis=1) # 개별 class 확률의 합은 항상 1

## 불확실성 계측(확률값 확인)

In [None]:
decisions = lr.decision_function(X[:5]) # 5건만 확인
decisions

양성 확률 구하기
* 다중분류의 경우 softmax 함수 사용
* 이진분류의 경우 sigmoid(=logistic) 함수 사용


In [None]:
import scipy

pd.DataFrame(scipy.special.softmax(decisions, axis=1))

**2019-2023 [FinanceData.KR]()**