오즈 비(Odds ratio)는 통계학에서 사용되는 개념으로, 두 사건 간의 상대적인 발생 확률을 나타냅니다. 주로 이항 분포나 로지스틱 회귀 모델 등에서 사용되며, 두 가지 카테고리로 나뉜 사건의 발생 확률을 비교하는 데 사용됩니다.

오즈 비는 다음과 같이 정의됩니다:

$$
\text{Odds Ratio} = \frac{{\text{Odds of event 1}}}{{\text{Odds of event 2}}}
$$

여기서, "Odds of event 1"은 이벤트 1이 발생할 확률과 발생하지 않을 확률의 비율을 의미하며, "Odds of event 2"는 이벤트 2가 발생할 확률과 발생하지 않을 확률의 비율을 의미합니다.

오즈 비가 1보다 크면 이벤트 1의 발생이 이벤트 2의 발생보다 더 높은 확률을 의미합니다. 오즈 비가 1보다 작으면 이벤트 2의 발생이 이벤트 1의 발생보다 더 높은 확률을 의미합니다. 오즈 비가 1이면 두 사건의 발생 확률이 서로 동일합니다.

오즈 비는 주로 효과 크기나 관련성을 비교하는 데 사용됩니다. 예를 들어, 치료 그룹과 대조 그룹 간의 치료 효과를 비교하거나, 두 가지 변수 간의 관련성을 파악하는 데에 활용될 수 있습니다.

로지스틱 회귀(Logistic Regression)는 분류 문제를 다루는 데에 사용되는 통계적인 기법 중 하나입니다. 이름은 회귀(regression)가 들어가지만, 실제로는 분류(classification) 알고리즘으로 사용됩니다. 이 알고리즘은 입력 특성(feature)을 사용하여 이진 분류(binary classification)를 수행합니다. 이진 분류는 두 개의 클래스 중 하나를 선택하는 문제를 의미합니다.

로지스틱 회귀의 기본 아이디어는 입력 특성과 각 클래스 사이의 선형 관계를 모델링하는 것입니다. 로지스틱 회귀는 선형 회귀와 유사하게 입력 특성에 대한 가중치(weight)와 편향(bias)을 학습합니다. 그러나 로지스틱 회귀의 출력은 로지스틱 함수 또는 시그모이드 함수(sigmoid function)를 통과합니다. 시그모이드 함수는 0과 1 사이의 값을 출력하며, 이를 클래스의 확률로 해석할 수 있습니다.

로지스틱 회귀는 주로 이진 분류 문제를 다루지만, 여러 개의 클래스를 분류하는 다중 클래스 분류(multiclass classification) 문제에도 확장될 수 있습니다. 다중 클래스 분류에서는 일대다(one-vs-rest) 또는 일대일(one-vs-one) 전략을 사용하여 각 클래스를 다른 클래스와 구별하도록 모델을 학습합니다.

로지스틱 회귀는 간단하고 해석하기 쉬우며, 데이터가 선형적으로 구분될 때 잘 작동합니다. 또한, 로지스틱 회귀는 기본적인 분류 문제를 다루는 데에 많이 사용되며, 이를 기반으로 다양한 확장된 모델들이 개발되었습니다.

로지스틱 회귀의 함수식은 다음과 같습니다. 이는 로지스틱 함수 또는 시그모이드 함수(sigmoid function)로 표현됩니다.

로지스틱 함수는 입력값의 범위를 0과 1 사이로 압축하는 비선형 함수로, 이진 분류에서 각 클래스의 확률을 추정하는 데에 사용됩니다.

로지스틱 함수의 수식은 다음과 같습니다:

$$
\sigma(x) = \frac{1}{1 + e^{-x}}
$$

여기서 \(x\)는 입력값이며, $\sigma(x)$는 해당 입력값에 대한 로지스틱 함수의 출력값입니다. \(e\)는 자연상수(euler's number)로 약 2.718의 값을 갖습니다.

로지스틱 함수의 특징은 다음과 같습니다:
- 입력값이 음의 무한대에 가까워지면 출력값은 0에 가까워집니다.
- 입력값이 양의 무한대에 가까워지면 출력값은 1에 가깝습니다.
- 입력값이 0일 때, 출력값은 0.5가 됩니다.

로지스틱 함수는 선형 회귀의 결과를 0과 1 사이의 값으로 변환하여 확률값으로 해석할 수 있게 합니다. 따라서 로지스틱 회귀는 이진 분류에서 각 클래스의 확률을 추정하는 데에 사용됩니다.

In [None]:
import numpy as np

x_data = np.array([[1, 2], [2, 3], [3, 1], [4, 3], [5, 3], [6, 2]])
y_data = np.array([0, 0, 0, 1, 1, 1])

In [None]:
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression().fit(x_data, y_data)
print(clf.coef_)
print(clf.intercept_)

[[1.08671177 0.45797507]]
[-4.87989555]


In [None]:
import statsmodels.api as sm

x_data_1 = sm.add_constant(x_data)
log_reg = sm.Logit(y_data, x_data_1).fit()

         Current function value: 0.000000
         Iterations: 35




In [None]:
log_reg.summary()

0,1,2,3
Dep. Variable:,y,No. Observations:,6.0
Model:,Logit,Df Residuals:,3.0
Method:,MLE,Df Model:,2.0
Date:,"Thu, 11 Apr 2024",Pseudo R-squ.:,1.0
Time:,02:15:00,Log-Likelihood:,-1.037e-08
converged:,False,LL-Null:,-4.1589
Covariance Type:,nonrobust,LLR p-value:,0.01563

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
const,-87.7065,4.49e+04,-0.002,0.998,-8.82e+04,8.8e+04
x1,19.6419,1.33e+04,0.001,0.999,-2.61e+04,2.61e+04
x2,9.4922,1.02e+04,0.001,0.999,-2e+04,2e+04


In [None]:
import torch
import torch.nn as nn
import torch.optim as optim


로지스틱 회귀에서 교차 엔트로피 손실 함수는 모델의 예측과 실제 클래스 간의 차이를 측정하여 모델을 학습하는 데에 사용됩니다. 이를 통해 모델이 이진 분류(binary classification) 문제에서 클래스를 올바르게 분류하도록 학습됩니다.

로지스틱 회귀에서는 입력 변수의 선형 조합을 로지스틱 함수(시그모이드 함수)에 적용하여 확률을 출력하고, 이 확률을 기반으로 클래스를 예측합니다. 그리고 예측된 확률과 실제 클래스 간의 차이를 최소화하기 위해 교차 엔트로피 손실 함수를 최소화하는 방향으로 모델의 가중치(weight)와 편향(bias)을 조정합니다.

로지스틱 회귀에서 이진 교차 엔트로피(binary cross-entropy) 손실 함수는 다음과 같이 정의됩니다:

$$
\text{Binary Cross-Entropy Loss} = -\frac{1}{N} \sum_{i=1}^{N} [y_i \log(p_i) + (1 - y_i) \log(1 - p_i)]
$$

여기서 \(y_i\)는 실제 클래스, \(p_i\)는 모델이 예측한 클래스의 확률을 나타냅니다.

로지스틱 회귀 모델을 학습할 때는 이 손실 함수를 최소화하는 방향으로 모델의 파라미터를 업데이트합니다. 이를 위해 일반적으로 경사 하강법(gradient descent)이 사용됩니다. 경사 하강법을 통해 손실 함수의 기울기를 계산하고, 기울기의 반대 방향으로 파라미터를 조정하여 손실을 최소화합니다.

따라서 로지스틱 회귀 모델은 교차 엔트로피 손실 함수를 통해 학습되며, 이를 통해 이진 분류 문제에서 클래스를 예측하고 분류합니다.

In [None]:
torch.manual_seed(123)

<torch._C.Generator at 0x7940e859d9d0>

In [None]:
x_train = torch.FloatTensor(x_data)
y_train = torch.LongTensor(y_data)

In [None]:
class NetModel(nn.Module):
  def __init__(self):
    super().__init__()
    self.linear = nn.Linear(2, 2)

  def forward(self, x):
    return self.linear(x)

In [None]:
model = NetModel()
criterian = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=1e-2)

In [None]:
model(x_train)

tensor([[-0.8440,  0.7005],
        [-1.1089,  0.6159],
        [-1.4441, -0.2686],
        [-1.6856, -0.0864],
        [-1.9739, -0.4376],
        [-2.2857, -1.0555]], grad_fn=<AddmmBackward0>)

In [None]:
n_epoch = 20
for epoch in range(1, n_epoch+1):
  hypothesis = model(x_train)

  loss = criterian(hypothesis, y_train)

  optimizer.zero_grad()
  loss.backward()
  optimizer.step()

  print(f"{epoch}번째 loss 출력: {loss.item()}")

1번째 loss 출력: 0.7912620902061462
2번째 loss 출력: 0.7890289425849915
3번째 loss 출력: 0.7868162989616394
4번째 loss 출력: 0.7846238017082214
5번째 loss 출력: 0.7824512124061584
6번째 loss 출력: 0.7802982330322266
7번째 loss 출력: 0.7781646847724915
8번째 loss 출력: 0.7760502696037292
9번째 loss 출력: 0.7739548087120056
10번째 loss 출력: 0.7718780636787415
11번째 loss 출력: 0.769819974899292
12번째 loss 출력: 0.7677801251411438
13번째 loss 출력: 0.7657585144042969
14번째 loss 출력: 0.7637550234794617
15번째 loss 출력: 0.7617692351341248
16번째 loss 출력: 0.7598010897636414
17번째 loss 출력: 0.7578504681587219
18번째 loss 출력: 0.7559171319007874
19번째 loss 출력: 0.7540009617805481
20번째 loss 출력: 0.7521018385887146
