<a href="https://colab.research.google.com/github/zzzzzuuuuu/big-data-analytics/blob/main/Logistic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 로지스틱 회귀 (선형모델을 이용한 지도학습)
## 로지스틱 회귀 모델
### 분류 문제를 해결
- 이산적인 값을 갖는 목적 변수에 대해 피쳐와 목적변수 사이의 관계를 찾아냄
- **분류**를 해결하기 위한 가장 기본적인 머신러닝 해결법
- 목적 변수가 이산적인 상황(2개, 혹은 2개 이상)
- **회귀**에서는 (x, y)에 대해 가설함수 h(x)와 y의 차이에 대해 제곱 합을 최소화하는 문제를 해결

*가설함수: 주어진 데이터에 대해 목적변수를 유추하는 함수

### 이진 로지스틱 회귀, 다중 로지스틱 회귀
- 이진 분류 문제를 고려 ➡️ 이진 로지스틱 회귀
- 다중 분류 문제 ➡️ 다중 로지스틱 회귀
- 우선, 클래스 A/B로 이루어진 이진 로지스틱 회귀 고려

### 이진 로지스틱 회귀
- 목적변수가 A라면 1, B라면 0으로 고려
- 주어진 피쳐 x에 대해, A가 될 확률을 p라고 하면 B가 될 확률은 1-p
- **x와 p사이의 관계를 선형 함수를 통해 얻어내는 방법**

ex. 임의의 x에 대해 p가 0.5보다 크면 A로 분류, 작으면 B로 분류

### 선형 함수를 어떻게 활용할 수 있을까?
- Remind) 선형회귀는 (x, y)에 대해 가설함수를 선형함수 h(x)로 모델링하여 실제 y와 h(x)사이의 제곱합이 작도록 하는 방법
- 주어진 피쳐 x에 대해 확률 p를 얻어내기 위해 y를 어떻게 고려?
  - 0과 1을 직접적으로 선형회귀한다면?
  - ㄴ x에 따라 음수의 확률이 나올 수 있으므로 부적절.
- 주어진 피쳐 x에 대해 p를 얻어내기 위해 y를 어떻게 고려해야할까?
  - 로지스틱 회귀는 선형 관계로 logit을 모델링하고, 여기에 sigmoid 함수를 적용하여 분류

### 로지스틱 회귀 모델
- 가설함수는 선형함수를 통해 로짓(logit)을 얻고, 시그모이드(sigmoid) 함수를 적용
- **교차 엔트로피(cross entropy)**라는 새로운 거리 측정법을 통해 좋은 모델인지 아닌지의 기준을 삼음

### 로짓(Logit)
- 어떤 확률 p에 대해 로짓이란 아래와 같음
  - p가 0일 때 -> 음의 무한대,
  - p가 1일 때 -> 양의 무한대의 값을 가짐
  - 선형으로 표현하기에 굿

### 시그모이드(Sigmoid) 함수
- 로짓 함수의 역함수로서, 그래프가 s자 (0~1)

### 로짓과 시그모이드의 관계
- 역함수 관계
- 선형함수로 관계를 찾기에 더 적합한 로짓을 선형함수로 모델링하고,
- 시그모이드 함수를 적용하여 원래 차원으로 돌아감.

### 비용함수를 어떻게 삼을 것인지?
*비용함수: 한 개의 데이터에 대해 가설함수 결과(예측 값)과 실제 값의 차이
- h(x)가 좋은 가설함수인지를 판단하기 위해서는 학습 데이터셋을 통해 잘 학습되어야 함
  - h는 0~1 사이의 값을 가져야 함
  - y는 0 or 1의 값을 가져야 함
  - h와 y가 비슷한 값을 가질 수록 좋은 h

  => **교차 엔트로피**를 활용하자!

### 교차 엔트로피 (cross entropy)
- 두 확률 분포의 차이를 측정하는 대표적인 방법
- 이 값이 크면 크게 다른 분포, 낮으면 비슷한 분포임을 의미
- 클래스가 2개인 이진 로지스틱회귀의 경우 두 분포의 거리 측정

### 로지스틱 회귀에서의 손실함수와 비용함수
- 이진 교차 엔트로피를 활용하여 아래와 같이 정의 *p.14
- 손실함수의 경사(gradient) 계산 *p.14

### 로지스틱 회귀 코드 - #1
- breast_cancer 데이터를 적용해서 로지스틱 회귀 성능 확인해보기
- LogisticRegression 클래스를 통해 로지스틱 회귀 적용해보기
  - scikit-learn에서 제공되는 LogisticRegression 함수
  - LogisticRegression 객체 생성
    - fit, predict를 통해 예측 결과 얻음
    - solver 옵션에 따라 다양한 방법으로 진행 가능
  - parameter, attribute, method

In [1]:
import numpy as np
import matplotlib.pyplot as plt

## 1. LogisticRegression 클래스 사용

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

X, y = load_breast_cancer(return_X_y=True, as_frame=True) # as_frame이 True이므로 pandas DataFrame으로 변형

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)

X_train = X_train.iloc[:, :3]
X_test = X_test.iloc[:, :3]

X_train

Unnamed: 0,mean radius,mean texture,mean perimeter
470,9.667,18.49,61.49
484,15.730,11.28,102.80
509,15.460,23.95,103.80
271,11.290,13.04,72.23
384,13.280,13.72,85.79
...,...,...,...
279,13.850,15.18,88.99
372,21.370,15.10,141.30
204,12.470,18.60,81.09
53,18.220,18.70,120.30


In [9]:
y_train

Unnamed: 0,target
470,1
484,1
509,0
271,1
384,1
...,...
279,1
372,0
204,1
53,0


In [19]:
# C는 규제 강도를 제어하는 역수로, C가 작을수록 규제가 강해짐 (과소적합 가능성 UP), C=100이면 규제가 거의 없는 상태
# solver='lbfgs'는 최적화알고리즘을 설정하는 것으로, 기본 solver값 (정확도, 성능 굿)
clf = LogisticRegression(random_state=1234, max_iter=100, C=100, solver='lbfgs') # 로지스틱회귀 객체 생성

clf = clf.fit(X_train, y_train)
y_pred = clf.predict(X_train)
y_pred_test = clf.predict(X_test)

# 실제 값(y_train)과 예측 값(y_pred)가 같은지 확인(1, 0으로 계산)후 정확도 비율 계산
print(f"학습 데이터셋 정확도: {(y_train == y_pred).sum() / len(y_train) * 100: .2f}%")
print(f"테스트 데이터셋 정확도: {(y_test == y_pred_test).sum() / len(y_test) * 100: .2f}%")

학습 데이터셋 정확도:  93.18%
테스트 데이터셋 정확도:  87.23%


In [20]:
# 가중치, 절편, ... 등등..
clf.coef_, clf.intercept_, clf.n_features_in_, clf.n_iter_

(array([[ 8.63354352, -0.27382884, -1.47585863]]),
 array([19.85290223]),
 3,
 array([45], dtype=int32))

In [23]:
clf = LogisticRegression(random_state=1234, max_iter=10000, C=100, solver='sag')

clf = clf.fit(X_train, y_train)
y_pred = clf.predict(X_train)
y_pred_test = clf.predict(X_test)

print(f"학습 데이터셋 정확도: {(y_train == y_pred).sum() / len(y_train) * 100: .2f}%")
print(f"테스트 데이터셋 정확도: {(y_test == y_pred_test).sum() / len(y_test) * 100: .2f}%")

학습 데이터셋 정확도:  92.39%
테스트 데이터셋 정확도:  86.17%


In [24]:
clf.coef_, clf.intercept_, clf.n_features_in_, clf.n_iter_

(array([[ 4.71308493, -0.00534137, -0.77250937]]),
 array([5.07447802]),
 3,
 array([3866], dtype=int32))

### tips 예시

In [26]:
import pandas as pd

In [27]:
tips = pd.read_csv("./tips.csv")
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.5,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4


### total bill과 tip을 통해, smoker를 분류하는 로지스틱 회귀 모델을 학습하고 성능 확인하기

In [29]:
# X(입력 데이터)는 total bill과 tip, y(타겟 변수)는 smoker
X_train, X_test, y_train, y_test = train_test_split(tips.iloc[:, :2], tips.iloc[:, 2], test_size=0.33, random_state=1234)

In [40]:
# 모든 입력데이터들의 평균이 0, 표준편차가 1이 되도록 데이터 표준화 (스케일링 전처리 과정)

from sklearn.preprocessing import StandardScaler # 표준 스케일러
scaler = StandardScaler()
scaler.fit(X_train) # transform을 진행하기 위해 fit을 통해 주어진 데이터를 통해 평균, 분산 계산

X_train_scaled = scaler.transform(X_train) # 스케일링
X_test_scaled = scaler.transform(X_test) # 스케일링, 테스트 데이터는 학습에 포함되지 않으므로 fit X

In [32]:
clf = LogisticRegression(random_state=1234, max_iter=10000, C=1000, solver='sag')

In [38]:
clf = clf.fit(X_train_scaled, y_train)
y_pred = clf.predict(X_train_scaled)
y_pred_test = clf.predict(X_test_scaled)

print(f"학습 데이터셋 정확도: {(y_train == y_pred).sum() / len(y_train) * 100: .2f}%")
print(f"테스트 데이터셋 정확도: {(y_test == y_pred_test).sum() / len(y_test) * 100: .2f}%")

학습 데이터셋 정확도:  61.96%
테스트 데이터셋 정확도:  61.73%


In [41]:
clf.coef_, clf.intercept_, clf.n_features_in_, clf.n_iter_

(array([[0.05740051, 0.01046315]]),
 array([-0.4884633]),
 2,
 array([34], dtype=int32))

### total bill과 tip을 통해, day를 분류하는 로지스틱 회귀 모델을 학습하고 성능 확인하기 (Thur vs. Sun)

In [46]:
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.5,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4


In [47]:
tips_selected = tips.loc[(tips.day=="Sun") | (tips.day=="Thur"), :]
tips_selected

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.50,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4
...,...,...,...,...,...,...
202,13.00,2.00,Yes,Thur,Lunch,2
203,16.40,2.50,Yes,Thur,Lunch,2
204,20.53,4.00,Yes,Thur,Lunch,4
205,16.47,3.23,Yes,Thur,Lunch,3


In [50]:
X_train, X_test, y_train, y_test = train_test_split(tips_selected.iloc[:, :2], tips_selected.iloc[:, 3], test_size=0.33, random_state=1234 )

In [51]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [52]:
clf = LogisticRegression(random_state=1234, max_iter=10000, C=1000, solver='sag')

In [57]:
clf = clf.fit(X_train_scaled, y_train)
y_pred = clf.predict(X_train_scaled)
y_pred_test = clf.predict(X_test_scaled)

print(f"학습 데이터셋 정확도: {(y_train == y_pred).sum() / len(y_train) * 100: .2f}%")
print(f"테스트 데이터셋 정확도: {(y_test == y_pred_test).sum() / len(y_test) * 100: .2f}%")

학습 데이터셋 정확도:  67.39%
테스트 데이터셋 정확도:  60.87%


### iris data set에서 target중 0과 1인 데이터에 대해서만 로지스틱 회귀 분류를 통해 정확도 확인하기


In [83]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

X, y = load_iris(return_X_y=True, as_frame=True) # 데이터프레임으로

In [84]:
X = X.loc[(y == 0) | (y == 1), :]
y = y[(y == 0) | (y == 1)]

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.33,random_state=1234)

In [86]:
clf = LogisticRegression(random_state=1234, max_iter=100, C=100, solver='lbfgs')

clf = clf.fit(X_train, y_train)
y_pred = clf.predict(X_train)
y_pred_test = clf.predict(X_test)

print(f"학습 데이터셋 정확도: {(y_train == y_pred).sum() / len(y_train) * 100: .2f}%")
print(f"테스트 데이터셋 정확도: {(y_test == y_pred_test).sum() / len(y_test) * 100: .2f}%")

학습 데이터셋 정확도:  100.00%
테스트 데이터셋 정확도:  100.00%


### digits data set에서 target중 0과 7인 데이터에 대해서만 로지스틱 회귀 분류를 통해 정확도 확인하기

In [89]:
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

X, y = load_digits(return_X_y=True, as_frame=True)

In [90]:
X = X.loc[(y==0)|(y==7), :]
y = y[(y==0)|(y==7)]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)

In [91]:
clf = LogisticRegression(random_state=1234, max_iter=100, C=100, solver='lbfgs')

clf = clf.fit(X_train, y_train)
y_pred = clf.predict(X_train)
y_pred_test = clf.predict(X_test)

print(f"학습 데이터셋 정확도: {(y_train == y_pred).sum() / len(y_train) * 100: .2f}%")
print(f"테스트 데이터셋 정확도: {(y_test == y_pred_test).sum() / len(y_test) * 100: .2f}%")

학습 데이터셋 정확도:  100.00%
테스트 데이터셋 정확도:  100.00%
