# 04-1. 로지스틱 회귀

- k-neighbors algorithm (KNN, k-최근접 이웃 알고리즘) 을 먼저 시행해보고, `로지스틱회귀`가 필요한 계산임을 알아보자

In [2]:
import pandas as pd

df = pd.read_csv('data/Fish.csv')

In [6]:
df['Species'].unique()
# 이 요소 안에 중복되는 값 없이 확인 가능 (.unique())

array(['Bream', 'Roach', 'Whitefish', 'Parkki', 'Perch', 'Pike', 'Smelt'],
      dtype=object)

In [9]:
df.head()
# 일단 내가 가진 데이터프레임의 속성을 확인하자

Unnamed: 0,Species,Weight,Length1,Length2,Length3,Height,Width
0,Bream,242.0,23.2,25.4,30.0,11.52,4.02
1,Bream,290.0,24.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,23.9,26.5,31.1,12.3778,4.6961
3,Bream,363.0,26.3,29.0,33.5,12.73,4.4555
4,Bream,430.0,26.5,29.0,34.0,12.444,5.134


In [10]:
# 필요한 (사용할) 속성들만 뽑아내자
fish_input = df[['Weight', 'Length2', 'Length3', 'Height', 'Width']]
fish_input.head()

Unnamed: 0,Weight,Length2,Length3,Height,Width
0,242.0,25.4,30.0,11.52,4.02
1,290.0,26.3,31.2,12.48,4.3056
2,340.0,26.5,31.1,12.3778,4.6961
3,363.0,29.0,33.5,12.73,4.4555
4,430.0,29.0,34.0,12.444,5.134


In [11]:
fish_target = df[['Species']]
# 여기까지 필요한 데이터가 준비되었다.

In [12]:
# fish_input 과 fish_target (학습용, 테스트용) 데이터를 나누자.
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = \
train_test_split(fish_input, fish_target)

In [16]:
# k-최근접이웃알고리즘
# 이 알고리즘은 거리에 영향을 많이 받는다. 
# 내가 정한 속성들의 스케일이 다르다 (e.g. weight 는 242, length2 는 23 정도니까...)

# 그 거리를 비슷하게 만들어 주자. 

from sklearn.preprocessing import StandardScaler


ss = StandardScaler()
ss.fit(train_input)

train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)



In [23]:
from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier()
kn.fit(train_scaled, train_target)
# k최근접이웃 알고리즘을 사용해보자

print(kn.score(train_scaled, train_target))
print(kn.score(test_scaled, test_target))
# 성능이 그다지 좋지 않은 것을 확인함. 

# 어떤 원리로 이 알고리즘이 작동하는가? 
# 어떤 확률로 이러한 계산을 했을까? 를 알아야한다. 

0.8487394957983193
0.825


  return self._fit(X, y)


In [28]:
kn.predict(test_scaled)
# 어떻게 예측을 했는지 살펴봐보자. 
# 어떠한 근거로 각 데이터의 생선이 각각의 종이라고 예측했을까?

array(['Bream', 'Perch', 'Perch', 'Perch', 'Pike', 'Smelt', 'Pike',
       'Pike', 'Perch', 'Perch', 'Bream', 'Perch', 'Perch', 'Perch',
       'Perch', 'Parkki', 'Perch', 'Perch', 'Pike', 'Perch', 'Perch',
       'Pike', 'Parkki', 'Perch', 'Perch', 'Bream', 'Bream', 'Smelt',
       'Parkki', 'Perch', 'Perch', 'Pike', 'Perch', 'Bream', 'Perch',
       'Bream', 'Perch', 'Perch', 'Perch', 'Perch'], dtype=object)

In [24]:
kn.predict_proba(test_scaled)
# 이 데이터가 위 (predict) 에 대한 근거 -> 생선의 종을 예측

array([[1. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0. , 0. , 0.2],
       [0. , 0. , 0.6, 0. , 0.4, 0. , 0. ],
       [0. , 0. , 0.4, 0. , 0.2, 0.4, 0. ],
       [0. , 0. , 0. , 1. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 1. , 0. ],
       [0. , 0. , 0. , 1. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 1. , 0. , 0. , 0. ],
       [0.2, 0. , 0.6, 0. , 0. , 0. , 0.2],
       [0. , 0. , 0.8, 0. , 0. , 0. , 0.2],
       [1. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0.6, 0. , 0.4, 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0.2, 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0. , 0. , 0.2],
       [0. , 0. , 1. , 0. , 0. , 0. , 0. ],
       [0.2, 0.8, 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0.6, 0. , 0.4, 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0.2, 0. , 0. ],
       [0. , 0. , 0. , 1. , 0. , 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0.2, 0. , 0. ],
       [0. , 0. , 0.6, 0. , 0.4, 0. , 0. ],
       [0. , 0. , 0. , 1. , 0. , 0. , 0. ],
       [0. , 0.8, 0.2, 0. , 0. ,

In [29]:
# 이 k-최근접 이웃 알고리즘은 단순히 그 주변의 값을 비교해서 확률이 그나마 높은 것을 예측해서 (내 주변에 몇명의 친구들이 있나요~~) 나의 데이터가 '무엇'일꺼라고 알려주는 것.

#
# => 조금 더 의미있는 확률을 뽑아보고자 '로지스틱 회귀' 를 할 것이다.

## 로지스틱 회귀는 이름은 회귀이지만 분류 모델이다. 
- (p.183)
- 이 알고리즘은 선형 회귀와 동일하게 선형 방정식을 학습한다.
```
 z = w1*x1 + w2*x2 + ... + wn*xn + b
 x1, x2, ..., xn: 입력 변수 (features), /
 w1, w2, ..., wn: 가중치 (weights),
 b: 편향 (bias), z: 선형 회귀 모델에서 계산되는 값.
```

하지만, 로지스틱 회귀에서는 이 값을 그대로 사용하지 않고 `시그모이드 함수`(sigmoid function)를 적용하여 `0~1` 의 확률 값으로 변환합니다.


> **정리**
> 
> ✅ **로지스틱 회귀**: 선형 회귀를 기반으로 하지만 출력을 확률 값으로 변환하여 이진 분류 문제를 해결하는 모델.  
> ✅ **시그모이드 함수**: 0과 1 사이의 값으로 변환하여 확률을 출력하고, 로지스틱 회귀에서 중요한 역할을 함.  
> ✅ **손실 함수(Log Loss)**를 사용하여 모델을 최적화하고, 경사 하강법을 통해 학습 진행.  
> ▶ **즉, 로지스틱 회귀 = 선형 회귀 + 시그모이드 함수 + 확률적 예측**


## 이진 분류 
- 도미 (Bream) 와 빙어 (Smelt)만 뽑아내서 비교를 해보자


In [45]:
train_scaled
# 필요한 데이터 속성들만을 넣고 섞어서 정규화까지 마친 데이터 

array([[ 1.21807206e+00,  7.45750575e-01,  9.17622785e-01,
         1.74066449e+00,  1.04147655e+00],
       [-8.25561588e-01, -9.37492556e-01, -1.00504291e+00,
        -8.70643050e-01, -6.30426066e-01],
       [-7.02943569e-01, -5.63438527e-01, -5.67293131e-01,
        -5.54726583e-01, -4.98965982e-01],
       [-7.16567794e-01, -5.16681773e-01, -5.07209828e-01,
        -5.73504757e-01, -6.28450097e-01],
       [-1.06480297e+00, -1.40506009e+00, -1.46854267e+00,
        -1.52987108e+00, -1.83100185e+00],
       [ 1.66767146e+00,  1.11980460e+00,  9.86289417e-01,
         7.31522329e-01,  1.77607225e+00],
       [-1.07897216e+00, -1.62949251e+00, -1.65737591e+00,
        -1.65265660e+00, -1.89341924e+00],
       [-1.71598822e-01, -1.42627744e-01,  1.63732410e-02,
         7.30850881e-01,  1.68388638e-01],
       [-1.01085104e+00, -1.33960064e+00, -1.39129271e+00,
        -1.24987710e+00, -1.39896195e+00],
       [-7.71064691e-01, -5.63438527e-01, -6.35959762e-01,
        -6.71983853e-01

In [37]:
# 도미와 빙어가 있는 target 데이터에서 도미와 빙어를 골라내자.
bream_smelt_indexes = (train_target == 'Bream') | (train_target == 'Smelt')

# 도미 이거나 (or |) 빙어인 데이터만이 True 로 반환됨 => 그리고 그 데이터를 `bream_smelt_indexes` 에 저장함

train_bs = train_scaled[bream_smelt_indexes['Species']]
target_bs = train_target[bream_smelt_indexes['Species']]

target_bs.head()
# 이진분류로 내가 필요한 데이터 2종 (bream, smelt)만 골라낸 상태.

Unnamed: 0,Species
28,Bream
156,Smelt
147,Smelt
2,Bream
149,Smelt


In [38]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(train_bs, target_bs)

  y = column_or_1d(y, warn=True)


In [39]:
lr.predict(train_bs[:5])

array(['Bream', 'Smelt', 'Smelt', 'Bream', 'Smelt'], dtype=object)

In [42]:
lr.predict_proba(train_bs[:5]).round(3)
# 결과값을 간단하게 보려고 round(3; 소수점 세자리까지) 반올림을 시켜서 출력함.

array([[0.999, 0.001],
       [0.042, 0.958],
       [0.027, 0.973],
       [0.953, 0.047],
       [0.034, 0.966]])

In [43]:
lr.coef_

array([[-0.43175108, -0.63953798, -0.72066116, -1.00978281, -0.79853041]])

🔹 `lr.coef_`의 의미

`lr.coef_`는 **시그모이드 함수가 적용되기 전의 선형 모델에서 각 특성이 얼마나 중요한지를 나타내는 계수(가중치)** 역할을 합니다.

---

`lr.coef_`의 해석 방법

- **📌 절댓값이 큰 계수** → 해당 특성이 결과에 강한 영향을 미침.  
- **➕ 양수(+) 계수** → 해당 특성이 증가할수록 `z` 값이 커지므로, **1에 가까운 확률(양성 클래스)** 에 기여.  
- **➖ 음수(-) 계수** → 해당 특성이 증가할수록 `z` 값이 작아지므로, **0에 가까운 확률(음성 클래스)** 에 기여.  


---
## 다중분류 (p.188)
- 생선 2종이 아니라 더 많은 생선 데이터로 `로지스틱회귀` 를 실행해보자

In [51]:
lr = LogisticRegression(C=20, max_iter=1000)
lr.fit(train_scaled, train_target)

print(lr.score(train_scaled, train_target))
print(lr.score(test_scaled, test_target))

0.9411764705882353
0.875


  y = column_or_1d(y, warn=True)


성능을 끌어올려보자.
C는 알파와 반대로 작을수록 규제가 커진다. 
```
lr = LogisticRegression(C=20, max_iter=1000)
```
C라는 매개변수의 값을 이리저리 조정해서 성능을 끌어 올릴 수 있다. (규제: `3-3`에서의 알파와 다름.)

In [58]:
lr.predict_proba(test_scaled[:5]).round(3)
# 다중분류에서 각 샘플이 7개의 클래스 중 어디에 속할 가능성이 높은지를 확률적으로 확인
# 소프트맥스 함수로 (자동으로) 감싸져서 (확률로써) 계산된 상태

array([[0.99 , 0.005, 0.   , 0.   , 0.   , 0.   , 0.005],
       [0.003, 0.   , 0.881, 0.002, 0.004, 0.   , 0.11 ],
       [0.   , 0.007, 0.529, 0.002, 0.444, 0.   , 0.017],
       [0.   , 0.003, 0.738, 0.   , 0.04 , 0.218, 0.   ],
       [0.   , 0.   , 0.001, 0.999, 0.   , 0.   , 0.   ]])

In [56]:
lr.coef_.shape
# (7, 5) → 7개의 클래스 × 5개의 특성

(7, 5)

`다중 회귀에서는 로지스틱 함수가 아닌 소프트맥스 함수를 사용한다.`

- 로지스틱 함수는 **z 값을 계산하는 역할**을 한다.  
- 이진 분류에서는 \( z \) 값이 두 개만 존재하여 쉽게 확률을 구할 수 있다.  
- 그러나 다중 분류에서는 \( z \) 값이 많아지면서, **비율을 일정하게 나누거나 총합이 1이 되는 확률을 만들기 어렵다.**  

#### ✅ 해결 방법: `소프트맥스 함수` 사용  
- 다중 분류에서는 `소프트맥스 함수`를 적용하여 모든 클래스의 확률을 정규화한다.  
- 이를 통해 **각 클래스의 확률 총합이 1이 되도록 보장**하며, 모델이 확률 기반으로 예측할 수 있도록 만든다.


---