# 로지스틱 회귀

- 이름은 회귀이지만 분류 모델
- 이 알고리즘은 선형 회귀와 동일하게 선형 방정식을 학습
- 선형 회귀와 달리 시그모이드 함수나 소프트맥스 함수를 사용하여 클래스 확률을 출력할 수 있음

### 시그모이드 함수 (로지스틱 함수)
- 하나의 선형 방정식의 출력값을 0 ~ 1 사이로 압축
- 이진 분류를 위해 사용

### 소프트맥스 함수
- 여러 개의 선형 방정식의 출력값을 0 ~ 1 사이로 압축하고 전체 합이 1이 되도록 만듬
- 이를 위해 지수 함수를 사용하기 때문에 정규화된 지수 함수라고도 부름

In [41]:
import pandas as pd

df = pd.read_csv('data/Fish.csv')

In [42]:
df['Species'].unique()

array(['Bream', 'Roach', 'Whitefish', 'Parkki', 'Perch', 'Pike', 'Smelt'],
      dtype=object)

In [43]:
fish_input = df[['Weight', 'Length2', 'Length3', 'Height', 'Width']]
# fish_input.head()

In [44]:
fish_target = df[['Species']]

In [45]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(fish_input, fish_target)

In [46]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

In [47]:
from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier()
kn.fit(train_scaled, train_target)

print(kn.score(train_scaled, train_target))
print(kn.score(test_scaled, test_target))

0.8487394957983193
0.8


  return self._fit(X, y)


In [48]:
kn.predict(test_scaled)

array(['Perch', 'Perch', 'Perch', 'Perch', 'Bream', 'Roach', 'Perch',
       'Smelt', 'Smelt', 'Perch', 'Perch', 'Perch', 'Bream', 'Perch',
       'Perch', 'Parkki', 'Pike', 'Roach', 'Roach', 'Smelt', 'Pike',
       'Bream', 'Perch', 'Perch', 'Perch', 'Perch', 'Perch', 'Perch',
       'Bream', 'Perch', 'Bream', 'Perch', 'Perch', 'Perch', 'Bream',
       'Parkki', 'Pike', 'Smelt', 'Smelt', 'Pike'], dtype=object)

In [49]:
kn.predict_proba(test_scaled)

array([[0. , 0. , 0.8, 0. , 0.2, 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0. , 0. , 0.2],
       [0. , 0. , 0.6, 0. , 0.4, 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0. , 0. , 0.2],
       [1. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0.4, 0. , 0.6, 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0. , 0. , 0.2],
       [0. , 0. , 0. , 0. , 0. , 1. , 0. ],
       [0. , 0. , 0. , 0. , 0. , 1. , 0. ],
       [0. , 0. , 0.8, 0. , 0.2, 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0. , 0.2, 0. ],
       [0. , 0. , 0.6, 0. , 0.2, 0. , 0.2],
       [1. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0.2, 0. , 0. ],
       [0. , 0. , 0.6, 0. , 0.4, 0. , 0. ],
       [0.2, 0.8, 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0. , 1. , 0. , 0. , 0. ],
       [0. , 0. , 0.4, 0. , 0.6, 0. , 0. ],
       [0. , 0. , 0.4, 0. , 0.6, 0. , 0. ],
       [0. , 0. , 0.4, 0. , 0. , 0.6, 0. ],
       [0. , 0. , 0.2, 0.8, 0. , 0. , 0. ],
       [1. , 0. , 0. , 0. , 0. , 0. , 0. ],
       [0. , 0. , 0.8, 0. , 0.2,

In [50]:
bream_smelt_indexes = (train_target == 'Bream') | (train_target == 'Smelt')

train_bs = train_scaled[bream_smelt_indexes['Species']]
target_bs = train_target[bream_smelt_indexes['Species']]
# target_bs

In [51]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(train_bs, target_bs)

lr.predict(train_bs[:5])
lr.predict_proba(train_bs[:5]).round(3)
# 소수점이 길게 나와 수치가 큰 경우 round()를 사용하여 해결

  y = column_or_1d(y, warn=True)


array([[0.999, 0.001],
       [0.988, 0.012],
       [0.024, 0.976],
       [0.998, 0.002],
       [0.946, 0.054]])

In [52]:
lr.coef_

array([[-0.41393107, -0.60535673, -0.68920517, -1.02199959, -0.7935863 ]])

In [53]:
lr = LogisticRegression(C=20, max_iter=1000)
lr.fit(train_scaled, train_target)

print(lr.score(train_scaled, train_target))
print(lr.score(test_scaled, test_target))

0.9159663865546218
0.9


  y = column_or_1d(y, warn=True)


In [54]:
lr.predict_proba(test_scaled[:5]).round(3)

array([[0.001, 0.045, 0.279, 0.007, 0.605, 0.001, 0.062],
       [0.   , 0.   , 0.971, 0.   , 0.   , 0.   , 0.029],
       [0.   , 0.004, 0.704, 0.003, 0.264, 0.   , 0.025],
       [0.012, 0.   , 0.772, 0.015, 0.005, 0.   , 0.197],
       [0.987, 0.004, 0.   , 0.   , 0.   , 0.   , 0.009]])

In [55]:
lr.coef_.shape

(7, 5)