# 로지스틱 회귀 이진 분류

## 교제 데이터 사용

In [5]:
import pandas as pd
import numpy as np

fish = pd.read_csv('https://bit.ly/fish_csv_data')
fish = fish[(fish['Species'] == 'Bream') | (fish['Species'] == 'Smelt')]
fish.head()

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961
3,Bream,363.0,29.0,33.5,12.73,4.4555
4,Bream,430.0,29.0,34.0,12.444,5.134


In [6]:
fish_input = fish[['Length','Weight']].to_numpy()
fish_target = fish['Species'].to_numpy()

## 샘플링 편향 문제 해결

In [7]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(
    fish_input, fish_target, random_state=42)

In [8]:
print(train_input.shape, test_input.shape)

(36, 2) (13, 2)


In [9]:
print(train_target.shape, test_target.shape)

(36,) (13,)


In [10]:
print(test_target)

['Bream' 'Smelt' 'Smelt' 'Smelt' 'Bream' 'Bream' 'Bream' 'Bream' 'Bream'
 'Bream' 'Bream' 'Bream' 'Bream']


## 데이터 전처리

In [18]:
# StandardScaler : scikit-learn 라이브러리에서 제공하는 함수로 데이터의 특성을 평균이 0이고 표준 편차가 1인 표준 정규 분포로 변환하는 역할을 한다.
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
ss = StandardScaler()

# 훈련 데이터에 대해 fit 메서드를 사용하여 평균과 표준편차를 계산
ss.fit(train_input)

# 훈련 데이터와 테스트 데이터에 대해 transform 메서드를 사용하여 스케일링을 수행
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

In [19]:
print(ss.mean_, ss.scale_)

[ 26.175      418.08888889] [ 10.21073441 321.67847023]


## 로지스틱 회귀로 이진 분류 수행하기

In [13]:
# LogisticRegression : scikit-learn 라이브러리에서 제공하는 함수
# 선형 회귀를 사용하여 데이터를 분류하는 머신러닝 모델 중 하나로 0과 1 사이의 확률 값을 출력
from sklearn.linear_model import LogisticRegression

# LogisticRegression 객체 생성
lr = LogisticRegression()

# 훈련 데이터를 이용하여 LogisticRegression 모델 훈련
lr.fit(train_scaled, train_target)

In [20]:
# 훈련된 모델로 test 데이터 분류
lr.predict(test_scaled)

array(['Bream', 'Smelt', 'Smelt', 'Smelt', 'Bream', 'Bream', 'Bream',
       'Bream', 'Bream', 'Bream', 'Bream', 'Bream', 'Bream'], dtype=object)

In [21]:
# 모델의 정확도를 출력
lr.score(test_scaled, test_target)

1.0

In [22]:
# 새로운 데이터 분류
# 길이, 무게를 전처리를 통해 표준화
new = ss.transform([[25, 150]])

In [23]:
print(lr.predict(new))

['Bream']
