In [11]:
import pandas as pd

In [12]:
fish = pd.read_csv('https://bit.ly/fish_csv_data')
fish.head() 

Unnamed: 0,Species,Weight,Length,Diagonal,Height,Width
0,Bream,242.0,25.4,30.0,11.52,4.02
1,Bream,290.0,26.3,31.2,12.48,4.3056
2,Bream,340.0,26.5,31.1,12.3778,4.6961
3,Bream,363.0,29.0,33.5,12.73,4.4555
4,Bream,430.0,29.0,34.0,12.444,5.134


In [13]:
#여기서 species 열을 타깃으로 만들고 나머지는 입력데이터로 만들겠다
fish_input = fish[['Weight','Length','Diagonal','Height','Width']].to_numpy()
print(fish_input[:5])

fish_target = fish['Species'].to_numpy()
print(fish['Species'].unique()) #7개의 생선 종류 확인

[[242.      25.4     30.      11.52     4.02  ]
 [290.      26.3     31.2     12.48     4.3056]
 [340.      26.5     31.1     12.3778   4.6961]
 [363.      29.      33.5     12.73     4.4555]
 [430.      29.      34.      12.444    5.134 ]]
['Bream' 'Roach' 'Whitefish' 'Parkki' 'Perch' 'Pike' 'Smelt']


In [14]:
from sklearn.model_selection import train_test_split
train_input, test_input, train_target, test_target = train_test_split(fish_input, fish_target, random_state=42)

In [15]:
from sklearn.preprocessing import StandardScaler

In [16]:
ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

In [17]:
#도미와 빙어 행만 골라내는 것
bream_smelt_indexes = (train_target == 'Bream') | (train_target =='Smelt')
print(bream_smelt_indexes) #확인해보세요
train_bream_smelt = train_scaled[bream_smelt_indexes]
target_bream_smelt = train_target[bream_smelt_indexes]

[ True False  True False False False False  True False False False  True
 False False False  True  True False False  True False  True False False
 False  True False False  True False False False False  True False False
  True  True False False False False False  True False False False False
 False  True False  True False False  True False False False  True False
 False False False False False  True False  True False False False False
 False False False False False  True False  True False False  True  True
 False False False  True False False False False False  True False False
 False  True False  True False False  True  True False False False False
 False False False False  True  True False False  True False False]


In [18]:
from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(train_bream_smelt, target_bream_smelt)

LogisticRegression()

In [19]:
print('훈련된 로지스틱 회귀알고리즘으로 5번째까지 예측')
print(lr.predict(train_bream_smelt[:5]))

print('예측확률 나타내기')
print(lr.predict_proba(train_bream_smelt[:5]))

훈련된 로지스틱 회귀알고리즘으로 5번째까지 예측
['Bream' 'Smelt' 'Bream' 'Bream' 'Bream']
예측확률 나타내기
[[0.99759855 0.00240145]
 [0.02735183 0.97264817]
 [0.99486072 0.00513928]
 [0.98584202 0.01415798]
 [0.99767269 0.00232731]]


In [20]:
print('가중치랑 바이어스 값 확인')
print(lr.coef_, lr.intercept_)

가중치랑 바이어스 값 확인
[[-0.4037798  -0.57620209 -0.66280298 -1.01290277 -0.73168947]] [-2.16155132]


![nn](./image/퍼셉트론.png)

신경망을 이루는 가장 중요한 기본 단위는 퍼셉트론이다.


$x_1$와 $x_2$가 입력되고, 각각 가중치 $a_1$ $a_2$가 만난다.
여기에 b값을 더한 후 활성화 함수(ex.시그모이드 함수)를 거쳐 1또는 0의 출력 값 y를 출력한다.

w(weight)는 가중치, b(bias)는 바이어스(편향, 선입견)으로 쓰인다.
가중합weighted sum)은 입력 값과 가중치 곱을 모두 더한 다음 거기에 바이어스를 더한 값이다.
이 결과를 놓고 1또는 0을 출력해서 다음으로 보낸다.
이 0과 1을 판단하는 함수가 있는데, 이를 **활성화 함수** 라고 한다. 그 대표적인 예시가 ***시그모이드 함수***이다.

### 편향(bias)

하나의 뉴런으로 입력된 모든 값을 다 더한 다음에(가중합) 이 값에 더해주는 상수다. 하나의 뉴런에서 활성화 함수를 거쳐 최종적으로 출력되는 값을 조절하는 역할을 한다.

![nn](./image/편향.png)

파티에 가는것을 무척 좋아하는 '성향'을 가진 A와 그렇지 않은 B라는 두사람이 있다면 날씨, 친구, 비용의 중요도(=가중치)같다고 가정하는데, A는 파티를 너무 좋아해서 돈이 없거나 날씨가 안좋아도 무조건 가려고 할테고
반면 B는 날씨도 좋고 돈도있는데도 조용한것을 더 좋아해서 파티에 안가려고 할수도 있다는것 입니다.
그렇다면 똑같이 값을 내면 안되겠죠? 성향(bias)이라는 값을 추가 해주는 것이라고 이해하시면 됩니다.
결국 뉴럴네트워크(신경망)구조의 마지막 출력은 weight값 그리고 bias값에 의해 결정되는것입니다.

### 활성화함수

우리가 사는 세상을 한번 생각해 봅시다. 실제 세계에서는 입력값에 비례해서 출력값이 나오지가 않을 때도 많습니다. 대개는 어떤 임계점이 있고 그 임계점을 경계로 큰 변화가 생깁니다. 물이 끓는 것도 그렇고 비행기가 이륙하는 것도 그렇습니다. 마찬가지로 뇌의 뉴런도 하나의 뉴런에서 다른 뉴런으로 신호를 전달할 때 어떤 임계점을 경계로 출력값에 큰 변화가 있는 것으로 추정됩니다.
인공 신경망은 디지털 세계이긴 하지만 뇌의 구조를 모방하므로 임계점을 설정하고 출력값에 변화를 주는 함수를 이용합니다. 앞에서 설명한 편향은 임계점을 얼마나 쉽게 넘을지 말지를 조절해주는 값이라고 생각하면 됩니다.
활성화 함수에는 시그모이드(Sigmoid) 함수, 렐루(ReLU) 함수, 항등 함수, 소프트맥스 등 여러 종류가 있는데 이처럼 다양한 활성화 함수는 값을 결정하는 0 이냐 1이냐 경계선을 두고 의사를 결정하게 되는 함수라고 이해하시면 됩니다.

In [27]:
lr = LogisticRegression(C=20, max_iter=1000)
lr.fit(train_scaled, train_target)
print(lr.score(train_scaled, train_target))
print(lr.score(test_scaled, test_target))
print(lr.predict(test_scaled[:5]))

0.9327731092436975
0.925
['Perch' 'Smelt' 'Pike' 'Roach' 'Perch']


In [37]:
print("확률계산")
proba = lr.predict_proba(test_scaled[:5])
print(lr.classes_) #클래스 정보 확인
print(np.round(proba,decimals=3)) #클래스별 확률값 보기

확률계산
['Bream' 'Parkki' 'Perch' 'Pike' 'Roach' 'Smelt' 'Whitefish']
[[0.    0.014 0.841 0.    0.136 0.007 0.003]
 [0.    0.003 0.044 0.    0.007 0.946 0.   ]
 [0.    0.    0.034 0.935 0.015 0.016 0.   ]
 [0.011 0.034 0.306 0.007 0.567 0.    0.076]
 [0.    0.    0.904 0.002 0.089 0.002 0.001]]


In [40]:
print(lr.coef_.shape,lr.intercept_.shape) # 가중치랑 바이어스 형태확인

(7, 5) (7,)


## 소프트맥스 함수 사용

In [41]:
#이 데이터는 5개의 특성을 사용하므로 coef_ 배열의 열은 5개
#행이 7개라는 것은 z를 7개나 계산햇다는 의미
#다중 분류는 클래스마다 z값을 하나씩 계산한다.
#당연히 가장높은 z값을 선택
#이진 분류에서는 시그모이드 함수를 사용해 z를 0과 1사이의 값으로 변환
#다중 분류는 이와 달리 소프트맥스 함수를 이용해 7개의 확률로 변환한다.
#즉, 이진분류면 시그모이드 , 세개 이상이면 소프트 맥스




print('decision_function으로 확률로 바꾸어보았다')
decision = lr.decision_function(test_scaled[:5]) # z출력 값
print(np.round(decision,decimals=2)) # 여기를 한번 봐주세요!


from scipy.special import softmax
proba = softmax(decision,axis=1) # axis를 지정하지 않으면 배열 전체에 대해 소프트맥스 계산
print('사이파이에서도 소프트맥스가 있다')
print(np.round(proba,decimals=3))

decision_function으로 확률로 바꾸어보았다
[[ -6.5    1.03   5.16  -2.73   3.34   0.33  -0.63]
 [-10.86   1.93   4.77  -2.4    2.98   7.84  -4.26]
 [ -4.34  -6.23   3.17   6.49   2.36   2.42  -3.87]
 [ -0.68   0.45   2.65  -1.19   3.26  -5.75   1.26]
 [ -6.4   -1.99   5.82  -0.11   3.5   -0.11  -0.71]]
사이파이에서도 소프트맥스가 있다
[[0.    0.014 0.841 0.    0.136 0.007 0.003]
 [0.    0.003 0.044 0.    0.007 0.946 0.   ]
 [0.    0.    0.034 0.935 0.015 0.016 0.   ]
 [0.011 0.034 0.306 0.007 0.567 0.    0.076]
 [0.    0.    0.904 0.002 0.089 0.002 0.001]]


https://airsbigdata.tistory.com/201