# Artificial Neural Network (ANN)

- **Problem**

seaborn 라이브러리에 있는 'penguins' 데이터셋을 사용하여, 펭귄의 성별이 남자인지 여자인지 예측하는 모델을 학습시키고 테스트 해보자.

- **Solution**

'island','species' , 'bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g'를 입력 데이터로 받고, 'sex'를 라벨데이터로 사용한다.

- **Result**

테스트 데이터셋에서 정확도 91퍼센트로 높은 정확도를 기록했다. 이전 SGD_Classfier 모델을 학습시킬때보다 충분한 입력데이터가 높은 정확도에 영향을 미친 듯 하다.



1. 라이브러리 데이터셋 가져오기

In [None]:
import numpy as np
import pandas as pd

import seaborn as sns
penguins = sns.load_dataset('penguins')
print(penguins.columns)
print(penguins.shape)
penguins


Index(['species', 'island', 'bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'sex'],
      dtype='object')
(344, 7)


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


2. 데이터 전처리

In [None]:



penguins['species']= penguins['species'].map({'Adelie': 1, 'Chinstrap': 2, 'Gentoo': 3})
penguins['island']= penguins['island'].map({'Torgersen': 1, 'Biscoe': 2, 'Dream': 3})

# penguins['species'].isnull().sum()

penguins['bill_length_mm']= penguins['bill_length_mm'].fillna(penguins['bill_length_mm'].mean())
# fillna() 괄호 안은 어떤 값으로 채워줄 것인지 정하는 것

# print(penguins['bill_length_mm'])

penguins['bill_depth_mm']= penguins['bill_depth_mm'].fillna(penguins['bill_depth_mm'].mean())

penguins['flipper_length_mm']= penguins['flipper_length_mm'].fillna(penguins['flipper_length_mm'].mean())


penguins['body_mass_g']= penguins['body_mass_g'].fillna(penguins['body_mass_g'].mean())


penguins['sex'] = penguins['sex'].map({'Female' : 0, 'Male' : 1})
penguins['sex']= penguins['sex'].fillna(2)
print(penguins['sex'])

features = penguins[['island','species' , 'bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']]
labels = penguins['sex']

# MLP는 정수형 데이터 값들만 받을 수 있다.
features = features.astype(int)
labels = labels.astype(int)
print(features)
print(labels)

# print(penguins.isnull().sum())

0      1.0
1      0.0
2      0.0
3      2.0
4      0.0
      ... 
339    2.0
340    0.0
341    1.0
342    0.0
343    1.0
Name: sex, Length: 344, dtype: float64
     island  species  bill_length_mm  bill_depth_mm  flipper_length_mm  \
0         1        1              39             18                181   
1         1        1              39             17                186   
2         1        1              40             18                195   
3         1        1              43             17                200   
4         1        1              36             19                193   
..      ...      ...             ...            ...                ...   
339       2        3              43             17                200   
340       2        3              46             14                215   
341       2        3              50             15                222   
342       2        3              45             14                212   
343       2        3      

3. 훈련용, 시험용 데이터셋 분리

In [None]:
from sklearn.model_selection import train_test_split

train_X, test_X, train_Y, test_Y = train_test_split(features, labels)
# train_test_split은 X_train, X_test, Y_train, Y_test 순서로 나온다.

print(train_X.columns) # 컬럼 수 확인
print(train_X.shape)
print(train_X.isnull().sum())
print(train_X)

print(test_X.columns)
print(test_X.shape)

Index(['island', 'species', 'bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g'],
      dtype='object')
(258, 6)
island               0
species              0
bill_length_mm       0
bill_depth_mm        0
flipper_length_mm    0
body_mass_g          0
dtype: int64
     island  species  bill_length_mm  bill_depth_mm  flipper_length_mm  \
200       3        2              51             18                187   
130       1        1              38             17                190   
129       1        1              44             18                210   
315       2        3              50             15                226   
51        2        1              40             18                188   
..      ...      ...             ...            ...                ...   
286       2        3              46             14                214   
330       2        3              50             15                216   
231       2        3              49         

4. 데이터 정규화

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(train_X)
train_X = scaler.transform(train_X)
test_X = scaler.transform(test_X)

print(train_X, train_Y)

[[ 1.13648866  0.13470497  1.430527    0.66407438 -0.95567482 -1.14333954]
 [-1.72413646 -0.98638797 -0.93768009  0.14801658 -0.73766942 -1.04829701]
 [-1.72413646 -0.98638797  0.15533857  0.66407438  0.71569989 -0.19291423]
 ...
 [-0.2938239   1.25579791  1.06618745 -0.36804122  1.15171068  1.77129807]
 [-0.2938239  -0.98638797 -0.75551031  1.69618998 -0.66500096 -0.31963761]
 [-0.2938239   1.25579791 -0.02683121 -1.91621463  0.64303142  0.31397926]] 200    1
130    0
129    1
315    1
51     1
      ..
286    2
330    0
231    1
114    0
228    0
Name: sex, Length: 258, dtype: int64


5. 모델 생성 및 학습


In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report

nn_model = MLPClassifier(alpha=0.001, hidden_layer_sizes= (128,64), max_iter=500)

#- hidden_layer_sizes: hidden layer의 크기를 설정한다. tuple로 전달할 수 있으며, tuple의 i번째 element가 i번째 hidden layer의 크기가 된다.

#- activation: hidden layer에 사용할 activation function의 종류. 'identity', 'logistic', 'tanh', 'relu'를 사용할 수 있다.

#- solver: optimizer의 종류. 'lbfgs', 'sgd', 'adam'을 사용할 수 있다.

#- batch_size: mini-batch 크기를 설정한다

#- learning_rate: learning rate scheduler의 종류를 설정한다. 'constant', 'invscaling', 'adaptive'를 사용할 수 있다.

#- max_iter: training iteration을 수행할 횟수 (=epoch)

# random_state: 랜덤 동작을 고정하여 결과 재현성을 보장하는 파라미터이다.  연구나 실험에서 결과를 다른 사람과 공유하거나 디버깅이 필요할때 사용한다.

nn_model.fit(train_X, train_Y)

y_predict = nn_model.predict(test_X)

print(y_predict)
print(nn_model.score(test_X, test_Y))


[0 1 1 1 1 0 1 0 0 1 1 1 1 1 0 0 1 1 0 0 0 1 0 1 1 1 0 0 1 1 0 0 1 1 1 0 1
 1 1 1 1 0 1 0 0 0 0 1 1 1 1 0 1 1 1 0 1 0 1 0 1 1 1 0 0 2 0 1 1 1 1 1 0 0
 1 1 1 0 0 0 1 0 0 1 1 0]
0.9186046511627907


