In [1]:
# sklearn의 datasets에서 load_iris 로드
from sklearn.datasets import load_iris

# iris 데이터셋을 iris라는 변수에 저장
iris = load_iris()

In [2]:
# iris에 있는 key값을 출력
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [3]:
iris.feature_names

# sepal length : 꽃받침 길이
# sepal width : 꽃받침 너비
# petal length : 꽃잎 길이
# petal width : 꽃잎 너비

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [4]:
# iris의 데이터에 해당하는 부분과 X와 Y의 크기를 나타냄
iris['data'].shape

(150, 4)

In [5]:
# iris 데이터셋의 0번째부터 9번째까지를 슬라이싱해서 나타냄
iris['data'][0:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [6]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [7]:
iris['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [8]:
# target 변수의 값 출력
# 0~49는 0, 그 뒤 50개는 1, 그 뒤 50개는 2
# 0은 setosa
# 1은 versicolor
# 2는 virginica

iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [9]:
# X에는 iris 데이터의 값을 입력
# y에는 target 변수를 입력

X = iris['data']
y = iris['target']

In [10]:
# 위의 데이터를 train과 test로 구분
# sklearn의 model_selection 내에 train_test_split를 로드
# tarin_test_split를 이용해 위의 X변수에 선언한 data값과 y변수에 선언한 target
# Split arrays or matrices into random train and test subsets
# 비율을 정해주지 않는 경우 테스트 : 훈련 데이터의 비율은 1 : 3 정도로 구분

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [11]:
# sklearn 내에 preprocessing의 StandardScaler를 로드
# StandardScalar는 정규화를 시키는 함수
# StandardScalar는 데이터의 범위를 평균 0, 표준편차 1의 범위로 바꿔주는 함수
# 그리고 StandardScalar를 scaler라는 변수에 저장해 사용

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

In [12]:
# StandardScalar를 담은 변수에 X_train 데이터의 평균과 표준편차를 구함

scaler.fit(X_train)

StandardScaler()

In [13]:
# X_train과 X_test 데이터를 StandardScalar를 이용해 정규화

X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [14]:
# 다층인공신경망(MLP) 분류 알고리즘을 sklearn의 neural_network으로부터 로드
from sklearn.neural_network import MLPClassifier

# MLP 알고리즘의 히든레이어 노드를 10개씩 3계층으로 구성
mlp = MLPClassifier(hidden_layer_sizes=(10, 10, 10))

In [15]:
# 위에서 분류한 X_train과 y_train을 MLP를 이용해 학습

mlp.fit(X_train, y_train)

# 아래에 나타난 빨간색 부분은 Warning부분 최적화를 할 때 주의하라는 내용이므로 무시해도 됨.
'''
Activation: 다층신경망에서 사용하는 활성화 함수를 나타냄
Alpha: 신경망 내의 정규화 파라미터
Batch_size: 최적화를 시키기 위한 학습 최소 크기
Epsilon: 수치 안정성을 위한 오차 값
Learning_rate_init: 가중치를 업데이트 할 때 크기를 제어
Max_iter: 최대 반복 횟수
Hidden_layer_sizes: 히든레이어의 크기
Learning_rate: 단계별로 움직이는 학습 속도
Shuffle: 데이터를 학습 시 데이터들의 위치를 임의적으로 변경하는지의 여부
Solver: 가중치 최적화를 위해 사용하는 함수
Validation_fraction: training데이터를 학습 시 validation의 비율
Validation: training데이터를 학습 시 데이터가 유의미한지를 검증하는 데이터
'''



'\nActivation: 다층신경망에서 사용하는 활성화 함수를 나타냄\nAlpha: 신경망 내의 정규화 파라미터\nBatch_size: 최적화를 시키기 위한 학습 최소 크기\nEpsilon: 수치 안정성을 위한 오차 값\nLearning_rate_init: 가중치를 업데이트 할 때 크기를 제어\nMax_iter: 최대 반복 횟수\nHidden_layer_sizes: 히든레이어의 크기\nLearning_rate: 단계별로 움직이는 학습 속도\nShuffle: 데이터를 학습 시 데이터들의 위치를 임의적으로 변경하는지의 여부\nSolver: 가중치 최적화를 위해 사용하는 함수\nValidation_fraction: training데이터를 학습 시 validation의 비율\nValidation: training데이터를 학습 시 데이터가 유의미한지를 검증하는 데이터\n'

In [16]:
# mlp로 학습한 내용을 X_test에 대해 분류한 결과를 predictions 변수에 저장

predictions = mlp.predict(X_test)

In [17]:
# sklearn.metrics의 confusion_matrix와 classification_report를 로드
# confusion_matrix는 데이터가 맞는지의 유무를 판단
# classification_report는 precision과 recall 그리고 f1_score 등을 계산해 정확률에 대해 계산

from sklearn.metrics import confusion_matrix, classification_report

# confusion_matrix를 이용해 실제값 y_test와 예측값에 대해 비교
print(confusion_matrix(y_test, predictions))

[[12  1  0]
 [ 0 11  1]
 [ 0  2 11]]


In [18]:
# classification_report를 이용해 정확률, 재현율, f1-score를 확인
print(classification_report(y_test, predictions))

              precision    recall  f1-score   support

           0       1.00      0.92      0.96        13
           1       0.79      0.92      0.85        12
           2       0.92      0.85      0.88        13

    accuracy                           0.89        38
   macro avg       0.90      0.90      0.90        38
weighted avg       0.90      0.89      0.90        38

