<a href="https://colab.research.google.com/github/sohyun-alicia/deeplearning-tensorflow/blob/main/ch3_machinelearning_algorithm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**K-최근접 이웃**


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import metrics

In [None]:
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class']
dataset = pd.read_csv('iris.data', names=names)
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20)

In [None]:
from sklearn.preprocessing import StandardScaler
s = StandardScaler()
X_train = s.fit_transform(X_train)
X_test = s.fit_transform(X_test)

In [None]:
# 모델 생성 및 훈련

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 50)
knn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=50, p=2,
                     weights='uniform')

In [None]:
# 모델 정확도
from sklearn.metrics import accuracy_score
y_pred = knn.predict(X_test)
print("정확도: {}".format(accuracy_score(y_test, y_pred)))

정확도: 0.9333333333333333


In [None]:
# 최적의 K찾기

k = 10
acc_array = np.zeros(k)
for k in np.arange(1, k+1, 1):
  classifier = KNeighborsClassifier(n_neighbors=k).fit(X_train, y_train)
  y_pred = classifier.predict(X_test)
  acc = metrics.accuracy_score(y_test, y_pred)
  acc_array[k-1] = acc

max_acc = np.amax(acc_array)
acc_list = list(acc_array)
k = acc_list.index(max_acc)
print("정확도", round(max_acc, 2), "으로 최적의 k는", k+1, "입니다.")

정확도 0.97 으로 최적의 k는 3 입니다.


**서포트 벡터 머신**

In [None]:
# 라이브러리 호출

from sklearn import svm
from sklearn import metrics
from sklearn import datasets
from sklearn import model_selection

import tensorflow as tf
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'

In [None]:
# iris 데이터를 준비하고 훈련과 검증 데이터셋으로 분리

iris = datasets.load_iris()
X_train, X_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, test_size=0.6, random_state=42)
# 사이킷런의 model_selection 패키지에서 제공하는 train_test_split 메서드를 활용하여 훈련셋(train set)과 검증셋(test set)으로 분리

In [None]:
# SVM 모델에대한 정확도
svm = svm.SVC(kernel='linear', C=1.0, gamma=0.5)
svm.fit(X_train, y_train)
predictions = svm.predict(X_test)
score = metrics.accuracy_score(y_test, predictions)
print('정확도: {0:f}'.format(score))

정확도: 0.988889


**결정트리**

In [None]:
# 라이브러리 호출 및 데이터 준비
import pandas as pd

# 판다스를 이용, train.csv파일을 로드해서 df에 저장
df = pd.read_csv('train.csv', index_col='PassengerId')
print(df.head())    # train.csv 데이터 상위 행 다섯개 출력

             Survived  Pclass  ... Cabin Embarked
PassengerId                    ...               
1                   0       3  ...   NaN        S
2                   1       1  ...   C85        C
3                   1       3  ...   NaN        S
4                   1       1  ...  C123        S
5                   0       3  ...   NaN        S

[5 rows x 11 columns]


In [None]:
# 데이터 전처리

# 승객의 생존 여부를 예측하기 위해 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare' 사용
df = df[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived']]

# 성별을 나타내는 'sex'를 0 또는 1의 정수 값으로 변환
df['Sex'] = df['Sex'].map({'male':0, 'female':1})

df = df.dropna()    # 값이 없는 데이터 삭제
X = df.drop('Survived', axis=1)

y = df['Survived']    # 'Survived' 값을 예측 레이블로 사용

In [None]:
# 훈련과 검증 데이터셋으로 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

In [None]:
# 결정 트리 모델 생성
from sklearn import tree
model = tree.DecisionTreeClassifier()

In [None]:
# 모델 훈련
model.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [None]:
# 모델 예측

y_predict = model.predict(X_test)
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_predict)

0.8212290502793296

In [None]:
# 혼동 행렬을 이용한 성능 측정

from sklearn.metrics import confusion_matrix
pd.DataFrame(
    confusion_matrix(y_test, y_predict),
    columns=['Predicted Not Survival', 'Predicted Survival'],
    index=['True Not Survival', 'True Survival']
)

Unnamed: 0,Predicted Not Survival,Predicted Survival
True Not Survival,98,14
True Survival,18,49


**로지스틱 회귀**


In [None]:
%matplotlib inline
from sklearn.datasets import load_digits
digits = load_digits()      # 숫자 데이터셋(digits)은 사이킷런에서 제공

# digits 데이터셋의 형태(이미지가 1797개 있으며, 8x8 이미지의 64차원을 가짐)
print("Image Data Shape", digits.data.shape)
# 레이블 이미지 1797개가 있음
print("Label Data Shape", digits.target.shape)

Image Data Shape (1797, 64)
Label Data Shape (1797,)
