In [2]:
# 3.1 지도학습 

import numpy as np # 계산 
import matplotlib.pyplot as plt # 그림(차트, 플롯)
import pandas as pd # 분석 
from sklearn import metrics # 모델 성능 평가 

# 데이터셋의 열에 이름 할당 
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'Class'] 

# 데이터를 판다스 df에 저장, 경로는 수정 후 진행
dataset = pd.read_csv('data/iris.data', names = names)  

In [3]:
# 데이터 전처리, 훈련 및 검증 데이터셋으로 분리하기 

# 모든 행을 사용하지만 열은 뒤에서 하나 뺀 값을 가져온다. 
X = dataset.iloc[:, :-1].values
# 모든 행을 사용하지만 열은 앞에서 5번째값만 가져온다. 
y = dataset.iloc[:, 4].values 

from sklearn.model_selection import train_test_split 
# 훈련과 검증 데이터셋으로 분리, 검증에는 20% 할당 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20)

from sklearn.preprocessing import StandardScaler
s = StandardScaler() # 특성 스케일링. 평균이 0, 표준편차가 1이 되도록 변환 
X_train = s.transform(X_train) # 훈련 데이터를 스케일링 처리 
X_test = s.transform(X_test) # 검증 데이터를 스케일링 처리 

NotFittedError: This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.

In [4]:
# 모델 생성 및 훈련 
from sklearn.neighbors import KNeighborsClassifier 
knn = KNeighborsClassifier(n_neighbors = 50) # K = 50인 K-최근접 이웃 모델 생성 
knn.fit(X_train, y_train) # 모델 훈련 

KNeighborsClassifier(n_neighbors=50)

In [5]:
# 모델 정확도 
from sklearn.metrics import accuracy_score 
y_pred = knn.predict(X_test) 
print("정확도: {}".format(accuracy_score(y_test, y_pred)))

정확도: 0.8666666666666667


In [6]:
# 최적의 K 찾기. k값에 따라 값이 달라진다. 
k = 10 
acc_array = np.zeros(k)
for k in np.arange(1, k+1, 1): # K는 1~10의 값을 취함 
    # for 문을 반복하면서 K값 변경 
    classifier = KNeighborsClassifier(n_neighbors = k).fit(X_train, y_train) 
    y_pred = classifier.predict(X_test)
    acc = metrics.accuracy_score(y_test, y_pred) 
    acc_array[k-1] = acc 
    
max_acc = np.amax(acc_array)
acc_list = list(acc_array)
k = acc_list.index(max_acc)
print("정확도", max_acc, "으로 최적의 k는", k+1, "입니다.")

정확도 0.9666666666666667 으로 최적의 k는 5 입니다.


In [7]:
# 서포트 벡터 머신 
# 데이터(특히 텍스트) 분류에 많이 사용한다. 
# 분류를 위한 기준선을 정의하는 모델 

# 결정 경계 위치 설정하기. 데이터가 분류된 클래스에서 최대한 멀리 떨어져 있을 때 성능이 가장 좋다. 


In [13]:
from sklearn import svm 
from sklearn import metrics
from sklearn import datasets
from sklearn import model_selection 

import tensorflow as tf
import os 
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' 

In [14]:
# Iris 데이터로 훈련, 검증 데이터셋으로 분리 
iris = datasets.load_iris() # 데이터 가져오기 
# 사이킷런의 model_selection의 train_test_split 메서드를 활용해 훈련셋과 검증셋으로 분리 
X_train, X_test, y_train, y_test = model_selection.train_test_split(iris.data, iris.target, test_size=0.6, random_state=42)

In [15]:
# SVM 모델 생성 및 훈련. 검증 데이터를 이요한 예측 수행 

# SVM 모델에 대한 정확도 
svm = svm.SVC(kernel = 'linear', C = 1.0, gamma = 0.5)
svm.fit(X_train, y_train) # 훈련 데이터를 사용하여 SVM 분류기를 훈련 
predictions = svm.predict(X_test) # 훈련된 모델을 사용하여 검증 데이터에서 예측 
score = metrics.accuracy_score(y_test, predictions) 
print('정확도: {0:f}'.format(score)) # 검증 데이터 (예측) 정확도 측정 

정확도: 0.988889


In [16]:
# 결정 트리 
# 이상치가 많은 값으로 구성된 데이터셋을 다룰 때 효과적이다. 
# 시각적으로 표현되기 때문에 매우 유용하다. 

In [17]:
# 지니 계수 
# 불순도를 측정하는 지표. 데이터의 통계적 분산 정도를 정량화해서 표현한 값 
# 지니 계수가 높을수록 데이터가 분산되어 있음을 의미 

In [19]:
# 결정 트리 예제 - 타이타닉 데이터셋 
import pandas as pd 
# 판다스를 이용해 데이터셋 파일을 로드해 저장 
df = pd.read_csv('data/titanic/train.csv', index_col = 'PassengerId') 
print(df.head()) 

             Survived  Pclass  \
PassengerId                     
1                   0       3   
2                   1       1   
3                   1       3   
4                   1       1   
5                   0       3   

                                                          Name     Sex   Age  \
PassengerId                                                                    
1                                      Braund, Mr. Owen Harris    male  22.0   
2            Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0   
3                                       Heikkinen, Miss. Laina  female  26.0   
4                 Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0   
5                                     Allen, Mr. William Henry    male  35.0   

             SibSp  Parch            Ticket     Fare Cabin Embarked  
PassengerId                                                          
1                1      0         A/5 21171   7.2500   NaN        S

In [20]:
# 분석에 필요한 데이터(칼럼)만 추출하여 전처리 
df = df[['Pclass', 'Sex', 'Age', 'SibSp', 'Fare', 'Survived']] # 승객의 생존 여부를 예측하기 위함 
df['Sex'] = df['Sex'].map({'male':0, 'female':1}) # 'sex'값을 0, 1의 정수 값으로 변환 
df = df.dropna() # 결측치(빈값) 삭제 
X = df.drop('Survived', axis = 1)
y = df['Survived'] # 'Survived' 값을 예측 레이블로 사용 

In [21]:
# 훈련과 검증 데이터셋으로 분리 
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 1)

In [23]:
# 결정 트리 모델 생성 
from sklearn import tree
model = tree.DecisionTreeClassifier() 

In [25]:
# 모델 훈련 
model.fit(X_train, y_train) # 모델 훈련 

DecisionTreeClassifier()

In [26]:
# 모델 예측 
y_predict = model.predict(X_test)
from sklearn.metrics import accuracy_score 
accuracy_score(y_test, y_predict) # 에측결과 출력 

0.8100558659217877

In [None]:
# 혼동 행렬 
# 알고리즘 성능 평가에 사용 
# True Positive(TP) - 모델(분류기)이 ‘1’이라고 예측했는데 실제 값도 ‘1’인 경우
# True Negative(TN) - 모델(분류기)이 ‘0’이라고 예측했는데 실제 값도 ‘0’인 경우
# False Positive(FP) - 모델(분류기)이 ‘1’이라고 예측했는데 실제 값은 ‘0’인 경우
# False Negative(FN) - 모델(분류기)이 ‘0’이라고 예측했는데 실제 값은 ‘1’인 경우

In [27]:
# 혼동 행렬을 이용한 성능 측정 
from sklearn.metrics import confusion_matrix 
pd.DataFrame(
            confusion_matrix(y_test, y_predict), 
            columns = ['Predicted Not Survival', 'Predicted Survival'], 
            index = ['True Not Survival', 'True Survival']
)

Unnamed: 0,Predicted Not Survival,Predicted Survival
True Not Survival,95,17
True Survival,17,50


In [28]:
# 로지스틱 회귀와 선형 회귀 
# 회귀란 변수가 두 개 주어졌을 때 한 변수에서 다른 변수를 예측하거나 두 변수의 관계를 규명하는데 사용하는 방법

# 독립 변수(예측 변수): 영향을 미칠 것으로 예상되는 변수 
# 종속 변수(기준 변수): 영향을 받을 것으로 예상되는 변수 
# 이때 두 변수 간 관계에서 독립 변수와 종속 변수의 설정은 논리적인 타당성이 있어야 한다. 

In [29]:
# 로지스틱 회귀 
# 주어진 데이터에 대한 분류하고자 할때 사용한다. 
# 주어진 데이터에 대한 확신이 없거나 결과에 대해 확신이 없을 때, 
# 향후 추가적으로 데이터를 수집하여 모델을 훈련시킬 수 있는 환경에서 유용하다. 
# 개별 관측치들이 어느 집단에 분류될 수 있는지 분석하고 이를 예측하는 모형을 개발하는데 사용되는 
# 통계 기법으로 일반적인 회귀분석과는 차이가 있다. 

In [30]:
# 라이브러리 호출 및 데이터 준비 
from sklearn.datasets import load_digits 
digits = load_digits() # 숫자 데이터셋은 사이킷런에서 제공 

print("Image Data Shape", digits.data.shape) # digits 데이터셋의 형태 
print("Label Data Shape", digits.target.shape) 

Image Data Shape (1797, 64)
Label Data Shape (1797,)
