In [1]:
import numpy as np
import pandas as pd
from sklearn import neighbors
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

In [4]:
(bc_X, bc_luokka) = load_breast_cancer(return_X_y=True)

In [5]:
print(bc_X.shape)
print(bc_luokka.shape)

(569, 30)
(569,)


In [6]:
bc_X_train, bc_X_test, bc_luokka_train, bc_luokka_test = train_test_split(
    bc_X, bc_luokka, test_size = 0.3, random_state=42)

In [9]:
luokittelija = neighbors.KNeighborsClassifier(n_neighbors=3)
luokittelija.fit(bc_X_train, bc_luokka_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=3, p=2,
                     weights='uniform')

In [15]:
bc_test_ennustus = luokittelija.predict(bc_X_test)
bc_train_ennustus = luokittelija.predict(bc_X_train)

In [34]:
bc_train_ennustus_abs = np.sum(bc_train_ennustus == bc_luokka_train)
print("Opetus - yhteensä oikein:", bc_train_ennustus_abs)

bc_train_ennustus_suhde = np.sum(bc_train_ennustus == bc_luokka_train)/len(bc_luokka_train)
print("Opetus - prosenttia oikein:", str(round(bc_train_ennustus_suhde * 100, 2)) + "%")

bc_train_virhe = 1 - bc_train_ennustus_suhde
print("Opetusvirhe: " + str(round(bc_train_virhe * 100, 2)) + "%")


print("\n")

bc_test_ennustus_abs = np.sum(bc_test_ennustus == bc_luokka_test)
print("Testi - yhteensä oikein:", bc_test_ennustus_abs)

bc_test_ennustus_suhde = np.sum(bc_test_ennustus == bc_luokka_test)/len(bc_luokka_test)
print("Testi - prosenttia oikein:", str(round(bc_test_ennustus_suhde * 100, 2)) + "%")

bc_test_virhe = 1 - bc_test_ennustus_suhde
print("Testivirhe:", str(round(bc_test_virhe * 100, 2)) + "%")

Opetus - yhteensä oikein: 377
Opetus - prosenttia oikein: 94.72%
Opetusvirhe: 5.28%


Testi - yhteensä oikein: 161
Testi - prosenttia oikein: 94.15%
Testivirhe: 5.85%


In [35]:
from sklearn.linear_model import LogisticRegression

In [41]:
clf = LogisticRegression(random_state=42, solver='lbfgs',
                         multi_class='multinomial', max_iter=4000).fit(bc_X_train, bc_luokka_train)

In [44]:
bc_test_clf_ennustus = clf.predict(bc_X_test)

In [52]:
bc_test_clf_ennustus_abs = np.sum(bc_test_clf_ennustus == bc_luokka_test)
print("LM-Testi - yhteensä oikein:", bc_test_clf_ennustus_abs)

bc_test_clf_ennustus_suhde = np.sum(bc_test_clf_ennustus == bc_luokka_test)/len(bc_luokka_test)
print("LM-Testi - prosenttia oikein:", str(round(bc_test_clf_ennustus_suhde * 100, 2)) + "%")

bc_test_clf_mse = mean_squared_error(bc_luokka_test, bc_test_clf_ennustus)
print("LM-Testi - mean squared error: " + str(round(bc_test_clf_mse, 2)))

bc_test_clf_r2 = r2_score(bc_luokka_test, bc_test_clf_ennustus)
print("LM-Testi - r^2: " + str(round(bc_test_clf_r2, 2)))

bc_test_clf_virhe = 1 - bc_test_clf_ennustus_suhde
print("LM-Testivirhe: " + str(round(bc_test_clf_virhe * 100, 2)) + "%")

LM-Testi - yhteensä oikein: 166
LM-Testi - prosenttia oikein: 97.08%
LM-Testi - mean squared error: 0.03
LM-Testi - r^2: 0.87
LM-Testivirhe: 2.92%
