In [64]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold, GridSearchCV
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import classification_report
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import RandomForestClassifier

Analiza modelu klasyfikacyjnego

Konkretne dane -> podział na testowe i treningowe -> trenowanie modelu -> predykcja na danych testowych -> ocena modelu

In [65]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
df = pd.read_csv(url, header=None)

print(df)

data = df.values
X = data[:,:-1]
y = data[:,-1] # etykiety

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) # test_size -> 80% training and 20% test
print ("\nX_test = ", X_test.shape)
print ("Y_test = ", y_test.shape,)
print ("X_train = ", X_train.shape)
print ("Y_train = ", y_train.shape)

       0    1    2    3               4
0    5.1  3.5  1.4  0.2     Iris-setosa
1    4.9  3.0  1.4  0.2     Iris-setosa
2    4.7  3.2  1.3  0.2     Iris-setosa
3    4.6  3.1  1.5  0.2     Iris-setosa
4    5.0  3.6  1.4  0.2     Iris-setosa
..   ...  ...  ...  ...             ...
145  6.7  3.0  5.2  2.3  Iris-virginica
146  6.3  2.5  5.0  1.9  Iris-virginica
147  6.5  3.0  5.2  2.0  Iris-virginica
148  6.2  3.4  5.4  2.3  Iris-virginica
149  5.9  3.0  5.1  1.8  Iris-virginica

[150 rows x 5 columns]

X_test =  (30, 4)
Y_test =  (30,)
X_train =  (120, 4)
Y_train =  (120,)


In [66]:
# Walidacja krzyżowa k - fold
# Dzielimy na k równych podzbiorów (w których każdy z podzbiorów raz występuje jako zbiór uczący, a pozostała, połączona 
# część zbioru jest wykorzystywana jako zbiór testowy)

k = 10
cv = StratifiedKFold(n_splits=k)

fold = 0
for fold, (train, test) in enumerate(cv.split(X_train, y_train)):
    print("Fold {} ({} w TS, {} w VS)".format(fold, len(train), len(test)))
    print(train)

Fold 0 (108 w TS, 12 w VS)
[  9  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27  28  29
  30  31  32  33  34  35  36  37  38  39  40  41  42  43  44  45  46  47
  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119]
Fold 1 (108 w TS, 12 w VS)
[  0   1   2   3   4   5   6   7   8  10  11  12  22  23  24  25  26  27
  28  29  30  32  33  34  35  36  37  39  40  41  42  43  44  45  46  47
  48  49  50  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65
  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83
  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119]
Fold 2 (108 w TS, 12 w VS)
[  0   1   2   3   4   5   6   7   8   9 

In [59]:
# 1 - Naive Bayes
model = GaussianNB()
param_grid = {
    'var_smoothing': [1e-9, 1e-8, 1e-7, 1e-6, 1e-5]
}

In [48]:
# 2 - kNN
model = KNeighborsClassifier()
param_grid = {
    'n_neighbors': [3, 5, 7, 9],
    'weights': ['uniform', 'distance'],
    'algorithm': ['auto', 'ball_tree', 'kd_tree', 'brute']
}

In [51]:
# 3 - Drzewo decyzyjne
model = DecisionTreeClassifier()
param_grid = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

In [60]:
# 4 - Regresja logistyczna
model = LogisticRegression(max_iter=10000)
param_grid = {
    'C': [0.01, 0.1, 1, 10, 100],
    'solver': ['liblinear', 'saga']
}

In [None]:
# 5 - LDA
model = LinearDiscriminantAnalysis()
param_grid = {
    'solver': ['svd', 'lsqr', 'eigen'],
    'shrinkage': [None, 'auto']
}

In [67]:
# 6 - MLP
model = MLPClassifier(max_iter=10000)
param_grid = {
    'hidden_layer_sizes': [(50,), (100,), (50, 50)],
    'activation': ['tanh', 'relu'],
    'solver': ['sgd', 'adam']
}

In [None]:
# 7 - SVM
model = SVC()
param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['linear', 'rbf']
}

In [None]:
# 8 - Bagging
model = BaggingClassifier(base_estimator=DecisionTreeClassifier(), n_estimators=100, random_state=0)
param_grid = {
    'n_estimators': [10, 50, 100, 200],
    'max_samples': [0.5, 0.7, 1.0],
    'max_features': [0.5, 0.7, 1.0]

In [None]:
# 9 - Boosting
model = AdaBoostClassifier(base_estimator=DecisionTreeClassifier(), random_state=0)
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.01, 0.1, 1, 10]
}

In [None]:
# 10 - Lasy losowe
model = RandomForestClassifier(random_state=0)
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

In [68]:
cross_val_scores = cross_val_score(model, X_train, y_train, cv=cv, scoring='accuracy')

# Walidacja krzyżowa - technika trenowania i testowania modelu na różnych podzbiorach danych
print("\nWyniki walidacji krzyżowej: \n", cross_val_scores)
print("Średni wynik walidacji krzyżowej: ", cross_val_scores.mean())

# Grid Search -> wyszukanie najlepszych hiperparametrów
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=cv, scoring='accuracy')
grid_search.fit(X_train, y_train)

print("\nNajlepsze hiperparametry: \n", grid_search.best_params_)

# Trenowanie modelu z najlepszymi hiperparametrami
best_model = grid_search.best_estimator_
best_model.fit(X_train, y_train)

# Predykcje i ocena na zbiorze testowym
y_pred = best_model.predict(X_test)
print("\nPredykcje na zbiorze testowym \n", y_pred)


Wyniki walidacji krzyżowej: 
 [0.91666667 1.         0.91666667 1.         1.         1.
 1.         1.         0.91666667 0.91666667]
Średni wynik walidacji krzyżowej:  0.9666666666666666

Najlepsze hiperparametry: 
 {'activation': 'tanh', 'hidden_layer_sizes': (50, 50), 'solver': 'sgd'}

Predykcje na zbiorze testowym 
 ['Iris-virginica' 'Iris-versicolor' 'Iris-setosa' 'Iris-virginica'
 'Iris-setosa' 'Iris-virginica' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-virginica' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa'
 'Iris-versicolor' 'Iris-versicolor' 'Iris-setosa' 'Iris-setosa'
 'Iris-virginica' 'Iris-versicolor' 'Iris-setosa' 'Iris-setosa'
 'Iris-virginica' 'Iris-setosa' 'Iris-setosa' 'Iris-versicolor'
 'Iris-versicolor' 'Iris-setosa']


In [69]:
# Wyświetlanie wyuczonych parametrów (specyficznych dla Naive Bayes)
if hasattr(best_model, 'class_prior_'):
    print("\nWyuczone parametry: \n", best_model.class_prior_)
    print("\nŚrednia: \n", best_model.theta_)

In [70]:
# Raport klasyfikacji
print("\nRaport klasyfikacji: \n", classification_report(y_test, y_pred))

# Wykonanie walidacji krzyżowej na całym zbiorze danych (z najlepszym modelem)
cross_val_scores = cross_val_score(best_model, X, y, cv=cv)
print("\nWyniki walidacji krzyżowej: \n", cross_val_scores)
print("Średni wynik walidacji krzyżowej: ", cross_val_scores.mean())


Raport klasyfikacji: 
                  precision    recall  f1-score   support

    Iris-setosa       1.00      1.00      1.00        11
Iris-versicolor       1.00      1.00      1.00        13
 Iris-virginica       1.00      1.00      1.00         6

       accuracy                           1.00        30
      macro avg       1.00      1.00      1.00        30
   weighted avg       1.00      1.00      1.00        30


Wyniki walidacji krzyżowej: 
 [1.         1.         1.         1.         0.86666667 1.
 0.93333333 1.         1.         1.        ]
Średni wynik walidacji krzyżowej:  0.9800000000000001


Uczenie nienadzorowane

Inżynieria cech