In [23]:
# Active Learning - Uncertainty Sampling

import numpy as np
import pandas as pd
import os
from imblearn.ensemble import BalancedBaggingClassifier
from sklearn.ensemble import RandomForestClassifier
import joblib
from sklearn.calibration import CalibratedClassifierCV
from warnings import simplefilter
from sklearn.metrics import confusion_matrix, classification_report, f1_score
from sklearn.linear_model import LogisticRegression

from google.colab import drive


simplefilter(action='ignore', category=FutureWarning)

In [16]:
# Συνδέομαι στο google drive για να μπορώ να αποθηκεύω και να ανακτώ μοντέλα από εκεί
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [17]:
# Καθορίζω την διαδρομή στο google drive και φορτώνω στην μνήμη το σύνολο των δεδομένων
path = 'drive/My Drive/bank_credit'
dt = pd.read_csv(os.path.join(path, 'creditcard.csv'))

In [18]:
# Επισκόπηση λίγων δεδομένων των δύο κλάσεων
a = dt.loc[dt['Class']==0].sample(3)
b = dt.loc[dt['Class']==1].sample(5)
c = pd.concat([a,b])
c

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
68195,52875.0,1.021574,0.566806,0.136015,2.342706,0.871043,1.012957,0.245299,0.2887,-1.116011,0.541606,0.740736,0.434864,-0.029467,0.6315,1.25656,-1.038652,0.837376,-2.568966,-2.561308,-0.305764,0.126991,0.504324,0.06283,-0.620984,0.377004,0.176194,0.033155,-0.001151,2.17,0
256069,157526.0,2.058714,-0.589167,-0.519757,-1.423254,-0.9097,-1.209705,-0.445337,-0.241478,2.033762,-0.995796,-0.403996,1.398485,1.105401,-0.211004,1.094383,-0.413075,-0.35785,-0.29021,0.746144,-0.132735,-0.168683,-0.20333,0.341219,0.06505,-0.369563,-0.537801,0.039165,-0.035275,4.54,0
252158,155674.0,0.062385,0.765055,-0.122867,-0.947754,0.980836,-0.128838,0.867466,0.039052,-0.213794,-0.245954,-0.121985,0.429951,-0.041969,0.281661,-0.965281,0.351548,-0.968723,0.011743,0.521994,-0.006838,-0.271425,-0.636567,-0.058285,-1.107576,-0.401489,0.190173,0.243771,0.076042,4.49,0
150665,93856.0,-6.750509,5.367416,-10.054635,9.064478,-7.968118,-2.263798,-10.317566,4.237666,-5.324109,-11.092392,7.154083,-17.150405,-0.095399,-11.03011,-1.959055,-12.448562,-22.667905,-9.264609,1.982356,-0.08122,1.909032,-0.34874,0.425001,0.674909,-0.784208,-0.247422,1.159581,0.197818,209.65,1
151103,94625.0,1.707857,0.024881,-0.48814,3.787548,1.139451,2.914673,-0.743358,0.699136,1.008471,0.912806,0.765354,-2.043868,1.001547,1.322887,-2.720077,-0.15343,0.752611,-0.755786,-1.912563,-0.368014,0.010865,0.548258,0.091218,-1.007959,-0.082183,0.179709,0.007738,-0.068841,33.76,1
15204,26556.0,-19.179826,11.817922,-21.919174,6.086236,-14.708845,-4.308888,-15.357952,12.857165,-3.999861,-8.928656,5.849293,-8.26165,0.153829,-8.829359,0.008879,-7.070953,-13.629721,-4.95883,1.272091,1.57295,1.746802,-1.353149,-0.762965,0.117028,1.297994,-0.224825,1.621052,0.484614,99.99,1
151011,94364.0,-15.192064,10.432528,-19.629515,8.046075,-12.838167,-1.875859,-21.359738,-3.71785,-5.969782,-17.141514,5.9024,-13.580147,-0.451407,-8.334763,-2.025145,-10.196334,-17.270985,-7.079096,1.517695,1.657476,-3.474097,1.765446,1.701257,0.381587,-1.413417,-1.023078,-2.634761,-0.463931,1.0,1
157585,110087.0,1.934946,0.650678,-0.286957,3.987828,0.316052,-0.099449,-0.021483,-0.172327,0.50873,1.072955,-0.427567,-2.777649,1.63714,1.57108,-1.445367,0.90865,-0.122016,-0.10411,-1.684022,-0.344452,-0.173602,-0.190974,0.219976,-0.216597,-0.136692,-0.129954,-0.050077,-0.051082,1.0,1


In [19]:
# Δημιουργώ ένα χαρακτηριστικό πυκνότητας συναλλαγών (Density) και ένα πραγματικής ώρας (Actual Time)
# θεωρώντας ότι μπορεί να υπάρχει κάποια συσχέτιση με τις κακόβουλες κινήσεις
# Ενώ παράλληλα διαγράφω το χαρακτηριστικό Time
period = 30 * 60 # secs
half_period = int(period / 2)
a = np.histogram(dt['Time'], bins=np.linspace(0, 172800, 172801))[0]

density48h = [np.mean(a[[j % 172800 for j in range(-half_period, +half_period)]])]
for i in range(1, len(a)):
  density48h.append(density48h[-1] + (a[(i + half_period - 1) % 172800] - a[(i - half_period) % 172800]) / period)

density48h = np.array(density48h)
density48h = density48h / density48h.max()

dt['Density'] = density48h[dt['Time'].astype(int).values]
dt['Density'].reset_index(drop=True)
dt['Actual_Time'] = dt['Time'].apply(lambda x: np.mod(x, 86400) / 86400)

dt.drop('Time', inplace=True, axis='columns')

In [20]:
# Μετατρέπω το χαρακτηριστικό Amount με λογαριθμική κανονικοποίηση
amounts = dt['Amount'].copy()
dt['Amount'] = np.log(dt['Amount']+2)

In [21]:
# Χωρίζω το σύνολο δεδομένων σε εκπαίδευσης, επικύρωσης και ελέγχου
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
seed = 0

x_tr, x_te, y_tr, y_te = train_test_split(dt.loc[:, dt.columns != 'Class'], dt['Class'], test_size=.3, random_state=seed)

va_size = int(len(x_tr) * .2)
x_tr, x_UN = x_tr[:va_size], x_tr[va_size:]
y_tr, y_UN = y_tr[:va_size], y_tr[va_size:]

print(x_tr.shape, x_UN.shape, x_te.shape)

(39872, 31) (159492, 31) (85443, 31)


In [None]:
# Δημιουργία ενός αριθμού από υποσύνολα δεδομένων τα οποία έχουν ίσο αριθμό παραδειγμάτων των δύο κλάσεων.
# Με αυτά εκπαιδεύονται μοντέλα Random Forest και η έκδσοση απόφασης γίνεται με ψηφοφορία.
# Το bagging μοντέλο εκπαιδεύεται και αποθηκεύεται, ώστε να μην χρειάζεται σε κάθε εκτέλεση του notebook

# y0 = y_tr[y_tr==0]
# x0 = x_tr[y_tr==0]

# y1 = y_tr[y_tr==1]
# x1 = x_tr[y_tr==1]

# ln = len(y1)
# number_of_subsets = 200

# print(f'iso {number_of_subsets}...')
# mod_iso = BalancedBaggingClassifier(base_estimator=RandomForestClassifier(n_estimators=200), n_estimators=number_of_subsets)
# model_iso = CalibratedClassifierCV(base_estimator=mod_iso, cv=3, method='isotonic')
# model_iso.fit(x_tr, y_tr)

# joblib.dump(model_iso, path + '/iso_bal_bag_rf_200_gini_200_active_learning.joblib')

In [None]:
# Ανάκληση του εκπαιδευμένου μοντέλου και υπολογισμός προβλέψεων στο σύνολο ελέγχου

model_iso = joblib.load(path + '/iso_bal_bag_rf_200_gini_200_active_learning.joblib')

y_preds = model_iso.predict_proba(x_te.to_numpy())

y_preds = y_preds.argmax(axis=1)

print(confusion_matrix(y_te, y_preds).T)
print()
print(classification_report(y_te, y_preds))


[[85279    33]
 [   17   114]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.87      0.78      0.82       147

    accuracy                           1.00     85443
   macro avg       0.93      0.89      0.91     85443
weighted avg       1.00      1.00      1.00     85443



In [None]:
# Πρόβλεψη των καλιμπραρισμένων πιθανοτήτων για όλα τα μη ετικετοποιημένα δεδομένα και επιλογή των 50000 πιο αβέβαιων

# cost = 5000
# cost_per_example = 0.1

# preds = model_iso.predict_proba(x_UN.to_numpy())

# idx = np.argsort(np.abs(preds[:,0].flatten() - 0.5))[:int(cost/cost_per_example)]
 

In [None]:
# Εκπαίδευση του μοντέλου με τα νέα επαυξημένα δεδομένα και αποθήκευσή του ώστε να μην επανεκπαιδεύεται σε κάθε νέα εκκίνηση του notebook

# x_ = np.vstack([x_UN.to_numpy()[idx], x_tr])
# y_ = y_UN.to_numpy()[idx].tolist() + y_tr.to_list()

# mod_iso_ = BalancedBaggingClassifier(base_estimator=RandomForestClassifier(n_estimators=200), n_estimators=number_of_subsets)
# model_iso_ = CalibratedClassifierCV(base_estimator=mod_iso_, cv=3, method='isotonic')
# model_iso_.fit(x_, y_)

# joblib.dump(model_iso_, path + '/iso_bal_bag_rf_200_gini_200_active_learning_uncertainty.joblib')


In [None]:
# Ανάκληση του αποθηκευμένου μοντέλου και πρόβλεψη των κατηγοριών των παραδειγμάτων ελέγχου
# Αυτή η προσπάθεια δεν δούλεψε καλά. Έριξε την ακρίβεια του μοντέλου για τα αρνητικά παραδείγματα η επέκταση των δεδομένων με μία μόνο εκτίμηση

model_iso_ = joblib.load(path + '/iso_bal_bag_rf_200_gini_200_active_learning_uncertainty.joblib')

y_preds_ = model_iso_.predict_proba(x_te.to_numpy())

y_preds_ = y_preds_.argmax(axis=1)

print(confusion_matrix(y_te, y_preds_).T)
print()
print(classification_report(y_te, y_preds_))

[[85283    44]
 [   13   103]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.89      0.70      0.78       147

    accuracy                           1.00     85443
   macro avg       0.94      0.85      0.89     85443
weighted avg       1.00      1.00      1.00     85443



In [None]:
# Σταδιακή επέκταση των δεδομένων εκπαίδευσης σε 10 βήματα (ανά 5000 δείγματα) και αποθήκευση
# των επιμέρους εκπαιδευμένων μοντέλων για να μην επανεκπαιδεύονται σε κάθε επανεκκίνηση του notebook

# cost = 5000
# cost_per_example = 0.1


# sps = np.linspace(0, int(cost/cost_per_example), 11)
# x_rest = x_UN.to_numpy()
# y_rest = y_UN.to_numpy()
# x_ = x_tr.to_numpy()
# y_ = y_tr.to_numpy()

# for i in range(10):
#   print(f'{i+1}/10...')
#   sp = int(sps[i+1] - sps[i])

#   preds = model_iso.predict_proba(x_rest)

#   idx = np.argsort(np.abs(preds[:,0].flatten() - 0.5))[:sp]

#   x_ = np.vstack([x_rest[idx], x_])
#   y_ = np.array(y_rest[idx].tolist() + y_.tolist())

#   mod_iso_ = BalancedBaggingClassifier(base_estimator=RandomForestClassifier(n_estimators=200), n_estimators=number_of_subsets)
#   model_iso_ = CalibratedClassifierCV(base_estimator=mod_iso_, cv=3, method='isotonic')
#   model_iso_.fit(x_, y_)

#     joblib.dump(model_iso_, path + f'/iso_bal_bag_rf_200_gini_200_active_learning_uncertainty_{i}.joblib')

#   x_rest = np.delete(x_rest, idx, axis=0)
#   y_rest = np.delete(y_rest, idx, axis=0)

In [None]:
# Ανάκληση των αποθηκευμένων μοντέλων με τα σταδιακά αυξανόμενα δεδομένα και εκτύπωση στατιστικών

for i in range(10):
  model_iso_ = joblib.load(path + f'/iso_bal_bag_rf_200_gini_200_active_learning_uncertainty_{i}.joblib')

  y_preds_ = model_iso_.predict_proba(x_te.to_numpy())

  y_preds_ = y_preds_.argmax(axis=1)

  print(f'Μετά από πρόσθεση {i+1}x5000 παραδειγμάτων...')
  print(confusion_matrix(y_te, y_preds_).T)
  print()
  print(classification_report(y_te, y_preds_))
  print(50*'-')

Μετά από πρόσθεση 1x5000 παραδειγμάτων...
[[85279    32]
 [   17   115]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.87      0.78      0.82       147

    accuracy                           1.00     85443
   macro avg       0.94      0.89      0.91     85443
weighted avg       1.00      1.00      1.00     85443

--------------------------------------------------
Μετά από πρόσθεση 2x5000 παραδειγμάτων...
[[85279    34]
 [   17   113]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.87      0.77      0.82       147

    accuracy                           1.00     85443
   macro avg       0.93      0.88      0.91     85443
weighted avg       1.00      1.00      1.00     85443

--------------------------------------------------
Μετά από πρόσθεση 3x5000 παραδειγμάτων...
[[85278    34]
 [   18   113]]

              precisio

In [None]:
# Σταδιακή επέκταση των δεδομένων εκπαίδευσης σε 10 βήματα (ανά 5000 δείγματα) και αποθήκευση
# των επιμέρους εκπαιδευμένων μοντέλων για να μην επανεκπαιδεύονται σε κάθε επανεκκίνηση του notebook

cost = 5000
cost_per_example = 0.1


sps = np.linspace(0, int(cost/cost_per_example), 11)
x_rest = x_UN.to_numpy()
y_rest = y_UN.to_numpy()
x_ = x_tr.to_numpy()
y_ = y_tr.to_numpy()

for i in range(10):
  print(f'{i+1}/10...')
  sp = int(sps[i+1] - sps[i])

  preds = model_iso.predict_proba(x_rest)

  idx = np.argsort(np.abs(preds[:,0].flatten() - 0.5))[:4 * sp]
  np.random.shuffle(idx)
  idx = idx[:sp]

  x_ = np.vstack([x_rest[idx], x_])
  y_ = np.array(y_rest[idx].tolist() + y_.tolist())

  mod_iso_ = BalancedBaggingClassifier(base_estimator=RandomForestClassifier(n_estimators=200), n_estimators=number_of_subsets)
  model_iso_ = CalibratedClassifierCV(base_estimator=mod_iso_, cv=3, method='isotonic')
  model_iso_.fit(x_, y_)

  joblib.dump(model_iso_, path + f'/iso_bal_bag_rf_200_gini_200_active_learning_uncertainty_randomX4_{i}.joblib')

  x_rest = np.delete(x_rest, idx, axis=0)
  y_rest = np.delete(y_rest, idx, axis=0)

1/10...
2/10...
3/10...
4/10...
5/10...
6/10...
7/10...
8/10...
9/10...
10/10...


In [None]:
# Ανάκληση των αποθηκευμένων μοντέλων με τα σταδιακά αυξανόμενα δεδομένα και εκτύπωση στατιστικών

for i in range(10):
  model_iso_ = joblib.load(path + f'/iso_bal_bag_rf_200_gini_200_active_learning_uncertainty_randomX4_{i}.joblib')

  y_preds_ = model_iso_.predict_proba(x_te.to_numpy())

  y_preds_ = y_preds_.argmax(axis=1)

  print(f'Μετά από πρόσθεση {i+1}x5000 παραδειγμάτων...')
  print(confusion_matrix(y_te, y_preds_).T)
  print()
  print(classification_report(y_te, y_preds_))
  print(50*'-')

Μετά από πρόσθεση 1x5000 παραδειγμάτων...
[[85280    35]
 [   16   112]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.88      0.76      0.81       147

    accuracy                           1.00     85443
   macro avg       0.94      0.88      0.91     85443
weighted avg       1.00      1.00      1.00     85443

--------------------------------------------------
Μετά από πρόσθεση 2x5000 παραδειγμάτων...
[[85281    35]
 [   15   112]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.88      0.76      0.82       147

    accuracy                           1.00     85443
   macro avg       0.94      0.88      0.91     85443
weighted avg       1.00      1.00      1.00     85443

--------------------------------------------------
Μετά από πρόσθεση 3x5000 παραδειγμάτων...
[[85280    34]
 [   16   113]]

              precisio

In [24]:
# Εκπαίδευση μοντέλου Logistic Regression στο αρχικό σύνολο δεδομένων και εκτύπωση στατιστικών.

y0 = y_tr[y_tr==0]
x0 = x_tr[y_tr==0]

y1 = y_tr[y_tr==1]
x1 = x_tr[y_tr==1]

ln = len(y1)

model = LogisticRegression(max_iter=1000)
model.fit(x_tr, y_tr)

y_preds = model.predict_proba(x_te.to_numpy())

y_preds = y_preds.argmax(axis=1)

print(confusion_matrix(y_te, y_preds).T)
print()
print(classification_report(y_te, y_preds))

[[85284    60]
 [   12    87]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.88      0.59      0.71       147

    accuracy                           1.00     85443
   macro avg       0.94      0.80      0.85     85443
weighted avg       1.00      1.00      1.00     85443



In [25]:
# Πρόβλεψη των πιθανοτήτων για όλα τα μη ετικετοποιημένα δεδομένα και επιλογή των 50000 πιο αβέβαιων

cost = 5000
cost_per_example = 0.1

preds = model.predict_proba(x_UN.to_numpy())

idx = np.argsort(np.abs(preds[:,0].flatten() - 0.5))[:int(cost/cost_per_example)]

In [26]:
# Εκπαίδευση του μοντέλου με τα νέα επαυξημένα δεδομένα και εκτύπωση στατιστικών.

x_ = np.vstack([x_UN.to_numpy()[idx], x_tr])
y_ = y_UN.to_numpy()[idx].tolist() + y_tr.to_list()

model_ = LogisticRegression(max_iter=1000)
model_.fit(x_, y_)

y_preds_ = model_.predict_proba(x_te.to_numpy())

y_preds_ = y_preds_.argmax(axis=1)

print(confusion_matrix(y_te, y_preds_).T)
print()
print(classification_report(y_te, y_preds_))


[[85286    50]
 [   10    97]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.91      0.66      0.76       147

    accuracy                           1.00     85443
   macro avg       0.95      0.83      0.88     85443
weighted avg       1.00      1.00      1.00     85443



In [27]:
# Σταδιακή επέκταση των δεδομένων εκπαίδευσης σε 10 βήματα (ανά 5000 δείγματα) και εκτύπωση στατιστικών.

cost = 5000
cost_per_example = 0.1


sps = np.linspace(0, int(cost/cost_per_example), 11)
x_rest = x_UN.to_numpy()
y_rest = y_UN.to_numpy()
x_ = x_tr.to_numpy()
y_ = y_tr.to_numpy()

for i in range(10):
  print(f'{i+1}/10...')
  sp = int(sps[i+1] - sps[i])

  preds = model.predict_proba(x_rest)

  idx = np.argsort(np.abs(preds[:,0].flatten() - 0.5))[:sp]

  x_ = np.vstack([x_rest[idx], x_])
  y_ = np.array(y_rest[idx].tolist() + y_.tolist())

  model_ = LogisticRegression(max_iter=1000)
  model_.fit(x_, y_)

  y_preds_ = model_.predict_proba(x_te.to_numpy())

  y_preds_ = y_preds_.argmax(axis=1)

  print(f'Μετά από πρόσθεση {i+1}x5000 παραδειγμάτων...')
  print(confusion_matrix(y_te, y_preds_).T)
  print()
  print(classification_report(y_te, y_preds_))
  print(50*'-')

  x_rest = np.delete(x_rest, idx, axis=0)
  y_rest = np.delete(y_rest, idx, axis=0)

1/10...
Μετά από πρόσθεση 1x5000 παραδειγμάτων...
[[85285    49]
 [   11    98]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.90      0.67      0.77       147

    accuracy                           1.00     85443
   macro avg       0.95      0.83      0.88     85443
weighted avg       1.00      1.00      1.00     85443

--------------------------------------------------
2/10...
Μετά από πρόσθεση 2x5000 παραδειγμάτων...
[[85285    48]
 [   11    99]]

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     85296
           1       0.90      0.67      0.77       147

    accuracy                           1.00     85443
   macro avg       0.95      0.84      0.89     85443
weighted avg       1.00      1.00      1.00     85443

--------------------------------------------------
3/10...
Μετά από πρόσθεση 3x5000 παραδειγμάτων...
[[85285    49]
 [   11    98]]