In [15]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
import keras
from keras import layers, models, utils, backend
from keras.models import Sequential
from keras.layers import Dense
#from keras.utils import to_categorical
from tensorflow.keras.optimizers import SGD
from sklearn.linear_model import LogisticRegression
import matplotlib.pyplot as plt
#from mlxtend.plotting import plot_decision_regions
from seaborn import countplot



# Załadowanie danych z .parquet file
df = pd.read_parquet('Friday-16-02-2018_pruned_normalized.parquet')

# Identyfikacja kolumn feature (wszystkich oprócz AttackType)
label_column = 'Label'
feature_columns = [col for col in df.columns if col != label_column]

# Ekstrakcja features i labels
X = df[feature_columns]
y = df[label_column]

# Encode labels
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# Podział danych na zestawy training (70%) i testing (30%)
X_train_val, X_final_test, y_train_val, y_final_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Dalszy podział danych treningowych na zestaw training (70%) i validation (30%)
X_train, X_test, y_train, y_test = train_test_split(X_train_val, y_train_val, test_size=0.3, random_state=42)

# Wyświetlenie próbek poszczególnych danych
print("Training data sample (X_train):")
print(X_train[:5])
print("\nTraining labels sample (y_train):")
print(y_train[:5])
print("Test data sample (X_test):")
print(X_test[:5])
print("\nTest labels sample (y_test):")
print(y_test[:5])
print("Final test data sample (X_final_test):")
print(X_final_test[:5])
print("\nFinal test labels sample (y_final_test):")
print(y_final_test[:5])



Training data sample (X_train):
        Dst Port  Timestamp  Flow Duration  Tot Fwd Pkts  Tot Bwd Pkts  \
323977  0.000968   0.062183       0.000010      0.004386      0.000000   
376661  0.984027   0.062369       0.045387      0.017544      0.003375   
774515  0.000968   0.064485       0.000028      0.004386      0.000000   
98394   0.000968   0.061090       0.000013      0.004386      0.000000   
685680  0.780901   0.063927       0.045807      0.017544      0.003375   

        TotLen Bwd Pkts  Fwd Pkt Len Max  Fwd Pkt Len Mean  Fwd Pkt Len Std  \
323977         0.000000         0.000000          0.000000         0.000000   
376661         0.000223         0.321085          0.268062         0.697342   
774515         0.000000         0.000000          0.000000         0.000000   
98394          0.000000         0.000000          0.000000         0.000000   
685680         0.000230         0.321085          0.268062         0.697342   

        Bwd Pkt Len Max  ...  Init Fwd Win Byts 

In [16]:
#####

# funkcja sigmoid logistyczna, która ogranicza wartości od 0 do 1. Ta funkcja okresla prawdopodobieństwo, że punkt nalezy do klasy lub nie
# na wejscie są tylko 2 warstwy (45 kolumn)

model = keras.Sequential()
model.add(Dense(32, input_dim=X_train.shape[1], activation='sigmoid'))
model.add(Dense(1, activation='softplus'))


# Kompilowanie modelu  wraz z optymalizatorem: 
# - metoda stochastycznego spadku wzdłóź gradientu (sgd), lub inna metoda na większe ilości danych (adam)
# - funkcja obliczająca straty i koszty (binary_crossentropy)
# - metryka śledząca postępy uczenia binary_accuracy
optimizer_sgd = SGD(learning_rate=0.001,decay=1e-6, momentum=0.9, nesterov=True)
model.compile(optimizer=optimizer_sgd, loss='binary_crossentropy', metrics=['binary_accuracy'])

print("\nTrenowanie modelu na bazie treningowych danych (X_train, y_train):")
model.fit(
   x=X_train,
   y=y_train,
   shuffle=True,
   epochs=5,
   batch_size=16
)

#Ewaluacja precyzji modelu
print("\nEwaluacja testowych danych (X_test, y_test):")
loss, binary_accuracy = model.evaluate(x=X_test, y=y_test)
print(f'binary_accuracy = {binary_accuracy*100}, set loss = {loss}')

eval = model.evaluate(x=X_final_test, y=y_final_test)
print(f'binary_accuracy from eval = {eval[1]*100}, set loss from eval = {eval[0]}')

# Ekstrakcja features z finalnych testowych danych
X_final_test_features = X_final_test[feature_columns]

# Standaryzacja features
scaler = StandardScaler()
X_final_test_features_stand = scaler.fit_transform(X_final_test_features)
X_final_test_features_transf = scaler.transform(X_final_test_features_stand)

# Sprawdzenie predykcji
print("\nPredykcja testowych finalnych danych (X_final_test):")
predictions = model.predict(X_final_test_features_transf)


# Tworzenie dynamicznego mapowania ataków opartego o labelki obecne w dataset (z pliku)
attack_mapping = {index: label for index,
                  label in enumerate(label_encoder.classes_)}

# Konwersja predykcji na nazwy typów ataków 
predicted_attack_types = [attack_mapping[label] for label in y_final_test]

# Liczenie ilości ataków dla każdego typu
is_attack_counts = pd.Series(predicted_attack_types).value_counts()

# Pokazywanie ilości ataków
print(is_attack_counts)


#####

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)



Trenowanie modelu na bazie treningowych danych (X_train_new, y_train_new):
Epoch 1/5
[1m32108/32108[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m83s[0m 3ms/step - binary_accuracy: 0.4398 - loss: 4.5534
Epoch 2/5
[1m32108/32108[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m77s[0m 2ms/step - binary_accuracy: 0.4399 - loss: 4.6266
Epoch 3/5
[1m 5805/32108[0m [32m━━━[0m[37m━━━━━━━━━━━━━━━━━[0m [1m1:01[0m 2ms/step - binary_accuracy: 0.4411 - loss: 4.6005