In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest

# A. Ładowanie danych
input_file_name = 'RTT_SR_with_anomalys.csv'
df = pd.read_csv(input_file_name, parse_dates=['Timestamp'], index_col='Timestamp')

print("Dane załadowane do analizy ML:")
print(df.head())

Dane załadowane do analizy ML:
                        RTT_ms  Success_Rate
Timestamp                                   
2024-01-01 00:00:00  51.646810     99.956094
2024-01-01 00:05:00  54.196656     99.929200
2024-01-01 00:10:00  45.646593     99.965009
2024-01-01 00:15:00  51.692967     99.968811
2024-01-01 00:20:00  48.967351     99.910979


In [2]:
X = df[['Success_Rate']]

model_sr = IsolationForest(n_estimators=100, contamination=0.01, random_state=42)
model_sr.fit(X)

In [5]:
# Predykcja
df['Anomaly_Score_SR'] = model_sr.decision_function(X)
df['Anomaly_Flag_SR'] = model_sr.predict(X)  # -1 = anomaly, 1 = normal

In [6]:
print(len(df['Anomaly_Score_SR']))
count_anomalies = (df['Anomaly_Flag_SR'] == -1).sum()
print("Number of detected anomalies (SR):", count_anomalies)
print(df['Anomaly_Flag_SR'].value_counts())

105409
Number of detected anomalies (SR): 1048
Anomaly_Flag_SR
 1    104361
-1      1048
Name: count, dtype: int64


In [None]:
# 1. Wybór kolumny do analizy
target_column = 'RTT_ms'

# 2. Definicja cech
# W Isolation Forest chcemy znormalizować/skalować dane, aby uniknąć wpływu skali.
# Używamy prostego array numpy.
data = df[[target_column]].values

# ----------------------------------------------------
# C. Implementacja Modelu Isolation Forest
# ----------------------------------------------------

# Isolation Forest to niezorientowany model (unsupervised), 
# nie wymaga etykiet (Labelów 'Anomaly').

# contamination: Oczekiwany ułamek (procent) anomalii w danych. 
# W świecie monitoringu ustawia się go na bardzo niskim poziomie (np. 0.005 = 0.5%)
# Musisz go 'stroić' (tune alert thresholds - patrz wymagania!).
#model = IsolationForest(
#    n_estimators=1000,
#    contamination=0.001, # Można zmienić na wartość liczbową np. 0.001
#    random_state=42,
#    verbose=0,
#    n_jobs=-1 # Użycie wszystkich rdzeni CPU
#)

# Trenowanie modelu (Fitting)
# W rzeczywistości, model trenowałbyś na 'czystych' danych (bazowych).
#model.fit(data)

# Przewidywanie (Prediction)
# Wynik to -1 dla anomalii (outliers) i 1 dla normalnych punktów.
df['Anomaly_Score'] = model.decision_function(data)
df['Anomaly_Flag'] = model.predict(data)

# ----------------------------------------------------
# D. Wizualizacja Wyników
# ----------------------------------------------------

# Zaznaczmy punkty, które zostały uznane za anomalie (-1)
anomalies = df.loc[df_ml['Anomaly_Flag'] == -1]

plt.figure(figsize=(15, 6))
plt.plot(df.index, df_ml[target_column], label='RTT (ms)', alpha=0.8)

# Rysowanie anomalii
plt.scatter(anomalies.index, anomalies[target_column], 
            color='red', 
            label='Anomaly Detected', 
            s=20) # 's' to rozmiar punktu

plt.title(f'Wykrywanie Anomalii RTT za pomocą Isolation Forest (Contamination: {model.contamination})')
plt.xlabel('Czas (Timestamp)')
plt.ylabel('RTT (ms)')
plt.legend()
plt.show()

print("\nLiczba wykrytych anomalii:", len(anomalies))
# Pamiętaj, że w naszym przypadku anomalia była krótka i ostra (Anomaly 1), 
# więc model powinien ją złapać.