# Analisis Anomali Network Menggunakan FP-Growth dan Association Rules

## Deskripsi Proyek
Notebook ini menganalisis log jaringan untuk mendeteksi anomali menggunakan algoritma **FP-Growth** (Frequent Pattern Growth) dan **Association Rules**. Tujuan utama adalah menemukan pola hubungan antara kondisi jaringan dan diagnosis anomali.

## Struktur Analisis
1. **Encoding Data**: Mengonversi data log menjadi format transaksi yang dapat dianalisis
2. **FP-Growth Algorithm**: Menemukan pola frekuen dengan threshold minimum support
3. **Association Rules**: Menghasilkan aturan asosiasi untuk prediksi diagnosis
4. **Filtering & Visualization**: Menyaring aturan yang relevan dan menampilkan hasil akhir

## Tahap 1: Import Library dan Persiapan Data

Pada tahap ini, kami mengimpor library yang diperlukan untuk analisis frequent pattern mining dan memuat dataset yang sudah dibersihkan dari tahap preprocessing.

In [1]:
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import fpgrowth, association_rules
import pandas as pd

# Import cleaned data dari hasil preprocessing
df_cleaned = pd.read_csv('Data/Data_Siap_Mining.csv')
print(f"Dataset berhasil dimuat: {df_cleaned.shape[0]} baris, {df_cleaned.shape[1]} kolom")

Dataset berhasil dimuat: 6537 baris, 2 kolom


## Tahap 2: Encoding Data dan Perhitungan FP-Growth

### Proses Encoding
- **TransactionEncoder**: Mengkonversi data log dari format text menjadi format transaksi (one-hot encoded)
- Setiap item dalam 'items' column diubah menjadi kolom boolean terpisah
- Output: DataFrame `df_encoded` dengan nilai True/False untuk setiap atribut

### Perhitungan Support
- **Minimum Support**: Threshold minimum untuk pola yang dianggap "sering" terjadi
- **MIN_SUPPORT_COUNT = 20**: Pola harus muncul minimal 20 kali dalam dataset
- **min_support_pct**: Persentase support dihitung dari total jumlah transaksi

### Algoritma FP-Growth
- **fpgrowth**: Algoritma efisien untuk mining pola frekuen
- Lebih cepat dari Apriori karena menggunakan FP-tree structure
- Output: `frequent_itemsets` berisi semua pola yang memenuhi threshold

### Association Rules
- Menghasilkan aturan IF-THEN dari pola frekuen
- **min_threshold = 0.6**: Hanya aturan dengan confidence ≥ 60% yang dipertahankan
- Metrik yang dihitung: support, confidence, lift, dsb.

In [None]:
# ===== STEP 1: ENCODING DATA PER DIAGNOSIS LABEL =====
# Untuk mengurangi penggunaan memori, kita akan memproses per diagnosis label
import ast
import gc

# Definisikan label diagnosis yang valid
DIAGNOSIS_LABELS = ['NORMAL', 'UPSTREAM_FAILURE', 'LINK_FAILURE', 'DDOS_ATTACK', 'BROADCAST_STORM']

print(f"✓ Memulai encoding data per diagnosis label untuk menghemat memori...")
print(f"  - Total dataset: {df_cleaned.shape[0]} baris")
print(f"  - Diagnosis labels: {DIAGNOSIS_LABELS}\n")

# Dictionary untuk menyimpan hasil per label
encoded_data_per_label = {}
te = TransactionEncoder()

# Process setiap diagnosis label secara terpisah
for label in DIAGNOSIS_LABELS:
    print(f"Processing '{label}'...", end=" ")
    
    # Filter data untuk label ini saja
    df_label = df_cleaned[df_cleaned['diagnosis'] == label].copy()
    
    if len(df_label) == 0:
        print(f"(Skip - tidak ada data)")
        continue
    
    # Konversi items menjadi list
    items_list = df_label['items'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x).tolist()
    
    # Transform menggunakan TransactionEncoder
    te_ary = te.fit(items_list).transform(items_list)
    df_encoded_label = pd.DataFrame(te_ary, columns=te.columns_)
    
    # Tambahkan diagnosis label sebagai kolom
    df_encoded_label['diagnosis'] = label
    
    encoded_data_per_label[label] = df_encoded_label
    
    print(f"✓ ({len(df_label)} transaksi, {len(df_encoded_label.columns)-1} atribut)")
    
    # Bersihkan memori
    del df_label, items_list, te_ary
    gc.collect()

print(f"\n✓ Encoding selesai untuk semua labels!")



✓ Data berhasil di-encode:
  - Shape: (6537, 127)
  - Atribut unik: 127

Sample data (5 baris pertama):
   0x0004  0x0800    100   1000    130    131    132    133   133-    153  \
0   False   False  False  False  False  False  False  False  False  False   
1   False   False  False  False  False  False  False  False  False  False   
2   False   False  False  False  False  False  False  False  False  False   
3   False   False  False  False  False  False  False  False  False  False   
4   False   False  False  False  False  False  False  False  False  False   

   ...   type    udp  unknown  up-script  upstream   user  version  waiting  \
0  ...  False  False    False      False     False  False    False    False   
1  ...  False  False    False      False     False  False    False    False   
2  ...  False  False    False      False     False  False     True    False   
3  ...  False  False    False      False     False  False     True    False   
4  ...  False  False    False      Fa

In [None]:
# ===== STEP 2: FP-GROWTH PER DIAGNOSIS LABEL =====
# Jalankan FP-Growth untuk masing-masing diagnosis label
MIN_SUPPORT_COUNT = 20

frequent_itemsets_dict = {}
print(f"✓ Menjalankan FP-Growth per diagnosis label...")
print(f"  - MIN_SUPPORT_COUNT: {MIN_SUPPORT_COUNT}\n")

for label, df_encoded in encoded_data_per_label.items():
    print(f"FP-Growth for '{label}'...", end=" ")
    
    # Hitung minimum support percentage
    min_support_pct = MIN_SUPPORT_COUNT / len(df_encoded)
    
    # Gunakan hanya kolom atribut (exclude diagnosis column)
    df_for_fpgrowth = df_encoded.drop('diagnosis', axis=1)
    
    # Jalankan FP-Growth
    frequent_itemsets = fpgrowth(df_for_fpgrowth, min_support=min_support_pct, use_colnames=True)
    
    # Tambahkan diagnosis label ke dalam frequent itemsets
    frequent_itemsets['diagnosis'] = label
    
    frequent_itemsets_dict[label] = frequent_itemsets
    
    print(f"✓ Ditemukan {len(frequent_itemsets)} pola frekuen")
    
    # Bersihkan memori
    del df_encoded, df_for_fpgrowth
    gc.collect()

print(f"\n✓ FP-Growth selesai untuk semua labels!")

# Gabungkan semua frequent itemsets
all_frequent_itemsets = pd.concat(frequent_itemsets_dict.values(), ignore_index=True)
print(f"  - Total pola frekuen: {len(all_frequent_itemsets)}")


In [None]:
# ===== STEP 3: GENERATE ASSOCIATION RULES PER LABEL =====
# Buat association rules untuk setiap diagnosis label
MIN_CONFIDENCE = 0.6

rules_dict = {}
total_rules = 0

print(f"✓ Menghasilkan Association Rules per diagnosis label...")
print(f"  - MIN_CONFIDENCE: {MIN_CONFIDENCE}\n")

for label, frequent_itemsets in frequent_itemsets_dict.items():
    print(f"Generating rules for '{label}'...", end=" ")
    
    if len(frequent_itemsets) == 0:
        print("(Skip - tidak ada frequent itemsets)")
        continue
    
    # Generate association rules
    rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=MIN_CONFIDENCE)
    
    if len(rules) > 0:
        rules['diagnosis'] = label
        rules_dict[label] = rules
        total_rules += len(rules)
        print(f"✓ Ditemukan {len(rules)} rules")
    else:
        print("(tidak ada rules dengan confidence >= threshold)")
    
    # Bersihkan memori
    del frequent_itemsets
    gc.collect()

print(f"\n✓ Association Rules generation selesai!")
print(f"  - Total rules: {total_rules}")

# Gabungkan semua rules
if rules_dict:
    all_rules = pd.concat(rules_dict.values(), ignore_index=True)
    print(f"  - Rules yang digabungkan: {len(all_rules)}")
else:
    all_rules = pd.DataFrame()
    print("  - Tidak ada rules yang dihasilkan!")


## Tahap 3: Penyaringan dan Tampilan Hasil Akhir

### Konsep Filtering
Dari semua association rules yang dihasilkan, kita hanya ingin menyimpan rules yang:
- **Consequent (Kesimpulan)**: Harus berupa diagnosis/label anomali
  - NORMAL: Kondisi jaringan normal
  - UPSTREAM_FAILURE: Kegagalan uplink
  - LINK_FAILURE: Kegagalan link
  - DDOS_ATTACK: Serangan DDoS
  - BROADCAST_STORM: Broadcast storm

Contoh Rule yang BENAR (yang kita inginkan):
- IF `ether1=down AND queue=high` THEN `LINK_FAILURE` ✓

Contoh Rule yang SALAH (yang kita buang):
- IF `LINK_FAILURE` THEN `ether1=down` ✗

### Metrik Evaluasi
- **Support**: Seberapa sering pola ini muncul dalam dataset (0-1)
- **Confidence**: Probabilitas consequent terjadi jika antecedent terjadi (0-1)
- **Lift**: Seberapa kuat hubungan antara antecedent dan consequent (>1 = hubungan positif)

In [None]:
# ===== STEP 4: FILTERING RULES =====
# Filter rules - hanya ambil yang berakhir dengan diagnosis
def is_diagnosis(consequents):
    """
    Cek apakah consequents (frozenset) mengandung minimal 1 label diagnosis
    """
    return any(label in consequents for label in DIAGNOSIS_LABELS)

if len(all_rules) > 0:
    final_rules = all_rules[all_rules['consequents'].apply(is_diagnosis)].copy()
    print(f"✓ Rules setelah filtering:")
    print(f"  - Total rules sebelum filter: {len(all_rules)}")
    print(f"  - Rules dengan diagnosis consequent: {len(final_rules)}")
    print(f"  - Rules yang dihilangkan: {len(all_rules) - len(final_rules)}")
    
    # ===== STEP 5: SORTING =====
    # Urutkan berdasarkan confidence (tertinggi) kemudian support (tertinggi)
    final_rules = final_rules.sort_values(['confidence', 'support'], ascending=[False, False])
    print(f"\n✓ Rules sudah diurutkan berdasarkan confidence dan support (descending)")
    
    # ===== STEP 6: DISPLAY HASIL =====
    # Konversi frozenset ke list untuk memudahkan pembacaan CSV dan Streamlit
    final_rules_for_display = final_rules[['antecedents', 'consequents', 'support', 'confidence', 'lift', 'diagnosis']].copy()
    final_rules_for_display['antecedents'] = final_rules_for_display['antecedents'].apply(list)
    final_rules_for_display['consequents'] = final_rules_for_display['consequents'].apply(list)
    
    print(f"\n{'='*100}")
    print(f"TOP ASSOCIATION RULES - NETWORK ANOMALY DETECTION (PROCESSED PER LABEL)")
    print(f"{'='*100}\n")
    
    # Tampilkan dengan format yang lebih rapi (hanya 15 untuk display)
    for idx, (i, row) in enumerate(final_rules_for_display.head(15).iterrows(), 1):
        antecedents = ', '.join(row['antecedents'])
        consequents = ', '.join(row['consequents'])
        diagnosis = row['diagnosis']
        
        print(f"[Rule {idx}] [{diagnosis}]")
        print(f"  IF:   {antecedents}")
        print(f"  THEN: {consequents}")
        print(f"  Support: {row['support']:.4f} | Confidence: {row['confidence']:.4f} | Lift: {row['lift']:.4f}")
        print()
    
    # ===== STEP 7: SAVE HASIL =====
    print(f"{'='*100}")
    print(f"MENYIMPAN DATA KE CSV...")
    print(f"{'='*100}\n")
    
    # Simpan SEMUA final rules ke CSV
    final_rules_for_display.to_csv('../Final_Skripsi_Rules.csv', index=False)
    print(f"✓ SEMUA {len(final_rules_for_display)} rules berhasil disimpan ke 'Final_Skripsi_Rules.csv'")
    print(f"  - File ini akan digunakan oleh Dashboard Live Monitoring")
    print(f"  - Frozenset sudah dikonversi ke list untuk kompatibilitas Streamlit")
    print(f"  - Format: antecedents | consequents | support | confidence | lift | diagnosis")
    
    print(f"\n{'='*100}")
    print(f"✓ TOP 15 RULES (sample dari {len(final_rules_for_display)} total rules)")
    print(f"{'='*100}")
    
    # Bersihkan memori
    del all_rules, all_frequent_itemsets
    gc.collect()
    
else:
    print("⚠ Tidak ada rules yang dihasilkan dari semua labels!")


## Kesimpulan dan Interpretasi

### Hasil Analisis
Notebook ini menghasilkan association rules yang menunjukkan hubungan antara kondisi jaringan dan tipe anomali. Setiap rule memiliki:
- **Antecedents (IF)**: Kondisi atau kombinasi kondisi jaringan yang diamati
- **Consequents (THEN)**: Diagnosis/prediksi tipe anomali yang kemungkinan terjadi
- **Confidence**: Tingkat akurasi prediksi (semakin tinggi semakin baik)
- **Support**: Seberapa sering pola ini muncul dalam data (frekuensi)
- **Lift**: Seberapa kuat hubungan antara kondisi dan diagnosis

### Penggunaan Praktis
Hasil rules ini dapat digunakan untuk:
1. **Early Warning System**: Mendeteksi anomali sebelum terjadi dengan mengecek kondisi antecedent
2. **Root Cause Analysis**: Memahami faktor-faktor apa yang menyebabkan setiap tipe anomali
3. **Network Optimization**: Meningkatkan monitoring dan maintenance protokol berdasarkan insights
4. **Decision Support**: Membantu network administrator membuat keputusan yang lebih cepat dan tepat

### File Output
- **Final_Skripsi_Rules.csv**: Berisi top 10 rules dalam format CSV yang dapat digunakan untuk proses selanjutnya