# 🔍 KeyCodes Verisinden Fraud Analizi (1 veya 2 Değerli Satırlar)
Bu notebook, key_codes sütununda yalnızca 1 veya 2 rakam olan satırları filtreleyip,
bunların `key_down_count` değerleriyle clustering analizi yapar.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

In [None]:
# 📁 CSV dosyasını oku (buraya kendi dosya yolunu yaz)
file_path = "C:/store/git/km-stat-activity/data/real/real_activity_log.csv"  # ← BURAYI DEĞİŞTİR
df = pd.read_csv(file_path)

filtered_rows = []
features = []

for _, row in df.iterrows():
    keycode_raw = row.get("key_codes", "")
    if not isinstance(keycode_raw, str) or not keycode_raw.startswith("{"):
        continue

    try:
        keycodes = list(map(int, keycode_raw.strip('{}').split(',')))
    except:
        continue

    if len(keycodes) <= 2:
        key_down = row.get("key_down_count", np.nan)
        if not pd.isna(key_down):
            features.append([len(keycodes), key_down])
            filtered_rows.append(row)

# 🧪 Veriyi kümelere ayır
X = np.array(features)
if len(X) > 0:
    kmeans = KMeans(n_clusters=3, random_state=42)
    labels = kmeans.fit_predict(X)

    # 🎨 Görselleştir
    plt.figure(figsize=(8, 6))
    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', s=50)
    plt.xlabel("Key Codes Uzunluğu (1 veya 2)")
    plt.ylabel("Key Down Count")
    plt.title("KeyCodes Uzunluğu 1 veya 2 Olan Satırların Clustering Grafiği")
    plt.grid(True)
    plt.show()
else:
    print("Uygun veri bulunamadı. Lütfen dosya yolunu kontrol et veya veriyi incele.")