# Master Feature Engineering Pipeline

Bu notebook, hiç bir alt notebook içeriğini değiştirmeden sırasıyla feature engineering adımlarını çalıştırır ve ana CSV dosyasına eklemeler yaparak kaydeder.

**Çalışma dizini**: Tüm alt `.ipynb` dosyalarının (`calculate_direction.ipynb`, `bounding_box.ipynb`, vb.) bulunduğu klasörde olmalıdır.

In [None]:
#!/usr/bin/env python3
# run_all_features.py

import papermill as pm
from pathlib import Path

# ─── Ayarlar ───────────────────────────────────────────────────────────
NOTEBOOKS = [
    "calculate_direction.ipynb",
    "bounding_box.ipynb",
    "compute_avg_speed_math.ipynb",
    "compute_avg_acceleration.ipynb",
    "compute_idle_entropy_fixed2.ipynb",
    "compute_linearity_manual.ipynb",
]

# Fake: tarih listesi
FAKE_DATES = ["2025-04-21","2025-04-22","2025-04-23","2025-04-24","2025-04-25"]

# Real: CSV’lerin bulunduğu klasör
REAL_DIR = Path("data/real")

# Çıktı klasörleri
(ProcessFakeDir, ProcessRealAcerDir, ProcessRealNatureDir) = (
    Path("processed/fake"),
    Path("processed/real/acer"),
    Path("processed/real/nature"),
)
for d in (ProcessFakeDir, ProcessRealAcerDir, ProcessRealNatureDir):
    d.mkdir(parents=True, exist_ok=True)

# ─── Fake Data İçin Çalıştır ────────────────────────────────────────────
def run_fake():
    for date in FAKE_DATES:
        input_pattern = f"parquet_dataset/date={date}/*.parquet"
        output_csv    = ProcessFakeDir / f"{date}-processed.csv"
        for nb in NOTEBOOKS:
            out_nb = Path("runs")/f"fake_{date}_{nb}"
            pm.execute_notebook(
                input_path = nb,
                output_path= str(out_nb),
                parameters = {
                    "mode": "fake",
                    "input_path": input_pattern,
                    "output_path": str(output_csv)
                }
            )
        print(f"✅ Fake {date} tamamlandı → {output_csv}")

# ─── Real Data İçin Çalıştır ────────────────────────────────────────────
def run_real():
    # Örn: km_stat_acer_20250421.csv, km_stat_nature_20250421.csv, vs.
    for csv_path in sorted(REAL_DIR.glob("km_stat_*.csv")):
        stem = csv_path.stem  # km_stat_acer_20250421
        parts = stem.split("_")  # ["km","stat","acer","20250421"]
        prefix = parts[2]        # "acer" veya "nature"
        date   = parts[3]        # "20250421"
        output_csv = (
            ProcessRealAcerDir if prefix=="acer" else ProcessRealNatureDir
        ) / f"{date}-processed.csv"

        for nb in NOTEBOOKS:
            out_nb = Path("runs")/f"real_{prefix}_{date}_{nb}"
            pm.execute_notebook(
                input_path = nb,
                output_path= str(out_nb),
                parameters = {
                    "mode": "real",
                    "input_path": str(csv_path),
                    "output_path": str(output_csv)
                }
            )
        print(f"✅ Real {prefix} {date} tamamlandı → {output_csv}")

# ─── Main ───────────────────────────────────────────────────────────────
if __name__=="__main__":
    run_fake()
    run_real()


In [None]:
# 1) Directional Changes
%run calculate_direction.ipynb

In [None]:
# 2) Bounding Box
%run bounding_box.ipynb

In [None]:
# 3) Average Speed
%run compute_avg_speed_math.ipynb

In [None]:
# 4) Average Acceleration
%run compute_avg_acceleration.ipynb

In [None]:
# 5) Mouse Idle Ratio & Entropy
%run compute_idle_entropy_fixed2.ipynb

In [None]:
# 6) Linearity
%run compute_linearity_manual.ipynb

In [None]:
# Tamamlandı! 
print("Tüm feature engineering adımları tamamlandı. Ana CSV dosyalarına eklenen sütunları kontrol edin.")