In [1]:
import os
import joblib
import pandas as pd
import numpy as np
from scipy.sparse import load_npz
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# --- 1. Adım: Veri Yollarını Tanımla ---
BASE_DIR = r"C:\Users\goktu\workspace\datacops"

# --- 2. Adım: LASSO ile Seçilmiş Verileri Yükle ---
print("LASSO ile seçilmiş özellikli veriler yükleniyor...")
X_train_selected = load_npz(os.path.join(BASE_DIR, "X_train_selected.npz"))
X_test_selected = load_npz(os.path.join(BASE_DIR, "X_test_selected.npz"))

print(f"X_train_selected shape: {X_train_selected.shape}")
print(f"X_test_selected shape: {X_test_selected.shape}")

# --- 3. Adım: Hedef Değişkenleri (y) Yükle ---
# (Bu kodlar feature_selection not defterindeki ile aynı)
print("Hedef değişkenler (y_train, y_test) yükleniyor...")
df_train = pd.read_csv(os.path.join(BASE_DIR, "train_scaled.csv"))
df_test = pd.read_csv(os.path.join(BASE_DIR, "test_scaled.csv"))

target_col = "Crm Cd" 
y_train = df_train[target_col].astype(str)
y_test = df_test[target_col].astype(str)

print(f"y_train shape: {y_train.shape}")
print(f"y_test shape: {y_test.shape}")

LASSO ile seçilmiş özellikli veriler yükleniyor...
X_train_selected shape: (848024, 98)
X_test_selected shape: (147207, 98)
Hedef değişkenler (y_train, y_test) yükleniyor...
y_train shape: (848024,)
y_test shape: (147207,)


In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report
import time
import numpy as np

# Veri tipini RAM dostu yapalım (Hafifletme)
X_train_selected = X_train_selected.astype(np.float32)
X_test_selected = X_test_selected.astype(np.float32)

print("Decision Tree (Karar Ağacı) Modeli eğitiliyor...")
print("(Bu işlem Random Forest'tan çok daha hızlı ve hafif olacak)")

# Decision Tree Modeli
# max_depth=15: Ezberlemeyi önlemek için derinliği sınırla
dt_model = DecisionTreeClassifier(
    random_state=42,
    max_depth=15
)

start_time = time.time()

# Modeli eğit
dt_model.fit(X_train_selected, y_train)

end_time = time.time()
print(f"Eğitim tamamlandı! Süre: {end_time - start_time:.2f} saniye. ✅")



Random Forest Modeli eğitilmeye başlıyor...


MemoryError: could not allocate 1157627904 bytes

In [None]:
print("Test verisi üzerinde tahmin yapılıyor...")
y_pred = rf_model.predict(X_test_selected)

# --- Performans Metrikleri ---

# 1. Genel Doğruluk Oranı (Accuracy)
accuracy = accuracy_score(y_test, y_pred)
print(f"\n--- Model Doğruluk Oranı (Accuracy) ---")
print(f"Modelin doğruluk oranı: {accuracy * 100:.2f}%")

# 2. Detaylı Sınıflandırma Raporu (F1-Score, Precision, Recall)
print("\n--- Detaylı Sınıflandırma Raporu ---")
# 138 sınıfın tamamı çok uzun olacağı için sadece ilk 20 sınıfı göstersin
target_names_sample = [str(c) for c in rf_model.classes_[:20]]
print(classification_report(y_test, y_pred, target_names=target_names_sample, zero_division=0))