In [4]:
import pandas as pd
import joblib  # Modelleri kaydetmek için gerekli kütüphane
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Modeller
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier

from sklearn.metrics import classification_report

# 1. VERİYİ OKU
df = pd.read_csv("NYC_Crash_Model_Final_Last.csv")

TARGET_COLUMN = "SEVERITY"

# 2. ÖZELLİK SEÇİMİ (9 Tane)
IMPORTANT_FEATURES = [
    'LATITUDE', 'LONGITUDE', 'HOUR', 'YEAR', 'MONTH', 'DAY_OF_WEEK', 
    'VEHICLE_1_GROUP_Two Wheeler', 'VEHICLE_2_GROUP_Two Wheeler', 'IS_MULTI_VEHICLE'
]

X = df[IMPORTANT_FEATURES]
y = df[TARGET_COLUMN]

print(f"Veri Hazır. Kullanılan Özellik Sayısı: {X.shape[1]}")

# 3. BÖLME
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# 4. ÖLÇEKLENDİRME VE KAYDETME (Çok Önemli!)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Scaler nesnesini kaydediyoruz. Çünkü yeni veri geldiğinde de aynı matematikle dönüştürmeliyiz.
joblib.dump(scaler, 'scaler.pkl')
print(">> 'scaler.pkl' başarıyla kaydedildi.")

# 5. MODELLERİ TANIMLA
models = {
    "LogisticRegression": LogisticRegression(class_weight='balanced', max_iter=2000),
    "KNeighborsClassifier": KNeighborsClassifier(n_neighbors=5),
    "GaussianNB": GaussianNB(),
    "DecisionTreeClassifier": DecisionTreeClassifier(class_weight='balanced', random_state=42)
}

# 6. EĞİTİM, TEST VE KAYDETME DÖNGÜSÜ
print("\nModel eğitimi ve kayıt işlemi başlıyor...\n")

for name, model in models.items():
    # Eğit
    model.fit(X_train_scaled, y_train)
    
    # Test Et (Raporu gör ki neyi kaydettiğini bil)
    y_pred = model.predict(X_test_scaled)
    print(f"==== {name} ====")
    print(classification_report(y_test, y_pred))
    
    # Kaydet
    filename = f"model_{name}.pkl"
    joblib.dump(model, filename)
    print(f">> '{filename}' başarıyla kaydedildi.\n")

print("-" * 30)
print("TÜM İŞLEMLER TAMAMLANDI.")
print("Dosyalar çalışma dizinine (klasörüne) kaydedildi.")

Veri Hazır. Kullanılan Özellik Sayısı: 9
>> 'scaler.pkl' başarıyla kaydedildi.

Model eğitimi ve kayıt işlemi başlıyor...

==== LogisticRegression ====
              precision    recall  f1-score   support

           0       0.83      0.75      0.79    289566
           1       0.40      0.52      0.45     92649

    accuracy                           0.70    382215
   macro avg       0.62      0.64      0.62    382215
weighted avg       0.73      0.70      0.71    382215

>> 'model_LogisticRegression.pkl' başarıyla kaydedildi.



  mode, _ = stats.mode(_y[neigh_ind, k], axis=1)


==== KNeighborsClassifier ====
              precision    recall  f1-score   support

           0       0.80      0.91      0.85    289566
           1       0.50      0.29      0.36     92649

    accuracy                           0.76    382215
   macro avg       0.65      0.60      0.61    382215
weighted avg       0.73      0.76      0.73    382215

>> 'model_KNeighborsClassifier.pkl' başarıyla kaydedildi.

==== GaussianNB ====
              precision    recall  f1-score   support

           0       0.79      0.98      0.88    289566
           1       0.76      0.19      0.31     92649

    accuracy                           0.79    382215
   macro avg       0.77      0.59      0.59    382215
weighted avg       0.78      0.79      0.74    382215

>> 'model_GaussianNB.pkl' başarıyla kaydedildi.

==== DecisionTreeClassifier ====
              precision    recall  f1-score   support

           0       0.80      0.80      0.80    289566
           1       0.37      0.36      0.37 