In [2]:
import numpy as np
import pandas as pd

pd.set_option('display.float_format', '{:.10f}'.format)

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, accuracy_score

%matplotlib inline



In [5]:
df_ml =  pd.read_csv('../Data/Processed Data.csv')

In [6]:
X = df_ml.drop(['rowid', 'koi_disposition'], axis=1)
y = df_ml['koi_disposition']
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=42, stratify=y
)


In [7]:
# StandardScaler kullanarak ölçeklendirme
scaler = StandardScaler()

# Eğitme verisi üzerinde hem fit (öğren) hem de transform (uygula) yap
X_train_scaled = scaler.fit_transform(X_train)

# Test verisi üzerinde sadece transform yap (eğitim verisinden öğrenilen değerleri kullan)
X_test_scaled = scaler.transform(X_test)

In [8]:
# 1. Model nesnesini oluştur (k=7 seçildi)
k = 7
knn_model = KNeighborsClassifier(n_neighbors=k)

# 2. Modeli eğitim verileriyle eğit
knn_model.fit(X_train_scaled, y_train)

# 3. Test seti üzerinde tahmin yap
y_pred = knn_model.predict(X_test_scaled)

In [9]:
y_pred

array(['CONFIRMED', 'FALSE POSITIVE', 'CONFIRMED', ..., 'CONFIRMED',
       'FALSE POSITIVE', 'CONFIRMED'], shape=(2391,), dtype=object)

In [10]:
# Doğruluk Puanını hesapla
accuracy = accuracy_score(y_test, y_pred)

print(f"Seçilen Komşu Sayısı (k): {k}")
print(f"Test Veri Seti Doğruluğu: {accuracy:.4f}")

print("\nSınıflandırma Raporu:")
print(classification_report(y_test, y_pred))

Seçilen Komşu Sayısı (k): 7
Test Veri Seti Doğruluğu: 0.8394

Sınıflandırma Raporu:
                precision    recall  f1-score   support

     CANDIDATE       0.67      0.52      0.58       495
     CONFIRMED       0.82      0.93      0.87       686
FALSE POSITIVE       0.91      0.92      0.91      1210

      accuracy                           0.84      2391
     macro avg       0.80      0.79      0.79      2391
  weighted avg       0.83      0.84      0.83      2391



In [12]:
import joblib
import os # Kaydedilecek dizini kontrol etmek için

# Varsayım: clf, eğitilmiş XGBClassifier modeliniz.
model_output_filename = '../Trained Models/KNN_model_final.joblib'

# Modeli kaydetme (Serileştirme)
try:
    joblib.dump(knn_model, model_output_filename)
    
    print(f"Model başarıyla '{model_output_filename}' dosyasına kaydedildi.")
    print(f"Dosya boyutu: {os.path.getsize(model_output_filename) / (1024*1024):.2f} MB")

except Exception as e:
    print(f"Hata oluştu: {e}")

Model başarıyla '../Trained Models/KNN_model_final.joblib' dosyasına kaydedildi.
Dosya boyutu: 4.98 MB
