## 📌 Proje Hakkında

Bu proje, bireylerin kalp krizine yatkınlığını belirlemek amacıyla veri madenciliği tekniklerini kullanmaktadır. Mevcut veri seti, 13 farklı öznitelikten oluşmakta ve bireylerin sağlık durumlarıyla ilgili önemli veriler içermektedir. Projenin temel hedefi, bu verilerden yola çıkarak bireyleri "riskli" ve "risksiz" olarak sınıflandırmaktır. 🎯

Kalp krizi riski, bireylerin yaş, cinsiyet, kan basıncı, kolesterol seviyesi gibi özniteliklerle ilişkilendirilmiştir. Bu proje, KNN (K-Nearest Neighbors) algoritmasını kullanarak bu özniteliklerden anlamlı sonuçlar çıkarmayı hedeflemektedir. Ayrıca, veri görselleştirme ve analiz yöntemleri ile veri setindeki ilişkileri ve desenleri ortaya koymayı amaçlamaktadır. 🌟

---

## 🎯 Projenin Amacı

Projenin temel amacı, bireylerin test sonuçları ve kişisel sağlık verileri kullanılarak kalp krizi riskinin analiz edilmesidir. Veri madenciliği yöntemi olan KNN ile bu verilerin anlamlı hale getirilmesi ve sınıflandırma doğruluğunun artırılması hedeflenmiştir. 🚀 

Bunun yanı sıra, projede şu hedefler de bulunmaktadır:
- Büyük veri kümeleriyle çalışabilme ve veri madenciliği becerilerinin geliştirilmesi,
- Sınıflandırma algoritmaları hakkında pratik bilgi kazanılması,
- Sağlık sektörü gibi kritik alanlarda veri madenciliği uygulamalarının potansiyelini gösterme,
- Risk gruplarını tespit ederek bu bilgileri sağlık uzmanlarına fayda sağlayacak bir model haline getirme.

---

## 🧑🏻‍💻 Proje Ekibi
Bu proje, Afyon Kocatepe Üniversitesi Bilgisayar Mühendisliği Bölümü Veri Madenciliği Dersi kapsamında aşağıdaki ekip üyeleri tarafından geliştirilmiştir:

-  Mehmet Göktuğ Gökçe (212923025)
-  Sinan Malak (212923008)
-  Onur Barbaros (212923036)

---

## 📂 Veri Seti: Heart Attacks

Projede kullanılan veri seti, kalp krizi riskiyle ilgili bilgileri içermekte ve aşağıdaki detaylara sahiptir:

- **Kayıt Sayısı:** 303 
- **Sütun Sayısı:** 14 (13 öznitelik ve 1 hedef değişken)
- **Hedef Değişken:** `output` 
  - **1:** Riskli birey
  - **0:** Risksiz birey
- **Veri Seti Kaynağı:** Veri seti açık kaynak bir platform olan Kaggle üzerinden alınmıştır ve sağlık verileri analizinde sıklıkla kullanılmaktadır.

Bu veri seti, yaş, cinsiyet, kan şekeri, kolesterol seviyesi gibi bireylerin sağlık durumlarına dair önemli bilgileri içermektedir. Verilerin eksiksiz ve anlamlı şekilde işlenmesi, projenin başarıyla sonuçlanması açısından büyük önem taşımaktadır.

---

### **Hadi, verilerle çalışmaya başlayalım!** 🎉


# 📊 Python Veri Analizi ve Modelleme

Bu proje, veri analizi ve veri madenciliği için gerekli temel kütüphanelerin kullanımı ile başlar. Proje kapsamında kullanılan kütüphaneler aşağıda belirtilmiştir.

---

## 📦 Gerekli Kütüphaneler

Proje boyunca aşağıdaki kütüphaneler kullanılmaktadır. Eğer bu kütüphaneler yüklü değilse, `pip install <kütüphane_adı>` komutunu kullanarak yükleyebilirsiniz.

### 📚 Projede Kullanılan Kütüphaneler

Projede kullanılan temel Python kütüphaneleri ve bunların işlevleri aşağıda açıklanmıştır:


In [None]:
# Sayısal işlemler ve dizilerle çalışmak için
import numpy as np
# Model performans metrikleri için
from sklearn.metrics import classification_report, accuracy_score  
# Veri setini eğitim ve test setlerine ayırmak için
from sklearn.model_selection import train_test_split
# Verileri ölçeklendirmek için
from sklearn.preprocessing import StandardScaler  
# Grafik oluşturmak için
import matplotlib.pyplot as plt  
# Boyut indirgeme işlemleri için
from sklearn.decomposition import PCA  
# Renk haritası oluşturmak için
from matplotlib.colors import ListedColormap  
# Veri görselleştirme ve dağılım analizleri için
import seaborn as sns  
# Veriyi yükleme ve hazırlama
import pandas as pd

# Veri Seti Yüklenir

Veri setini yüklemek için `pandas` kütüphanesinin `read_csv()` fonksiyonu kullanılır. Bu işlem, veriyi belirtilen dosya yolundan okur ve bir DataFrame olarak yükler.


In [None]:
# Veriseti
data = pd.read_csv('/kaggle/input/dataset/heart.csv')

## 📊 Verisetinin İçeriğine Bakılır

Veri setinin ilk 60 satırına göz atmak için `head()` fonksiyonu kullanılır. Bu, verinin genel yapısını hızlıca incelemenize olanak tanır.

In [None]:
data.head(60)

## 📉 Dağılım Grafikleri

Veri setindeki her bir özelliğin dağılımını görselleştirmek için dağılım grafikleri oluşturulur. Bu grafikleri oluştururken, her bir sütunun türüne göre uygun grafik türü (sütun veya histogram) seçilir.

In [None]:
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)
# Dağılım grafikleri için sütunlar
columns = ['age', 'sex', 'cp', 'trtbps', 'chol', 'fbs', 'restecg', 'thalachh', 
           'exng', 'oldpeak', 'slp', 'caa', 'thall', 'output']

# Grafiklerin boyutları ve stili
plt.figure(figsize=(20, 20))
sns.set(style="whitegrid")

# Her sütun için ayrı grafik oluşturma
for i, col in enumerate(columns, 1):
    plt.subplot(5, 3, i)  # 5 satır, 3 sütun düzenlemesi
    if data[col].nunique() < 10:  # Kategorik veri için sütun grafiği
        sns.countplot(x=col, data=data, palette="viridis")
        plt.title(f'{col} - Count Distribution')
    else:  # Sürekli veri için histogram
        sns.histplot(data[col], kde=True, color="blue")
        plt.title(f'{col} - Value Distribution')
    plt.xlabel(col)
    plt.ylabel('Count')

# Grafiklerin gösterilmesi
plt.tight_layout()
plt.show()

## 🔍 Verisetindeki Değerlerin Kontrolü

Veri setindeki eksik ve benzersiz değerlerin kontrolü yapılır. Bu adımlar, verinin temizlenmesi ve analize hazırlanması için önemlidir.

İlk olarak, veri setinin genel bilgileri görüntülenir. Ardından her bir sütundaki benzersiz değerlerin sayısı hesaplanır ve eksik değerler kontrol edilir.

In [None]:
# Veri setinin genel bilgilerini görüntüleyelim
data.info()

# Her bir sütundaki benzersiz değerlerin sayısını görelim
unique_counts = data.nunique()
print("\nBenzersiz değerlerin sayısı:\n", unique_counts)

# Eksik değer kontrolü yapalım
missing_values = data.isnull().sum()
print("\nEksik değerlerin sayısı:\n", missing_values)

## ⚙️ Veri Seti Eğitim İçin Hazırlanır

Veri seti, veri madenciliği modeline uygun hale getirilir. İlk olarak, özellikler (`X`) ve hedef sınıf (`y`) ayrılır. Ardından, verinin eğitim ve test setlerine bölünmesi sağlanır.

In [None]:
# Özellikleri ve hedef sınıfı ayırma
X = data.drop(columns=['output'])
y = data['output']

# Eğitim ve test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

### 👀 Verisetine Tekrar Bakalım

Eğitim için ayrılan özelliklerin ilk birkaç satırını görmek için `head()` fonksiyonu kullanılır. Bu, verinin doğru şekilde ayrıldığını doğrulamak için faydalıdır.


In [None]:
X.head()

### 🔧 Veriler Standart Forma Getirilir (Ölçeklendirme)

Bu aşamada, modelin başarısını artırmak için `StandardScaler` fonksiyonu kullanılarak veriler standart bir forma getirilir. Özelliklerin ölçeklendirilmesi, modelin daha iyi performans göstermesine yardımcı olabilir.

In [None]:
# Hedef değişkenleri NumPy dizisine dönüştürme
y_train = y_train.to_numpy()
y_test = y_test.to_numpy()

# Özellikleri ölçeklendirme
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

### 👀 Verisetine Tekrar Bakalım

Ölçeklendirme işlemi sonrası test verisinin nasıl göründüğünü kontrol etmek için `X_test_scaled` değişkenine bakılır.

In [None]:
i = 0
while i < 5:
    print(X_test_scaled[i])
    i += 1

# 🧑‍💻 KNN Algoritması

KNN (K-Nearest Neighbors) algoritması, bir sınıflandırma yöntemidir ve yeni verilerin hangi sınıfa ait olduğunu, eğitim verisindeki en yakın komşularına göre tahmin eder. Bu algoritma, mesafe ölçüleri kullanarak, yeni veri noktasını eğitim verisindeki benzer noktalarla karşılaştırır ve en yakın k komşusunun etiketine göre tahmin yapar.

In [None]:
# KNN algoritması
class KNN:
    def __init__(self, k=3):
        self.k = k
        self.X_train = []
        self.y_train = []

    def fit(self, X, y):
        # Eğitim verilerini sakla
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        # Yeni veri setindeki her bir örnek için tahmin yap
        predictions = []
        for x in X:
            predictions.append(self._predict_single_point(x))
        return predictions

    def _predict_single_point(self, x):
        # Mesafeleri hesapla
        distances = []
        for i, train_point in enumerate(self.X_train):
            distance = self._euclidean_distance(train_point, x)
            distances.append((distance, self.y_train[i]))

        # En küçük mesafeye göre sıralama
        distances.sort(key=lambda d: d[0])

        # En yakın k komşunun etiketlerini al
        k_nearest_labels = [distances[i][1] for i in range(self.k)]

        # En sık görülen etiketi bul
        return self._most_common_label(k_nearest_labels)

    def _euclidean_distance(self, point1, point2):
        # İki nokta arasındaki Öklid mesafesi
        distance = 0
        for a, b in zip(point1, point2):
            distance += (a - b) ** 2
        return distance ** 0.5

    def _most_common_label(self, labels):
        # En sık görülen etiketi bul
        label_count = {}
        for label in labels:
            if label not in label_count:
                label_count[label] = 1
            else:
                label_count[label] += 1
        # En yüksek sayıya sahip etiketi döndür
        return max(label_count, key=label_count.get)

## 🔍 En İyi N Değeri (k) Hesaplanır

Bu aşamada, KNN algoritması için en iyi sonuç veren k değeri (komşu sayısı) hesaplanır. Farklı k değerleri denenerek her birinin doğruluk oranı değerlendirilir ve en yüksek doğruluğa sahip k değeri seçilir.

In [None]:
best_k = 1
best_accuracy = 0
k_values = range(1, 21)  # k=1'den k=5'e kadar değerlendir
accuracies = []

for k in k_values:
    knn = KNN(k=k)
    knn.fit(X_train_scaled, y_train)  # y_train zaten NumPy formatında
    y_pred = knn.predict(X_test_scaled)  # X zaten NumPy formatında
    accuracy = accuracy_score(y_test, y_pred)
    accuracies.append(accuracy_score(y_test, y_pred))

    print(f"k = {k}, Accuracy = {accuracy:.2f}")
    if accuracy > best_accuracy:
        best_k = k
        best_accuracy = accuracy

print(f"\nBest k: {best_k}, Best Accuracy: {best_accuracy:.2f}")

# En iyi k ile modeli yeniden eğitme
knn = KNN(k=best_k)
knn.fit(X_train_scaled, y_train)  # y_train zaten NumPy formatında
y_pred = knn.predict(X_test_scaled)


# 📈 Performans Çıktısı

Modelin performansını değerlendirmek için çeşitli metrikler kullanılır. Bu aşamada, en iyi k değeriyle yapılan tahminlerin ardından sınıflandırma raporu görüntülenir.

In [None]:
# Performans raporu
print("\nClassification Report (Best k):")
print(classification_report(y_test, y_pred))

# 📊 Çizelge

Modelin doğruluğunu görselleştirmek için bir çizelge oluşturulur. Bu çizelge, k değerinin (komşu sayısı) doğruluk üzerindeki etkisini gösterir. Ayrıca, doğruluk değerlerinin etrafında bir standart sapma bölgesi eklenir.

In [None]:
# Çizelge oluşturma
plt.figure(figsize=(8, 6))
plt.plot(k_values, accuracies, marker='o', label='Accuracy', color='green')
plt.fill_between(k_values, 
                 np.array(accuracies) - 0.03,  # Standart sapma bölgesi (örnek)
                 np.array(accuracies) + 0.03, 
                 color='lightblue', alpha=0.4, label='+/- 3std')

plt.title('KNN Accuracy vs Number of Neighbors (k)')
plt.xlabel('Number of Neighbors (k)')
plt.ylabel('Accuracy')
plt.xticks(k_values)
plt.legend()
plt.grid()
plt.show()

# 📉 PCA ile Boyut İndirgeme

PCA (Principal Component Analysis) kullanılarak, yüksek boyutlu verinin daha düşük bir boyutta görselleştirilmesi sağlanır. Bu işlem, verinin daha iyi anlaşılmasını ve analiz edilmesini kolaylaştırır.

İlk olarak, `PCA` fonksiyonu ile verinin iki bileşene indirgenmesi yapılır. Ardından, bu iki bileşenin görselleştirilmesi için bir scatter plot (dağılım grafiği) oluşturulur.

In [None]:
# PCA ile boyut indirgeme
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X_train_scaled)
X_test_reduced = pca.transform(X_test_scaled)
# PCA Görselleştirme
plt.figure(figsize=(10, 6))
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y_train, cmap=ListedColormap(['#FF0000', '#0000FF']), edgecolor='k')
plt.title("PCA ile Veri Görselleştirme")
plt.xlabel("Principal Component 1")
plt.ylabel("Principal Component 2")
plt.show()

# 🎨 PCA ile Boyut İndirgeme ve KNN Karar Sınırları

Bu görselleştirme, PCA ile boyutları indirgenmiş veride KNN algoritmasının karar sınırlarını gösterir. 

1. **KNN Modeli Eğitimi**: 
   - `X_reduced` (indirgenmiş özellikler) ve `y_train` (etiketler) kullanılarak model eğitilir. 

2. **Karar Sınırları İçin Mesh Grid Oluşturma**:
   - Veri aralığını kapsayan bir mesh grid (kafes ızgarası) oluşturulur. Bu grid, KNN'in karar sınırlarını tahmin edebilmesi için kullanılır. 🔍

3. **Karar Sınırlarının Hesaplanması**:
   - Mesh grid üzerindeki her bir noktada modelin tahminleri alınır ve karar sınırlarını belirlemek için bu tahminler görselleştirilir.

4. **Veri ve Karar Sınırlarının Görselleştirilmesi**:
   - Karar sınırları, iki farklı renk ile gösterilir. 
   - Eğitim verisi ise renkli noktalar olarak işaretlenir:
     - 🔴 Kırmızı: Riskli birey
     - 🔵 Mavi: Risksiz birey

5. **Grafik Detayları**:
   - X ve Y eksenlerinde, PCA ile indirgenmiş ana bileşenler yer alır.
   - KNN modelinin parametrelerinden biri olan **k** değeri (komşu sayısı) grafikte belirtilmiştir.

Bu görselleştirme, sınıflandırma algoritmasının kararlarını daha iyi anlamamızı ve veri ile algoritmanın uyumunu görmemizi sağlar. 📊


In [None]:
knn.fit(X_reduced, y_train)

# Karar sınırları için mesh grid oluştur
x_min, x_max = X_reduced[:, 0].min() - 1, X_reduced[:, 0].max() + 1
y_min, y_max = X_reduced[:, 1].min() - 1, X_reduced[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1), np.arange(y_min, y_max, 0.1))

# Mesh grid üzerindeki tahminleri yap
Z = np.array(knn.predict(np.c_[xx.ravel(), yy.ravel()]))
Z = Z.reshape(xx.shape)

# Karar sınırlarını ve veriyi görselleştir
plt.figure(figsize=(10, 6))
plt.contourf(xx, yy, Z, alpha=0.6, cmap=ListedColormap(['#FFAAAA', '#AAAAFF']))  # Karar sınırları
plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y_train, cmap=ListedColormap(['#FF0000', '#0000FF']), edgecolor='k')  # Eğitim verisi
plt.title(f"PCA ile Boyut İndirgeme ve KNN Karar Sınırları (k={best_k})")
plt.xlabel("Principal Component 1")
plt.ylabel("Principal Component 2")
plt.show()