# Balanced Accuracy Demo
Bu defter GitHub Ã¼zerinde paylaÅŸÄ±lmak Ã¼zere hazÄ±rlanmÄ±ÅŸtÄ±r. Dengesiz veri setlerinde **balanced accuracy** metriÄŸinin neden daha doÄŸru bir deÄŸerlendirme sunduÄŸunu gÃ¶sterir.

## NasÄ±l Ã‡alÄ±ÅŸtÄ±rÄ±lÄ±r?
```bash
git clone <repo-url>
cd <repo>
pip install -r requirements.txt  # veya: pip install scikit-learn matplotlib
jupyter notebook balanced_accuracy_demo_enhanced.ipynb
```
Python â‰¥3.8 Ã¶nerilir.


# DengelenmiÅŸ DoÄŸruluk (Balanced Accuracy)
Bu not defterinde **balanced accuracy** kavramÄ±nÄ± ayrÄ±ntÄ±lÄ± olarak inceleyecek ve Python ile kÃ¼Ã§Ã¼k bir Ã¶rnek uygulayacaÄŸÄ±z.

## TanÄ±m 
Balanced accuracy (dengelenmiÅŸ doÄŸruluk), sÄ±nÄ±f daÄŸÄ±lÄ±mÄ± dengesiz (imbalanced) olan sÄ±nÄ±flandÄ±rma problemlerinde model performansÄ±nÄ± daha adil bir ÅŸekilde Ã¶lÃ§mek iÃ§in kullanÄ±lan bir metriktir. Her sÄ±nÄ±f iÃ§in **recall** (duyarlÄ±lÄ±k) deÄŸerini hesaplar ve bu deÄŸerlerin aritmetik ortalamasÄ±nÄ± alÄ±r.

$$ \text{Balanced Accuracy} = \frac{1}{C}\sum_{i=1}^{C}\frac{TP_i}{TP_i + FN_i} $$

Burada $C$ sÄ±nÄ±f sayÄ±sÄ±dÄ±r, $TP_i$ i'inci sÄ±nÄ±f iÃ§in gerÃ§ek pozitiflerin sayÄ±sÄ±, $FN_i$ ise gerÃ§ek kaÃ§Ä±rÄ±lan (false negative) Ã¶rneklerin sayÄ±sÄ±dÄ±r.

## Neden ve Ne Zaman KullanÄ±lÄ±r?
- **SÄ±nÄ±f dengesizliÄŸi** olduÄŸunda (`weights=[0.95, 0.05]` gibi), klasik accuracy metriÄŸi Ã§oÄŸunluk sÄ±nÄ±fÄ±nÄ± tahmin ederek yÃ¼ksek deÄŸer verebilir.
- Balanced accuracy, her sÄ±nÄ±fÄ±n baÅŸarÄ± oranÄ±nÄ± eÅŸit derecede Ã¶nemser; bÃ¶ylece azÄ±nlÄ±k sÄ±nÄ±fÄ±n tahmin doÄŸruluÄŸunu gizlemez.
- Ã–zellikle tÄ±p, sahtekÃ¢rlÄ±k tespiti ve gÃ¼venlik gibi azÄ±nlÄ±k sÄ±nÄ±fÄ±n kritik olduÄŸu senaryolarda tercih edilir.

## Ã–rnek Ã‡alÄ±ÅŸma 
AÅŸaÄŸÄ±daki hÃ¼crelerde yapay olarak dengesiz bir veri seti oluÅŸturacaÄŸÄ±z (%90 negatif, %10 pozitif). Bir Lojistik Regresyon modeli eÄŸitip hem klasik accuracy hem de balanced accuracy hesaplayacaÄŸÄ±z.

In [None]:
# Gerekli kÃ¼tÃ¼phaneleri iÃ§e aktar
import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, balanced_accuracy_score, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# 1) Yapay veri seti oluÅŸturalÄ±m
# Bu veri seti iki sÄ±nÄ±flÄ± olacak ve sÄ±nÄ±flar arasÄ±nda dengesizlik olacak (Ã¶rn: %90 sÄ±nÄ±f 0, %10 sÄ±nÄ±f 1)
X, y = make_classification(n_samples=5000,       # toplam 5000 Ã¶rnek
                           n_features=20,         # 20 Ã¶zellik (baÄŸÄ±msÄ±z deÄŸiÅŸken)
                           n_informative=3,       # 3 tanesi gerÃ§ekten bilgi iÃ§eriyor
                           n_redundant=0,         # gereksiz (tekrarlÄ±) Ã¶zellik yok
                           n_clusters_per_class=1,
                           weights=[0.9, 0.1],    # %90 sÄ±nÄ±f 0, %10 sÄ±nÄ±f 1
                           random_state=42)       # tekrarlanabilirlik iÃ§in sabit tohum

# 2) EÄŸitim ve test verilerini ayÄ±ralÄ±m
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42
)  # %70 eÄŸitim, %30 test

# 3) Lojistik regresyon modeli oluÅŸturalÄ±m ve eÄŸitelim
clf = LogisticRegression(max_iter=1000)  # maksimum iterasyon sayÄ±sÄ±nÄ± artÄ±rÄ±yoruz
clf.fit(X_train, y_train)  # modeli eÄŸitiyoruz

# 4) Test verisi ile tahmin yapalÄ±m
y_pred = clf.predict(X_test)  # tahmin edilen etiketler

# 5) Performans metriklerini hesaplayalÄ±m
acc = accuracy_score(y_test, y_pred)  # klasik doÄŸruluk (accuracy)
bal_acc = balanced_accuracy_score(y_test, y_pred)  # dengelenmiÅŸ doÄŸruluk (balanced accuracy)

# SonuÃ§larÄ± yazdÄ±ralÄ±m
print(f"Klasik Accuracy: {acc:.4f}")
print(f"Balanced Accuracy: {bal_acc:.4f}")

# 6) Confusion matrix'i gÃ¶rselleÅŸtirelim
cm = confusion_matrix(y_test, y_pred)  # karÄ±ÅŸÄ±klÄ±k matrisi
fig, ax = plt.subplots()
ConfusionMatrixDisplay(confusion_matrix=cm).plot(ax=ax)  # matrisi Ã§izdir
plt.title('Confusion Matrix')
plt.show()

## ğŸš€ Sonraki AÅŸamalar (Ne YapÄ±labilir?)
- **class_weight='balanced'** veya `compute_class_weight` ile modeli tekrar eÄŸitip azÄ±nlÄ±k sÄ±nÄ±fa aÄŸÄ±rlÄ±k verilebilir.
- **SMOTE** ya da **RandomOverSampler** gibi tekniklerle azÄ±nlÄ±k sÄ±nÄ±fÄ± Ã¶rnekleri artÄ±rÄ±labilir.
- FarklÄ± modeller (Random Forest, Gradient Boosting, XGBoost, LightGBM) denenerek performans karÅŸÄ±laÅŸtÄ±rmasÄ± yapÄ±labilir.
- **ROC-AUC**, **PR-AUC**, **F1-score** gibi ilave metrikler eklenerek dengesiz veri setlerinde daha kapsamlÄ± deÄŸerlendirme yapÄ±labilir.
- Veri setini gerÃ§ek bir probleme (Ã¶rn: sahtekÃ¢rlÄ±k tespiti) entegre ederek iÅŸ baÄŸlamÄ± oluÅŸturulabilir.

AÅŸaÄŸÄ±daki hÃ¼cre `class_weight='balanced'` parametresinin etkisini hÄ±zlÄ±ca gÃ¶sterir.

In [None]:
# class_weight='balanced' ile yeniden eÄŸitim
# Bu parametre, modelin azÄ±nlÄ±k sÄ±nÄ±fa daha fazla Ã¶nem vermesini saÄŸlar.
# BÃ¶ylece sÄ±nÄ±f dengesizliÄŸinin etkisi azaltÄ±lÄ±r.

clf_bal = LogisticRegression(max_iter=1000, class_weight='balanced')  # sÄ±nÄ±flara aÄŸÄ±rlÄ±k vererek model kur
clf_bal.fit(X_train, y_train)  # modeli eÄŸit

y_pred_bal = clf_bal.predict(X_test)  # test verileri Ã¼zerinde tahmin yap

acc_bal = accuracy_score(y_test, y_pred_bal)  # klasik doÄŸruluk (accuracy)
bal_acc_bal = balanced_accuracy_score(y_test, y_pred_bal)  # dengelenmiÅŸ doÄŸruluk

print("\n--- class_weight='balanced' SonuÃ§larÄ± ---")
print(f"Accuracy: {acc_bal:.4f}")  # doÄŸruluk oranÄ±nÄ± yazdÄ±r
print(f"Balanced Accuracy: {bal_acc_bal:.4f}")  # balanced accuracy oranÄ±nÄ± yazdÄ±r

# Confusion matrix ile sÄ±nÄ±f bazÄ±nda baÅŸarÄ±yÄ± gÃ¶rselleÅŸtir
cm_bal = confusion_matrix(y_test, y_pred_bal)
fig, ax = plt.subplots()
ConfusionMatrixDisplay(confusion_matrix=cm_bal).plot(ax=ax)
plt.title("Confusion Matrix (class_weight='balanced')")
plt.show()

---
Bu not defteri [MIT LisansÄ±](LICENSE) ile sunulmuÅŸtur. KatkÄ±larÄ±nÄ±zÄ± pull request veya issue yoluyla iletebilirsiniz.

_Son gÃ¼ncelleme: 2025-07-15 07:45_