# Decision Tree Classification


Decision Tree Classification (Karar Ağacı Sınıflandırması), veriyi dallara ayırarak sınıflandıran ve ağaç yapısı ile karar mekanizmasını oluşturan bir makine öğrenimi algoritmasıdır. Ağaç yapısı düğümler (nodes) ve dallar (branches) şeklinde temsil edilir:


Kök düğüm (Root Node): Tüm veri kümesini temsil eden başlangıç noktasıdır.

Dahili düğümler (Internal Nodes): Verinin belirli özelliklere göre bölündüğü düğümlerdir.

Yaprak düğümler (Leaf Nodes): Son kararların verildiği düğümlerdir. Burada sınıflar belirlenir.


## Decision Tree Nasıl Çalışır?
Karar ağacı algoritması, genellikle ID3, C4.5, CART gibi yöntemlerle veriyi analiz eder. Çalışma mantığı şu şekildedir:

En iyi ayrımı yapan özellik seçilir:

Veri setindeki tüm özellikler için entropi ve bilgi kazancı (Information Gain) hesaplanır.

En iyi ayrımı yapan (en fazla bilgi kazancı sağlayan) özellik seçilir.



Veri ikiye bölünür:

Seçilen özelliğe göre veri bölünerek iki yeni düğüm oluşturulur.
Bu adımlar yaprak düğüme ulaşana kadar tekrarlanır

Düğümler arasında bölünme devam eder.

Sonuç olarak, sınıflandırma kuralları içeren bir ağaç oluşturulur.

## Decision Tree Kullanım Alanları

Karar ağaçları, kolay yorumlanabilir olması, hızlı çalışması ve görselleştirme kolaylığı nedeniyle birçok alanda yaygın olarak kullanılır:

1. Finans ve Bankacılık:

Müşteri Kredibilitesi Analizi: Bir müşterinin kredi alıp alamayacağını belirlemek için kullanılır.

Dolandırıcılık Tespiti: Bankacılık işlemlerindeki anormallikleri belirlemek için kullanılır.

2. Sağlık ve Tıp

Hastalık Teşhisi: Belirtilere göre hastalık sınıflandırması yapar.

Tedavi Önerileri: Hastanın geçmiş sağlık verilerine dayanarak en iyi tedaviyi önerir.

3. Pazarlama ve Satış

Müşteri Segmentasyonu: Müşterileri belirli gruplara ayırarak hedefli pazarlama yapar.

Satış Tahmini: Ürün satışlarını tahmin etmek için geçmiş verileri analiz eder.

4. Üretim ve Kalite Kontrol

Ürün Hata Analizi: Üretimde oluşan hataların nedenlerini belirlemek için kullanılır.

Bakım Planlaması: Makine arızalarını önceden tahmin ederek bakım süreçlerini optimize eder.

5. E-Ticaret ve Öneri Sistemleri

Kullanıcı Davranışı Analizi: Kullanıcının geçmiş alışverişlerine göre ürün önerileri sunar.

Spam Filtreleme: E-postaları spam veya normal olarak sınıflandırmak için kullanılır.

6. Hukuk ve Adli Bilişim

Dolandırıcılık ve Sahtekarlık Tespiti: Sahte işlemleri tespit etmek için analizler yapar.

Mahkeme Karar Tahminleri: Geçmiş davalar baz alınarak mahkeme kararlarını tahmin edebilir

### Avantajları:

✅ Kolay yorumlanabilir: Ağaç yapısı, insan tarafından kolayca anlaşılabilir.

✅ Özellik seçimi gerektirmez: Model, önemli özellikleri kendisi belirler.

✅ Hızlı ve düşük hesaplama maliyetine sahiptir: Büyük veri setlerinde bile hızlı çalışır.

✅ Eksik veriye karşı dayanıklıdır: Eksik verilerle çalışabilir ve alternatif yollar üretir.

### Dezavantajları:

❌ Aşırı öğrenme (Overfitting) riski vardır: Model, çok fazla detaya odaklanarak genelleme yapamayabilir.

❌ Dengesiz veri setlerinde yanlılık gösterebilir: Eğer sınıflar dengesizse, model çoğunluk sınıfa yönelme eğiliminde olabilir.

❌ Veri gürültüsüne duyarlıdır: Gürültülü (hatalı) veriler, karar ağacının yanlış dallara ayrılmasına neden olabilir.


Decision Tree Classification, birçok alanda kullanılan etkili bir makine öğrenmesi algoritmasıdır. Kolay yorumlanabilir olması sayesinde özellikle iş dünyasında sıkça tercih edilir. Ancak, aşırı öğrenme gibi bazı dezavantajları nedeniyle Random Forest gibi daha gelişmiş tekniklerle birleştirilerek daha güçlü modeller elde edilebilir.

In [2]:
import numpy as np
import pandas as pd
from sklearn import tree

df=pd.read_csv('DecisionTreesClassificationDataSet.csv')

In [3]:
df.head()

Unnamed: 0,Deneyim Yili,SuanCalisiyor?,Eski Calistigi Firmalar,Egitim Seviyesi,Top10 Universite?,StajBizdeYaptimi?,IseAlindi
0,11,Y,4,BS,N,N,Y
1,0,N,0,PhD,Y,Y,Y
2,5,Y,2,MS,N,Y,Y
3,3,N,1,BS,N,Y,Y
4,0,N,0,BS,N,N,N


scikit-learn kütüphanesi decision tree'lerin düzgün çalışması için herşeyin rakamlsal olmasını bekliyor bu nedenle veri setimizdeki tüm Y ve N değerlerini 0 ve 1 olarak düzeltiyoruz. Aynı sebeple eğitim seviyesini de BS:O MS:I ve PhD:2 olarak güncelliyoruz. map() kullanarak boş hücreler veya geçersiz değer girilen
hücreler NaN ile dolacak

In [4]:
duzeltme_mapping={"Y":1,"N":0}
df["IseAlindi"]=df["IseAlindi"].map(duzeltme_mapping)
df["SuanCalisiyor?"]=df["SuanCalisiyor?"].map(duzeltme_mapping)
df["Top10 Universite?"]=df["Top10 Universite?"].map(duzeltme_mapping)
df["StajBizdeYaptimi?"]=df["StajBizdeYaptimi?"].map(duzeltme_mapping)
duzeltme_mapping_egitim={"BS":0,"MS":1,"PhD":2}
df['Egitim Seviyesi']=df["Egitim Seviyesi"].map(duzeltme_mapping_egitim)
df.head()

Unnamed: 0,Deneyim Yili,SuanCalisiyor?,Eski Calistigi Firmalar,Egitim Seviyesi,Top10 Universite?,StajBizdeYaptimi?,IseAlindi
0,11,1,4,0,0,0,1
1,0,0,0,2,1,1,1
2,5,1,2,1,0,1,1
3,3,0,1,0,0,1,1
4,0,0,0,0,0,0,0


In [13]:
y=df["IseAlindi"]
X=df.drop(["IseAlindi"],axis=1)

In [14]:
clf=tree.DecisionTreeClassifier()
clf=clf.fit(X,y)

In [16]:
# deneme yapalım 3 yıl deneyimli , halihazırda bir yerde çalışan ve 3 eski şirkette çalışmış olan , eğitim seviyesi lisans , top10 mezunu değil
print(clf.predict([[3,1,3,0,0,0]]))

[1]


