#### Ayriklastirma

Discretizasyon veya bölme, sürekli değişkenleri, değişken değerlerinin aralığını kapsayan bir dizi bitişik aralık veya bölme oluşturarak kesikli değişkenlere dönüştürme işlemidir. Discretizasyon, carpik değişkenlerin(skewed) dağılımını değiştirmek ve **aykırı değerlerin etkisini en aza indirmek** ve bu şekilde bazı makine öğrenimi modellerinin performansını artırmak için kullanılır.

Discretizasyon, aykırı değerlerin etkisini nasıl en aza indirir? Discretizasyon, aykırı değerleri dağılımın alt veya üst aralıklarına, dağılımın geri kalan uygun değerleriyle birlikte yerleştirir. Bu nedenle, bu aykırı gözlemler artık dağılımın uçlarındaki diğer değerlerden farklılık göstermez, çünkü şimdi hepsi aynı aralık veya bölmede bir araya gelmiştir. Ayrıca, eşit sıklıklı bölümler arasında gözlemleri sıralarsanız, discretizasyon, çarpık bir değişkenin değerlerini değer aralığı boyunca daha homojen bir şekilde yayarak dağıtır.

<img src='../images/discretization.png'>

[Kaynakca](https://blog.revolutionanalytics.com/2013/04/extending-revoscaler-for-mining-big-data-discretization.html)

In [1]:
# To get multi output in jupyternotebook
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

# sklearn ciktisini nnumpy array olarak donmektedir. Bu adimi pandas icin ayarlayabiliriz.
from sklearn import set_config
set_config(transform_output="pandas")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
from sklearn.model_selection import train_test_split

In [2]:
data=pd.read_csv('../data/feature-engine/boston.csv')
data.describe()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063,22.532806
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062,9.197104
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73,5.0
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95,17.025
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36,21.2
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955,25.0
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97,50.0


In [3]:
x=data.drop('MEDV', axis=1)
y=data[['MEDV']]
X_train, X_test, y_train, y_test = train_test_split(x,y,test_size=0.3, random_state=0)

#### Esit araliklarla

Surekli degisken icerisinde yer alan en buyuk ve en kucuk deger arasindaki farkin belirlenen bolme sayisina bolunerek bulanan araliklar esit olur. Degisken degerleri bu deger araliginda ise o aralik icine girer.

In [8]:
from sklearn.preprocessing import KBinsDiscretizer
discretizer= KBinsDiscretizer(n_bins=10, encode='ordinal',strategy='uniform')

discretizer.fit_transform(X_train[['LSTAT','NOX','DIS']])
discretizer.transform(X_test[['LSTAT','NOX','DIS']])



Unnamed: 0,LSTAT,NOX,DIS
141,9.0,4.0,0.0
272,1.0,1.0,2.0
135,4.0,4.0,0.0
298,0.0,0.0,6.0
122,4.0,4.0,0.0
...,...,...,...
323,2.0,2.0,3.0
192,0.0,1.0,4.0
117,2.0,3.0,1.0
47,4.0,1.0,4.0


Unnamed: 0,LSTAT,NOX,DIS
329,1.0,1.0,3.0
371,2.0,5.0,0.0
219,2.0,3.0,1.0
403,5.0,6.0,0.0
78,3.0,1.0,3.0
...,...,...,...
4,1.0,1.0,4.0
428,5.0,6.0,0.0
385,8.0,6.0,0.0
308,0.0,3.0,1.0


In [9]:
tmp = discretizer.fit_transform(X_train[['LSTAT','NOX','DIS']])
tmp['LSTAT'].value_counts()



LSTAT
1.0    84
2.0    63
3.0    54
0.0    49
4.0    48
5.0    21
6.0    16
7.0    10
8.0     5
9.0     4
Name: count, dtype: int64

In [5]:
discretizer.bin_edges_

array([array([ 1.73 ,  5.255,  8.78 , 12.305, 15.83 , 19.355, 22.88 , 26.405,
              29.93 , 33.455, 36.98 ])                                       ,
       array([0.385 , 0.4336, 0.4822, 0.5308, 0.5794, 0.628 , 0.6766, 0.7252,
              0.7738, 0.8224, 0.871 ])                                       ,
       array([ 1.1742 ,  2.26943,  3.36466,  4.45989,  5.55512,  6.65035,
               7.74558,  8.84081,  9.93604, 11.03127, 12.1265 ])         ],
      dtype=object)

#### Esit agirlikli

Yani, surekli degiskeni belirlenen bolme sayisina gore her bolmede esit sayida gozlem olacak sekilde ayarlamaya calisalim.

In [10]:
from sklearn.preprocessing import KBinsDiscretizer
discretizer= KBinsDiscretizer(n_bins=10, encode='ordinal',strategy='quantile')

discretizer.fit_transform(X_train[['LSTAT','NOX','DIS']])
discretizer.transform(X_test[['LSTAT','NOX','DIS']])

Unnamed: 0,LSTAT,NOX,DIS
141,9.0,7.0,0.0
272,3.0,2.0,6.0
135,7.0,7.0,2.0
298,1.0,0.0,9.0
122,7.0,6.0,2.0
...,...,...,...
323,5.0,3.0,7.0
192,0.0,1.0,8.0
117,4.0,5.0,4.0
47,8.0,2.0,8.0


Unnamed: 0,LSTAT,NOX,DIS
329,2.0,2.0,7.0
371,4.0,7.0,0.0
219,4.0,5.0,5.0
403,8.0,8.0,1.0
78,5.0,1.0,7.0
...,...,...,...
4,1.0,2.0,8.0
428,8.0,8.0,1.0
385,9.0,8.0,0.0
308,0.0,5.0,5.0


In [12]:
tmp = discretizer.fit_transform(X_train[['LSTAT','NOX','DIS']])
tmp['LSTAT'].value_counts()

LSTAT
9.0    36
8.0    36
4.0    36
0.0    36
6.0    36
3.0    35
1.0    35
5.0    35
2.0    35
7.0    34
Name: count, dtype: int64

#### K-ortalamalar ile ayriklastirma

K-ortalamalar kümelemesi kullanılarak yapılan ayrıklaştırmada, aralıklar k-ortalamalar algoritması tarafından tanımlanan kümelerdir. Küme sayısı (k) kullanıcı tarafından tanımlanır. k-ortalamalar kümeleme algoritmasının iki ana adımı vardır. 

- Başlangic adımında, k tane kümenin başlangıç merkezleri olarak rastgele seçilir ve veri noktaları en yakın kümeye atanır. 
- Iterasyon adımında, kümelerin merkezleri küme içindeki tüm gözlemlerin ortalama noktaları olarak yeniden hesaplanır ve gözlemler yeni oluşturulan en yakın kümeye yeniden atanır.

İterasyon adımı en uygun k merkez bulunana kadar devam eder. Interaktif bir gorsellestirmeyi [suradan](https://www.naftaliharris.com/blog/visualizing-k-means-clustering/) inceleyebilirsiniz.

In [13]:
from sklearn.preprocessing import KBinsDiscretizer
discretizer= KBinsDiscretizer(n_bins=10, encode='ordinal',strategy='kmeans')

discretizer.fit_transform(X_train[['LSTAT','NOX','DIS']])
discretizer.transform(X_test[['LSTAT','NOX','DIS']])



Unnamed: 0,LSTAT,NOX,DIS
141,9.0,5.0,0.0
272,1.0,2.0,2.0
135,4.0,5.0,0.0
298,0.0,0.0,6.0
122,4.0,5.0,0.0
...,...,...,...
323,2.0,3.0,3.0
192,0.0,1.0,4.0
117,2.0,4.0,1.0
47,4.0,2.0,4.0


Unnamed: 0,LSTAT,NOX,DIS
329,1.0,2.0,3.0
371,2.0,6.0,0.0
219,2.0,4.0,2.0
403,5.0,7.0,0.0
78,3.0,1.0,3.0
...,...,...,...
4,0.0,2.0,4.0
428,5.0,7.0,0.0
385,8.0,7.0,0.0
308,0.0,4.0,2.0


In [14]:
tmp = discretizer.fit_transform(X_train[['LSTAT','NOX','DIS']])
tmp['LSTAT'].value_counts()



LSTAT
1.0    81
2.0    59
3.0    55
0.0    52
4.0    49
5.0    22
6.0    17
8.0     8
7.0     7
9.0     4
Name: count, dtype: int64

#### Karar Agaclari ile Ayriklastirma

Karar ağaçları ile ayrıklaştırma, değişken değerlerinin sıralanacağı en uygun bölmeleri belirlemek için bir karar ağacının kullanılmasından oluşur. Karar ağacı, ayrıklaştırılacak değişken ve hedef kullanılarak oluşturulur. Bir karar ağacı bir tahminde bulunduğunda, bir gözlemi N uç yapraktan birine atar, bu nedenle herhangi bir karar ağacı, değerleri N yaprağının her birindeki tahminler olan ayrık bir çıktı üretecektir. Karar ağaçları ile ayrıklaştırma, kutular ve hedef arasında monotonik bir ilişki yaratır.

Bu teknik, [KDD 2009](https://www.kdd.org/kdd-cup/view/kdd-cup-2009) veri bilimi yarismasinda *Winning the KDD Cup Orange Challenge with Ensemble Selection* adi altinda kullanailmistir.

In [15]:
X_train, X_test, y_train, y_test = train_test_split(x,y,test_size=0.3, random_state=0)

from sklearn.tree import DecisionTreeRegressor


discretizer= DecisionTreeRegressor(max_depth=5, random_state=0)

discretizer.fit(X_train[['LSTAT']], y_train)
X_train['LSTAT_tree']=discretizer.predict(X_train[['LSTAT']])
X_test['LSTAT_tree']=discretizer.predict(X_test[['LSTAT']])

In [16]:
X_train['LSTAT_tree'].unique()

array([13.5       , 26.10625   , 15.69615385, 27.84      , 16.75555556,
       20.66666667, 13.18297872, 32.425     , 27.15641026, 29.58235294,
       29.95      , 15.525     , 16.44444444, 23.925     , 50.        ,
       43.2375    , 22.15      , 33.13333333, 32.73333333, 21.1       ,
       23.7       ,  7.68      , 46.86666667, 20.25      , 26.9       ,
       23.05      , 20.6       , 30.3       ])

In [17]:
X_train['LSTAT_tree']

141    13.500000
272    26.106250
135    15.696154
298    27.840000
122    16.755556
         ...    
323    20.666667
192    43.237500
117    20.666667
47     16.755556
172    26.900000
Name: LSTAT_tree, Length: 354, dtype: float64