# Veri Önişleme Adımları

In [1]:
%load_ext watermark

In [2]:
%watermark -a "E. Kaan Ulgen" -p numpy,scipy,matplotlib,pandas,scikit-learn

E. Kaan Ulgen 

numpy 1.16.2
scipy 1.2.0
matplotlib 3.1.0
pandas 1.0.4
sklearn 0.23.2


In [3]:
from IPython.display import Image
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

## Eksik Veriler

Veri önişleme adımlarından ilkini oluşturuyor. 
- Eksik verilerin giderilmesinde kullanılan yöntemler temelde 3'e ayrılıyor
    * Eksik verinin silinmesi/ gözardı edilmesi.
    * Değer atama yöntemleri
    * Model temelli yöntemler

### Eksik Verilerin Silinmesi

- Kullandığımız veri setinde bazı niteliklere ait eksik veriler mevcut olabilir. Eğer bu eksik veriler üzerinde işlemler yapılmazsa kullanacağımız makine öğrenimi veya derin öğrenme modeli hatalı sonuçlar elde edebilir. Eğer büyük miktarda eksik verimiz yoksa uygulanacak en basit yöntemdir. Eksik verinin bulunduğu gözlem dizisi veri setinden çıkarılır. Tabiki bu durum eksik verinin çok olmadığı durumlarda daha anlamlı. Diğer türlü verinin neden eksik olduğu araştırmalı ve bunun tesadüfi mi? yoksa bir yanlıklıktan mı? kaynaklandığı ortaya çıkarılmadılır. 

In [4]:
import pandas as pd
import numpy as np

df = pd.read_csv("./lec4/cılgınloto.csv")
df.head(20)

Unnamed: 0,date,n1,n2,n3,n4,n5,n6,joker
0,31/10/2020,15,16.0,19,74.0,75,81,20.0
1,28/10/2020,18,23.0,44,52.0,59,72,74.0
2,26/10/2020,44,71.0,74,76.0,83,87,37.0
3,24/10/2020,1,13.0,15,27.0,59,75,28.0
4,21/10/2020,13,22.0,37,43.0,66,87,65.0
5,19/10/2020,29,45.0,52,81.0,82,86,26.0
6,17/10/2020,25,35.0,36,,79,82,
7,14/10/2020,14,26.0,28,62.0,74,84,21.0
8,12/10/2020,18,,50,52.0,67,73,27.0
9,10/10/2020,37,42.0,43,62.0,77,87,59.0


In [5]:
df.isnull().sum()

date     0
n1       0
n2       2
n3       0
n4       2
n5       0
n6       0
joker    2
dtype: int64

In [6]:
df.n2

0     16.0
1     23.0
2     71.0
3     13.0
4     22.0
5     45.0
6     35.0
7     26.0
8      NaN
9     42.0
10     NaN
11    44.0
12    23.0
Name: n2, dtype: float64

In [7]:
df.n2.values

array([16., 23., 71., 13., 22., 45., 35., 26., nan, 42., nan, 44., 23.])

In [8]:
# eksik veri içeren satırların silinmesi
df.dropna(axis=0)

Unnamed: 0,date,n1,n2,n3,n4,n5,n6,joker
0,31/10/2020,15,16.0,19,74.0,75,81,20.0
1,28/10/2020,18,23.0,44,52.0,59,72,74.0
2,26/10/2020,44,71.0,74,76.0,83,87,37.0
3,24/10/2020,1,13.0,15,27.0,59,75,28.0
4,21/10/2020,13,22.0,37,43.0,66,87,65.0
5,19/10/2020,29,45.0,52,81.0,82,86,26.0
7,14/10/2020,14,26.0,28,62.0,74,84,21.0
9,10/10/2020,37,42.0,43,62.0,77,87,59.0
11,05/10/2020,18,44.0,46,48.0,56,79,39.0


In [9]:
# eksik veri içeren sütunların silinmesi
df.dropna(axis=1)

Unnamed: 0,date,n1,n3,n5,n6
0,31/10/2020,15,19,75,81
1,28/10/2020,18,44,59,72
2,26/10/2020,44,74,83,87
3,24/10/2020,1,15,59,75
4,21/10/2020,13,37,66,87
5,19/10/2020,29,52,82,86
6,17/10/2020,25,36,79,82
7,14/10/2020,14,28,74,84
8,12/10/2020,18,50,67,73
9,10/10/2020,37,43,77,87


### Değer Atama

- Bir veri dizisinde bir veya daha fazla öznitelik değerinin eksik bulunması durumunda özniteliklerin ortamala, medyan veya mod değerleri hesaplanarak boş değerler doldurulabilir.

In [10]:
df2 = pd.DataFrame({"A":[1,5,10],"B":[2,6,11],"C":[3, np.nan, 12],"D":[4,8,np.nan]})
df2.head()

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0
1,5,6,,8.0
2,10,11,12.0,


In [11]:
df2.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

In [12]:
df2.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

#### 1. Yöntem

In [13]:
from sklearn.impute import SimpleImputer

att_mean = SimpleImputer(missing_values=np.nan, strategy="mean")
att_mean = att_mean.fit(df2.values)

In [14]:
df2_yeni = att_mean.transform(df2.values)
df2_yeni

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

#### 2. Yöntem

In [15]:
df2.fillna(df2.mean())

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0
1,5,6,7.5,8.0
2,10,11,12.0,6.0


In [16]:
df2

Unnamed: 0,A,B,C,D
0,1,2,3.0,4.0
1,5,6,,8.0
2,10,11,12.0,


#### 3. Yöntem

In [17]:
from sklearn.impute import KNNImputer
att_knn = KNNImputer(n_neighbors=2)
df2_knn = att_knn.fit_transform(df2)
df2_knn

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

### Model Temelli Yöntemler

- Bir diğer yaklaşım model temelli yöntemlerin kullanılmasıyla eksik verilerin doldurulmasıdır. 
- Eksik verilerin tamamlanmasında, **Maksimum Olabilirlik (Maximum Likelihood)**, **Beklenti Maksimizasyonu (Expected Maximization)** ve **Markov Zinciri Monte Carlo (Markov Chain Monte Carlo)** metodudur.
- 2.yöntemde değer atarken, eksik olmayan veri dizisi değerleri temel alınarak eksik değerlerin tahmin edilmesi sağlanıyor. Model temelli yöntemlerde ise çok değişkenli normal dağım gibi bir modelle kombine edilir ve parametre tahminlerinde bulunur (Haldun Akpınar).

## Veri Dönüştürme

- Veri önişleme adımlarından bir diğeri veri dönüştürme. Kullanılacak algoritmaya ve çalışılan probleme göre farklı yöntemler kullanılabilir.
    * Kategorik Değişkenler
        - Ordinal Encoder
        - One Hot Encoder
        - Label Encoder
    * Veri Ölçeklendirme (Normalizasyon / Standartlaştırma)

### Kategorik Değişkenler

- Kategorik değişkenler iki temel ölçek türüne sahiptir. Bunlar nominal ve ordinal ölçülerdir.
    - **Nominal:** Değişkenler doğal bir sırada olmayan kategorilere sahipse bu ölçek türüne denir. Örneğin; Cinsiyet, Kan Grubu
    - **Ordinal:** Bu ölçek türünde öznitelik değerleri büyüklük küçüklük kriterlerine göre sıralanır. Özetle hiyearşik bir sıralama mevcuttur. Örneğin; rütbe.
- Makine öğrenimi algoritmaları sayısal değerler üzerinden çalışmaktadır. Bu sebeple kategorik değişkenlere veri dönüştürme işlemi yapılır ve sayısallaştırılır.

#### Sıralı Değişkenlere Kodlama (Ordinal Encoder/Encoding to ordinal variables)

#### Ordinal Encoder

In [18]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

veri={'Maas':[2000, 7000, 4000, 20000, 10000],
          'Seviye':['Inter','Software Developer','Junior','Technical Lead','Senior Software Developer']}
df3=pd.DataFrame(veri)
print(df3)

    Maas                     Seviye
0   2000                      Inter
1   7000         Software Developer
2   4000                     Junior
3  20000             Technical Lead
4  10000  Senior Software Developer


In [19]:
kategori=pd.Categorical(df3['Seviye'],categories=["Inter", "Junior", "Software Developer", "Senior Software Developer","Technical Lead"],ordered=True)
print(kategori)

[Inter, Software Developer, Junior, Technical Lead, Senior Software Developer]
Categories (5, object): [Inter < Junior < Software Developer < Senior Software Developer < Technical Lead]


In [20]:
pd.factorize(kategori,sort=True)

(array([0, 2, 1, 4, 3]),
 [Inter, Junior, Software Developer, Senior Software Developer, Technical Lead]
 Categories (5, object): [Inter < Junior < Software Developer < Senior Software Developer < Technical Lead])

#### Label Encoder

In [21]:
df3["Cinsiyet"] = ["Erkek","Kadın","Erkek","Kadın","Kadın"]
df3.head()

Unnamed: 0,Maas,Seviye,Cinsiyet
0,2000,Inter,Erkek
1,7000,Software Developer,Kadın
2,4000,Junior,Erkek
3,20000,Technical Lead,Kadın
4,10000,Senior Software Developer,Kadın


In [22]:
cinsiyet = df3.iloc[:,2:3].values
cinsiyet

array([['Erkek'],
       ['Kadın'],
       ['Erkek'],
       ['Kadın'],
       ['Kadın']], dtype=object)

**1. Yöntem**

In [23]:
cinsiyet[:,0] = LabelEncoder().fit_transform(cinsiyet[:,0])
print(cinsiyet)

[[0]
 [1]
 [0]
 [1]
 [1]]


**2. Yöntem**

In [24]:
def labelencoder(x):
    if x == "Erkek":
        return 0
    elif x == "Kadın":
        return 1

df3["Cinsiyet2"] = df3.apply(lambda x: labelencoder(x["Cinsiyet"]), axis = 1)
print(df3)

    Maas                     Seviye Cinsiyet  Cinsiyet2
0   2000                      Inter    Erkek          0
1   7000         Software Developer    Kadın          1
2   4000                     Junior    Erkek          0
3  20000             Technical Lead    Kadın          1
4  10000  Senior Software Developer    Kadın          1


#### One-Hot Encoding

- Veri içerisinde mevcut olan her kategori için 0 ve 1'ler içeren oluşan sütunlar oluşturur. Eşleşen kategorik değişken 1 değerini alırken geri kalanları 0 değerini alır. 

**1. One-Hot-Encoding Yöntemi**

In [25]:
def onehot(labels, dimension=2):
    data = np.zeros((len(labels), dimension))
    for i, label in enumerate(labels):
        data[i, label] = 1
    return data

In [26]:
cinsiyet_onehotencoding = onehot(df3["Cinsiyet2"])

In [27]:
cinsiyet_onehotencoding

array([[1., 0.],
       [0., 1.],
       [1., 0.],
       [0., 1.],
       [0., 1.]])

**2. One-Hot-Encoding Yöntemi**

In [28]:
from sklearn.preprocessing import OneHotEncoder 

ohe = OneHotEncoder()

df4 = pd.DataFrame(ohe.fit_transform(df3[["Cinsiyet2"]]).toarray())
df5 = pd.concat([df3,df4],axis=1)
df5.head()

Unnamed: 0,Maas,Seviye,Cinsiyet,Cinsiyet2,0,1
0,2000,Inter,Erkek,0,1.0,0.0
1,7000,Software Developer,Kadın,1,0.0,1.0
2,4000,Junior,Erkek,0,1.0,0.0
3,20000,Technical Lead,Kadın,1,0.0,1.0
4,10000,Senior Software Developer,Kadın,1,0.0,1.0


3. Pandas Aracılığıyla One-Hot-Encoding Yöntemi

In [29]:
df6 = pd.get_dummies(df5[["Cinsiyet"]])
df7 = pd.concat([df5, df6],axis=1)
df7.head()

Unnamed: 0,Maas,Seviye,Cinsiyet,Cinsiyet2,0,1,Cinsiyet_Erkek,Cinsiyet_Kadın
0,2000,Inter,Erkek,0,1.0,0.0,1,0
1,7000,Software Developer,Kadın,1,0.0,1.0,0,1
2,4000,Junior,Erkek,0,1.0,0.0,1,0
3,20000,Technical Lead,Kadın,1,0.0,1.0,0,1
4,10000,Senior Software Developer,Kadın,1,0.0,1.0,0,1


- **Dummy (Kukla) Değişken Tuzağı**
    * Yukarıdaki örnekte olduğu gibi cinsiyet değişkeni sayılaştırılmıştır. One-Hot-Encoding yöntemi uygulandığında hem erkek hem de kadın için ayrı ayrı iki farklı sütun oluşturuldu. Bu örnekte olduğu gibi bir değişken başka bir değişken üzerinden ifade edilebiliyorsa buna kukla değişken denir. 

# ---------------------------

In [49]:
from sklearn.datasets import load_iris

iris = load_iris()

df_iris = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])

In [50]:
df_iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0


In [53]:
X = df_iris.iloc[:, 0:4].values

In [54]:
X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [55]:
y = df_iris['target'].values
y

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.,
       2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2., 2.])

## Eğitim, Test ve Doğrulama (Train, Test and Validation)

- Makine öğrenmesinde amaç, kullanılan modelin genelleştirilmesidir. Daha sonradan hiç görmedikleri verilerde de başarılı olmaları ve önündeki engelde aşırı uydurmalarıdır. Bu sebeple modelimizi aynı veri setiyle değerlendirmeyiz. Genel olarak veri üç sete ayrılır: Eğitim, doğrulama ve test. Modelimizi **eğitim veri** setinde eğitip **doğrulama veri** setinde değerlendiririz. Modelimiz son haline geldiğinde ise **test veri** setiyle test edilir (Bilgin Aksoy-François Chollet). 

- Küçük ölçekli veri setleriyle çalışırken veri setleri ikiye ayrılabilir. Eğitim ve test veri seti. Bunu şekilde kullanılmasının sebebi daha basit bir yaklaşım olması. Bu yaklaşımın en büyük dezavatajı, verinin dağılımına göre yanlılık durumlarının ve hataların oluşabilmesidir (Deniz Kılınç).

**1. Yöntem**

In [56]:
indeks = np.arange(X.shape[0])
rand = np.random.RandomState(123)

# shuffle 
permuted_indeks = rand.permutation(indeks)
permuted_indeks

array([ 72, 112, 132,  88,  37, 138,  87,  42,   8,  90, 141,  33,  59,
       116, 135, 104,  36,  13,  63,  45,  28, 133,  24, 127,  46,  20,
        31, 121, 117,   4, 130, 119,  29,   0,  62,  93, 131,   5,  16,
        82,  60,  35, 143, 145, 142, 114, 136,  53,  19,  38, 110,  23,
         9,  86,  91,  89,  79, 101,  65, 115,  41, 124,  95,  21,  11,
       103,  74, 122, 118,  44,  51,  81, 149,  12, 129,  56,  50,  25,
       128, 146,  43,   1,  71,  54, 100,  14,   6,  80,  26,  70, 139,
        30, 108,  15,  18,  77,  22,  10,  58, 107,  75,  64,  69,   3,
        40,  76, 134,  34,  27,  94,  85,  97, 102,  52,  92,  99, 105,
         7,  48,  61, 120, 137, 125, 147,  39,  84,   2,  67,  55,  49,
        68, 140,  78, 144, 111,  32,  73,  47, 148, 113,  96,  57, 123,
       106,  83,  17,  98,  66, 126, 109])

In [57]:
egitim_miktarı, dogrulama_miktarı = int(0.65*X.shape[0]), int(0.15*X.shape[0])
test_miktarı = X.shape[0] - (egitim_miktarı + dogrulama_miktarı)
print(egitim_miktarı, dogrulama_miktarı, test_miktarı)

97 22 31


In [58]:
egitim_indeks = permuted_indeks[:egitim_miktarı]
dogrulama_indeks = permuted_indeks[egitim_miktarı:(egitim_miktarı + dogrulama_miktarı)]
test_indeks = permuted_indeks[(egitim_miktarı + dogrulama_miktarı):]

In [59]:
X_egitim, y_egitim = X[egitim_indeks], y[egitim_indeks]
X_dogrulama, y_dogrulama = X[dogrulama_indeks], y[dogrulama_indeks]
X_test, y_test = X[test_indeks], y[test_indeks]

X_egitim.shape

(97, 4)

In [60]:
X_egitim

array([[6.3, 2.5, 4.9, 1.5],
       [6.8, 3. , 5.5, 2.1],
       [6.4, 2.8, 5.6, 2.2],
       [5.6, 3. , 4.1, 1.3],
       [4.9, 3.6, 1.4, 0.1],
       [6. , 3. , 4.8, 1.8],
       [6.3, 2.3, 4.4, 1.3],
       [4.4, 3.2, 1.3, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [5.5, 2.6, 4.4, 1.2],
       [6.9, 3.1, 5.1, 2.3],
       [5.5, 4.2, 1.4, 0.2],
       [5.2, 2.7, 3.9, 1.4],
       [6.5, 3. , 5.5, 1.8],
       [7.7, 3. , 6.1, 2.3],
       [6.5, 3. , 5.8, 2.2],
       [5.5, 3.5, 1.3, 0.2],
       [4.3, 3. , 1.1, 0.1],
       [6.1, 2.9, 4.7, 1.4],
       [4.8, 3. , 1.4, 0.3],
       [5.2, 3.4, 1.4, 0.2],
       [6.3, 2.8, 5.1, 1.5],
       [4.8, 3.4, 1.9, 0.2],
       [6.1, 3. , 4.9, 1.8],
       [5.1, 3.8, 1.6, 0.2],
       [5.4, 3.4, 1.7, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.6, 2.8, 4.9, 2. ],
       [7.7, 3.8, 6.7, 2.2],
       [5. , 3.6, 1.4, 0.2],
       [7.4, 2.8, 6.1, 1.9],
       [6. , 2.2, 5. , 1.5],
       [4.7, 3.2, 1.6, 0.2],
       [5.1, 3.5, 1.4, 0.2],
       [6. , 2

In [61]:
X_test.shape, X_dogrulama.shape

((31, 4), (22, 4))

In [62]:
from collections import Counter

print(Counter(y_egitim))
print(Counter(y_dogrulama))
print(Counter(y_test))

Counter({0.0: 37, 2.0: 33, 1.0: 27})
Counter({1.0: 11, 0.0: 7, 2.0: 4})
Counter({2.0: 13, 1.0: 12, 0.0: 6})


**2. Yöntem**
- train_test_split()
- stratify

In [63]:
from sklearn.model_selection import train_test_split

#temporary -- geçici
X_temp, X_test, y_temp, y_test = \
        train_test_split(X, y, test_size=0.2, 
                         shuffle=True, random_state=123, stratify=y)


In [64]:
X_temp.shape, X_test.shape

((120, 4), (30, 4))

In [65]:
X_egitim, X_dogrulama, y_egitim, y_dogrulama = \
        train_test_split(X_temp, y_temp, test_size=0.2,
                         shuffle=True, random_state=123, stratify=y_temp)

print('Train size', X_egitim.shape)
print('Valid size', X_dogrulama.shape)
print('Test size', X_test.shape)

Train size (96, 4)
Valid size (24, 4)
Test size (30, 4)


In [66]:
print(Counter(y_egitim))
print(Counter(y_dogrulama))
print(Counter(y_test))

Counter({2.0: 32, 0.0: 32, 1.0: 32})
Counter({2.0: 8, 1.0: 8, 0.0: 8})
Counter({1.0: 10, 0.0: 10, 2.0: 10})


## Veri Ölçeklendirme (Data Scaling)

- **Normalizasyon (Min-Max Scaling):** Min-Maks ölçeklendirme, $i$ niteliğini 0-1 aralığına indirger. Yani verinin 0 ile 1 arasında değerler aldığı durum hani dönüştürür. Bu dağılım, verinin dağılımıyla benzerdir. 
    - Min-Maks ölçeklendirme "outlier" dediğimiz ayrık verilere duyarlıdır. Ayrık verilerin fazla olduğu durumlarda iyi bir performans gösteremeyebilir.

$$x^{[i]}_{\text{norm}} = \frac{x^{[i]} - x_{\text{min}} }{ x_{\text{max}} - x_{\text{min}} }$$

In [67]:
from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler()
scaled = min_max_scaler.fit_transform(X)
df8 = pd.DataFrame(scaled)

In [70]:
df8.head(20)

Unnamed: 0,0,1,2,3
0,0.222222,0.625,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.5,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
5,0.305556,0.791667,0.118644,0.125
6,0.083333,0.583333,0.067797,0.083333
7,0.194444,0.583333,0.084746,0.041667
8,0.027778,0.375,0.067797,0.041667
9,0.166667,0.458333,0.084746,0.0


In [71]:
df8.describe()

Unnamed: 0,0,1,2,3
count,150.0,150.0,150.0,150.0
mean,0.428704,0.440556,0.467458,0.458056
std,0.230018,0.181611,0.299203,0.317599
min,0.0,0.0,0.0,0.0
25%,0.222222,0.333333,0.101695,0.083333
50%,0.416667,0.416667,0.567797,0.5
75%,0.583333,0.541667,0.694915,0.708333
max,1.0,1.0,1.0,1.0


- **Standardizasyon:** Ortalama değerin 0, standart sapmasının 1 olduğu dağılımdır. 
    - İlgili niteliğin değerinden ortalama değer çıkartılır ve varyans değerine bölünür.
$$x^{[i]}_{\text{std}} = \frac{x^{[i]} - \mu_x }{ \sigma_{x} }$$

In [72]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
std = scaler.fit_transform(X)
df9 = pd.DataFrame(std)

In [73]:
df9.head()

Unnamed: 0,0,1,2,3
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444


In [74]:
df9.describe()

Unnamed: 0,0,1,2,3
count,150.0,150.0,150.0,150.0
mean,-1.690315e-15,-1.84297e-15,-1.698641e-15,-1.409243e-15
std,1.00335,1.00335,1.00335,1.00335
min,-1.870024,-2.433947,-1.567576,-1.447076
25%,-0.9006812,-0.592373,-1.226552,-1.183812
50%,-0.05250608,-0.1319795,0.3364776,0.1325097
75%,0.6745011,0.5586108,0.7627583,0.7906707
max,2.492019,3.090775,1.785832,1.712096
