## Dosyayı oku

In [None]:
import pandas
import numpy as np
from pandas import read_csv

In [None]:
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(url, names=names)
print(data.shape)

## Veriyi Girdi ve Çıktı olarak ayırma

In [None]:
veri = data.values

X = veri[:,0:8]
Y = veri[:,8]

In [None]:
print(X.shape)

In [None]:
print(Y.shape)

## Veriyi Girdi ve Çıktı olarak ayırma - 2

In [None]:
X1 = data.iloc[:,0:8]
Y1 = data.iloc[:,-1]

In [None]:
print(X1.shape)

In [None]:
print(Y1.shape)

## Veri Dönüşümü

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import Normalizer
from sklearn.preprocessing import Binarizer

## 1 - Standart Hale Getirme

In [None]:
# her bir öznitelik için ayrı ayrı çalışır

from numpy import set_printoptions

sc=StandardScaler()
sc.fit(X)
rescaledX = sc.transform(X)
set_printoptions(precision=3)
print(rescaledX[0:5,:])

## 2 - Ölçekleme [0, 1] aralığı

In [None]:
sc=MinMaxScaler()
sc.fit(X)
rescaledX = sc.transform(X)
set_printoptions(precision=3)
print(rescaledX[0:5,:])

## 3 - Veriyi Normalize Etme

In [None]:
# her bir gözlem için ayrı ayrı çalışır. Özellikle veri yapısı seyrek ise ( çok sayıda 0 varsa) kullanışlı
sc=Normalizer()
sc.fit(X)
rescaledX = sc.transform(X)
set_printoptions(precision=3)
print(rescaledX[0:5,:])

## 4 - Binary (ikili) hale getirme

In [None]:
# elinizde ye alan olasılık değerlerini gerçek değere dönüştürmek için kullanılabilir
sc=Binarizer(threshold=0.0)
sc.fit(X)
rescaledX = sc.transform(X)
set_printoptions(precision=3)
print(rescaledX[0:5,:])

## Öznitelik Seçimi

## 1 - İstatistiksel Olarak Öznitelik Seçimi

In [None]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

test = SelectKBest(score_func=chi2, k=4)
fit = test.fit(X, Y)

set_printoptions(precision=3)
print(fit.scores_,'\n',names[0:8])

print('\n')
features = fit.transform(X)
print(features[0:5,:])

## 2 - Recursive Feature Elimination

In [None]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

model = LogisticRegression()
rfe = RFE(model, 3)
fit = rfe.fit(X, Y)
print("Öznitelik Sayısı: %d" % fit.n_features_)
print("Seçilen Öznitelikler: %s" % fit.support_)
print(names[0:8])
print("Öznitelik Sıralaması: %s" % fit.ranking_)

## 3 - Temel Bileşen Analizi (Principal Component Analysis)

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=3)
fit = pca.fit(X)

print("varyans açıklama değerleri: %s" % fit.explained_variance_ratio_)
print(fit.components_)

## 4 - Öznitelik Önem Dereceleri

In [None]:
## bunun için ağaç tabanlı veya Boosting tabanlı yöntemler kullanılabilir

from sklearn.ensemble import ExtraTreesClassifier
model = ExtraTreesClassifier()
model.fit(X, Y)
print(model.feature_importances_)
print(names[0:8])

In [None]:
import matplotlib.pyplot as plt
print(model.feature_importances_)

plt.bar(range(len(model.feature_importances_)), model.feature_importances_)
#plt.show()

In [None]:
imp_feat= pandas.Series(model.feature_importances_, index=names[0:8]).sort_values(ascending=False)
imp_feat.plot(kind='bar', title='Extra Trees ile Öznitelik Önemleri', figsize=(12,8))
plt.ylabel('Öznitelik Önem Derecesi')
plt.subplots_adjust(bottom=0.25)
plt.show()