In [None]:
%matplotlib inline 
import matplotlib
import seaborn as sns
sns.set()
matplotlib.rcParams['figure.dpi'] = 144

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# **Scikit-learn**

Scikit-learn, makine öğrenimi için en popüler Python paketidir. Çok sayıda makine öğrenimi modeline sahiptir ve bir makine öğrenimi iş akışı için sıklıkla ihtiyaç duyulan işlevleri sağlar. Göreceğiniz gibi, güzel ve sezgisel bir arayüze sahiptir. Karmaşık makine öğrenimi iş akışları oluşturmayı çok kolaylaştırır. Bu not defteri için Kaliforniya konut verilerini kullanacağız. Veri seti, Kaliforniya'daki her bir sayım bloğu grubu için medyan ev değerini içerir.

In [None]:
from sklearn.datasets import fetch_california_housing

#veri al
data = fetch_california_housing()
X = data['data']
y = data['target']

print(data['DESCR'])

# **Sınıflar olarak makine öğrenimi modelleri**

Scikit-learn büyük ölçüde nesne yönelimli programlama ilkelerine dayanır. Makine öğrenimi algoritmalarını sınıflar olarak uygular ve kullanıcılar bu "tariflerden" nesneler oluşturur. Örneğin Ridge, ridge regresyon modelini temsil eden bir sınıftır. Bir Ridge nesnesi oluşturmak için basitçe sınıfın bir örneğini oluştururuz. Python'da sınıf adları CamelCase olarak kullanılır ve her kelimenin ilk harfi büyük yazılır. Scikit-learn bu kuralı benimseyerek sınıfın ne olduğunu ayırt etmeyi kolaylaştırır.


In [None]:
from sklearn.linear_model import Ridge

ridge = Ridge(alpha=0.1)

Yukarıdaki kodda alpha=0.1 olarak ayarlanmıştır. Burada alpha, ridge modelinin bir hiper parametresidir. Hiperparametreler, öğrenme sürecini yöneten model parametreleridir. Hiyerarşi açısından, normal model parametrelerinin "üstünde" yer alırlar. Eğitimden geçtikten sonra model parametrelerinin hangi değerlere eşit olacağını kontrol ederler. Öğrenmeden önce ayarlanan parametreler oldukları için kolayca tanımlanabilirler. Scikit-learn'de hiperparametreler sınıfın bir örneği oluşturulurken ayarlanır. Scikit-learn'in kullandığı varsayılan değerler genellikle iyi bir başlangıç değerleri kümesidir, ancak bu her zaman geçerli değildir. Mevcut hiperparametreleri ve bunların model performansını nasıl etkilediğini anlamak önemlidir.

Scikit-learn, makine öğrenimi algoritmalarını tahmin ediciler olarak adlandırır. Üç farklı tahmin edici türü vardır: sınıflandırıcılar, regresörler ve dönüştürücüler. Programatik olarak scikit-learn, tüm tahmin edicilerin miras aldığı BaseEstimator adlı bir temel sınıfa sahiptir. Modeller RegressorMixin, ClassifierMixin ve TransformerMixin olmak üzere ek bir sınıfı miras alır. İkinci sınıfın kalıtımı, modelin ne tür bir tahmin ediciyi temsil ettiğini belirler. Tahmin edicileri arayüzlerine göre iki gruba ayıracağız. Bu iki grup tahmin ediciler ve dönüştürücülerdir.

Tahmin ediciler : Sınıflandırıcılar ve Regresörler

Adından da anlaşılacağı gibi, tahmin ediciler tahmin yapan modellerdir. İki ana yöntem vardır.

*   fit(X, y): nesneyi X özellik matrisine ve y etiket vektörüne eğitir/uyarlar.

*   predict(X): aktarılan X veri seti üzerinde tahminler yapar.



In [None]:
from sklearn.linear_model import LinearRegression

#model oluşturun ve eğitin/uygun hale getirin.
model = LinearRegression()
model.fit(X, y)

#X üzerindeki etiket değerlerini tahmin eder.
y_pred = model.predict(X)

print(y_pred)
print("tahmin dizisinin şekli: {}".format(y_pred.shape))
print("eğitim setinin şekli: {}".format(X.shape))

predict(X) çıktısının tek boyutlu bir NumPy dizisi olduğunu unutmayın. Dizi, predict yöntemine aktarılan verilerin satır sayısı ile aynı boyuta sahiptir.

Doğrusal regresyon kullandığımız ve verilerimiz sekiz özelliğe sahip olduğu için modelimiz

Katsayılar, uydurulan modelde bir nesnenin özniteliği olarak saklanır. Scikit-learn, uydurma işleminden sonra belirlenen/hesaplanan tüm özniteliklerin alt çizgi ile bittiği bir kuralı benimser. Model katsayıları ve kesişim, sırasıyla coefs_ ve intercept_ öznitelikleri kullanılarak alınır.

In [None]:
print("β_0: {}".format(model.intercept_))

for i in range(8):
  print("β_{}: {}".format(i+1, model.coef_[i]))

Modelin bir veri setiyle tahminler yaparken ne kadar iyi performans gösterdiğini bilmek istiyorsak, score(X, y) yöntemini kullanabiliriz. 
Bu yöntem şu şekilde çalışır

1. Tahmin edilen değerleri üretmek için dahili olarak predict(X) çalıştırma.
2. Modeli değerlendirmek için tahmin edilen değerleri, yönteme aktarılan gerçek etiket değerleriyle karşılaştırarak kullanma.

Değerlendirme denklemi, modelin bir regresör veya sınıflandırıcı olmasına bağlı olarak değişir. Regresyon için, bu(R^2)değeri iken sınıflandırma için doğruluk değeridir.

In [None]:
print("R^2: {:g}".format(model.score(X, y)))

Oldukça basit bir model olan doğrusal regresyon kullandık. Peki ya daha karmaşık bir model kullanmak istersek? Tek yapmamız gereken kolay bir değişiklik; modeller aynı arayüze sahip olduğu için minimum kod yeniden yazımı var. Elbette, farklı modellerin farklı hiperparametreleri vardır, bu nedenle algoritmaları değiştirirken dikkatli olmamız gerekir. Daha karmaşık bir model kullanalım ve onu eğitelim.

In [None]:
from sklearn.ensemble import GradientBoostingRegressor

#model oluşturun ve eğitin/uygun hale getirin.
model = GradientBoostingRegressor()
model.fit(X, y)

#X üzerindeki etiket değerlerini tahmin eder
y_pred = model_predict(X)

print(y_pred)
print("R^2: {:g}".format(model.score(X, y)))


# **Dönüştürücüler**

Dönüştürücüler, bir veri kümesini işleyen ve dönüştüren modellerdir. Bu dönüştürücüler çok kullanışlıdır çünkü verilerimiz nadiren hem eğitim hem de tahmin için doğrudan bir makine öğrenimi modeline beslenecek formdadır. Örneğin, birçok makine öğrenimi modeli, özellikler benzer ölçeklere sahip olduğunda en iyi şekilde çalışır. Tüm dönüştürücüler aynı arayüze sahiptir:,

*   fit(X): nesneyi X özellik matrisine eğitir/uyarlar
*   transform(X): X üzerinde dönüşümü uygular öğrenilen parametreleri kullanarak
*   fit_transform(X): hem fit(X) hem de transform(X) uygular.





StandardScaler'ı Kaliforniya konut verileri üzerinde dağıtmanın sonuçlarını özetlemek için pandas kullanacağız

In [None]:
from sklearn.preproccesing import StandardScaler

#ölçekleyici oluşturun ve takın
scaler = StandardScaler()
scaler.fit(X)

#ölçek veri seti
Xt = scaler.transform(X)

#sonuçları içeren veri çerçevesi oluşturun
stats = np.vstack((X.mean(axis=0, X.var(axis=0, Xt.mean(axis=0), Xt.var(axis=0))).T
feature_names = data['feature_names']
columns = ['unscaled mean', 'unscaled variance', 'scaled mean', 'scaled variance']

df = pd.DataFrame(stats, index=feature_names, columns=columns)
df

Veri çerçevesi, özelliklerimizin nasıl çılgınca farklı ölçeklere sahip olduğunu göstermektedir; ortalama nüfus 1000'in üzerindedir, ancak ortalama oda 5'in biraz üzerindedir. Şimdi, özelliklerimizin her biri sıfır ortalamaya ve bir varyansa sahiptir.

# **Sütun Dönüştürücüleri**

Bir makine öğrenimi iş akışı üzerinde çalışırken, verileriniz belirli özellikler için farklı dönüştürme işlemleri gerektirebilir. Ya "ham" veri seti sayısal, kategorik ve metin verilerine sahipse. Bu türlerin her biri farklı işleme/dönüştürme işlemleri gerektirir. Bu tür durumları ColumnTransformer adı verilen özel bir dönüştürücü türü kullanarak halledebilirsiniz. Örneğin, Enlem ve Boylam hariç tüm Kaliforniya konut özelliklerinde StandardScalar kullanmak istiyor olabilirsiniz. Bu durumda, ölçeklendirilecek sütunları seçerken diğerlerinin remainder= bağımsız değişkenini kullanarak "geçmesine" izin verirsiniz.

In [None]:
from sklearn.compose import ColumnTransformer

col_transformer = ColumnTransformer(
    remainder='passthrough',
    transformes=[
        ('scaler', StandardScaler(), slice(0,6) #ilk 6 sütun)
    ]
)

col_transformer.fit(X)
Xt = col_transformer.transform(X)

print('MedInc dönüşümden önce mi demek istiyorsunuz?', X.mean(axis=0)[0])
print('MedInc dönüşümden sonra mı demek istiyorsunuz?', Xt.mean(axis=0)[0], '\n')

print('Boylam dönüşümden önce ne anlama geliyor?', X.mean(axis=0)[-1])
print('Dönüşümden sonra boylam ne anlama geliyor?', Xt.mean(axis=0)[-1])


Sütun dönüştürücüler ayrıca bazı sütunları bırakırken diğerlerinin geçmesine izin vermenizi sağlar. Örneğin, 'MedInc'deki bilgilerin bozulduğunu ve modelimden çıkarılması gerektiğini öğrenirsem, sütun dönüştürücümü 'MedInc'i bırakacak, 'Enlem' ve 'Boylam'ın geçmesine izin verecek ve kalan tüm özellikleri ölçeklendirecek şekilde yeniden yazabilirim.

In [None]:
col_transformer = ColumnTransformer(
    remainder='passthrough',
    transformers=[
        ('remove', 'drop', 0),
        ('scaler', StandardScaler), slice(1,6))
    ]
)

Xt = col_transformer.fit_transform(X)

print('Number of features in X:', X.shape[1])
print('Number of features Xt:', Xt.shape[1])

# **Pipelines**

Analizimiz ve iş akışımız daha karmaşık hale geldikçe, ölçeklendirmeye yardımcı olacak bir araca ihtiyaç duyarız. Örneğin, denetimli bir makine öğrenimi modeli için hazır olmadan önce verilerinize birden fazla dönüşüm uygulamanız gerekebilir. Dönüştürülmüş verilerin ara değişkenlerini oluşturarak dönüşümleri açık bir şekilde uygulayabilirsiniz. Boru hatları, ara dönüşümleri takip etmeyi önlemeye ve daha karmaşık analizler için kodumuzu ölçeklendirmeye yardımcı olan bir yaklaşımdır. Boru hatları Pipeline sınıfı ile yapılır. Esasen bir boru hattı, nihai bir tahmin ediciye sahip bir dizi dönüştürücüyü tutan bir tahmin edici nesnesidir.

Bu örnek için şunları yapmak istiyoruz:

1. Veri setimizi ölçeklendirin.
2. Polinom özellikleri ekleyin.
3. Dönüştürülmüş veri setiyle bir doğrusal regresyon modeli eğitin.

In [None]:
from sklearn.pipeline import Pipeline
from sklear.preprocessing import PolynomialFeatures

# construct pipeline
scaler = StandardScaler()
poly_features = PolynomialFeatures(degree=2)
lin_reg = LinearRegression()

pipe = Pipeline([
    ('scaler', scaler),
    ('poly', poly_features),
    ('regressor', lin_reg)
])

Boru hattı, iş akışındaki tüm adımları temsil eden bir tuple listesi geçirilerek oluşturulmuştur. Her bir tuple, adımın adını ifade eden bir dize ve bir tahmin edici nesnesi içerir. Boru hattının adımlarına, adımın adı kullanılarak atıfta bulunulur. name_steps özniteliği, anahtarların adımların adları ve değerlerin adımların tahmin edicileri olduğu bir sözlük döndürür.

In [None]:
pipe.named_steps

Boru hattı nesneleri tahmin edicilerdir; aşağıda standart yöntemler çağrıldığında davranışlar listelenmektedir.

fit(X, y): tüm dönüştürücülerde sırayla fit_transform(X, y)'yi çağırır ve dönüştürülmüş veri kümesiyle son tahmin ediciyi uyarlar.

predict(X): X'i tüm dönüştürücülerle sırayla dönüştürür ve dönüştürülmüş veri setiyle son tahmin ediciyi kullanarak tahmin eder.

transform(X): X'i tüm dönüştürücülerle sırayla dönüştürür, yalnızca son tahmin edici None ise çalışır.

Yukarıda oluşturulan boru hattı için pipe.fit(X, y) çağrıldığında aşağıdaki işlem gerçekleşir:

Xt = scaler.fit_transform(X) 
Xt = poly.fit_transform(Xt)
lin_reg.fit(Xt)

pipe.predict(X, y) çağrıldığında, X veri seti dönüştürücülerden geçecek ve son aşamada tahmin ediciyle tahminler yapmak için kullanılacaktır.

Xt = scaler.transform(X)
Xt = poly.transform(Xt)
y_pred = lin_reg.predict(Xt)

Tüm iş akışını bir Boru Hattı nesnesi aracılığıyla kapsüllediğimiz için, uydurma, dönüşümler ve tahminler adımlarını manuel olarak çağırmaktan kaçınıyoruz. Hatta kod hacmini daha da azaltmak için tahmin edici nesnelerini boru hattının içinde başlatabiliriz.


In [None]:
# modeli oturtun/eğitin ve etiketleri tahmin edin
pipe.fit(X, y)
y_pred = pipe.predict(X)

print(y_pred)
print("R^2: {}".format(pipe.score(X, y)))

# **Özellik Birliği**

FeatureUnion, verilerinizin farklı özellikler için farklı dönüştürme işlemleri gerektirdiği durumlarla başa çıkmak için kullanılan başka bir araçtır. ColumnTransformer gibi, özellikleri ayrı ayrı işler ve sonuçları tek bir özellik matrisinde birleştirir. ColumnTransformer'ın aksine, tüm özellik matrisini nihai bir tahmin ediciye aktarmadan önce farklı dönüştürücüleri ve tahmin edicileri birlikte kullanmanız gereken daha karmaşık iş akışlarını yönetebilir.

Pipeline nesneleri tahmin edicileri seri olarak düzenlerken, FeatureUnion nesneleri dönüştürücüleri paralel olarak düzenler. Bir FeatureUnion nesnesi, tek bir çıktı matrisi oluşturmak için her bir dönüştürücünün çıktısını paralel olarak birleştirir. Pipeline ve FeatureUnion nesnelerinin bir kombinasyonunu kullanarak, karmaşık makine öğrenimi iş akışlarını tek bir scikit-learn tahmin edici nesnesi içinde oluşturabiliriz.

FeatureUnion'ı göstermek için PCA ve SelectKBest dönüştürücülerini uygulayacağız. PCA, temel bileşen analizi, dönüştürücü orijinal özelliklere dayalı olarak yeni bir ilişkisiz özellikler kümesi döndürürken SelectKBest, geçilen bir kritere dayalı olarak k en iyi özelliği döndürür. Örnek için, seçici etiketlerle en büyük korelasyona sahip 2 özelliği döndürecektir. PCA kullanırken, verilerin sıfır ortalamaya sahip olması gerekir. Sonuç olarak, gerekli iki adımlı süreci temsil eden bir boru hattı nesnesi oluşturuyoruz. PCA nesnesinin 4 ilişkisiz özellik döndürmesini sağlayacağız. PCA ve SelectKBest arasındaki birleşimin sonucu 6 özellikten oluşan bir veri kümesi olacaktır.


In [None]:
from sklearn.feature_selection import f_regression, SelectKBest
from sklearn.decomposition import PCA
from sklearn.pipeline import FeatureUnion

scaler = StandardScaler()
pca = PCA(n_components=4)
selector = SelectKBest(f_regression, k=2)

pca_pipe = Pipeline([('scaler', scaler), ('dim_red', pca)])
union = FeatureUnion(['pca_pipe', pca_pipe], ('selector', selector))
pipe = Pipeline([('union', union), ('regressor', lin_reg)])
pipe.fit(X, y)

print("orijinal veri setindeki sütun/özellik sayısı: {}".format(X.shape[-1]))
print("yeni veri setindeki sütun/özellik sayısı: {}".format(union.transform(X).shape[-1]))
print("R^2: {}".format(pipe.score(X, y)))

# **Özel Tahminciler**

Scikit-learn çok sayıda makine öğrenimi modeli ve dönüştürücü sağlarken, bazen iş akışımızın gerektirdiği belirli bir modeli veya dönüştürücüyü bize sağlayamayabilir. Ancak kalıtım kavramı sayesinde scikit-learn'in altyapısıyla uyumlu olacak özel bir tahmin edici oluşturabiliriz. Örneğin, özel modelimizin uyum ve tahmin ya da dönüştürme yöntemlerine sahip olmasını istiyoruz. Özel modelimizi Pipeline ve GridSearchCV sınıfı gibi şeylerle kullanmak istiyorsak scikit-learn ile uyumluluk çok önemlidir.

Aşağıdaki örnekte, aykırı değerleri, belirli bir aralığın dışındaki değerleri değiştiren özel bir dönüştürücü oluşturacağız. Dönüştürücünün algoritması aşağıdaki gibidir.

Her özellik için kabul edilebilir değerlerin alt ve üst sınırını belirleyin. Bu alt ve üst sınırlar 
inci yüzdelik dilim. Örneğin, bir özellik için %5 ve %95 yüzdelik dilimler sırasıyla 1,3 ve 7,5 ise, (1,3, 7,5) dışındaki tüm değerler aykırı değer olarak kabul edilir.

Bir özelliğin her aykırı değeri için, bu değerin yerine 
özelliğin üçüncü yüzdelik dilimleri. Daha önce olduğu gibi aynı değerleri kullanarak, bir özellik için bir değer 0,7 ise ve kabul edilebilir aralık (1,3, 7,5) ise, 1,3 ile değiştirilir. Değer aralığın "sağında", üst sınırdan daha büyük bir yerde bulunuyorsa, 7,5 ile değiştirilir.

Bu modeli, gerekli yöntemleri teker teker ekleyerek aşamalı olarak oluşturacağız.



In [None]:
from sklearn.base import BaseEstimator, TransformerMixin

class OutlierReplacer(BaseEstimator, TransformerMixin):
  def__init__(self, q_lower, q_upper):
    self.q_lower = q_lower
    self.q_upprt = q_upper

Bir OutlierReplacer nesnesi oluştururken, alt ve üst sınır için yüzdelik dilimleri belirtmemiz gerekir. Bir sonraki adım, fit yöntemini tanımlamaktır. Fit yönteminin, aykırı değerlerin değiştirilmesi için gereken tüm değerleri hesaplaması gerekir.

In [None]:
class OutlierReplacer(BaseEstimator, TransformerMixin):
  def __init__(self, q_lower, q_upper):
    self.q_lower = q_lower
    self.q_upper = q_upper

  def fit(self, X, y=None):
    self.upper = np.percentile(X, self.q_upper, axis=0)
    self.lower = np.percentile(X, self.q_lower, axis=0)

    return self

Bazı dönüştürücüler etiket değerleriyle çalışır ancak çoğu çalışmaz. Özel dönüştürücümüz etiket değerlerini kullanmadığından, yöntem imzasında y=None olarak ayarladık. Alt ve üst sınırların hesaplanmasının yanı sıra, fit yöntemi self döndürür. Scikit-learn'de, fit yöntemi her zaman self'i, yani uydurulan tahmin edicinin bir kopyasını döndürür. Eğer self döndürmezseniz, özel tahmin ediciniz scikit-learn ile %100 uyumlu olmayacaktır, örneğin Pipeline sınıfı ile çalışmayacaktır. Aşağıda, fit yönteminin dönüştürücünün bir kopyasını döndürdüğünü gösteriyoruz.


In [None]:
replacer = OutlierReplacer(5, 95)
replacer_copy = replacer.fit(X)

print(replacer is replacer_copy)
print(id(replacer) == id(replacer_copy))

In [None]:
class OutlierReplacer(BaseEstimator, TransformerMixin):
  def __init__(self, q_lower, q_upper):
    self.q_lower = q_lower
    self.q_upper = q_upper
  
  def fit(self, x, y=None):
    self.upper = np.percentile(X, self.q_upper, axis=0)
    self.lower = np.percentil(X, self.q_lower, axis=0)

    return self

  def transform(self, X):
    Xt = X.copy()
    ind_lower = X < self.lower
    ind_upper = X > self.upper

    for i in range(X.shape[-1]):
      Xt[ind_lower[:, i], i] = self.lower[i]
      Xt[ind_upper[:, i], i] = self.upper[i]

      return Xt

  

Dönüştürme yönteminde, aykırı değerler, fit çağrıldığında "öğrenilen" değerler olan self.lower ve self.upper içinde saklanan uygun değerlerle değiştirilir. Aktarılan veri setini değiştirmek istemediğimiz için veri setinin bir kopyasını oluşturduğumuzu unutmayın. Python "pass-by-object-reference" paradigmasını kullanır; nesne hem fonksiyon hem de çağıran kapsam tarafından paylaşılır. Scikit-learn'de sağlanan dönüştürücülerin varsayılan değeri True olan copy adında bir anahtar kelime argümanına sahip olduğunu unutmayın. Özel dönüştürücümüzün bir nesnesini oluşturalım ve test edelim.


In [None]:
# bir dönüştürücü nesnesi oluşturup yerleştirmek ve verileri dönüştürmek
replacer = OutlierReplacer(5, 95)
replacer.fit(X)
Xt = replacer.transform(X)

# özellik 0'ın histogramını çizin
_, bins, _ = plt.hist(X[:, 0], density=True, bins=40, alpha=0.25, color='b')
plt.hist(Xt[:, 0 ], bins=bins, density=True, alpha=0.25, color='r')
plt.legend(['original', 'transformed']);

Dönüştürülen değerlerin histogramı, uç değerlerin nasıl kesildiğini göstermektedir.



# **Özel Regresörler**

Bir sonraki örnek için, her zaman eğitim veri setinin ortalama etiket değerini tahmin eden özel bir regresör oluşturacağız. Daha önce olduğu gibi, tahmin ediciyi aşamalı olarak oluşturacağız.

In [None]:
from sklearn.base import RegressorMixin

class MeanRegressor(BaseEstimator, RegressorMixin):
  def __init__(self):
    pass

  def fit(self, X, y):
    self.y_mean = np.mean(y)

    return self

Fit yöntemi, eğitim verilerinin ortalama etiket değerlerini belirler ve bu değeri y_mean içinde saklar. Dönüştürücüde olduğu gibi, fit yöntemi de self değerini döndürür. Eksik olan son metot ise predict metodudur. Bu yöntemde, hesaplanan ortalama etiket değerine başvurmamız ve bu değeri tüm gözlemler için tahmin etmemiz gerekir.

In [None]:
class MeanRegressor(BaseEstimator, RegressorMixin):
  def __init__(self):
    pass

  def fit(self, X, y):
    self.y_mean = np.mean(y)

    return self

  def predict(self, X):
    return self.y_mean*np.ones(X.shape[0])

MeanRegressor sınıfımız tamamlandığına göre, bunu Kaliforniya konut verileri için kullanabiliriz.

In [None]:
mean_regressor = MeanRegressor()
mena_regressor.fit(X, y)

print(mean_regressor.predict(X))
print("R^2: {}".format(mean_regressor.score(X, y)))

Tüm tahminlerimiz aynı ve 
 değeri eğitim seti için sıfırdır. Özel bir sınıflandırıcı oluşturma süreci, regressor ile neredeyse aynıdır. Sınıf, RegressorMixin'den miras almak yerine ClassifierMixin'den miras alır.