<div class="alert alert-block alert-success">
    <b><h2>Pipeline</h2></b> 
    <ul> Pipeline, veri önişleme ve modelleme aşamasında kodunuzu düzenli tutmanın basit bir yoludur. Pipeline aracılığı ile kodunuzu otomatikleştirebilir ve kurallarınızı bir zincir şeklinde sıralı olarak işletebilirsiniz. Bir çok veri bilimcisi bilmektedir ki, veriyi direk modellenebilecek halde bulmak imkansızdır. Kategorik verilerin encoding işlemleri, normalizasyon, NaN değerlerin işlenmesi gibi birçok dönüşüm işlemi vardır. Tüm süreç boyunca bu işlemler için tek tek çalıştırmak yerine pipeline aracılığı ile bu işlemleri basitleştirebiliriz. Bir kaç faydasından bahsetmek gerekir ise;
            <ul>
    <br><li> Kodu daha okunabilir ve düzenli hale getirme
        <li> Kodların çalıştırılma sırası düzenli hale gelir
        <li> Modelin production ortamına alınmasında kolaylıklar
        <li> Model validation işlemlerindeki seçenekler
            </ul>
    </ul>
        <img src="https://iaml.it/blog/optimizing-sklearn-pipelines/images/pipeline-diagram.png"  width=400/>
</div>

#### Bu bölümde işlenecek konular

1. [RandomForestRegression modeli fonksiyon tanımlama](#bir)
2. [Kategorik ve numerik sütunların tespit edilmesi](#iki)
3. [Numerik ve Kategorik ön işleme Pipeline hazırlığı](#uc)
4. [Pipeline çalıştırma ve modelleme](#dort)

In [22]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

In [23]:
data=pd.read_csv('./Data/melbourne-housing-snapshot/melb_data.csv')

In [24]:
data.head().notnull

<bound method DataFrame.notnull of        Suburb           Address  Rooms Type      Price Method SellerG  \
0  Abbotsford      85 Turner St      2    h  1480000.0      S  Biggin   
1  Abbotsford   25 Bloomburg St      2    h  1035000.0      S  Biggin   
2  Abbotsford      5 Charles St      3    h  1465000.0     SP  Biggin   
3  Abbotsford  40 Federation La      3    h   850000.0     PI  Biggin   
4  Abbotsford       55a Park St      4    h  1600000.0     VB  Nelson   

        Date  Distance  Postcode  ...  Bathroom  Car  Landsize  BuildingArea  \
0  3/12/2016       2.5    3067.0  ...       1.0  1.0     202.0           NaN   
1  4/02/2016       2.5    3067.0  ...       1.0  0.0     156.0          79.0   
2  4/03/2017       2.5    3067.0  ...       2.0  0.0     134.0         150.0   
3  4/03/2017       2.5    3067.0  ...       2.0  1.0      94.0           NaN   
4  4/06/2016       2.5    3067.0  ...       1.0  2.0     120.0         142.0   

   YearBuilt  CouncilArea Lattitude  Longtitu

In [25]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Suburb         13580 non-null  object 
 1   Address        13580 non-null  object 
 2   Rooms          13580 non-null  int64  
 3   Type           13580 non-null  object 
 4   Price          13580 non-null  float64
 5   Method         13580 non-null  object 
 6   SellerG        13580 non-null  object 
 7   Date           13580 non-null  object 
 8   Distance       13580 non-null  float64
 9   Postcode       13580 non-null  float64
 10  Bedroom2       13580 non-null  float64
 11  Bathroom       13580 non-null  float64
 12  Car            13518 non-null  float64
 13  Landsize       13580 non-null  float64
 14  BuildingArea   7130 non-null   float64
 15  YearBuilt      8205 non-null   float64
 16  CouncilArea    12211 non-null  object 
 17  Lattitude      13580 non-null  float64
 18  Longti

In [26]:
y = data.Price

In [27]:
X_=data.drop(columns="Price")

<div id="bir"  style="color:blue;"> 1. RandomForestRegressor modeli oluşturma</div>
<ul>
      <li>Model için n_estimators ile ağaç sayısı belirlenir</li>
    <li>random_state=0 her çalıştırmada verinin her sefer aynı şekilde ayrılması sağlanır <i> from sklearn.ensemble import RandomForestRegressor </i></li>
</ul>

In [28]:
model=RandomForestRegressor(n_estimators=100,random_state=0)

<div id="iki"  style="color:blue;"> 2. Kategorik ve numerik sütunların tespit edilmesi</div>

In [29]:
kategorik_sutunlar=[item for item in X_.columns if X_[item].dtype=="object" and X_[item].nunique()<10]
numerik_sutunlar=[item for item in X_.columns if X_[item].dtype in ["int64","float64"]]
sutunlar=numerik_sutunlar+kategorik_sutunlar
sutunlar

['Rooms',
 'Distance',
 'Postcode',
 'Bedroom2',
 'Bathroom',
 'Car',
 'Landsize',
 'BuildingArea',
 'YearBuilt',
 'Lattitude',
 'Longtitude',
 'Propertycount',
 'Type',
 'Method',
 'Regionname']

#### Numerik ve kategorik sutunlardan yeni bir dataframe oluşturma

In [30]:
X_all=X_[sutunlar].copy()

In [31]:
X_all.head(3)

Unnamed: 0,Rooms,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount,Type,Method,Regionname
0,2,2.5,3067.0,2.0,1.0,1.0,202.0,,,-37.7996,144.9984,4019.0,h,S,Northern Metropolitan
1,2,2.5,3067.0,2.0,1.0,0.0,156.0,79.0,1900.0,-37.8079,144.9934,4019.0,h,S,Northern Metropolitan
2,3,2.5,3067.0,3.0,2.0,0.0,134.0,150.0,1900.0,-37.8093,144.9944,4019.0,h,SP,Northern Metropolitan


In [32]:
X_train, X_test, y_train, y_test = train_test_split(X_all, y, train_size=0.8, test_size=0.2,
                                                                random_state=2,shuffle=True)

<div id="uc"  style="color:blue;"> 3. Numerik ve Kategorik ön işleme Pipeline hazırlığı</div>
<ul>
      <li>Pipeline ile farklı ön işleme adımlarını da bir araya getirebiliriz.</li>
    <li>Burada tanımlanan işlemlerde numerik sütunlara SimpleImputer ile NaN değerleri ortalama ile dolduran bir işlem ve kategorik değerleri içeren ayrı bir işlem tanımladık.</li>
    <li>Bu aşamada farklı sütunlara farklı işlemler uygulamak içinde ColumnTransformer kütüphanesinden yararlandık.</li>
    <li>Pipeline içerisine tanımlanmış adımlar sırayla çalışacaktır. Önce imputer isimli adım daha sonra onehot isimli adım.
</ul>

In [33]:
numerik_transform=SimpleImputer(strategy="mean")

In [34]:
kategorik_transform=Pipeline(steps=[
    ('imputer',SimpleImputer(strategy="most_frequent")),
    ('onehot',OneHotEncoder(handle_unknown="ignore"))
])

In [35]:
preprocessor=ColumnTransformer(transformers=[
    ('numerik',numerik_transform,numerik_sutunlar),
    ('kategorik',kategorik_transform,kategorik_sutunlar)
])

<div id="dort"  style="color:blue;"> 4. Pipeline ile ön işleme ve modelleme</div>
<ul>
<li> my_pipeline.fit komutu ile oluşturmuş olduğum adımların sırası ile çalışmasını sağlıyorum
    <ul>
    <li> İlk olarak prep isimli preprocessor tanımlı adım çağrılıyor
        <ol>
            <li>Bu adım içerisinde yukarıda tanımlanmış olan ColumnTransformer adımları sırasıyla gerçekleşiyor
                <ul>
                    <li>numerik_transform
                        <li>kategorik_transform
                </ul>
            <li> Daha sonra model çağrılarak eğitim işlemi başlatılıyor
        </ol>
    </ul>
<li> my_pipeline.predict komutu çalıştırıldığında ile tekrar aynı işlemler gerçekleştiriliyor ve preprocesing işlemi pipeline aracılığıyla tekrar yapılıyor. En baştaki resimde bunu daha rahat anlayabileceğinizi düşünüyorum. Bu sayede bu aşamada tekrar kod çalıştırmaya gerek kalmamış oluyor
</ul>

In [36]:
my_pipeline=Pipeline(steps=[
    ('prep',preprocessor),
    ('model',model)
])

In [37]:
my_pipeline.fit(X_train,y_train)

Pipeline(memory=None,
         steps=[('prep',
                 ColumnTransformer(n_jobs=None, remainder='drop',
                                   sparse_threshold=0.3,
                                   transformer_weights=None,
                                   transformers=[('numerik',
                                                  SimpleImputer(add_indicator=False,
                                                                copy=True,
                                                                fill_value=None,
                                                                missing_values=nan,
                                                                strategy='mean',
                                                                verbose=0),
                                                  ['Rooms', 'Distance',
                                                   'Postcode', 'Bedroom2',
                                                   'Bathroom', 'Car',
         

In [38]:
preds=my_pipeline.predict(X_test)

In [39]:
print("MAE",mean_absolute_error(preds,y_test))

MAE 165797.92242355706
