Berikut adalah langkah-langkah dalam menggunakan TPOT untuk mencari algoritma pembelajaran mesin beserta parameternya.

## 1. Impor modul

In [1]:
from tpot import TPOTRegressor
from sklearn.model_selection import train_test_split
import pandas as pd 
import numpy as np

<i>Library</i>/modul yang dibutuhkan cuma empat aja nih, yaitu :<br>
1 TPOT => Buat nyari algoritma pembelajaran mesih & parameter yang paling optimal.<br>
2 sklearn => Untuk memisah(membagi) <i>dataset</i> menjadi data latih dan data uji.<br>
3 Pandas => Buat memuat <i>dataset</i>.<br>
4 NumPy => Untuk menjadikan label yang ingin diprediksi menjadi <i>array</i> satu dimensi.

## 2. Muat <i>dataset</i>

In [2]:
data = pd.read_csv('yacht_hydrodynamics.csv')
data

Unnamed: 0,longitudinal_pos,prismatic_coef,length_displac,beam_draught ratio,length_beam ratio,froude num,residuary
0,-2.3,0.568,4.78,3.99,3.17,0.125,0.11
1,-2.3,0.568,4.78,3.99,3.17,0.150,0.27
2,-2.3,0.568,4.78,3.99,3.17,0.175,0.47
3,-2.3,0.568,4.78,3.99,3.17,0.200,0.78
4,-2.3,0.568,4.78,3.99,3.17,0.225,1.18
...,...,...,...,...,...,...,...
303,-2.3,0.600,4.34,4.23,2.73,0.350,8.47
304,-2.3,0.600,4.34,4.23,2.73,0.375,12.27
305,-2.3,0.600,4.34,4.23,2.73,0.400,19.59
306,-2.3,0.600,4.34,4.23,2.73,0.425,30.48


Data yang kita pake itu data hidrodinamika kapal pesiar. (<i>nah lo</i>)<br>
Klik link ini kalo kalian pengen tau lebih lanjut mengenai <i>dataset</i>'nya :<br>
https://archive.ics.uci.edu/ml/datasets/Yacht+Hydrodynamics

## 3. Bagi <i>dataset'nya</i>

Karena <i>dataset</i>  kita cuma satu jadinya kudu dibagi.<br>
Berapa persen yang dijadiin data uji sama berapa persen sisanya yang kudu dijadiin data latih.

In [3]:
X_train, X_test, y_train, y_test = train_test_split(data.drop(axis=0, columns='residuary'),
                                                    data['residuary'],
                                                    train_size=0.7,
                                                    test_size=0.3)

X_train => seluruh data kita kecuali kolom <b>residuary</b>.<br>
X_test => data yang berada di kolom <b>residuary</b>.<br>
y_train => 70% dari jumlah keseluruhan data.<br>
y_test => 30% dari jumlah keseluruhan data.

## 4. Cari algoritma dan parameter'nya

Pada bagian inilah si TPOT beraksi.<br>
Normalnya dari generasi ke generasi nilai <a href="https://id.wikipedia.org/wiki/Validasi-_Silang_(statistik)"><i>cross validation</i></a>'nya itu semakin membaik.

In [4]:
tpot = TPOTRegressor(generations=5, population_size=50, verbosity=2)
tpot.fit(X_train, y_train)



HBox(children=(FloatProgress(value=0.0, description='Optimization Progress', max=300.0, style=ProgressStyle(de…

Generation 1 - Current best internal CV score: -1.6694356285108465
Generation 2 - Current best internal CV score: -1.6694356285108465
Generation 3 - Current best internal CV score: -1.6694356285108465
Generation 4 - Current best internal CV score: -1.600468506198806
Generation 5 - Current best internal CV score: -1.4890733904949598

Best pipeline: ElasticNetCV(AdaBoostRegressor(AdaBoostRegressor(RandomForestRegressor(input_matrix, bootstrap=True, max_features=0.9000000000000001, min_samples_leaf=1, min_samples_split=2, n_estimators=100), learning_rate=0.001, loss=linear, n_estimators=100), learning_rate=0.5, loss=square, n_estimators=100), l1_ratio=0.4, tol=0.0001)


TPOTRegressor(config_dict=None, crossover_rate=0.1, cv=5,
              disable_update_check=False, early_stop=None, generations=5,
              max_eval_time_mins=5, max_time_mins=None, memory=None,
              mutation_rate=0.9, n_jobs=1, offspring_size=None,
              periodic_checkpoint_folder=None, population_size=50,
              random_state=None, scoring=None, subsample=1.0, template=None,
              use_dask=False, verbosity=2, warm_start=False)

Nah sudah ketahuan kan sekarang algortima dan parameter apa yang cocok sama <i>dataset</i> tersebut.<br>
Ingat <b>banyaknya data berbanding lurus dengan lamanya proses iterasi</b>.

## 5. Cek <i>error rate</i>

Kalo kita mau tau seberapa akurat sih algoritma yang dipilihin sama TPOT tinggal ketik aja ini :

In [5]:
print(tpot.score(X_test, y_test))

-1.7575023613354137


Pada klasifikasi akurasi tertinggi adalah 100%/1.0 sedangkan pada regresi/prediksi akurasi tertinggi itu ketika nilai dari suatu galat sangat kecil(mendekati 0). Nilai ini dapat dicari dengan menggunakan rumus <a href="https://en.wikipedia.org/wiki/Mean_squared_error"><i>Mean squred error</i></a>.

## 6. Ekspor <i>pipeline</i>

In [6]:
tpot.export("regressor.py")

hasil ekspor'nya bisa di lihat di <a href="https://github.com/Rakhid16/Python-TPOT/blob/master/regressor.py">sini</a> ya!<br>
Sekian dari saya, semoga bermanfaat! :)