Berikut adalah langkah-langkah dalam menggunakan TPOT untuk mencari algoritma pembelajaran mesin beserta parameternya.

## 1. Impor modul

In [1]:
from tpot import TPOTClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from pandas import read_csv 

<i>Library</i>/modul yang dibutuhkan cuma empat aja nih, yaitu :<br>
1 TPOT => Buat nyari algoritma pembelajaran mesih & parameter yang paling optimal.<br>
2 sklearn => Untuk mengubah data bertipe kategori menjadi numerik dan memisah(membagi) <i>dataset</i> menjadi data latih dan data uji.<br>
3 Pandas => Buat memuat <i>dataset</i>.<br>
4 NumPy => Untuk menjadikan label yang ingin diprediksi menjadi <i>array</i> satu dimensi.

## 2. Muat <i>dataset</i>

In [2]:
data = read_csv('iris.csv')
data

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


Data yang kita pake itu data bunga Iris.<br>
Klik link ini kalo kalian pengen tau lebih lanjut mengenai <i>dataset</i>'nya :<br>
https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.names

## 3. Praproses

Nah jadi sebelum kita beraksi wajib nih hukumnya mengubah data bertipe kategori(bukan angka/numerik) menjadi data numerik(<i>int</i> atau <i>float</i>).<br>
Dari <i>dataset</i> kita, cuman kolom <b>class</b> aja nih yang isi datanya itu adalah data non numerik. Jadinya kudu diganti ke bentuk angka/numerik dulu ye kan?

In [3]:
column = ['class']
for feature in column:
        if feature in data.columns.values:
            data[feature] = LabelEncoder().fit_transform(data[feature])

Iris-setosa diubah menjadi 0<br>
Iris-versicolour diubah menjadi 1<br>
Iris-virginica diubah menjadi 2<br>
Ini nih buktinya :

In [4]:
data

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


## 4. Bagi <i>dataset</i>'nya

Karena <i>dataset</i>  kita cuma satu jadinya kudu dibagi.<br>
Berapa persen yang dijadiin data uji sama berapa persen sisanya yang kudu dijadiin data latih.

In [5]:
X_train, X_test, y_train, y_test = train_test_split(data.drop(axis=0, columns='class'),
                                                    data['class'],
                                                    train_size=2/3,
                                                    test_size=1/3)

X_train => seluruh data kita kecuali kolom <b>class</b><br>
X_test => data yang berada di kolom <b>class</b><br>
y_train => 2/3 dari jumlah keseluruhan data<br>
y_test => 1/3 dari jumlah keseluruhan data

## 5. Cari algoritma dan parameter'nya

Pada bagian inilah si TPOT beraksi.<br>
Normalnya dari generasi ke generasi nilai <a href="https://id.wikipedia.org/wiki/Validasi-_Silang_(statistik)"><i>cross validation</i></a>'nya itu semakin membaik.

In [6]:
tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2)
tpot.fit(X_train, y_train)



HBox(children=(FloatProgress(value=0.0, description='Optimization Progress', max=300.0, style=ProgressStyle(de…

Generation 1 - Current best internal CV score: 0.99
Generation 2 - Current best internal CV score: 1.0
Generation 3 - Current best internal CV score: 1.0
Generation 4 - Current best internal CV score: 1.0
Generation 5 - Current best internal CV score: 1.0

Best pipeline: GaussianNB(MultinomialNB(input_matrix, alpha=100.0, fit_prior=False))


TPOTClassifier(config_dict=None, crossover_rate=0.1, cv=5,
               disable_update_check=False, early_stop=None, generations=5,
               max_eval_time_mins=5, max_time_mins=None, memory=None,
               mutation_rate=0.9, n_jobs=1, offspring_size=None,
               periodic_checkpoint_folder=None, population_size=50,
               random_state=None, scoring=None, subsample=1.0, template=None,
               use_dask=False, verbosity=2, warm_start=False)

Nah sudah ketahuan kan sekarang algortima dan parameter apa yang cocok sama <i>dataset</i> iris.<br>
Ingat <b>banyaknya data berbanding lurus dengan lamanya proses iterasi</b>.

## 6. Cek akurasi

Kalo kita mau tau berapa persen akurasi algoritma yang dipilihin sama TPOT tinggal ketik aja ini :

In [7]:
print(tpot.score(X_test, y_test))

0.9


## 7. Ekspor <i>pipeline</i>

In [8]:
tpot.export("classifier.py")

hasil ekspor'nya bisa di lihat di <a href="https://github.com/Rakhid16/Python-TPOT/blob/master/classifier.py">sini</a> ya!<br>
Sekian dari saya, semoga bermanfaat! :)