# klasifikasi pinguin

## penjelasan dataset

Dataset ini dibuat untuk penelitian yang bertujuan untuk menyelidiki perilaku mencari makan penguin Antartika dan kaitannya dengan variasi lingkungan. Data ini dikumpulkan sebagai bagian dari Program Penelitian Ekologi Jangka Panjang Stasiun Palmer, Antartika, yang didukung oleh hibah dari National Science Foundation, Office of Polar Programs (NSF-OPP). Informasi lebih lanjut dapat ditemukan dalam paper klasik yang ditulis oleh Gorman et al.

Dataset ini terdiri dari tiga jenis penguin Antartika, yaitu Adélie (152 penguin), Gentoo (124 penguin), dan Chinstrap (68 penguin). Sejumlah 344 penguin ini dijadikan satu dataset Palmer penguins setelah penggabungan tiga dataset terpisah yang awalnya terdaftar dalam sistem data Penelitian Ekologi Jangka Panjang Stasiun Palmer (PAL-LTER).

deskripsi ciri , 1.island asal dari penguin 2.Culmen yang merupakan punggung atas paruh (paruh) Penguin diukur dengan bantuan panjang paruh dan bagian paruhnya.

![Alt text](penguin2.png)
![Alt text](gambar_penguin.png)
![Alt text](ping.png)


## preprocessing data

import semua library yang di butuhkan

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler



baca dataset pinguin

In [2]:
data = pd.read_csv('penguins_size.csv')

yang saya lakukan pertama kali tentu saja mengimport data dari format csv
dan menampilkan datanya

In [3]:
data

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,MALE
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,FEMALE
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,FEMALE
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,FEMALE
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,FEMALE
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,MALE
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,FEMALE


mengubah dari tipe data kategorical ke  dengan cat code agar menjadi numerik

In [4]:
# meruba kategorical ke numeric

    
    # Mengubah kolom 'species' menjadi tipe data kategori (Categorical) dalam Pandas.
data['species'] = pd.Categorical(data['species'])

    # Menggunakan metode cat.codes untuk mengkodekan kategori dalam kolom 'species' menjadi nilai numerik.
data['species'] = data['species'].cat.codes

    # Mengubah kolom 'sex' menjadi tipe data kategori (Categorical) dalam Pandas.
data['sex'] = pd.Categorical(data['sex'])

    # Menggunakan metode cat.codes untuk mengkodekan kategori dalam kolom 'sex' menjadi nilai numerik.
data['sex'] = data['sex'].cat.codes

    # Mengubah kolom 'island' menjadi tipe data kategori (Categorical) dalam Pandas.
data['island'] = pd.Categorical(data['island'])

    # Menggunakan metode cat.codes untuk mengkodekan kategori dalam kolom 'island' menjadi nilai numerik.
data['island'] = data['island'].cat.codes



lalu saya akan menghapus missing value

In [5]:
data.dropna(inplace=True)
data

Unnamed: 0,species,island,culmen_length_mm,culmen_depth_mm,flipper_length_mm,body_mass_g,sex
0,0,2,39.1,18.7,181.0,3750.0,2
1,0,2,39.5,17.4,186.0,3800.0,1
2,0,2,40.3,18.0,195.0,3250.0,1
4,0,2,36.7,19.3,193.0,3450.0,1
5,0,2,39.3,20.6,190.0,3650.0,2
...,...,...,...,...,...,...,...
338,2,0,47.2,13.7,214.0,4925.0,1
340,2,0,46.8,14.3,215.0,4850.0,1
341,2,0,50.4,15.7,222.0,5750.0,2
342,2,0,45.2,14.8,212.0,5200.0,1


setelah itu saya ingin membagi dat menjadi data train dan test dengan ukuran train = 80% test = 20 %

$$ z = \frac{x - \mu}{\sigma} $$


In [6]:
X = data.drop('species', axis=1)
y = data['species']

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

kemudian yang saya lakukan adalah normalisasi data dengan standard scaller

In [8]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [9]:
ukuran_latih = X_train.shape
print('ukuran data train adalah = ',ukuran_latih)
ukuran_tes = X_test.shape
print('ukuran data tes adalah = ',ukuran_tes)

ukuran data train adalah =  (273, 6)
ukuran data tes adalah =  (69, 6)


## modeling

### mencari model terbaik dengan pycarret

In [10]:
# Langkah 1: Import library
from pycaret.classification import *
import pandas as pd

# Langkah 2: Muat data dari file CSV
data = pd.read_csv('penguins_size.csv')  # Gantilah 'nama_file.csv' dengan nama file CSV Anda

# Langkah 3: Inisialisasi eksperimen
exp1 = setup(data, target='species',train_size=0.8)  # Gantilah 'target_variable_name' dengan nama kolom label kelas

# Langkah 4: Pilih model terbaik
best_model = compare_models()

# Langkah 5: Tuning hiperparameter (Opsional)
tuned_model = tune_model(best_model)

# Langkah 6: Evaluasi model
evaluate_model(tuned_model)

# Langkah 7: Prediksi
data_to_predict = pd.read_csv('penguins_size.csv')  # Gantilah 'data_to_predict.csv' dengan data yang ingin Anda prediksi
predictions = predict_model(tuned_model, data=data_to_predict)


Unnamed: 0,Description,Value
0,Session id,5425
1,Target,species
2,Target type,Multiclass
3,Target mapping,"Adelie: 0, Chinstrap: 1, Gentoo: 2"
4,Original data shape,"(344, 7)"
5,Transformed data shape,"(344, 11)"
6,Transformed train set shape,"(275, 11)"
7,Transformed test set shape,"(69, 11)"
8,Numeric features,4
9,Categorical features,2


Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
ridge,Ridge Classifier,0.9964,0.0,0.9964,0.9967,0.9963,0.9944,0.9946,0.06
rf,Random Forest Classifier,0.9964,0.9996,0.9964,0.9967,0.9963,0.9944,0.9946,0.24
lda,Linear Discriminant Analysis,0.9964,1.0,0.9964,0.9967,0.9963,0.9944,0.9946,0.086
lr,Logistic Regression,0.9893,0.9996,0.9893,0.9895,0.9892,0.9831,0.9833,0.76
gbc,Gradient Boosting Classifier,0.982,0.999,0.982,0.9838,0.9819,0.9718,0.9728,0.505
dt,Decision Tree Classifier,0.9676,0.9755,0.9676,0.971,0.9674,0.9493,0.951,0.059
nb,Naive Bayes,0.8513,0.998,0.8513,0.9164,0.8555,0.7792,0.8069,0.058
ada,Ada Boost Classifier,0.8251,0.8865,0.8251,0.7387,0.7652,0.7036,0.7444,0.209
knn,K Neighbors Classifier,0.771,0.895,0.771,0.7428,0.7425,0.6217,0.6415,0.08
qda,Quadratic Discriminant Analysis,0.4177,0.0,0.4177,0.1807,0.2512,0.0,0.0,0.083


Processing:   0%|          | 0/65 [00:00<?, ?it/s]

metode klasifikasi terbaik menurut pycaret adalah ridge clasifier set up nya train 80% tes 20%  jadi saya memakai ridge clasifier

\begin{equation}
\text{minimize} \left( J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(h_{\theta}(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_{\theta}(x^{(i)})) \right] + \frac{\lambda}{2} \sum_{j=1}^{n} \theta_j^2 \right)
\end{equation}


In [48]:
from sklearn.linear_model import RidgeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


In [49]:
ridge_classifier = RidgeClassifier()
ridge_classifier.fit(X_train, y_train)


In [50]:
import pickle

# Nama file untuk menyimpan model (dalam mode write binary, 'wb')
with open('ridge_class2.pkl', 'wb') as file:
    pickle.dump(ridge_classifier, file)

In [51]:
y_pred = ridge_classifier.predict(X_test)


In [52]:
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')


Accuracy: 0.99


saya ingin mengecek mana prediksi yang salah dan benar

In [53]:
from tabulate import tabulate

# Menyiapkan data sebagai list of tuples
data = list(zip(y_pred, y_test))

# Membuat tabel menggunakan tabulate
table = tabulate(data, headers=['Prediksi Label', 'Label Sebenarnya'], tablefmt='grid')

# Menampilkan tabel
print(table)

+------------------+--------------------+
|   Prediksi Label |   Label Sebenarnya |
|                2 |                  2 |
+------------------+--------------------+
|                0 |                  0 |
+------------------+--------------------+
|                0 |                  0 |
+------------------+--------------------+
|                0 |                  0 |
+------------------+--------------------+
|                0 |                  0 |
+------------------+--------------------+
|                2 |                  2 |
+------------------+--------------------+
|                1 |                  1 |
+------------------+--------------------+
|                1 |                  1 |
+------------------+--------------------+
|                2 |                  2 |
+------------------+--------------------+
|                0 |                  0 |
+------------------+--------------------+
|                0 |                  0 |
+------------------+--------------

## [IMPLEMENTASI APLIKASI](https://pinguin-iiiagxnx846cv5j6pytht8.streamlit.app/)
