**Langkah 1: Memuat dan Memahami Dataset**

Langkah pertama adalah memuat dataset dan melihat struktur serta statistik data.

In [8]:
# Import pustaka yang diperlukan
import pandas as pd

# Memuat dataset dari file yang telah diunggah
file_path = '/content/winequality-red.csv'
data = pd.read_csv(file_path, sep=';')  # Menentukan pemisah ';' sesuai dengan format CSV

# Melihat beberapa baris pertama untuk memahami struktur dataset
data.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


**Penjelasan Output:**

Melihat tabel dengan kolom seperti `fixed acidity`, `volatile acidity`, dll., yang merupakan atribut dari data wine quality. (quality).

**2. Mengevaluasi Informasi Dataset**

Memastikan dataset bersih dan tidak ada nilai yang hilang.

In [9]:
# Melihat informasi dataset
data.info()

# Mengecek apakah terdapat nilai yang hilang
missing_values = data.isnull().sum()
missing_values

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


Unnamed: 0,0
fixed acidity,0
volatile acidity,0
citric acid,0
residual sugar,0
chlorides,0
free sulfur dioxide,0
total sulfur dioxide,0
density,0
pH,0
sulphates,0


Menunjukkan informasi rangkuman dataset berupa DataFrame dengan 12 kolom dan 1599 baris, di mana semua kolom non-null dan memiliki tipe data float64, kecuali kolom "quality" bertipe int64.

**3. Eksplorasi Statistik Dasar**

Melihat distribusi data numerik.

In [10]:
# Menampilkan statistik deskriptif untuk data numerik
data.describe()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
count,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0,1599.0
mean,8.319637,0.527821,0.270976,2.538806,0.087467,15.874922,46.467792,0.996747,3.311113,0.658149,10.422983,5.636023
std,1.741096,0.17906,0.194801,1.409928,0.047065,10.460157,32.895324,0.001887,0.154386,0.169507,1.065668,0.807569
min,4.6,0.12,0.0,0.9,0.012,1.0,6.0,0.99007,2.74,0.33,8.4,3.0
25%,7.1,0.39,0.09,1.9,0.07,7.0,22.0,0.9956,3.21,0.55,9.5,5.0
50%,7.9,0.52,0.26,2.2,0.079,14.0,38.0,0.99675,3.31,0.62,10.2,6.0
75%,9.2,0.64,0.42,2.6,0.09,21.0,62.0,0.997835,3.4,0.73,11.1,6.0
max,15.9,1.58,1.0,15.5,0.611,72.0,289.0,1.00369,4.01,2.0,14.9,8.0


Tabel yang berisi statistik dasar dari data numerik untuk memahami rentang nilai, distribusi, dan potensi outlier.

**4. Normalisasi Data**

Melakukan normalisasi untuk memastikan fitur berada dalam rentang yang sama.

In [11]:
from sklearn.preprocessing import MinMaxScaler

# Memisahkan fitur dan label
X = data.iloc[:, :-1]  # Semua kolom kecuali kolom terakhir sebagai fitur
y = data.iloc[:, -1]   # Kolom terakhir sebagai label

# Normalisasi data fitur ke rentang [0, 1]
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Mengubah hasil normalisasi ke DataFrame untuk keterbacaan
X_scaled = pd.DataFrame(X_scaled, columns=X.columns)
X_scaled.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,0.247788,0.39726,0.0,0.068493,0.106845,0.140845,0.09894,0.567548,0.606299,0.137725,0.153846
1,0.283186,0.520548,0.0,0.116438,0.143573,0.338028,0.215548,0.494126,0.362205,0.209581,0.215385
2,0.283186,0.438356,0.04,0.09589,0.133556,0.197183,0.169611,0.508811,0.409449,0.191617,0.215385
3,0.584071,0.109589,0.56,0.068493,0.105175,0.225352,0.190813,0.582232,0.330709,0.149701,0.215385
4,0.247788,0.39726,0.0,0.068493,0.106845,0.140845,0.09894,0.567548,0.606299,0.137725,0.153846


 Dataset yang telah dinormalisasi, di mana setiap kolom berada dalam rentang [0, 1].



**5. Membagi Data untuk Pelatihan dan Pengujian**

Langkah ini memisahkan data menjadi subset pelatihan dan pengujian untuk mengevaluasi performa model.

In [12]:
from sklearn.model_selection import train_test_split

# Membagi dataset menjadi data pelatihan (80%) dan data pengujian (20%)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Menampilkan ukuran dari setiap subset
print(f"Ukuran data pelatihan: {X_train.shape[0]} baris")
print(f"Ukuran data pengujian: {X_test.shape[0]} baris")

Ukuran data pelatihan: 1279 baris
Ukuran data pengujian: 320 baris


Konsep:

- `train_test_split` digunakan untuk membagi data menjadi subset pelatihan dan pengujian dengan proporsi tertentu (80% untuk pelatihan, 20% untuk pengujian).
- `random_state` memastikan pembagian yang konsisten setiap kali kode dijalankan.


Dataset telah dibagi menjadi data pelatihan (1279 baris) dan data pengujian (320 baris),

**6. Menyiapkan Data untuk Model RNN**

Karena kita akan menggunakan arsitektur RNN, data harus diubah menjadi urutan (sequence).

In [13]:
import numpy as np

# Mengubah data pelatihan dan pengujian menjadi tensor 3D untuk RNN
X_train_seq = np.expand_dims(X_train.values, axis=1)  # Menambahkan dimensi untuk sequence
X_test_seq = np.expand_dims(X_test.values, axis=1)

# Menampilkan bentuk data setelah transformasi
print(f"Bentuk data pelatihan: {X_train_seq.shape}")  # (samples, time_steps, features)
print(f"Bentuk data pengujian: {X_test_seq.shape}")


Bentuk data pelatihan: (1279, 1, 11)
Bentuk data pengujian: (320, 1, 11)


Konsep:

- Model RNN membutuhkan data dalam bentuk tiga dimensi: (`samples`, `time_steps`, `features`).
- `np.expand_dims` digunakan untuk menambahkan dimensi time_steps, yang dalam hal ini adalah 1 karena tidak ada dimensi waktu eksplisit.

Data pelatihan memiliki dimensi (1279, 1, 11), dan data pengujian memiliki dimensi (320, 1, 11), menunjukkan data diproses dalam bentuk tiga dimensi

**7. Encoding Label**

Jika label adalah kategori, kita perlu mengubahnya menjadi bentuk numerik.

In [14]:
from sklearn.preprocessing import LabelEncoder

# Mengubah label menjadi bentuk numerik
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_test_encoded = label_encoder.transform(y_test)

# Menampilkan label yang telah dienkode
print(f"Label unik: {list(label_encoder.classes_)}")
print(f"Contoh label terenkripsi: {y_train_encoded[:5]}")


Label unik: [3, 4, 5, 6, 7, 8]
Contoh label terenkripsi: [3 3 3 2 2]


Konsep:

- `LabelEncoder` digunakan untuk mengonversi label - kategori menjadi angka yang dapat diterima oleh model.
- Transformasi ini hanya diterapkan pada label (target).

Label unik dalam dataset terdiri dari nilai [3, 4, 5, 6, 7, 8], dan contoh label terenkripsi menunjukkan pola data target yang telah dipetakan

**Implementasi Model RNN untuk Markov dan Hidden Markov Menggunakan PyTorch**

Berikut adalah langkah-langkah untuk membangun, melatih, dan mengevaluasi model RNN menggunakan PyTorch.

1. Instalasi dan Import Modul PyTorch

In [15]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

# Memastikan PyTorch mendeteksi GPU jika tersedia
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Model akan dijalankan pada perangkat: {device}")

Model akan dijalankan pada perangkat: cpu


- PyTorch digunakan untuk membangun model RNN.
- `torch.device` menentukan apakah model dijalankan di GPU atau CPU.

**2. Menyiapkan Data untuk DataLoader PyTorch**

In [16]:
# Konversi data menjadi tensor PyTorch
X_train_tensor = torch.tensor(X_train_seq, dtype=torch.float32).to(device)
y_train_tensor = torch.tensor(y_train_encoded, dtype=torch.long).to(device)
X_test_tensor = torch.tensor(X_test_seq, dtype=torch.float32).to(device)
y_test_tensor = torch.tensor(y_test_encoded, dtype=torch.long).to(device)

# Membuat DataLoader untuk batch processing
batch_size = 64
train_dataset = TensorDataset(X_train_tensor, y_train_tensor)
test_dataset = TensorDataset(X_test_tensor, y_test_tensor)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

print(f"Jumlah batch pelatihan: {len(train_loader)}")
print(f"Jumlah batch pengujian: {len(test_loader)}")


Jumlah batch pelatihan: 20
Jumlah batch pengujian: 5


- Data diubah menjadi tensor PyTorch dan dipindahkan ke perangkat (CPU/GPU).
- `DataLoader` digunakan untuk mempermudah proses pelatihan dalam batch.


Dataset dibagi ke dalam 20 batch untuk pelatihan dan 5 batch untuk pengujian, menunjukkan pembagian yang sesuai untuk proses pembelajaran berbasis mini-batch.

**3. Definisi Model RNN**

In [17]:
class RNNModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(RNNModel, self).__init__()
        self.rnn = nn.RNN(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        # Menghasilkan output dan hidden state dari RNN
        out, _ = self.rnn(x)
        # Mengambil output dari langkah waktu terakhir
        out = out[:, -1, :]
        # Memetakan ke dimensi output
        out = self.fc(out)
        return out

# Parameter model
input_size = X_train.shape[1]  # Jumlah fitur
hidden_size = 32  # Ukuran hidden layer (dapat divariasikan)
output_size = len(label_encoder.classes_)  # Jumlah kelas

# Inisialisasi model
model = RNNModel(input_size, hidden_size, output_size).to(device)
print(model)


RNNModel(
  (rnn): RNN(11, 32, batch_first=True)
  (fc): Linear(in_features=32, out_features=6, bias=True)
)


- Model terdiri dari layer RNN dan layer linear untuk memetakan output hidden ke kelas target.
- `batch_first=True` memastikan input batch diatur dengan urutan (batch, time_steps, features).

**Model yang digunakan adalah RNNModel dengan dua lapisan utama:**

- RNN(11, 32, batch_first=True): Sebuah lapisan RNN yang menerima 11 fitur input, menghasilkan 32 unit output, dan memproses data dengan batch sebagai dimensi pertama.
- Linear(in_features=32, out_features=6, bias=True): Lapisan linear yang mengonversi 32 fitur menjadi 6 output (sesuai dengan jumlah kelas label unik).

Model ini dirancang untuk klasifikasi dengan urutan data.








**4. Definisi Loss Function dan Optimizer**

In [18]:
# Fungsi loss: CrossEntropy untuk klasifikasi
criterion = nn.CrossEntropyLoss()

# Optimizer: Adam (dapat diganti dengan SGD atau RMSProp)
optimizer = optim.Adam(model.parameters(), lr=0.001)

- `CrossEntropyLoss` cocok untuk klasifikasi multi-kelas.

- `Adam` digunakan sebagai optimizer awal.

**5. Training Loop**

In [19]:
# Fungsi pelatihan
def train_model(model, train_loader, criterion, optimizer, num_epochs=50):
    model.train()  # Mode pelatihan
    for epoch in range(num_epochs):
        epoch_loss = 0.0
        for X_batch, y_batch in train_loader:
            # Reset gradien
            optimizer.zero_grad()
            # Forward pass
            outputs = model(X_batch)
            loss = criterion(outputs, y_batch)
            # Backward pass dan update parameter
            loss.backward()
            optimizer.step()
            epoch_loss += loss.item()
        print(f"Epoch {epoch+1}/{num_epochs}, Loss: {epoch_loss/len(train_loader):.4f}")

# Melatih model
train_model(model, train_loader, criterion, optimizer, num_epochs=50)


Epoch 1/50, Loss: 1.6839
Epoch 2/50, Loss: 1.4941
Epoch 3/50, Loss: 1.3429
Epoch 4/50, Loss: 1.2503
Epoch 5/50, Loss: 1.2073
Epoch 6/50, Loss: 1.1880
Epoch 7/50, Loss: 1.1759
Epoch 8/50, Loss: 1.1682
Epoch 9/50, Loss: 1.1601
Epoch 10/50, Loss: 1.1529
Epoch 11/50, Loss: 1.1445
Epoch 12/50, Loss: 1.1370
Epoch 13/50, Loss: 1.1278
Epoch 14/50, Loss: 1.1189
Epoch 15/50, Loss: 1.1092
Epoch 16/50, Loss: 1.0998
Epoch 17/50, Loss: 1.0901
Epoch 18/50, Loss: 1.0810
Epoch 19/50, Loss: 1.0723
Epoch 20/50, Loss: 1.0620
Epoch 21/50, Loss: 1.0540
Epoch 22/50, Loss: 1.0464
Epoch 23/50, Loss: 1.0389
Epoch 24/50, Loss: 1.0313
Epoch 25/50, Loss: 1.0255
Epoch 26/50, Loss: 1.0187
Epoch 27/50, Loss: 1.0151
Epoch 28/50, Loss: 1.0083
Epoch 29/50, Loss: 1.0048
Epoch 30/50, Loss: 1.0011
Epoch 31/50, Loss: 0.9979
Epoch 32/50, Loss: 0.9935
Epoch 33/50, Loss: 0.9896
Epoch 34/50, Loss: 0.9881
Epoch 35/50, Loss: 0.9846
Epoch 36/50, Loss: 0.9830
Epoch 37/50, Loss: 0.9812
Epoch 38/50, Loss: 0.9816
Epoch 39/50, Loss: 0.

- Loop pelatihan terdiri dari forward pass, menghitung loss, backward pass, dan pembaruan parameter.

Proses pelatihan model menunjukkan bahwa loss secara konsisten menurun dari 1.6839 pada epoch 1 menjadi 0.9638 pada epoch 50. Hal ini menunjukkan bahwa model berhasil belajar dari data dengan konvergensi yang stabil.

**6. Evaluasi Model**

In [20]:
# Fungsi evaluasi
def evaluate_model(model, test_loader, criterion):
    model.eval()  # Mode evaluasi
    correct = 0
    total = 0
    test_loss = 0.0
    with torch.no_grad():
        for X_batch, y_batch in test_loader:
            outputs = model(X_batch)
            loss = criterion(outputs, y_batch)
            test_loss += loss.item()
            _, predicted = torch.max(outputs, 1)
            total += y_batch.size(0)
            correct += (predicted == y_batch).sum().item()
    accuracy = 100 * correct / total
    print(f"Test Loss: {test_loss/len(test_loader):.4f}, Accuracy: {accuracy:.2f}%")

# Mengevaluasi model
evaluate_model(model, test_loader, criterion)


Test Loss: 0.9812, Accuracy: 55.31%


- Model dievaluasi dalam mode `eval` untuk mencegah dropout atau normalisasi yang aktif.
- Akurasi dihitung berdasarkan prediksi benar dibandingkan total.

Hasil evaluasi menunjukkan Test Loss sebesar 0.9812 dan akurasi 55.31%. Meskipun loss cukup rendah, akurasi menunjukkan model belum sepenuhnya optimal.

**7. Mengimplementasikan semua eksperimen**

In [24]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset
from torch.optim.lr_scheduler import ReduceLROnPlateau
import pandas as pd
import numpy as np

# Memastikan perangkat GPU/CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Definisi model RNN dengan pooling
class RNNModelWithPooling(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, pooling_type='max'):
        super(RNNModelWithPooling, self).__init__()
        self.rnn = nn.RNN(input_size, hidden_size, batch_first=True)
        self.pooling_type = pooling_type
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        out, _ = self.rnn(x)
        if self.pooling_type == 'max':
            out, _ = torch.max(out, dim=1)  # Max pooling
        elif self.pooling_type == 'avg':
            out = torch.mean(out, dim=1)  # Avg pooling
        out = self.fc(out)
        return out

# Fungsi pelatihan dengan Early Stopping
def train_model_combined(model, train_loader, criterion, optimizer, scheduler, patience=5, num_epochs=350):
    best_loss = float('inf')
    epochs_no_improve = 0
    for epoch in range(num_epochs):
        model.train()
        epoch_loss = 0.0
        for X_batch, y_batch in train_loader:
            optimizer.zero_grad()
            outputs = model(X_batch)
            loss = criterion(outputs, y_batch)
            loss.backward()
            optimizer.step()
            epoch_loss += loss.item()

        # Scheduler untuk mengurangi learning rate
        scheduler.step(epoch_loss / len(train_loader))

        # Early Stopping
        if epoch_loss < best_loss:
            best_loss = epoch_loss
            epochs_no_improve = 0
        else:
            epochs_no_improve += 1
        if epochs_no_improve >= patience:
            print(f"Early stopping at epoch {epoch + 1}")
            break

# Parameter eksperimen
hidden_sizes = [16, 32, 64]
pooling_types = ['max', 'avg']
epoch_list = [5, 50, 100, 250, 350]
optimizers = {
    'SGD': optim.SGD,
    'RMSProp': optim.RMSprop,
    'Adam': optim.Adam
}

# Menyimpan hasil eksperimen
results = []

# Pipeline eksperimen
for hidden_size in hidden_sizes:
    for pooling_type in pooling_types:
        for optimizer_name, optimizer_class in optimizers.items():
            for max_epoch in epoch_list:
                print(f"Running: Hidden Size={hidden_size}, Pooling={pooling_type}, Optimizer={optimizer_name}, Epoch={max_epoch}")

                # Inisialisasi model
                model = RNNModelWithPooling(input_size, hidden_size, output_size, pooling_type).to(device)
                optimizer = optimizer_class(model.parameters(), lr=0.001)
                scheduler = ReduceLROnPlateau(optimizer, 'min', patience=3, factor=0.1)

                # Pelatihan
                train_model_combined(model, train_loader, criterion, optimizer, scheduler, num_epochs=max_epoch)

                # Evaluasi
                model.eval()
                correct = 0
                total = 0
                with torch.no_grad():
                    for X_batch, y_batch in test_loader:
                        outputs = model(X_batch)
                        _, predicted = torch.max(outputs, 1)
                        total += y_batch.size(0)
                        correct += (predicted == y_batch).sum().item()
                accuracy = 100 * correct / total

                # Simpan hasil
                results.append({
                    "Hidden Size": hidden_size,
                    "Pooling": pooling_type,
                    "Optimizer": optimizer_name,
                    "Epoch": max_epoch,
                    "Accuracy": accuracy
                })

# Menampilkan beberapa baris pertama dari hasil eksperimen
print(results_df.head())

# Menyimpan hasil ke file CSV untuk analisis lebih lanjut
results_df.to_csv('experiment_results.csv', index=False)
print("Hasil eksperimen telah disimpan ke file 'experiment_results.csv'.")


Running: Hidden Size=16, Pooling=max, Optimizer=SGD, Epoch=5
Running: Hidden Size=16, Pooling=max, Optimizer=SGD, Epoch=50
Running: Hidden Size=16, Pooling=max, Optimizer=SGD, Epoch=100
Running: Hidden Size=16, Pooling=max, Optimizer=SGD, Epoch=250
Running: Hidden Size=16, Pooling=max, Optimizer=SGD, Epoch=350
Running: Hidden Size=16, Pooling=max, Optimizer=RMSProp, Epoch=5
Running: Hidden Size=16, Pooling=max, Optimizer=RMSProp, Epoch=50
Running: Hidden Size=16, Pooling=max, Optimizer=RMSProp, Epoch=100
Running: Hidden Size=16, Pooling=max, Optimizer=RMSProp, Epoch=250
Early stopping at epoch 159
Running: Hidden Size=16, Pooling=max, Optimizer=RMSProp, Epoch=350
Early stopping at epoch 132
Running: Hidden Size=16, Pooling=max, Optimizer=Adam, Epoch=5
Running: Hidden Size=16, Pooling=max, Optimizer=Adam, Epoch=50
Running: Hidden Size=16, Pooling=max, Optimizer=Adam, Epoch=100
Running: Hidden Size=16, Pooling=max, Optimizer=Adam, Epoch=250
Early stopping at epoch 158
Running: Hidden Siz

Log menunjukkan percobaan dengan berbagai kombinasi parameter model, termasuk ukuran hidden layer (16, 32), jenis pooling (max, avg), dan optimizer (SGD, Adam, RMSprop). Beberapa percobaan menggunakan early stopping, yang menghentikan pelatihan sebelum mencapai jumlah epoch maksimal (misalnya, berhenti pada epoch 120, 150, 163, dll.). Eksperimen ini bertujuan untuk menemukan kombinasi parameter terbaik untuk meningkatkan performa model.