<a href="https://colab.research.google.com/github/khairihr/MachineLearning/blob/main/TaskWeek13/LeNet_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Nama: Khairi Hibatullah Ridho

NIM: 1103228240

https://poloclub.github.io/cnn-explainer/

https://convnetplayground.fastforwardlabs.com/#/

LeNet-5, AlexNet and VGGNet.

https://landing.ai/ https://www.ultralytics.com/

##LeNet 5

LeNet-5 adalah salah satu arsitektur jaringan saraf tiruan konvolusi (convolutional neural network atau CNN) yang dikembangkan oleh Yann LeCun, Leon Bottou, Yoshua Bengio, dan Patrick Haffner pada tahun 1998. LeNet-5 adalah salah satu model CNN pertama yang digunakan secara luas untuk mengenali karakter tulisan tangan dalam aplikasi pengenalan tulisan tangan, seperti pengenalan angka pada cek dan kode pos pada amplop.

Arsitektur LeNet-5 memiliki beberapa ciri khas:

1. Convolutional Layers: LeNet-5 menggunakan dua lapisan konvolusi (convolutional layers) yang diikuti oleh lapisan subsampling (pooling) untuk mengekstraksi fitur-fitur penting dari gambar masukan. Konvolusi adalah operasi yang digunakan untuk memproses gambar secara lokal.

2. Activation Functions: Setelah setiap lapisan konvolusi dan subsampling, fungsi aktivasi seperti ReLU (Rectified Linear Unit) diterapkan untuk memperkenalkan non-linearitas ke dalam jaringan.

3. Fully Connected Layers: Setelah lapisan konvolusi dan subsampling, terdapat beberapa lapisan tersembunyi (fully connected layers) yang menghubungkan semua neuron pada lapisan tersebut dengan neuron pada lapisan berikutnya. Ini digunakan untuk menggabungkan fitur-fitur yang telah diekstraksi sebelumnya.

4. Softmax Layer: Lapisan output dari LeNet-5 biasanya menggunakan fungsi softmax untuk menghasilkan probabilitas prediksi kelas yang digunakan untuk klasifikasi.

5. Jumlah Parameter yang Terbatas: LeNet-5 memiliki jumlah parameter yang relatif sedikit dibandingkan dengan arsitektur CNN modern saat ini, karena pada saat itu komputasi dan penyimpanan terbatas. Meskipun demikian, LeNet-5 mampu memberikan hasil yang baik dalam tugas pengenalan karakter tulisan tangan.

LeNet-5 telah membuka jalan bagi perkembangan lebih lanjut dalam pengenalan gambar dan tugas-tugas komputer visi. Arsitektur ini mengilhami banyak jaringan CNN lainnya yang digunakan dalam berbagai aplikasi, termasuk pengenalan gambar, deteksi objek, dan klasifikasi gambar. LeNet-5 adalah salah satu tonggak penting dalam perkembangan deep learning dan komputer visi.

In [1]:
#arsitektur lenet 5:

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

# Set device to GPU if available
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Define the LeNet-5 architecture for MNIST
class LeNet5(nn.Module):
    def __init__(self):
        super(LeNet5, self).__init__()
        self.conv1 = nn.Conv2d(1, 6, kernel_size=5, stride=1, padding=2)
        self.relu1 = nn.ReLU()
        self.pool1 = nn.MaxPool2d(kernel_size=2, stride=2)

        self.conv2 = nn.Conv2d(6, 16, kernel_size=5, stride=1)
        self.relu2 = nn.ReLU()
        self.pool2 = nn.MaxPool2d(kernel_size=2, stride=2)

        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.relu3 = nn.ReLU()

        self.fc2 = nn.Linear(120, 84)
        self.relu4 = nn.ReLU()

        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool1(self.relu1(self.conv1(x)))
        x = self.pool2(self.relu2(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = self.relu3(self.fc1(x))
        x = self.relu4(self.fc2(x))
        x = self.fc3(x)
        return x

# Load MNIST dataset
transform = transforms.Compose([
    transforms.Resize((28, 28)),
    transforms.ToTensor(),
])

train_dataset = torchvision.datasets.MNIST(root="./data", train=True, download=True, transform=transform)
test_dataset = torchvision.datasets.MNIST(root="./data", train=False, download=True, transform=transform)

train_loader = DataLoader(dataset=train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(dataset=test_dataset, batch_size=64, shuffle=False)

# Initialize model, loss function, and optimizer
model = LeNet5().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Training
num_epochs = 5

for epoch in range(num_epochs):
    model.train()
    total_loss = 0.0
    for inputs, labels in train_loader:
        inputs, labels = inputs.to(device), labels.to(device)

        optimizer.zero_grad()

        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

    print(f"Epoch {epoch + 1}/{num_epochs}, Loss: {total_loss / len(train_loader)}")

# Testing
model.eval()
total_correct = 0
total_samples = 0

with torch.no_grad():
    for inputs, labels in test_loader:
        inputs, labels = inputs.to(device), labels.to(device)

        outputs = model(inputs)
        _, predictions = torch.max(outputs, 1)

        total_correct += (predictions == labels).sum().item()
        total_samples += labels.size(0)

accuracy = total_correct / total_samples
print(f"Test Accuracy: {accuracy}")

Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz to ./data/MNIST/raw/train-images-idx3-ubyte.gz


100%|██████████| 9912422/9912422 [00:00<00:00, 300472011.19it/s]

Extracting ./data/MNIST/raw/train-images-idx3-ubyte.gz to ./data/MNIST/raw






Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz to ./data/MNIST/raw/train-labels-idx1-ubyte.gz


100%|██████████| 28881/28881 [00:00<00:00, 110023336.81it/s]


Extracting ./data/MNIST/raw/train-labels-idx1-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz to ./data/MNIST/raw/t10k-images-idx3-ubyte.gz


100%|██████████| 1648877/1648877 [00:00<00:00, 125492494.95it/s]

Extracting ./data/MNIST/raw/t10k-images-idx3-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz





Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz to ./data/MNIST/raw/t10k-labels-idx1-ubyte.gz


100%|██████████| 4542/4542 [00:00<00:00, 20418573.17it/s]


Extracting ./data/MNIST/raw/t10k-labels-idx1-ubyte.gz to ./data/MNIST/raw

Epoch 1/5, Loss: 0.2841396177195505
Epoch 2/5, Loss: 0.08065947837956837
Epoch 3/5, Loss: 0.05975578717072246
Epoch 4/5, Loss: 0.04698737218170794
Epoch 5/5, Loss: 0.03751578768352861
Test Accuracy: 0.9903


Di bawah ini adalah penjelasan lebih rinci tentang setiap bagian dari kode tersebut:

1. **Impor Library**: Kode dimulai dengan mengimpor beberapa pustaka PyTorch yang diperlukan, seperti `torch`, `torch.nn`, `torch.optim`, `torchvision`, dan `transforms`. Ini termasuk mengatur perangkat (CPU atau GPU) yang akan digunakan untuk pelatihan.

2. **Definisi Arsitektur LeNet-5**: Anda mendefinisikan arsitektur LeNet-5 dalam kelas `LeNet5` menggunakan modul `nn.Module` PyTorch. Arsitektur ini mencakup dua lapisan konvolusi (`conv1` dan `conv2`), dua lapisan ReLU (`relu1` dan `relu2`), dua lapisan MaxPooling (`pool1` dan `pool2`), dan tiga lapisan linear (`fc1`, `fc2`, dan `fc3`) untuk klasifikasi. Setiap lapisan konvolusi diikuti oleh ReLU dan MaxPooling.

3. **Transformasi Data**: Anda mendefinisikan transformasi data untuk dataset MNIST. Ini termasuk mengubah gambar menjadi tensor dan menyesuaikan ukuran gambar menjadi 28x28 piksel.

4. **Memuat Dataset**: Anda memuat dataset MNIST menggunakan `torchvision.datasets.MNIST`. Ini akan mengunduh dataset jika belum ada di direktori yang ditentukan. Selanjutnya, Anda membuat dua objek `DataLoader` untuk data pelatihan dan pengujian. DataLoader digunakan untuk memecah data menjadi batch-batch yang dapat digunakan untuk pelatihan dan pengujian model.

5. **Inisialisasi Model, Fungsi Loss, dan Optimizer**: Anda membuat objek model `LeNet5`, memilih fungsi loss `nn.CrossEntropyLoss()` untuk tugas klasifikasi, dan memilih optimizer `optim.Adam` dengan learning rate 0.001.

6. **Pelatihan**: Anda melakukan pelatihan model menggunakan loop `for` yang berjalan sebanyak `num_epochs`. Dalam loop pelatihan, Anda mengirimkan batch data ke model, menghitung loss, melakukan backpropagation, dan memperbarui bobot model melalui optimizer. Setiap epoch mencatat loss rata-rata selama iterasi pelatihan dan mencetaknya.

7. **Pengujian**: Setelah pelatihan selesai, Anda melakukan pengujian model pada dataset pengujian. Model dinilai pada mode evaluasi dengan menggunakan `model.eval()`. Anda menghitung jumlah prediksi yang benar dan total sampel untuk mengukur akurasi pengujian.

8. **Akurasi Pengujian**: Akurasi pengujian dihitung dengan membagi jumlah prediksi yang benar dengan total sampel dan dicetak.

Kode ini akan melatih model LeNet-5 untuk mengenali digit dalam dataset MNIST dan mencetak akurasi pengujian setelah pelatihan selesai. LeNet-5 adalah salah satu arsitektur klasik yang sering digunakan dalam pengenalan gambar dan sangat cocok untuk dataset seperti MNIST.