<a href="https://colab.research.google.com/github/Marcysp/quiz2_machine_learning/blob/main/03_Alvina%20Marcy_kuis2_OCR_CNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Import Library

In [None]:
import tensorflow as tf #Mengimpor TensorFlow untuk machine learning.
import numpy as np      #Mengimpor NumPy untuk operasi numerik.
import pandas as pd     #Mengimpor Pandas untuk manipulasi data.
import matplotlib.pyplot as plt     #Mengimpor Matplotlib untuk visualisasi data.
import seaborn as sns               #Mengimpor Seaborn untuk visualisasi data statistik.
from sklearn.preprocessing import LabelBinarizer    #Mengimpor LabelBinarizer dari scikit-learn untuk encoding variabel target.
from sklearn.model_selection import train_test_split    #Mengimpor train_test_split dari scikit-learn untuk membagi data menjadi set pelatihan dan pengujian.
from sklearn.metrics import classification_report       #Mengimpor classification_report dari scikit-learn untuk mengevaluasi hasil klasifikasi model.
import zipfile

# Load Dataset

## Load MNIST

Proses memuat dataset MNIST melibatkan penggunaan pustaka atau fungsi yang telah disediakan oleh framework seperti Keras atau TensorFlow. Fungsi tersebut digunakan untuk mengambil dataset MNIST dari sumbernya dan memasukkannya ke dalam lingkungan pengembangan, seperti Google Colab.

In [None]:
# Mengimpor dataset MNIST dari library TensorFlow Keras
from tensorflow.keras.datasets import mnist

In [None]:
#Mengambil data pelatihan dan pengujian dari kumpulan data MNIST dan menyimpannya dalam variabel
# Variabel train_data dan train_labels berisi gambar dan labelnya untuk data pelatihan
# Variabel test_data dan test_labels berisi gambar dan labelnya untuk data pengujian
 (train_data, train_labels), (test_data, test_labels) = mnist.load_data()

In [None]:
# Check shape data
(train_data.shape, test_data.shape)

In [None]:
# Check shape labels
(train_labels.shape, test_labels.shape)

In [None]:
# Check each data shape --> should be 28*28
train_data[0].shape

In [None]:
# Check the label
train_labels.shape

### Combine Train and Test Data

Dalam dataset MNIST, terdapat dua kumpulan data: data pelatihan (train) dan data pengujian (test). Biasanya, kedua kumpulan data ini digunakan secara terpisah untuk melatih dan menguji model.

Namun, dalam beberapa situasi, ada kebutuhan untuk menggabungkan kedua set data menjadi satu dataset tunggal. Hal ini dapat dilakukan dengan maksud tertentu, misalnya, untuk menggabungkan data pelatihan dan pengujian ke dalam satu dataset yang lebih besar untuk meningkatkan pelatihan model.

In [None]:
# Mengkombinasikan data pelatihan dan data pengujian dari dataset MNIST ke dalam satu larik menggunakan np.vstack
# Variabel digits_data akan memuat hasil gabungan dari gambar-gambar dari train_data dan test_data
digits_data = np.vstack([train_data, test_data])

# Menggabungkan label-label dari data pelatihan dan data pengujian dari dataset MNIST ke dalam satu larik menggunakan np.hstack
# Variabel digits_labels akan berisi hasil gabungan dari label-label dari train_labels dan test_label
digits_labels = np.hstack([train_labels, test_labels])

In [None]:
# Check data shape
digits_data.shape

In [None]:
# Check label shape
digits_labels.shape

In [None]:
# Randomly checking the data
#  Menghasilkan indeks acak antara 0 dan jumlah total gambar dalam dataset `digits_data`
idx = np.random.randint(0, digits_data.shape[0])
# Menampilkan gambar dengan indeks yang dihasilkan secara acak menggunakan plt.imshow().
# Penggunaan cmap='gray' bertujuan untuk menampilkan gambar dalam skala warna abu-abu karena dataset MNIST berupa gambar grayscale.
plt.imshow(digits_data[idx], cmap='gray')
# Menampilkan judul plot yang berisi kelas atau label dari gambar yang dipilih secara acak
# Menggunakan str() untuk mengonversi label ke dalam string sebelum menambahkannya ke judul plot
plt.title('Class: ' + str(digits_labels[idx]))

In [None]:
# Check data distribution
df_labels = pd.DataFrame(digits_labels, columns=['Labels'])
# Menggunakan sns.countplot(df_labels, x='Labels') akan menghasilkan plot batang (countplot) yang menampilkan
# distribusi frekuensi dari nilai-nilai pada kolom 'Labels' dalam DataFrame df_labels.
# Setiap batang pada plot akan merepresentasikan jumlah kemunculan setiap nilai label pada sumbu x.
# Dengan kata lain, ini memberikan gambaran visual tentang seberapa sering setiap nilai label muncul dalam dataset.
sns.countplot(df_labels, x='Labels')

## Load Kaggle A-Z

Dataset A-Z Handwritten Data adalah dataset yang berisi gambar tulisan tangan dari huruf A sampai Z. Setiap gambar menunjukkan satu huruf. Dataset ini dapat ditemukan di platform seperti Kaggle dan dapat digunakan untuk tugas-tugas pengenalan karakter atau OCR.

In [None]:
!wget https://iaexpert.academy/arquivos/alfabeto_A-Z.zip

In [None]:
# Extract zip file
# Membuka file zip dengan mode 'read' (mode='r')
zip_object = zipfile.ZipFile(file = 'alfabeto_A-Z.zip', mode = 'r')
# Mengekstrak semua file dalam objek zip ke dalam direktori yang ditentukan.
# Dalam hal ini, ./ menunjukkan bahwa file akan diekstrak ke dalam direktori saat ini.
zip_object.extractall('./')
# Menutup objek zip setelah proses ekstraksi selesai.
# Ini adalah langkah yang baik untuk memastikan bahwa semua sumber daya terkait dengan objek zip dibersihkan dan membebaskan memori setelah selesai digunakan.
zip_object.close()

In [None]:
# Menghubungkan Google Drive (pada lingkungan Colab)
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Menggunakan Pandas untuk membaca dataset dari file CSV yang bernama 'A_Z Handwritten Data.csv'.
# kemudian Mengonversi tipe data semua kolom dalam DataFrame menjadi float32. Hal ini dapat bermanfaat untuk efisiensi memori
# jika dataset berisi nilai numerik yang dapat direpresentasikan sebagai bilangan pecahan 32-bit.
dataset_az = pd.read_csv('A_Z Handwritten Data.csv').astype('float32')
# Menampilkan DataFrame dataset_az yang telah dibaca dan dikonversi tipenya
dataset_az

In [None]:
# Get pixel data only
alphabet_data = dataset_az.drop('0', axis=1)
# Get labels only
alphabet_labels = dataset_az['0']

In [None]:
# Check shape data
alphabet_data.shape, alphabet_labels.shape

In [None]:
# Check shape labels
alphabet_labels.shape

In [None]:
# Reshape pixel data to 28*28
alphabet_data = np.reshape(alphabet_data.values, (alphabet_data.shape[0], 28, 28))
# Check the result by its shape
alphabet_data.shape

In [None]:
# Randomly checking A-Z dataset
index = np.random.randint(0, alphabet_data.shape[0])
plt.imshow(alphabet_data[index], cmap = 'gray')
plt.title('Class: ' + str(alphabet_labels[index]));

In [None]:
# Check data distribution
# Membuat DataFrame dari label-label (alphabet_labels) dengan satu kolom bernama 'Labels'
df_az_labels = pd.DataFrame({
    'Labels': alphabet_labels.values
})
# Menggunakan Seaborn untuk membuat plot distribusi label menggunakan countplot
# x='Labels' menunjukkan bahwa sumbu x akan berisi data dari kolom 'Labels' pada DataFrame
sns.countplot(df_az_labels, x='Labels')

## Combine Dataset (MNIST + Kaggel A-Z)

Langkah ini melibatkan menggabungkan dataset MNIST yang berisi gambar digit tulisan tangan dengan dataset Kaggle A-Z yang berisi gambar huruf tulisan tangan. Hasilnya adalah pembentukan satu dataset yang lebih besar dan lebih beragam. Tujuan dari langkah ini adalah untuk melatih model yang memiliki kekuatan dan keberagaman yang lebih baik dengan menggabungkan informasi dari dua dataset yang memiliki karakteristik berbeda.

In [None]:
# Check unique value from digits_labels
np.unique(digits_labels)

In [None]:
# Check unique value from alphabet_labels
np.unique(alphabet_labels)

In [None]:
# We already know that digits labels containt labels from 0-9 (10 labels)
# We also know that alphabet labels start from 0-25 which represent A-Z
# If we want to combine them, the A-Z labels should continuing the digits label

alphabet_labels += 10
# Menambahkan 10 ke setiap label pada alphabet_labels untuk melanjutkan dari 10 ke atas (untuk A-Z)

In [None]:
# cek kembali nilai alphabet_labels
np.unique(alphabet_labels)

In [None]:
# Combine both of them
#  Menggabungkan kedua dataset (alphabet_data dan digits_data)
data = np.vstack([alphabet_data, digits_data])
labels = np.hstack([alphabet_labels, digits_labels])

In [None]:
# Check the shape
# cek ukuran dari bentuk data
data.shape, labels.shape

In [None]:
# Check labels
# Cek nilai-nilai yang unik dari labels yang baru digabungkan
np.unique(labels)

In [None]:
# Convert data to float32
data = np.array(data, dtype = 'float32')

In [None]:
# Since Convolutional need 3d data (including depth)
# and our images only in 2d data (because in grayscale format)
# we need to add "the depth" to the data
data = np.expand_dims(data, axis=-1)

# check shape  dari data setelah ditambah dimensi kedalaman
data.shape

# Preprocessing

Langkah ini mencakup berbagai teknik untuk menyiapkan data sebelum digunakan dalam model.

In [None]:
# Normalize data
# Membagi setiap nilai dalam variabel data dengan 255.0.
data /= 255.0

In [None]:
# Check range value of data
# mengecek rentang nilai dari elemen-elemen pada indeks pertama dari variabel 'data'.
data[0].min(), data[0].max()

In [None]:
# Enconde the labels
# LabelBinarizer similar with OneHotEncoder
# Menggunakan LabelBinarizer untuk mengonversi label-label dalam variabel 'labels' menjadi bentuk biner.
# LabelBinarizer digunakan untuk mengubah kategori label menjadi representasi biner.
le = LabelBinarizer()
labels = le.fit_transform(labels)

In [None]:
# Check labels shape
# Menggunakan LabelBinarizer untuk mengonversi label-label dalam variabel 'labels' menjadi bentuk biner.
# LabelBinarizer digunakan untuk mengubah kategori label menjadi representasi biner.
labels.shape

In [None]:
# Check data with label binarizer's label
plt.imshow(data[30000].reshape(28,28), cmap='gray')
plt.title(str(labels[0]))
# menampilkan gambar dari data pada indeks ke-30000 (asumsi data berbentuk
# gambar dengan dimensi 28x28) beserta label biner yang sesuai.

In [None]:
# Since our data is not balance, we will handle it by giving weight for 'small' data

# Check number of data for each labels first
classes_total = labels.sum(axis = 0)
classes_total
# menghitung jumlah data untuk setiap label pertama dengan menjumlahkan
# nilai-nilai pada setiap kolom dari variabel 'labels'.

In [None]:
# Check the biggest value of data
classes_total.max()
# menampilkan nilai maksimum dari jumlah data pada satu label tertentu.

In [None]:
# Create a weight for each data
classes_weights = {}
for i in range(0, len(classes_total)):
  #print(i)
  classes_weights[i] = classes_total.max() / classes_total[i]
# Membuat bobot untuk setiap data dengan melakukan iterasi pada setiap label dan menghitung bobotnya
# berdasarkan perbandingan jumlah data terbanyak dengan jumlah data pada setiap label.

# Check the weight for each data
classes_weights
# menampilkan bobot yang telah dihitung untuk setiap data.

### penjelasan

Proses normalisasi data dilakukan untuk mengubah rentang nilai setiap fitur data menjadi kisaran antara 0 hingga 1. Hal ini bertujuan untuk menyamakan skala nilai antar fitur, memudahkan model dalam memahami pola-pola dalam dataset. Sebagai contoh, normalisasi dapat mengubah intensitas piksel dalam gambar dari rentang 0 hingga 255 menjadi rentang 0 hingga 1, sesuai dengan kebutuhan pelatihan model.

Pada tahap encoding label, menggunakan Label Binarizer digunakan untuk mengonversi label kategori menjadi representasi biner. Hasilnya adalah matriks biner yang merepresentasikan setiap label dalam dataset. Matriks ini memiliki jumlah kolom sesuai dengan jumlah kelas atau label dalam dataset, dan setiap baris mewakili satu sampel data.

Tampilan gambar yang ditampilkan merupakan representasi visual dari dataset. Gambar tersebut berasosiasi dengan label biner tertentu, seperti [0, 1, 0]. Menampilkan gambar dengan label biner ini memungkinkan visualisasi data berdasarkan labelnya.

Pemberian bobot untuk setiap label bertujuan untuk menangani ketidakseimbangan data. Dengan memberikan bobot, model lebih fokus pada data yang jumlahnya lebih sedikit, memungkinkan pembelajaran yang lebih baik dari data yang kurang representatif.

Dengan demikian, hasil dari proses preprocessing mencakup normalisasi data, encoding label menggunakan Label Binarizer, tampilan visual dari dataset berdasarkan label biner, dan pemberian bobot untuk menangani ketidakseimbangan data. Ini bertujuan untuk mempersiapkan data dengan cara yang memungkinkan model untuk belajar dengan efektif.

# Split Data to Train and Test

membagi dataset menjadi data yang digunakan sebagai latihan oleh mesin dan data uji. Data latih digunakan untuk melatih model, sedangkan data uji digunakan untuk menguji kinerja model yang telah dilatih.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(data, labels, test_size = 0.2, random_state = 1, stratify = labels)

## Create Data Augmentation

In [None]:
# Import library yang dibutuhkan untuk augmentasi data menggunakan ImageDataGenerator dari TensorFlow
from tensorflow.keras.preprocessing.image import ImageDataGenerator

In [None]:
# ImageDataGenerator menghasilkan data variasi baru dari data yang sudah ada dengan menerapkan transformasi khusus
# Transformasi tersebut dapat mencakup rotasi, zoom, pergeseran, dan flip horizontal, yang dapat diterapkan pada gambar.
augmentation = ImageDataGenerator(rotation_range = 10, zoom_range=0.05, width_shift_range=0.1,
                                  height_shift_range=0.1, horizontal_flip = False)

# Build CNN Model

In [None]:
# Import library

# import library yang dibutuhkan untuk membangun model
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPool2D, Flatten, Dense
from tensorflow.keras.callbacks import ModelCheckpoint

In [None]:
# Build the network
network = Sequential()

# Menambahkan layer konvolusi dengan 32 filter, kernel size 3x3, fungsi aktivasi ReLU, dan input shape 28x28x1
network.add(Conv2D(filters=32, kernel_size=(3,3), activation='relu', input_shape=(28,28,1)))
# Menambahkan layer max pooling dengan pool size 2x2
network.add(MaxPool2D(pool_size=(2,2)))

# Menambahkan layer konvolusi dengan 64 filter, kernel size 3x3, fungsi aktivasi ReLU, dan padding 'same'
network.add(Conv2D(filters=64, kernel_size=(3,3), activation='relu', padding='same'))
# Menambahkan layer max pooling dengan pool size 2x2
network.add(MaxPool2D(pool_size=(2,2)))

# Menambahkan layer konvolusi dengan 128 filter, kernel size 3x3, fungsi aktivasi ReLU, dan padding 'valid'
network.add(Conv2D(filters=128, kernel_size=(3,3), activation='relu', padding='valid'))
# Menambahkan layer max pooling dengan pool size 2x2
network.add(MaxPool2D(pool_size=(2,2)))

# Meratakan output menjadi satu dimensi
network.add(Flatten())

# Menambahkan layer dense (fully connected) dengan 64 neuron dan fungsi aktivasi ReLU
network.add(Dense(64, activation='relu'))
# Menambahkan layer dense dengan 128 neuron dan fungsi aktivasi ReLU
network.add(Dense(128, activation='relu'))

# Menambahkan layer output dengan 36 neuron (sesuai jumlah kelas), menggunakan fungsi aktivasi softmax
network.add(Dense(36, activation='softmax'))

# Mengkompilasi model dengan categorical crossentropy loss, optimizer Adam, dan metrik akurasi
network.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [None]:
# Check network summary
# melihat ringkasan atau struktur dari model jaringan
network.summary()

In [None]:
# Membuat label untuk kelas-kelas yang akan diprediksi
name_labels = '0123456789'
# Menambahkan label huruf besar A-Z ke dalam string name_labels
name_labels += 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
# Membuat list name_labels yang berisi karakter-karakter dari string name_labels
name_labels = [l for l in name_labels]

# Menampilkan label yang sebenarnya
print(name_labels)


## Train model

In [None]:
# Set model name, epoch, and batch size
file_model = 'custom_ocr.model'
epochs = 20
batch_size = 128

In [None]:
# Setup checkpoint
# Mengatur callback ModelCheckpoint untuk menyimpan model dengan performa terbaik selama pelatihan
checkpointer = ModelCheckpoint(file_model, monitor = 'val_loss', verbose = 1, save_best_only=True)

In [None]:
# Fit the model
history = network.fit(
    # Menggunakan augmented data dari generator dengan ukuran batch yang ditentukan
    augmentation.flow(X_train, y_train, batch_size=batch_size),
    # Data validasi yang tidak di-augmentasi
    validation_data=(X_test, y_test),
    # Menentukan jumlah langkah per epoch
    steps_per_epoch=len(X_train) // batch_size,
    # Jumlah epoch yang diinginkan
    epochs=epochs,
    # Menentukan bobot kelas untuk penanganan ketidakseimbangan
    class_weight=classes_weights,
    # Tampilkan informasi pelatihan secara detail
    verbose=1,
    # Menggunakan callback untuk menyimpan model terbaik
    callbacks=[checkpointer]
)


Epoch 1/20
Epoch 1: val_loss improved from inf to 0.22301, saving model to custom_ocr.model
Epoch 2/20
Epoch 2: val_loss did not improve from 0.22301
Epoch 3/20
Epoch 3: val_loss did not improve from 0.22301
Epoch 4/20
Epoch 4: val_loss did not improve from 0.22301
Epoch 5/20
Epoch 5: val_loss improved from 0.22301 to 0.22184, saving model to custom_ocr.model
Epoch 6/20
Epoch 6: val_loss did not improve from 0.22184
Epoch 7/20
Epoch 7: val_loss did not improve from 0.22184
Epoch 8/20
Epoch 8: val_loss did not improve from 0.22184
Epoch 9/20
Epoch 9: val_loss did not improve from 0.22184
Epoch 10/20
Epoch 10: val_loss did not improve from 0.22184
Epoch 11/20
Epoch 11: val_loss did not improve from 0.22184
Epoch 12/20
Epoch 12: val_loss improved from 0.22184 to 0.21913, saving model to custom_ocr.model
Epoch 13/20
Epoch 13: val_loss did not improve from 0.21913
Epoch 14/20
Epoch 14: val_loss improved from 0.21913 to 0.15022, saving model to custom_ocr.model
Epoch 15/20
Epoch 15: val_loss

### penjelasan

Hasil dari langkah ini adalah melatih model jaringan saraf dengan menerapkan augmentasi data pada dataset pelatihan. Teknik augmentasi data memungkinkan dataset asli diperkaya dengan variasi tambahan, seperti rotasi, pergeseran, dan perbesaran gambar, yang diterapkan secara dinamis selama proses pelatihan. Data latih mengalir melalui langkah-langkah (batches) yang dibentuk oleh aliran data augmentasi.

Selama proses pelatihan, model diperbarui berulang kali melalui jumlah epoch yang telah ditentukan. Setiap epoch melibatkan iterasi melalui seluruh dataset latih. Penggunaan bobot kelas memberikan kesadaran tambahan kepada model terhadap kelas-kelas yang jumlahnya lebih sedikit dalam dataset, membantu model fokus pada kelas-kelas yang kurang representatif.

Hasil akhir pelatihan dapat dilihat melalui objek history yang terbentuk. Objek ini berisi metrik seperti akurasi atau kehilangan (loss) yang terakumulasi selama proses pelatihan model. Analisis objek history memungkinkan evaluasi performa dan pembelajaran model pada setiap iterasi pelatihan.

Secara keseluruhan, proses ini melibatkan pelatihan model jaringan saraf dengan memanfaatkan augmentasi data untuk memperluas variasi dataset, penggunaan bobot kelas untuk penekanan pada kelas-kelas minor, dan pemantauan serta evaluasi pelatihan model menggunakan callback yang mengamati performa selama proses pelatihan.

# Evaluate Model

## Make a Single Prediction

In [None]:
# make a prediction
# Melakukan prediksi menggunakan model neural network terhadap data uji (X_test)
# network.predict() digunakan untuk membuat prediksi
# batch_size=batch_size menunjukkan ukuran batch yang digunakan saat melakukan prediksi
predictions = network.predict(X_test, batch_size=batch_size)

In [None]:
# Menampilkan prediksi dari model untuk data dengan indeks ke-1 dari data uji (X_test)
# predictions[1] digunakan untuk mengakses prediksi untuk data dengan indeks ke-1
# Ini akan menampilkan probabilitas untuk setiap label
predictions[1]

In [None]:
# Get the actual prediction -> highest probability
np.argmax(predictions[1])

In [None]:
# Check label for 24
name_labels[18]

In [None]:
# Check y_test label for 0
y_test[1]

In [None]:
# check the highest value
np.argmax(y_test[1])

In [None]:
# Check the label of y_test 0
name_labels[np.argmax(y_test[18])]

## Make an Evaluation on Test Data

In [None]:
# Evaluate on test data
network.evaluate(X_test, y_test)

In [None]:
# Print Classification Report
print(classification_report(y_test.argmax(axis=1), predictions.argmax(axis=1), target_names = name_labels))

In [None]:
# Visualize loss value for each epoch
plt.plot(history.history['val_loss'])

In [None]:
# You can also check the another metrics
history.history.keys()

In [None]:
# Check the model performance by validation accuracy
plt.plot(history.history['val_accuracy'])

# Save The Model

In [None]:
# The result will show in colab directory
network.save('network', save_format= 'h5')

# Testing on Real Image

In [None]:
# Import library
from tensorflow.keras.models import load_model

In [None]:
# Load saved network
load_network = load_model('network')

In [None]:
# Check summary
load_network.summary()

In [None]:
# Load Image
import cv2
from google.colab.patches import cv2_imshow

img = cv2.imread('b_small.png')
cv2_imshow(img)

In [None]:
# Check shape
img.shape

In [None]:
# Convert to gray
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# check shape
gray_img.shape

In [None]:
# Pre-process
# Binary Threshold and Otsu
value, thresh = cv2.threshold(gray_img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

cv2_imshow(thresh)

# print threshold value
print(value)

In [None]:
# Resize image in order to match network input shape -> 28*28
img_resize = cv2.resize(gray_img, (28,28))
cv2_imshow(img_resize)

In [None]:
# Convert to float 32
# and extend the dimension since network input shape is 28*28*1
img_input = img_resize.astype('float32') / 255 # also perform normalization
img_input = np.expand_dims(img_input, axis=-1) # insert depth

# check shape
img_input.shape

In [None]:
# Add "amount of data" as dimension
img_input = np.reshape(img_input, (1,28,28,1))
img_input.shape

In [None]:
# Make a predition
prediction = load_network.predict(img_input)
pred_label = np.argmax(prediction) # predict actual label
pred_label

In [None]:
# check label for 6
name_labels[6]