<a href="https://colab.research.google.com/github/tam8738/XLA/blob/main/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import os
import glob
import pandas as pd
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
import numpy as np

In [2]:
# Đường dẫn đến thư mục dữ liệu
root_dir = "/content/drive/MyDrive/trai_cay/data"

# Danh sách các thư mục con trong thư mục Training
train_dir = os.path.join(root_dir, "Training")
fruit_folders = sorted(os.listdir(train_dir))

In [3]:
# Mảng chứa nhãn và tên file
categories = []
filenames = []

# Duyệt qua tất cả thư mục trong thư mục Training
for folder in fruit_folders:
    folder_path = os.path.join(train_dir, folder)

    # Kiểm tra nếu là thư mục
    if os.path.isdir(folder_path):
        # Xác định nhãn dựa trên tên thư mục
        label = folder  # Gán nhãn là tên thư mục

        # Đọc các file hình ảnh từ thư mục và các thư mục con
        for subdir, _, files in os.walk(folder_path):
            for file in files:
                if file.endswith(".jpeg") or file.endswith(".png"):
                    file_path = os.path.join(subdir, file)
                    filenames.append(file_path)
                    categories.append(label)

In [8]:
# Tạo DataFrame từ danh sách tên file và nhãn
df = pd.DataFrame({
    'filename': filenames,
    'category': categories
})

# Chuyển đổi cột 'category' thành chuỗi
df["category"] = df["category"].astype(str)

# Kiểm tra các giá trị duy nhất trong cột 'category'
unique_categories = df['category'].unique()
print("Unique categories:", unique_categories)
print("Number of unique categories:", len(unique_categories))
print("Category counts:", df['category'].value_counts())

Unique categories: ['Apple' 'Banana' 'Grape' 'Mango' 'Strawberry']
Number of unique categories: 5
Category counts: category
Apple         1940
Banana        1940
Grape         1940
Mango         1940
Strawberry    1940
Name: count, dtype: int64


In [5]:
# Chuyển đổi nhãn sang số nguyên
df['category'] = df['category'].astype('category').cat.codes

# Kiểm tra kiểu dữ liệu của các cột
print(df.dtypes)

filename    object
category      int8
dtype: object


In [9]:
# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
train_df, validate_df = train_test_split(df, test_size=0.20, random_state=42)

# Đặt lại chỉ số của DataFrame
train_df = train_df.reset_index(drop=True)
validate_df = validate_df.reset_index(drop=True)

# Thiết lập các biến hỗ trợ cho việc huấn luyện
total_train = train_df.shape[0]
total_validate = validate_df.shape[0]
batch_size = 15

# In ra thông tin về dữ liệu để kiểm tra
print(f"Total training samples: {total_train}")
print(f"Total validation samples: {total_validate}")

Total training samples: 7760
Total validation samples: 1940


In [10]:
# Định nghĩa các generator với kích thước ảnh nhỏ hơn và batch size nhỏ hơn
Image_W, Image_H = 64, 64  # Thay đổi kích thước ảnh nhỏ hơn để giảm thời gian xử lý

train_datagen = ImageDataGenerator(rotation_range=15,
                                   rescale=1./255,
                                   shear_range=0.1,
                                   zoom_range=0.2,
                                   horizontal_flip=True,
                                   width_shift_range=0.1,
                                   height_shift_range=0.1)
train_generator = train_datagen.flow_from_dataframe(train_df,
                                                    x_col='filename',
                                                    y_col='category',
                                                    target_size=(Image_W, Image_H),
                                                    color_mode='rgb',  # Thêm 3 kênh màu (RGB)
                                                    class_mode='sparse',  # Sử dụng 'sparse' với sparse_categorical_crossentropy
                                                    batch_size=batch_size,
                                                    shuffle=True)  # Đảm bảo dữ liệu được xáo trộn

validation_datagen = ImageDataGenerator(rescale=1./255)
validation_generator = validation_datagen.flow_from_dataframe(validate_df,
                                                              x_col='filename',
                                                              y_col='category',
                                                              target_size=(Image_W, Image_H),
                                                              color_mode='rgb',  # Thêm 3 kênh màu (RGB)
                                                              class_mode='sparse',  # Sử dụng 'sparse' với sparse_categorical_crossentropy
                                                              batch_size=batch_size,
                                                              shuffle=False)  # Không cần xáo trộn dữ liệu kiểm tra

Found 7760 validated image filenames belonging to 5 classes.
Found 1940 validated image filenames belonging to 5 classes.


In [11]:
from tensorflow.keras.layers import BatchNormalization

# Kích thước ảnh và số kênh màu
Image_W, Image_H, Image_C = 100, 100, 3  # 3 kênh màu (RGB)

# Xây dựng mô hình
model = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(Image_W, Image_H, Image_C)),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),
    Dropout(0.25),
    Conv2D(64, (3, 3), activation='relu'),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),
    Dropout(0.25),
    Conv2D(128, (3, 3), activation='relu'),
    BatchNormalization(),
    MaxPooling2D(pool_size=(2, 2)),
    Dropout(0.25),
    Flatten(),
    Dense(512, activation='relu'),
    BatchNormalization(),
    Dropout(0.5),
    Dense(len(unique_categories), activation='softmax')  # Số lớp đầu ra phù hợp với số lượng class
])

model.compile(loss='sparse_categorical_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


In [12]:
model.summary()


In [13]:
# Thiết lập các callbacks
callbacks = [
    EarlyStopping(monitor='val_loss', patience=3, verbose=1),
    ModelCheckpoint('best_model.keras', monitor='val_loss', save_best_only=True, verbose=1)
]

In [15]:
epochs = 10
history = model.fit(train_generator,
                    epochs=epochs,
                    validation_data=validation_generator,
                    validation_steps=total_validate // batch_size,
                    steps_per_epoch=total_train // batch_size,
                    callbacks=callbacks)

Epoch 1/10


ValueError: Exception encountered when calling Sequential.call().

[1mInput 0 of layer "dense" is incompatible with the layer: expected axis -1 of input shape to have value 12800, but received input with shape (None, 4608)[0m

Arguments received by Sequential.call():
  • inputs=tf.Tensor(shape=(None, 64, 64, 3), dtype=float32)
  • training=True
  • mask=None