In [None]:
# Phân loại Hoa bằng CNN với Data Augmentation

## Dự án: So sánh hiệu suất CNN trên dữ liệu gốc và augmented data

**Mục tiêu:**
1. Tạo dataset augmented (500 ảnh) từ 20 ảnh gốc (10 hoa hồng + 10 tulip)
2. Xây dựng mô hình CNN 5 lớp
3. Huấn luyện trên cả 2 dataset (gốc và augmented)
4. Phát hiện overfitting
5. Cải thiện với Dropout

**Dataset:** 2 loại hoa (Hoa Hồng, Tulip) - 10 ảnh mỗi loại

## Bước 1: Import thư viện

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import shutil
from PIL import Image
import warnings
warnings.filterwarnings('ignore')

# TensorFlow và Keras
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout, BatchNormalization
from tensorflow.keras.preprocessing.image import ImageDataGenerator, load_img, img_to_array
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau

# Sklearn
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

print("TensorFlow version:", tf.__version__)
print("GPU available:", tf.config.list_physical_devices('GPU'))
print("Keras version:", tf.keras.__version__)

## Bước 2: Chuẩn bị dữ liệu gốc (20 ảnh: 10 hoa hồng + 10 tulip)

In [None]:
# Tạo thư mục cho dữ liệu gốc (20 ảnh)
original_data_dir = 'C:/DATA/hoa_original'
source_dir = 'C:/DATA/dataHoa_sontc'

# Tạo cấu trúc thư mục
os.makedirs(f'{original_data_dir}/hoa_hong', exist_ok=True)
os.makedirs(f'{original_data_dir}/tulip', exist_ok=True)

# Copy 10 ảnh hoa hồng và 10 ảnh tulip
print("Đang copy dữ liệu gốc...")

# Copy hoa hồng (1-10)
for i in range(1, 11):
    src = f'{source_dir}/hoa-hong-{i}.jpg'
    dst = f'{original_data_dir}/hoa_hong/hoa-hong-{i}.jpg'
    if os.path.exists(src):
        shutil.copy2(src, dst)
        
# Copy tulip (1-10)
for i in range(1, 11):
    src = f'{source_dir}/tulip-{i}.jpg'
    dst = f'{original_data_dir}/tulip/tulip-{i}.jpg'
    if os.path.exists(src):
        shutil.copy2(src, dst)

# Kiểm tra số lượng
hoa_hong_count = len(os.listdir(f'{original_data_dir}/hoa_hong'))
tulip_count = len(os.listdir(f'{original_data_dir}/tulip'))

print(f"✓ Đã copy {hoa_hong_count} ảnh hoa hồng")
print(f"✓ Đã copy {tulip_count} ảnh tulip")
print(f"✓ Tổng: {hoa_hong_count + tulip_count} ảnh gốc")
print(f"✓ Lưu tại: {original_data_dir}")

# Hiển thị một vài ảnh mẫu
fig, axes = plt.subplots(2, 5, figsize=(15, 6))

for i in range(5):
    # Hoa hồng
    img_path = f'{original_data_dir}/hoa_hong/hoa-hong-{i+1}.jpg'
    if os.path.exists(img_path):
        img = load_img(img_path, target_size=(150, 150))
        axes[0, i].imshow(img)
        axes[0, i].set_title(f'Hoa Hồng {i+1}')
        axes[0, i].axis('off')
    
    # Tulip
    img_path = f'{original_data_dir}/tulip/tulip-{i+1}.jpg'
    if os.path.exists(img_path):
        img = load_img(img_path, target_size=(150, 150))
        axes[1, i].imshow(img)
        axes[1, i].set_title(f'Tulip {i+1}')
        axes[1, i].axis('off')

plt.suptitle('Mẫu Dữ liệu Gốc (20 ảnh)', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

## Bước 3: Data Augmentation - Tạo 500 ảnh từ 20 ảnh gốc

### Các kỹ thuật Augmentation:
- **Rotation**: Xoay ảnh ±40 độ
- **Width/Height Shift**: Dịch chuyển ±20%
- **Shear**: Biến dạng ±20%
- **Zoom**: Thu phóng ±20%
- **Horizontal Flip**: Lật ngang
- **Fill Mode**: Điền pixel gần nhất khi transform

In [None]:
# Tạo thư mục cho augmented data
augmented_data_dir = 'C:/DATA/hoa_aug'
os.makedirs(f'{augmented_data_dir}/hoa_hong', exist_ok=True)
os.makedirs(f'{augmented_data_dir}/tulip', exist_ok=True)

# Cấu hình Data Augmentation
datagen = ImageDataGenerator(
    rotation_range=40,           # Xoay ±40 độ
    width_shift_range=0.2,       # Dịch ngang ±20%
    height_shift_range=0.2,      # Dịch dọc ±20%
    shear_range=0.2,             # Biến dạng ±20%
    zoom_range=0.2,              # Thu phóng ±20%
    horizontal_flip=True,        # Lật ngang
    fill_mode='nearest'          # Điền pixel gần nhất
)

def augment_images(source_folder, target_folder, class_name, num_images=250):
    """
    Tạo augmented images từ source folder
    """
    print(f"\nĐang tạo {num_images} ảnh augmented cho {class_name}...")
    
    images = os.listdir(source_folder)
    count = 0
    
    # Tính số lượng augmented images cần tạo từ mỗi ảnh gốc
    images_per_source = num_images // len(images) + 1
    
    for img_name in images:
        img_path = os.path.join(source_folder, img_name)
        
        # Load ảnh
        img = load_img(img_path, target_size=(150, 150))
        x = img_to_array(img)
        x = x.reshape((1,) + x.shape)
        
        # Tạo augmented images
        i = 0
        for batch in datagen.flow(x, batch_size=1, 
                                  save_to_dir=target_folder,
                                  save_prefix=f'{class_name}_aug',
                                  save_format='jpg'):
            i += 1
            count += 1
            if i >= images_per_source or count >= num_images:
                break
        
        if count >= num_images:
            break
    
    print(f"✓ Đã tạo {count} ảnh augmented cho {class_name}")
    return count

# Tạo 250 ảnh cho mỗi class (tổng 500 ảnh)
print("="*60)
print("BẮT ĐẦU DATA AUGMENTATION")
print("="*60)

count_hong = augment_images(
    f'{original_data_dir}/hoa_hong',
    f'{augmented_data_dir}/hoa_hong',
    'hoa_hong',
    num_images=250
)

count_tulip = augment_images(
    f'{original_data_dir}/tulip',
    f'{augmented_data_dir}/tulip',
    'tulip',
    num_images=250
)

print("\n" + "="*60)
print("KẾT QUẢ DATA AUGMENTATION")
print("="*60)
print(f"✓ Hoa Hồng: {count_hong} ảnh")
print(f"✓ Tulip: {count_tulip} ảnh")
print(f"✓ Tổng: {count_hong + count_tulip} ảnh augmented")
print(f"✓ Lưu tại: {augmented_data_dir}")
print("="*60)

In [None]:
# Hiển thị ví dụ augmented images
fig, axes = plt.subplots(4, 5, figsize=(15, 12))

# Lấy 10 ảnh augmented đầu tiên của hoa hồng
hoa_hong_aug = sorted(os.listdir(f'{augmented_data_dir}/hoa_hong'))[:10]
for i in range(10):
    if i < len(hoa_hong_aug):
        img_path = f'{augmented_data_dir}/hoa_hong/{hoa_hong_aug[i]}'
        img = load_img(img_path, target_size=(150, 150))
        row = i // 5
        col = i % 5
        axes[row, col].imshow(img)
        axes[row, col].set_title(f'Hoa Hồng Aug {i+1}', fontsize=9)
        axes[row, col].axis('off')

# Lấy 10 ảnh augmented đầu tiên của tulip
tulip_aug = sorted(os.listdir(f'{augmented_data_dir}/tulip'))[:10]
for i in range(10):
    if i < len(tulip_aug):
        img_path = f'{augmented_data_dir}/tulip/{tulip_aug[i]}'
        img = load_img(img_path, target_size=(150, 150))
        row = (i // 5) + 2
        col = i % 5
        axes[row, col].imshow(img)
        axes[row, col].set_title(f'Tulip Aug {i+1}', fontsize=9)
        axes[row, col].axis('off')

plt.suptitle('Mẫu Augmented Images (20 ảnh từ 500 ảnh)', fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

## Bước 4: Xây dựng Mô hình CNN 5 lớp

### Kiến trúc CNN 5 lớp:

#### **Layer 1: Convolutional Layer + MaxPooling**
- **Conv2D(32 filters, 3x3 kernel)**
  - 32 feature maps để học các patterns cơ bản (edges, colors)
  - Kernel 3x3 quét qua toàn bộ ảnh
  - ReLU activation loại bỏ giá trị âm
  - Input: (150, 150, 3) - ảnh RGB
  - Output: (148, 148, 32)
  
- **MaxPooling2D(2x2)**
  - Giảm kích thước xuống 1/2
  - Giữ lại features quan trọng nhất
  - Output: (74, 74, 32)

#### **Layer 2: Convolutional Layer + MaxPooling**
- **Conv2D(64 filters, 3x3)**
  - Tăng lên 64 filters để học patterns phức tạp hơn
  - Học các textures, shapes của hoa
  - Output: (72, 72, 64) → MaxPool → (36, 36, 64)

#### **Layer 3: Convolutional Layer + MaxPooling**
- **Conv2D(128 filters, 3x3)**
  - 128 filters học features trừu tượng cao
  - Nhận diện các đặc trưng riêng của từng loại hoa
  - Output: (34, 34, 128) → MaxPool → (17, 17, 128)

#### **Layer 4: Flatten + Dense**
- **Flatten**: Chuyển từ 3D (17, 17, 128) → 1D (36992)
- **Dense(128 neurons)**
  - Fully connected layer kết hợp tất cả features
  - ReLU activation
  - Học mối quan hệ giữa các features

#### **Layer 5: Output Layer**
- **Dense(2 neurons, softmax)**
  - 2 neurons cho 2 classes (hoa hồng, tulip)
  - Softmax cho xác suất: [P(hoa_hong), P(tulip)]
  - Output tổng = 1.0

### Tổng kết:
- **Input**: (150, 150, 3) - ảnh RGB
- **Conv Layers**: 3 lớp (32→64→128 filters) học features từ đơn giản đến phức tạp
- **Pooling**: Giảm kích thước, giữ features quan trọng
- **Dense**: Kết hợp features để phân loại
- **Output**: 2 classes với softmax

In [None]:
# Xây dựng mô hình CNN 5 lớp (không có Dropout)
def build_cnn_model(input_shape=(150, 150, 3), num_classes=2):
    """
    Xây dựng mô hình CNN 5 lớp
    """
    model = Sequential([
        # Layer 1: Conv + MaxPool
        Conv2D(32, (3, 3), activation='relu', input_shape=input_shape, name='conv1'),
        MaxPooling2D(2, 2, name='pool1'),
        
        # Layer 2: Conv + MaxPool
        Conv2D(64, (3, 3), activation='relu', name='conv2'),
        MaxPooling2D(2, 2, name='pool2'),
        
        # Layer 3: Conv + MaxPool
        Conv2D(128, (3, 3), activation='relu', name='conv3'),
        MaxPooling2D(2, 2, name='pool3'),
        
        # Layer 4: Flatten + Dense
        Flatten(name='flatten'),
        Dense(128, activation='relu', name='dense1'),
        
        # Layer 5: Output
        Dense(num_classes, activation='softmax', name='output')
    ])
    
    return model

# Tạo model
model1 = build_cnn_model()

# Compile model
model1.compile(
    optimizer=Adam(learning_rate=0.001),
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

# Hiển thị kiến trúc
print("="*70)
print("KIẾN TRÚC MÔ HÌNH CNN 5 LỚP (KHÔNG DROPOUT)")
print("="*70)
model1.summary()

# Tính tổng số parameters
total_params = model1.count_params()
print("\n" + "="*70)
print(f"TỔNG SỐ PARAMETERS: {total_params:,}")
print("="*70)

## Bước 5: Chuẩn bị Data Generators

### Cấu hình:
- **Loss Function**: `categorical_crossentropy` - phù hợp cho multi-class classification
- **Optimizer**: `Adam` với learning rate 0.001
- **Activation**:
  - Conv/Dense layers: `ReLU` - loại bỏ giá trị âm, tăng tốc training
  - Output layer: `Softmax` - chuyển thành xác suất cho các classes

In [None]:
# Chuẩn bị Data Generators
BATCH_SIZE = 16
IMG_SIZE = (150, 150)

# Data generator cho chuẩn hóa ảnh (rescale về 0-1)
train_datagen = ImageDataGenerator(
    rescale=1./255,
    validation_split=0.2  # 80% train, 20% validation
)

# Generator cho dữ liệu GỐC (20 ảnh)
print("="*70)
print("DATA GENERATOR - DỮ LIỆU GỐC (20 ảnh)")
print("="*70)

train_generator_original = train_datagen.flow_from_directory(
    original_data_dir,
    target_size=IMG_SIZE,
    batch_size=BATCH_SIZE,
    class_mode='categorical',
    subset='training',
    shuffle=True
)

val_generator_original = train_datagen.flow_from_directory(
    original_data_dir,
    target_size=IMG_SIZE,
    batch_size=BATCH_SIZE,
    class_mode='categorical',
    subset='validation',
    shuffle=False
)

print(f"\nTrain samples: {train_generator_original.samples}")
print(f"Validation samples: {val_generator_original.samples}")
print(f"Classes: {train_generator_original.class_indices}")

# Generator cho dữ liệu AUGMENTED (500 ảnh)
print("\n" + "="*70)
print("DATA GENERATOR - DỮ LIỆU AUGMENTED (500 ảnh)")
print("="*70)

train_generator_augmented = train_datagen.flow_from_directory(
    augmented_data_dir,
    target_size=IMG_SIZE,
    batch_size=BATCH_SIZE,
    class_mode='categorical',
    subset='training',
    shuffle=True
)

val_generator_augmented = train_datagen.flow_from_directory(
    augmented_data_dir,
    target_size=IMG_SIZE,
    batch_size=BATCH_SIZE,
    class_mode='categorical',
    subset='validation',
    shuffle=False
)

print(f"\nTrain samples: {train_generator_augmented.samples}")
print(f"Validation samples: {val_generator_augmented.samples}")
print(f"Classes: {train_generator_augmented.class_indices}")
print("="*70)

## Bước 6: Training Model trên Dữ liệu GỐC (20 ảnh)

In [None]:
# Training trên dữ liệu GỐC
EPOCHS = 50

print("="*70)
print("BẮT ĐẦU TRAINING - DỮ LIỆU GỐC (20 ảnh)")
print("="*70)

history_original = model1.fit(
    train_generator_original,
    epochs=EPOCHS,
    validation_data=val_generator_original,
    verbose=1
)

print("\n" + "="*70)
print("HOÀN THÀNH TRAINING - DỮ LIỆU GỐC")
print("="*70)

# Kết quả cuối cùng
final_train_acc_orig = history_original.history['accuracy'][-1]
final_val_acc_orig = history_original.history['val_accuracy'][-1]
final_train_loss_orig = history_original.history['loss'][-1]
final_val_loss_orig = history_original.history['val_loss'][-1]

print(f"\nKết quả cuối cùng (Epoch {EPOCHS}):")
print(f"Training Accuracy: {final_train_acc_orig:.4f} ({final_train_acc_orig*100:.2f}%)")
print(f"Validation Accuracy: {final_val_acc_orig:.4f} ({final_val_acc_orig*100:.2f}%)")
print(f"Training Loss: {final_train_loss_orig:.4f}")
print(f"Validation Loss: {final_val_loss_orig:.4f}")
print(f"\nOverfitting Gap: {(final_train_acc_orig - final_val_acc_orig)*100:.2f}%")
print("="*70)

## Bước 7: Training Model mới trên Dữ liệu AUGMENTED (500 ảnh)

In [None]:
# Tạo model mới cho augmented data
model2 = build_cnn_model()
model2.compile(
    optimizer=Adam(learning_rate=0.001),
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

print("="*70)
print("BẮT ĐẦU TRAINING - DỮ LIỆU AUGMENTED (500 ảnh)")
print("="*70)

history_augmented = model2.fit(
    train_generator_augmented,
    epochs=EPOCHS,
    validation_data=val_generator_augmented,
    verbose=1
)

print("\n" + "="*70)
print("HOÀN THÀNH TRAINING - DỮ LIỆU AUGMENTED")
print("="*70)

# Kết quả cuối cùng
final_train_acc_aug = history_augmented.history['accuracy'][-1]
final_val_acc_aug = history_augmented.history['val_accuracy'][-1]
final_train_loss_aug = history_augmented.history['loss'][-1]
final_val_loss_aug = history_augmented.history['val_loss'][-1]

print(f"\nKết quả cuối cùng (Epoch {EPOCHS}):")
print(f"Training Accuracy: {final_train_acc_aug:.4f} ({final_train_acc_aug*100:.2f}%)")
print(f"Validation Accuracy: {final_val_acc_aug:.4f} ({final_val_acc_aug*100:.2f}%)")
print(f"Training Loss: {final_train_loss_aug:.4f}")
print(f"Validation Loss: {final_val_loss_aug:.4f}")
print(f"\nOverfitting Gap: {(final_train_acc_aug - final_val_acc_aug)*100:.2f}%")
print("="*70)

## Bước 8: So sánh Kết quả và Phát hiện Overfitting