# Nhận dạng hình học cơ bản bằng mạng Neural (CNN)

## Chương 7: Xử lý ảnh và trích chọn đặc trưng


## 1. Lý thuyết và cơ sở áp dụng

### 1.1. Convolutional Neural Network (CNN)

**CNN là gì?**
- CNN là một kiến trúc mạng neural chuyên biệt cho xử lý dữ liệu có cấu trúc lưới như ảnh
- Được thiết kế để tự động học các đặc trưng từ ảnh thông qua các lớp convolution

**Các thành phần chính của CNN:**

1. **Convolutional Layer (Lớp tích chập)**:
   - Sử dụng các bộ lọc (filters/kernels) để quét qua ảnh
   - Mỗi filter học một đặc trưng cụ thể (ví dụ: cạnh, góc, đường thẳng)
   - Tạo ra feature maps bằng cách tính tích chập giữa filter và vùng ảnh
   - Công thức: $y[i,j] = \sum_{m} \sum_{n} x[i+m, j+n] \cdot w[m, n] + b$

2. **Pooling Layer (Lớp gộp)**:
   - Giảm kích thước không gian của feature maps
   - Giảm số lượng tham số và tính toán
   - Tăng tính bất biến với dịch chuyển nhỏ
   - Max Pooling: lấy giá trị lớn nhất trong vùng
   - Average Pooling: lấy giá trị trung bình

3. **Activation Function (Hàm kích hoạt)**:
   - ReLU (Rectified Linear Unit): $f(x) = max(0, x)$
   - Tạo tính phi tuyến cho mô hình
   - Giúp mô hình học các mẫu phức tạp

4. **Fully Connected Layer (Lớp kết nối đầy đủ)**:
   - Kết nối tất cả neurons từ lớp trước
   - Thực hiện phân loại cuối cùng
   - Output layer với số neurons bằng số lớp cần phân loại

### 1.2. Nhận dạng hình học cơ bản

**Tại sao CNN phù hợp?**
- Hình tròn và chữ nhật có đặc trưng hình học rõ ràng (cạnh, góc, độ cong)
- CNN có khả năng học các đặc trưng này tự động
- Các lớp đầu học các đặc trưng cấp thấp (cạnh, đường thẳng)
- Các lớp sau học các đặc trưng cấp cao (hình dạng, cấu trúc)

**Quy trình xử lý:**
1. **Tiền xử lý ảnh**: Resize, normalize, chuyển sang grayscale
2. **Trích chọn đặc trưng**: CNN tự động học qua các lớp convolution
3. **Phân loại**: Fully connected layers phân loại hình tròn/chữ nhật

### 1.3. Kiến trúc mô hình đề xuất

```
Input (64x64x1) → Conv2D(32 filters) → ReLU → MaxPooling
                → Conv2D(64 filters) → ReLU → MaxPooling
                → Conv2D(128 filters) → ReLU → MaxPooling
                → Flatten → Dense(128) → ReLU → Dropout
                → Dense(2) → Softmax
```

**Giải thích:**
- Input: Ảnh 64x64 pixels, 1 channel (grayscale)
- Conv2D: Tăng số filters qua các lớp để học đặc trưng phức tạp hơn
- MaxPooling: Giảm kích thước ảnh một nửa sau mỗi lớp
- Dropout: Giảm overfitting
- Output: 2 classes (hình tròn, chữ nhật)


## 2. Cài đặt thư viện cần thiết


In [None]:
# Cài đặt các thư viện cần thiết (chạy lần đầu)
# !pip install tensorflow opencv-python numpy matplotlib pillow ipywidgets


In [None]:
import numpy as np
import cv2
import matplotlib.pyplot as plt
from PIL import Image, ImageDraw
import os
from sklearn.model_selection import train_test_split
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.utils import to_categorical
import ipywidgets as widgets
from IPython.display import display, clear_output
import io
import base64


## 3. Tạo dataset - Sinh ảnh với hình tròn và chữ nhật


In [None]:
def create_circle_image(size=64, radius_range=(10, 25)):
    """
    Tạo ảnh chứa hình tròn ngẫu nhiên
    
    Args:
        size: Kích thước ảnh (size x size)
        radius_range: Khoảng bán kính hình tròn
    
    Returns:
        numpy array: Ảnh grayscale (0-255)
    """
    # Tạo ảnh nền đen
    img = Image.new('RGB', (size, size), color='black')
    draw = ImageDraw.Draw(img)
    
    # Random vị trí và bán kính
    radius = np.random.randint(radius_range[0], radius_range[1])
    center_x = np.random.randint(radius, size - radius)
    center_y = np.random.randint(radius, size - radius)
    
    # Vẽ hình tròn màu trắng
    bbox = [center_x - radius, center_y - radius, 
            center_x + radius, center_y + radius]
    draw.ellipse(bbox, fill='white', outline='white')
    
    # Chuyển sang numpy array và grayscale
    img_array = np.array(img.convert('L'))
    
    return img_array

def create_rectangle_image(size=64, width_range=(15, 30), height_range=(15, 30)):
    """
    Tạo ảnh chứa hình chữ nhật ngẫu nhiên
    
    Args:
        size: Kích thước ảnh (size x size)
        width_range: Khoảng chiều rộng
        height_range: Khoảng chiều cao
    
    Returns:
        numpy array: Ảnh grayscale (0-255)
    """
    # Tạo ảnh nền đen
    img = Image.new('RGB', (size, size), color='black')
    draw = ImageDraw.Draw(img)
    
    # Random kích thước và vị trí
    width = np.random.randint(width_range[0], width_range[1])
    height = np.random.randint(height_range[0], height_range[1])
    
    x1 = np.random.randint(0, size - width)
    y1 = np.random.randint(0, size - height)
    x2 = x1 + width
    y2 = y1 + height
    
    # Vẽ hình chữ nhật màu trắng
    draw.rectangle([x1, y1, x2, y2], fill='white', outline='white')
    
    # Chuyển sang numpy array và grayscale
    img_array = np.array(img.convert('L'))
    
    return img_array


In [None]:
# Tạo dataset
def generate_dataset(num_samples=2000, image_size=64):
    """
    Tạo dataset với số lượng mẫu cho mỗi lớp
    
    Args:
        num_samples: Số mẫu cho mỗi lớp (tròn và chữ nhật)
        image_size: Kích thước ảnh
    
    Returns:
        X: Mảng ảnh (num_samples*2, image_size, image_size, 1)
        y: Labels (0: tròn, 1: chữ nhật)
    """
    X = []
    y = []
    
    print("Đang tạo ảnh hình tròn...")
    for i in range(num_samples):
        img = create_circle_image(size=image_size)
        X.append(img)
        y.append(0)  # 0 = hình tròn
        if (i + 1) % 500 == 0:
            print(f"  Đã tạo {i + 1}/{num_samples} ảnh hình tròn")
    
    print("\nĐang tạo ảnh hình chữ nhật...")
    for i in range(num_samples):
        img = create_rectangle_image(size=image_size)
        X.append(img)
        y.append(1)  # 1 = hình chữ nhật
        if (i + 1) % 500 == 0:
            print(f"  Đã tạo {i + 1}/{num_samples} ảnh hình chữ nhật")
    
    # Chuyển sang numpy array
    X = np.array(X)
    y = np.array(y)
    
    # Reshape để thêm channel dimension
    X = X.reshape(X.shape[0], image_size, image_size, 1)
    
    # Normalize về [0, 1]
    X = X.astype('float32') / 255.0
    
    print(f"\nDataset đã được tạo:")
    print(f"  - Tổng số mẫu: {len(X)}")
    print(f"  - Hình tròn: {np.sum(y == 0)}")
    print(f"  - Hình chữ nhật: {np.sum(y == 1)}")
    print(f"  - Kích thước ảnh: {X.shape[1]}x{X.shape[2]}")
    
    return X, y


In [None]:
# Tạo và xem một số mẫu
print("Ví dụ ảnh hình tròn:")
fig, axes = plt.subplots(1, 5, figsize=(12, 3))
for i in range(5):
    img = create_circle_image()
    axes[i].imshow(img, cmap='gray')
    axes[i].set_title('Hình tròn')
    axes[i].axis('off')
plt.tight_layout()
plt.show()

print("\nVí dụ ảnh hình chữ nhật:")
fig, axes = plt.subplots(1, 5, figsize=(12, 3))
for i in range(5):
    img = create_rectangle_image()
    axes[i].imshow(img, cmap='gray')
    axes[i].set_title('Hình chữ nhật')
    axes[i].axis('off')
plt.tight_layout()
plt.show()


## 4. Xây dựng mô hình CNN


In [None]:
def build_cnn_model(input_shape=(64, 64, 1), num_classes=2):
    """
    Xây dựng mô hình CNN để nhận dạng hình học cơ bản
    
    Args:
        input_shape: Kích thước ảnh đầu vào (height, width, channels)
        num_classes: Số lớp cần phân loại (2: tròn, chữ nhật)
    
    Returns:
        model: Mô hình Keras
    """
    model = Sequential([
        # Lớp Convolution 1
        Conv2D(32, (3, 3), activation='relu', input_shape=input_shape, name='conv1'),
        MaxPooling2D((2, 2), name='pool1'),
        
        # Lớp Convolution 2
        Conv2D(64, (3, 3), activation='relu', name='conv2'),
        MaxPooling2D((2, 2), name='pool2'),
        
        # Lớp Convolution 3
        Conv2D(128, (3, 3), activation='relu', name='conv3'),
        MaxPooling2D((2, 2), name='pool3'),
        
        # Flatten để chuyển từ 2D sang 1D
        Flatten(name='flatten'),
        
        # Fully Connected Layer
        Dense(128, activation='relu', name='fc1'),
        Dropout(0.5, name='dropout'),  # Giảm overfitting
        
        # Output Layer
        Dense(num_classes, activation='softmax', name='output')
    ])
    
    # Compile model
    model.compile(
        optimizer=Adam(learning_rate=0.001),
        loss='sparse_categorical_crossentropy',
        metrics=['accuracy']
    )
    
    return model


In [None]:
# Tạo mô hình
model = build_cnn_model()

# Hiển thị kiến trúc mô hình
model.summary()


## 5. Training mô hình


In [None]:
# Tạo dataset
X, y = generate_dataset(num_samples=2000, image_size=64)

# Chia train/test split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nTrain set: {X_train.shape[0]} mẫu")
print(f"Test set: {X_test.shape[0]} mẫu")


In [None]:
# Tạo lại mô hình
model = build_cnn_model()

# Training
print("Bắt đầu training...")
history = model.fit(
    X_train, y_train,
    batch_size=32,
    epochs=20,
    validation_data=(X_test, y_test),
    verbose=1
)

print("\nTraining hoàn thành!")


In [None]:
# Đánh giá mô hình
test_loss, test_accuracy = model.evaluate(X_test, y_test, verbose=0)
print(f"\nTest Accuracy: {test_accuracy*100:.2f}%")
print(f"Test Loss: {test_loss:.4f}")


In [None]:
# Vẽ biểu đồ loss và accuracy
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# Loss
axes[0].plot(history.history['loss'], label='Train Loss')
axes[0].plot(history.history['val_loss'], label='Validation Loss')
axes[0].set_title('Model Loss')
axes[0].set_xlabel('Epoch')
axes[0].set_ylabel('Loss')
axes[0].legend()
axes[0].grid(True)

# Accuracy
axes[1].plot(history.history['accuracy'], label='Train Accuracy')
axes[1].plot(history.history['val_accuracy'], label='Validation Accuracy')
axes[1].set_title('Model Accuracy')
axes[1].set_xlabel('Epoch')
axes[1].set_ylabel('Accuracy')
axes[1].legend()
axes[1].grid(True)

plt.tight_layout()
plt.show()


In [None]:
# Lưu mô hình
model.save('shape_recognition_model.h5')
print("Mô hình đã được lưu vào 'shape_recognition_model.h5'")


## 6. Hàm tiện ích cho prediction


In [None]:
def preprocess_image(image, target_size=64):
    """
    Tiền xử lý ảnh để đưa vào mô hình
    
    Args:
        image: Ảnh đầu vào (numpy array hoặc PIL Image)
        target_size: Kích thước ảnh đầu vào của mô hình
    
    Returns:
        numpy array: Ảnh đã được xử lý (1, target_size, target_size, 1)
    """
    # Chuyển sang numpy array nếu là PIL Image
    if isinstance(image, Image.Image):
        image = np.array(image)
    
    # Chuyển sang grayscale nếu là ảnh màu
    if len(image.shape) == 3:
        if image.shape[2] == 3:
            image = cv2.cvtColor(image, cv2.COLOR_RGB2GRAY)
        elif image.shape[2] == 4:
            image = cv2.cvtColor(image, cv2.COLOR_RGBA2GRAY)
    
    # Resize về kích thước mô hình yêu cầu
    image = cv2.resize(image, (target_size, target_size))
    
    # Normalize về [0, 1]
    image = image.astype('float32') / 255.0
    
    # Reshape để thêm batch và channel dimensions
    image = image.reshape(1, target_size, target_size, 1)
    
    return image

def predict_shape(model, image):
    """
    Dự đoán hình dạng trong ảnh
    
    Args:
        model: Mô hình đã được train
        image: Ảnh đầu vào (numpy array hoặc PIL Image)
    
    Returns:
        dict: Kết quả dự đoán với class và confidence
    """
    # Tiền xử lý ảnh
    processed_image = preprocess_image(image)
    
    # Dự đoán
    predictions = model.predict(processed_image, verbose=0)
    
    # Lấy class và confidence
    class_idx = np.argmax(predictions[0])
    confidence = predictions[0][class_idx]
    
    class_names = ['Hình tròn', 'Hình chữ nhật']
    
    return {
        'class': class_names[class_idx],
        'confidence': float(confidence),
        'probabilities': {
            'Hình tròn': float(predictions[0][0]),
            'Hình chữ nhật': float(predictions[0][1])
        }
    }


In [None]:
# Test với một số ảnh từ test set
fig, axes = plt.subplots(2, 5, figsize=(15, 6))
class_names = ['Hình tròn', 'Hình chữ nhật']

for i in range(10):
    idx = np.random.randint(0, len(X_test))
    test_image = X_test[idx]
    true_label = y_test[idx]
    
    # Dự đoán
    result = predict_shape(model, test_image)
    
    # Hiển thị
    row = i // 5
    col = i % 5
    axes[row, col].imshow(test_image.squeeze(), cmap='gray')
    axes[row, col].set_title(
        f"True: {class_names[true_label]}\n"
        f"Pred: {result['class']} ({result['confidence']:.2f})",
        fontsize=9
    )
    axes[row, col].axis('off')

plt.tight_layout()
plt.show()


## 7. Giao diện nhận dạng - Upload ảnh và Camera


In [None]:
class ShapeRecognitionUI:
    def __init__(self, model):
        self.model = model
        self.setup_ui()
    
    def setup_ui(self):
        """Thiết lập giao diện người dùng"""
        # Tạo các widget
        self.mode_selector = widgets.ToggleButtons(
            options=['Upload Ảnh', 'Camera'],
            description='Chế độ:',
            button_style='info',
            layout=widgets.Layout(width='300px')
        )
        
        self.upload_button = widgets.FileUpload(
            accept='.png,.jpg,.jpeg',
            multiple=False,
            description='Chọn ảnh'
        )
        
        self.camera_button = widgets.Button(
            description='Mở Camera',
            button_style='success',
            layout=widgets.Layout(width='200px')
        )
        
        self.capture_button = widgets.Button(
            description='Chụp ảnh',
            button_style='warning',
            layout=widgets.Layout(width='200px')
        )
        
        self.output = widgets.Output()
        
        # Gắn event handlers
        self.upload_button.observe(self.on_upload, names='value')
        self.camera_button.on_click(self.on_camera_click)
        self.capture_button.on_click(self.on_capture_click)
        self.mode_selector.observe(self.on_mode_change, names='value')
        
        # Hiển thị UI
        self.display_ui()
    
    def display_ui(self):
        """Hiển thị giao diện"""
        clear_output(wait=True)
        display(self.mode_selector)
        
        if self.mode_selector.value == 'Upload Ảnh':
            display(self.upload_button)
        else:
            display(widgets.HBox([self.camera_button, self.capture_button]))
        
        display(self.output)
    
    def on_mode_change(self, change):
        """Xử lý khi thay đổi chế độ"""
        self.display_ui()
    
    def on_upload(self, change):
        """Xử lý khi upload ảnh"""
        if len(self.upload_button.value) > 0:
            uploaded_file = list(self.upload_button.value.values())[0]
            
            # Đọc ảnh từ bytes
            image = Image.open(io.BytesIO(uploaded_file['content']))
            
            # Dự đoán
            self.predict_and_display(image)
    
    def on_camera_click(self, button):
        """Mở camera"""
        with self.output:
            print("Đang mở camera...")
            print("Nhấn 'q' để thoát khỏi camera")
            
            # Mở camera
            cap = cv2.VideoCapture(0)
            
            if not cap.isOpened():
                print("Không thể mở camera!")
                return
            
            self.cap = cap
            self.camera_active = True
            
            # Hiển thị video stream
            while self.camera_active:
                ret, frame = cap.read()
                if not ret:
                    break
                
                # Chuyển BGR sang RGB
                frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
                
                # Hiển thị frame
                plt.figure(figsize=(8, 6))
                plt.imshow(frame_rgb)
                plt.axis('off')
                plt.title('Camera - Nhấn q để thoát')
                plt.show()
                
                # Kiểm tra phím 'q' (trong notebook, sử dụng interrupt)
                # Trong thực tế, có thể dùng keyboard interrupt
                break  # Chỉ hiển thị một frame trong notebook
            
            cap.release()
            print("Camera đã đóng")
    
    def on_capture_click(self, button):
        """Chụp ảnh từ camera"""
        if not hasattr(self, 'cap') or not self.cap.isOpened():
            with self.output:
                print("Vui lòng mở camera trước!")
            return
        
        ret, frame = self.cap.read()
        if ret:
            # Chuyển BGR sang RGB
            frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
            image = Image.fromarray(frame_rgb)
            
            # Dự đoán
            self.predict_and_display(image)
    
    def predict_and_display(self, image):
        """Dự đoán và hiển thị kết quả"""
        with self.output:
            clear_output(wait=True)
            
            # Dự đoán
            result = predict_shape(self.model, image)
            
            # Hiển thị ảnh và kết quả
            fig, axes = plt.subplots(1, 2, figsize=(12, 5))
            
            # Ảnh gốc
            axes[0].imshow(image, cmap='gray' if len(np.array(image).shape) == 2 else None)
            axes[0].set_title('Ảnh đầu vào')
            axes[0].axis('off')
            
            # Ảnh đã xử lý
            processed = preprocess_image(image)
            axes[1].imshow(processed.squeeze(), cmap='gray')
            axes[1].set_title('Ảnh đã xử lý (64x64)')
            axes[1].axis('off')
            
            plt.tight_layout()
            plt.show()
            
            # Hiển thị kết quả
            print(f"\n{'='*50}")
            print(f"KẾT QUẢ NHẬN DẠNG")
            print(f"{'='*50}")
            print(f"Hình dạng: {result['class']}")
            print(f"Độ tin cậy: {result['confidence']*100:.2f}%")
            print(f"\nXác suất:")
            for shape, prob in result['probabilities'].items():
                print(f"  - {shape}: {prob*100:.2f}%")
            print(f"{'='*50}")


In [None]:
# Khởi tạo giao diện (chỉ chạy sau khi đã train mô hình)
# Nếu đã lưu mô hình, có thể load lại:
# model = keras.models.load_model('shape_recognition_model.h5')

ui = ShapeRecognitionUI(model)
