In [None]:
import torch
import torch.nn as nn
from torchvision import transforms
from torchvision.models import efficientnet_b0
from PIL import Image, ImageSequence
import timm
from timm import create_model
import os
from torchvision import transforms, models
from transformers import CLIPProcessor, CLIPVisionModel




In [None]:
import google.generativeai as genai


# Constrast

In [None]:
# 1. Định nghĩa lại RegressionHead (phải giống hệt lúc train)
class RegressionHead_Contrast(nn.Module):
    def __init__(self, in_dim):
        super().__init__()
        self.net = nn.Sequential(
            nn.Linear(in_dim, 512),
            nn.ReLU(),
            nn.Dropout(0.1),
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Dropout(0.1),
            nn.Linear(256, 64),
            nn.ReLU(),
            nn.Dropout(0.1),
            nn.Linear(64, 1)
        )

    def forward(self, x):
        return self.net(x)

# 2. Hàm khởi tạo model và load weight
def load_trained_contrast_model(model_path, device):
    # Khởi tạo base model EfficientNet_B0
    model = models.efficientnet_b0()

    # Thay thế classifier bằng RegressionHead của bạn
    in_dim = model.classifier[1].in_features # 1280
    model.classifier = RegressionHead_Contrast(in_dim)

    # Load trọng số đã lưu
    state_dict = torch.load(model_path, map_location=device)
    model.load_state_dict(state_dict)

    model.to(device)
    model.eval() # Chuyển sang chế độ dự báo
    return model

# 3. Tiền xử lý ảnh (phải giống lúc train)
def preprocess_image_constrast(image_path):
    img = Image.open(image_path)

    # Xử lý nếu là ảnh GIF hoặc ảnh có kênh Alpha (RGBA)
    if getattr(img, "is_animated", False):
        img = ImageSequence.Iterator(img).__next__()
    img = img.convert("RGBA").convert("RGB")

    transform = transforms.Compose([
        transforms.Resize((224, 224)),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406],
                             std=[0.229, 0.224, 0.225]),
    ])

    return transform(img).unsqueeze(0) # Thêm dimension cho batch (1, 3, 224, 224)




# Readability

In [None]:

# 1. Định nghĩa các thành phần kiến trúc (Phải trùng khớp hoàn toàn với lúc train)
class ResizeWithPadding:
    def __init__(self, target_size, fill_color=(0, 0, 0)):
        if isinstance(target_size, int):
            self.target_size = (target_size, target_size)
        else:
            self.target_size = target_size
        self.fill_color = fill_color

    def __call__(self, img):
        img.thumbnail(self.target_size, Image.Resampling.BICUBIC)
        new_img = Image.new("RGB", self.target_size, self.fill_color)
        left = (self.target_size[0] - img.size[0]) // 2
        top = (self.target_size[1] - img.size[1]) // 2
        new_img.paste(img, (left, top))
        return new_img

class ConvNeXtV2FeatureExtractor(nn.Module):
    def __init__(self):
        super().__init__()
        self.backbone = create_model(
            'convnextv2_tiny.fcmae_ft_in22k_in1k',
            pretrained=False, # Không cần tải lại pretrain vì sẽ load từ file .pth
            num_classes=0
        )
        self.feature_dim = 768

    def forward(self, x):
        return self.backbone(x)

class ReadabilityRegressionHead(nn.Module):
    def __init__(self, in_features=768):
        super().__init__()
        self.head = nn.Sequential(
            nn.LayerNorm(in_features),
            nn.Dropout(0.4),
            nn.Linear(in_features, 512),
            nn.GELU(),
            nn.Dropout(0.35),
            nn.Linear(512, 256),
            nn.GELU(),
            nn.Dropout(0.3),
            nn.Linear(256, 1)
        )

    def forward(self, x):
        return self.head(x)

class CompleteReadabilityModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.feature_extractor = ConvNeXtV2FeatureExtractor()
        self.head = ReadabilityRegressionHead(in_features=768)

    def forward(self, x):
        features = self.feature_extractor(x)
        return self.head(features)

# 2. Tiền xử lý ảnh (Theo logic trong BannerDataset của bạn)
def preprocess_image_readability(image_path, target_size=224):
    img = Image.open(image_path)

    # Xử lý GIF
    if getattr(img, "is_animated", False):
        img = ImageSequence.Iterator(img).__next__()

    # Chuyển nền trong suốt thành trắng (Logic quan trọng từ code của bạn)
    img = img.convert("RGBA")
    background = Image.new('RGBA', img.size, (255, 255, 255))
    img = Image.alpha_composite(background, img)
    img = img.convert("RGB")

    # Transform với Padding
    transform = transforms.Compose([
        ResizeWithPadding(target_size),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
    ])

    return transform(img).unsqueeze(0)

def load_trained_readability_model(model_path, device):
    model_readability = CompleteReadabilityModel().to(device)
    # Kiểm tra nếu load từ checkpoint (có chứa dict) hay state_dict thuần túy
    checkpoint = torch.load(model_path[1], map_location=device)
    if 'model_state_dict' in checkpoint:
        model_readability.load_state_dict(checkpoint['model_state_dict'])
    else:
        model_readability.load_state_dict(checkpoint)
    model_readability.eval()

    return model_readability


# Aesthetic

In [None]:
class AestheticPredictor(nn.Module):
    def __init__(self, model_name="openai/clip-vit-base-patch32", dropout=0.2):
        super(AestheticPredictor, self).__init__()
        # Load CLIP Backbone
        self.backbone = CLIPVisionModel.from_pretrained(model_name)

        # Config khớp với lúc train
        self.hidden_size = self.backbone.config.hidden_size

        # MLP Head
        self.head = nn.Sequential(
            nn.Linear(self.hidden_size, 512),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(512, 256),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(256, 1)
        )

    def forward(self, x):
        out = self.backbone(pixel_values=x)
        features = out.pooler_output
        return self.head(features)

def load_trained_aesthetic_model(model_path, model_name="openai/clip-vit-base-patch32", device="cpu"):
    """
    Khởi tạo kiến trúc và load trọng số đã train
    """
    print(f" Đang khởi tạo model base: {model_name}...")
    model = AestheticPredictor(model_name=model_name)

    print(f" Đang load trọng số từ: {model_path}...")
    # map_location giúp load model train bằng GPU lên máy chỉ có CPU mà không bị lỗi
    state_dict = torch.load(model_path, map_location=device)
    model.load_state_dict(state_dict)

    model.to(device)
    model.eval() # Chuyển sang chế độ đánh giá (tắt Dropout)

    # Load processor đi kèm (để resize/normalize ảnh đúng chuẩn)
    processor = CLIPProcessor.from_pretrained(model_name)

    return model, processor



# Predict

In [None]:
def predict(image_path, model_path):
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    # Khởi tạo và load model readibility
    model_readability = load_trained_readability_model(model_path, device)

    # Khởi tạo và load model contrast
    model_contrast = load_trained_contrast_model(model_path[0], device)

    # Khởi tạo và load model Aesthetic
    model_aesthetic, processor = load_trained_aesthetic_model(model_path[2], device=device)

    # Load và xử lý ảnh
    input_tensor_contrast = preprocess_image_constrast(image_path).to(device)
    input_tensor_readability = preprocess_image_readability(image_path, target_size=224).to(device)
    input_tensor_aesthetic = processor(images=Image.open(image_path), return_tensors="pt").to(device)

    # Dự đoán
    with torch.no_grad():
        score_readability = model_readability(input_tensor_readability)
        score_contrast = model_contrast(input_tensor_contrast)
        score_aesthetic = model_aesthetic(input_tensor_aesthetic['pixel_values'])

    return score_readability.item(), score_contrast.item(), score_aesthetic.item()

In [None]:
def generate_recommend(model_geminai,readability_score, aesthetic_score, contrast_score):
  prompt = f'''
Các tiêu chí chấm điểm về độ thẩm mỹ, độ dễ đọc, độ tương phản cho 1 tấm banner quảng cáo :
Tiêu chí về độ thẩm mỹ
5 (Xuất Sắc): "Thiết kế rất chuyên nghiệp, sáng tạo, bố cục hoàn hảo, màu sắc hài hòa, sử dụng hình ảnh chất lượng cao. Tạo ấn tượng thị giác mạnh mẽ.",Thẩm mỹ cao/Rất chuyên nghiệp
4 (Tốt): "Thiết kế chuyên nghiệp, thu hút, bố cục rõ ràng, màu sắc dễ chịu. Có thể có một vài chi tiết nhỏ chưa tối ưu nhưng tổng thể rất tốt.",Thẩm mỹ tốt/Chuyên nghiệp
3 (Trung Bình): "Thiết kế chấp nhận được, không quá ấn tượng, bố cục cơ bản. Có thể có lỗi nhỏ về màu sắc hoặc chất lượng hình ảnh không đồng đều.",Thẩm mỹ trung bình/Cơ bản
2 (Kém): "Thiết kế sơ sài, thiếu đầu tư, bố cục lộn xộn hoặc nhàm chán, màu sắc không hài hòa. Hình ảnh/font chữ kém chất lượng.",Thẩm mỹ kém/Thiếu chuyên nghiệp
1 (Rất Kém): "Thiết kế tồi tệ, các yếu tố xung đột nhau, màu sắc chói mắt/xấu xí, bố cục không hợp lý, gây khó chịu khi nhìn.",Thẩm mỹ rất kém/Lỗi thiết kế

Tiêu chí về độ dễ đọc
5 (Xuất Sắc) : Tất cả văn bản có kích thước và kiểu chữ rất dễ đọc ngay cả khi nhìn thoáng qua. Khoảng cách chữ/dòng hoàn hảo.,Dễ đọc hoàn hảo
4 (Tốt): Phần lớn văn bản dễ đọc. Chỉ có thể có một vài đoạn văn bản phụ (phụ chú) có kích thước hơi nhỏ nhưng vẫn có thể đọc được.,Dễ đọc tốt
3 (Trung Bình) : "Văn bản chủ yếu dễ đọc, nhưng một số phần quan trọng hoặc phần lớn văn bản phụ hơi nhỏ hoặc hơi khó đọc do chọn font/kích thước chưa hợp lý.",Đọc được/Trung bình
2 (Kém) : "Phần lớn văn bản khó đọc do kích thước quá nhỏ, chọn font khó nhìn (quá cầu kỳ, nét mỏng) hoặc khoảng cách chữ quá sít sao.",Khó đọc
1 (Rất Kém) : Không thể đọc được nội dung chính hoặc phần lớn nội dung do font chữ/kích thước/vị trí bị lỗi hoặc chữ bị che khuất quá nhiều.,Rất khó đọc/Không đọc được

Tiêu chí về độ tương phản
Tiêu chí độ tương phản
5 (Xuất Sắc) : Độ tương phản hoàn hảo và rõ rệt (ví dụ: chữ trắng trên nền tối đậm hoặc chữ đen trên nền sáng rực). Đảm bảo khả năng đọc tối đa.,Tương phản tối đa/Hoàn hảo
4 (Tốt) : Độ tương phản rất tốt và rõ ràng. Màu chữ nổi bật so với màu nền.,Tương phản tốt
3 (Trung Bình) : Độ tương phản vừa đủ để đọc. Văn bản có thể không nổi bật hoàn toàn (ví dụ: chữ xám trên nền trắng hoặc chữ xanh đậm trên nền tím) nhưng vẫn chấp nhận được.,Tương phản đủ dùng
2 (Kém) : "Độ tương phản thấp, gây mỏi mắt hoặc phải căng mắt để đọc (ví dụ: chữ xanh dương nhạt trên nền xanh lá nhạt). Gây khó khăn đáng kể cho việc đọc.",Tương phản thấp
1 (Rất Kém) : "Không có sự tương phản hoặc rất ít (ví dụ: chữ vàng nhạt trên nền trắng/vàng nhạt). Văn bản hầu như hòa vào nền, không thể đọc được.",Không tương phản/Hòa vào nền

Nhiệm vụ : Đây lần lượt là điểm về tiêu chí thẩm mỹ {aesthetic_score}, điểm về độ dễ đọc {readability_score} và điểm về độ tương phản {contrast_score} bạn nhận được. Dựa vào các tiêu chí về chấm điểm ở trên, đầu tiên hãy nhận xet, sau đó sinh ra câu gợi ý giúp tấm ảnh banner quảng cáo cải thiện hơn
Quy tắc :
- Chỉ dựa vào các tiêu chí tôi đã định nghĩa ở trên
- Không trả lời rườm rà, lan man
  '''
  response = model_geminai.generate_content(prompt)
  text = response.text
  return text

In [None]:
if __name__ == "__main__":
    # Đường dẫn tới file model và ảnh của bạn
    MODEL_FILE = ["/content/drive/MyDrive/Deeplearning/Do_An/Đạt/model_effnet_45.pth","/content/drive/MyDrive/Deeplearning/Do_An/best_readability_model.pth",'/content/drive/MyDrive/Deeplearning/Do_An/my_finetuned_clip.pth']
    IMAGE_FILE = "/content/drive/MyDrive/Deeplearning/extracted_images/15.png"
    genai.configure(api_key="AIzaSyDzC772ZbPTrsr5_JSl0NRLRVE5PtME684")
    model_geminai = genai.GenerativeModel('gemini-2.5-flash')

    if os.path.exists(IMAGE_FILE):
        r,c,a = predict(IMAGE_FILE, MODEL_FILE)
        print(f"Dự đoán điểm tương phản (Contrast Score): {c:.2f}")
        print(f"Dự đoán điểm độ dễ đọc (Readability Score): {r:.2f}")
        print(f"Dự đoán điểm chất lượng (Aesthetic Score): {a:.2f}")
        print(f'Điểm tổng quát :{(r+c+a)/3:.2f}')
        print(f'Gợi ý :{generate_recommend(model_geminai,r,a,c)}')
    else:
        print("Vui lòng kiểm tra lại đường dẫn file model hoặc file ảnh!")

 Đang khởi tạo model base: openai/clip-vit-base-patch32...
 Đang load trọng số từ: /content/drive/MyDrive/Deeplearning/Do_An/my_finetuned_clip.pth...
Dự đoán điểm tương phản (Contrast Score): 3.19
Dự đoán điểm độ dễ đọc (Readability Score): 2.58
Dự đoán điểm chất lượng (Aesthetic Score): 2.69
Điểm tổng quát :2.82
Gợi ý :**Nhận xét:**

*   **Độ thẩm mỹ (2.685):** Thiết kế ở mức chấp nhận được, nhưng chưa ấn tượng, bố cục còn cơ bản và có thể có lỗi nhỏ về màu sắc hoặc chất lượng hình ảnh chưa đồng đều. Gần với mức kém, cho thấy thiết kế có thể còn sơ sài, thiếu đầu tư.
*   **Độ dễ đọc (2.578):** Văn bản chủ yếu khó đọc do kích thước có thể quá nhỏ, chọn font khó nhìn hoặc khoảng cách chữ quá sít sao. Một số phần quan trọng hoặc phần lớn văn bản phụ hơi nhỏ hoặc khó đọc.
*   **Độ tương phản (3.189):** Độ tương phản vừa đủ để đọc nhưng văn bản chưa thực sự nổi bật hoàn toàn so với nền, mặc dù vẫn chấp nhận được.

**Gợi ý cải thiện:**

*   **Thẩm mỹ:** Cải thiện bố cục để rõ ràng và thu hú