In [1]:
from IPython import display
import torch
from dotenv import load_dotenv
import shutil
import cv2
import os
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import roboflow
import ultralytics
from ultralytics import YOLO
import mss
import numpy as np
import time
import pyautogui
from datetime import datetime
from transformers import AutoProcessor, AutoModelForVision2Seq
import torch
from PIL import Image

In [2]:
display.clear_output()
ultralytics.checks()

Ultralytics 8.3.116  Python-3.12.10 torch-2.5.1+cpu CPU (Intel Core(TM) i5-8250U 1.60GHz)
Setup complete  (8 CPUs, 7.9 GB RAM, 45.5/931.5 GB disk)


In [None]:
# Em apple sillicon, verificar se o MPS está disponível
print(torch.backends.mps.is_available())

In [64]:
# Carregar variáveis do ficheiro .env
load_dotenv(override=True)

# Obter variáveis
api_key = os.getenv("ROBOFLOW_API_KEY")
workspace = os.getenv("ROBOFLOW_WORKSPACE")
project_name = os.getenv("ROBOFLOW_PROJECT")
version = int(os.getenv("ROBOFLOW_VERSION", "1"))

In [None]:
# descarregar o dataset do roboflow, depois de etiquetadas as imagens e criado o dataset em Mac tive problemas de permissões e foi necessário dar permissões à pasta de conf. do roboflow:
# - sudo mkdir /Users/davidecarneiro/.config/roboflow (criar pasta onde vai guardar a conf.)
# - sudo chown -R davidecarneiro:staff ~/.config/roboflow (dar permissões ao meu user)
roboflow.login()

rf = roboflow.Roboflow(api_key=api_key) # Faz login no Roboflow com a chave lida

# substituir nome do workspace e do projeto
project = rf.workspace(workspace).project(project_name)
# se versão do dataset > 1, substituir pela versão correspondente
dataset = project.version(version).download("yolov8")

# Move o dataset para a pasta desejada
shutil.move(dataset.location, "./datasets/candy-crush-saga-v3-1")

# Atualiza o caminho no objeto
dataset.location = "./datasets/candy-crush-saga-v3-1"

# WARN: necessário verificar os paths no ficheiro data.yaml, após este ser descarregado
# alterar para:
# train: ./datasets/candy-crush-saga-v3-1/train/images
# val: ./datasets/candy-crush-saga-v3-1/valid/images
# test: ./datasets/candy-crush-saga-v3-1/test/images

In [None]:
# treinar o modelo
# lista de modelos pre-treinados disponível em https://docs.ultralytics.com/models/yolov8/#performance-metrics
model = YOLO("YOLOv8m.pt")  # carregar o modelo pre-treinado que se descarregou

# Treinar o modelo
results = model.train(data='./datasets/candy-crush-saga-v3-1/data.yaml', epochs=100, imgsz=640, device='cpu')  # windows amd cpu and gpu
# results = model.train(data='candy-crush-saga-v3-1', epochs=100, imgsz=640, device=[0, 1]) # intel/windows
# results = model.train(data='candy-crush-saga-v3-1/data.yaml', epochs=100, imgsz=640, device='mps') # apple sillicon

In [3]:
# selecionar a melhor versão do modelo fine-tuned
model = YOLO("runs/detect/train5/weights/best.pt")

In [None]:
# prever em novas imagens
confidence_level = 0.1
input_path = 'captured_images'
output_path = 'detections'
class_names = model.names

for file in os.listdir(input_path):
    if file.lower().endswith((".png")):
        image = cv2.imread(os.path.join(input_path, file))
        results = model.predict(source=image, conf=confidence_level)  # gerar previsões acima de determinada confiança, e guardar imagens


        output_filename = f"prediction_{file}"
        output_filepath = os.path.join(output_path, output_filename)

        for result in results:
            result.save(filename=output_filepath)
            print("==== Resultados Previsão ====")
            print("Imagem: "+os.path.join(input_path, file))
            boxes = result.boxes.xyxy.cpu().numpy()  # Bounding boxes (x_min, y_min, x_max, y_max)
            scores = result.boxes.conf.cpu().numpy()  # Score de confiança
            labels = result.boxes.cls.cpu().numpy()  # Índice da classe

            for i in range(len(boxes)):
                class_id = labels[i]
                class_label = class_names[class_id] if class_id in class_names else "Desconhecido"

                print(f"--- Objeto {i+1} ---")
                print(f"Class: {class_label} (ID: {class_id})")
                print(f"Coordenadas Bounding Box: {boxes[i]}")
                print(f"Confiança: {scores[i]:.4f}")
                print("-------------------")

            print("\n")

## Tarefa dos objetivo do nivel atual
###### carregar o modelo

###### preparar a imagem e o prompt

###### gera a resposta

# 🎮Testar no jogo, o modelo

###### CONFIGURAÇÕES GERAIS

In [65]:
model = YOLO("runs/detect/train5/weights/best.pt") # Carrega o modelo YOLO treinado
screen_width, screen_height = pyautogui.size() # Tamanho total do ecrã (para eventualmente converter coordenadas para cliques)

# Região do tabuleiro (ajustável via variáveis de ambiente)
BOARD_REGION = {
    "left": int(os.getenv("BOARD_REGION_LEFT", "0")),     # posição X do canto superior esquerdo
    "top": int(os.getenv("BOARD_REGION_TOP", "0")),      # posição Y do canto superior esquerdo
    "width": int(os.getenv("BOARD_REGION_WIDTH", "0")),    # largura da região
    "height": int(os.getenv("BOARD_REGION_HEIGHT", "0"))    # altura da região
}

# Número de linhas e colunas no tabuleiro (ex: 7x7)
ROWS = int(os.getenv("ROWS_GRID", "8"))
COLS = int(os.getenv("COLS_GRID", "8"))

# Região do objetivo (ajustável via variáveis de ambiente)
GOAL_REGION = {
    "left": int(os.getenv("GOAL_REGION_LEFT", "0")),     # posição X do canto superior esquerdo
    "top": int(os.getenv("GOAL_REGION_TOP", "0")),      # posição Y do canto superior esquerdo
    "width": int(os.getenv("GOAL_REGION_WIDTH", "0")),    # largura da região
    "height": int(os.getenv("GOAL_REGION_HEIGHT", "0"))    # altura da região
}

# Garante que as pastas de output existem
os.makedirs("captured_images", exist_ok=True)
os.makedirs("captured_goals", exist_ok=True)
os.makedirs("detections", exist_ok=True)

###### FUNÇÃO DE CAPTURA DE IMAGEM

In [5]:
# função que captura só a região do tabuleiro e devolve a imagem
def capture_board_region():
    # Captura a imagem da região definida como o tabuleiro
    with mss.mss() as sct:
        screenshot = sct.grab(BOARD_REGION)
        img = np.array(screenshot)
        img = cv2.cvtColor(img, cv2.COLOR_BGRA2BGR)
        img_height, img_width, _ = img.shape
        timestamp = datetime.now().strftime("%Y%m%d-%H%M%S-%f")

        # Guardar imagem opcionalmente
        img_path = os.path.join('captured_images', f"capture_{timestamp}.jpg")
        cv2.imwrite(img_path, img)

        return img, timestamp, img_width, img_height # width, height

###### FUNCAO DE CAPTURA DA REGIAO DOS OBJETIVOS

In [4]:
# função que captura só a região dos objetivos e devolve a imagem
def capture_goal_region():
    # Captura a imagem da região definida como os objetivos
    with mss.mss() as sct:
        screenshot = sct.grab(GOAL_REGION)
        img = np.array(screenshot)
        img = cv2.cvtColor(img, cv2.COLOR_BGRA2BGR)
        img_height, img_width, _ = img.shape
        timestamp = datetime.now().strftime("%Y%m%d-%H%M%S-%f")

        # Guardar imagem opcionalmente
        img_path = os.path.join('captured_goals', f"goal_{timestamp}.jpg")
        cv2.imwrite(img_path, img)

        return img, timestamp, img_width, img_height # width, height

###### IDENTIFICAR PECAS ADJACENTES E POSSIVEIS COMBINACOES

In [23]:
def sugerir_melhor_jogada(grid):
    ROWS, COLS = len(grid), len(grid[0])
    melhores_trocas = []
    max_combo = 0
    troca_com_color_bomb = None

    # objetivos do nivel atual
    imgGoal, timestampGoal, img_widthGoal, img_heightGoal = capture_goal_region() # captura zona

    # Faz previsão com YOLO
    resultsGoal = model.predict(source=imgGoal, conf=0.1)
    detectionsGoal = resultsGoal[0].boxes.xyxy  # Coordenadas (x1, y1, x2, y2)

    if len(detectionsGoal) > 0:
        print(f"\n✅ Detetou {len(detectionsGoal)} objetivos.")

        # Guarda imagem com bounding boxes
        annotated_frameGoal = resultsGoal[0].plot()
        result_pathGoal = os.path.join('detectionsGoal', f"result_{timestamp}.jpg")
        cv2.imwrite(result_pathGoal, annotated_frameGoal)

    def contar_sequencia(g, r, c, cor):
        # Contar horizontalmente
        cont_h = 1
        i = c - 1
        while i >= 0 and g[r][i] == cor:
            cont_h += 1
            i -= 1
        i = c + 1
        while i < COLS and g[r][i] == cor:
            cont_h += 1
            i += 1

        # Contar verticalmente
        cont_v = 1
        i = r - 1
        while i >= 0 and g[i][c] == cor:
            cont_v += 1
            i -= 1
        i = r + 1
        while i < ROWS and g[i][c] == cor:
            cont_v += 1
            i += 1

        return max(cont_h if cont_h >= 3 else 0, cont_v if cont_v >= 3 else 0)

    for r in range(ROWS):
        for c in range(COLS):
            if grid[r][c] is None:
                continue

            for dr, dc in [(0, 1), (1, 0)]:
                nr, nc = r + dr, c + dc
                if nr >= ROWS or nc >= COLS:
                    continue
                if grid[nr][nc] is None:
                    continue

                 # Verifica se há uma troca envolvendo color-bomb
                if grid[r][c] == "color-bomb" or grid[nr][nc] == "color-bomb":
                    troca_com_color_bomb = ((r, c), (nr, nc))

                # Fazer swap
                grid[r][c], grid[nr][nc] = grid[nr][nc], grid[r][c]

                # Contar sequências resultantes nas 2 posições
                score = max(
                    contar_sequencia(grid, r, c, grid[r][c]),
                    contar_sequencia(grid, nr, nc, grid[nr][nc])
                )

                if score > max_combo:
                    max_combo = score
                    melhores_trocas = [((r, c), (nr, nc))]
                elif score == max_combo and score >= 3:
                    melhores_trocas.append(((r, c), (nr, nc)))

                # Reverter swap
                grid[r][c], grid[nr][nc] = grid[nr][nc], grid[r][c]

    if troca_com_color_bomb:
        print(f"\n💡 Jogada com 'color-bomb': {troca_com_color_bomb} (prioritária)")
        return troca_com_color_bomb, 99  # prioridade máxima

    if melhores_trocas:
        print(f"\n💡 Melhor jogada: {melhores_trocas[0]} que forma grupo de {max_combo}")
        return melhores_trocas[0], max_combo
    else:
        print("\n⚠️ Nenhuma jogada possível encontrada.")
        return None, 0

###### LOOP PRINCIPAL

In [66]:
while True:
    # Captura o tabuleiro
    img, timestamp, img_width, img_height = capture_board_region()

    # Faz previsão com YOLO
    results = model.predict(source=img, conf=0.1)
    detections = results[0].boxes.xyxy  # Coordenadas (x1, y1, x2, y2)

    # Define dimensões das células da grelha
    cell_width = img_width // COLS
    cell_height = img_height // ROWS

    grid = [[None for _ in range(COLS)] for _ in range(ROWS)]  # Cria grelha vazia


    if len(detections) > 0:
        print(f"\n✅ Detetou {len(detections)} objetos.")

        # Guarda imagem com bounding boxes
        annotated_frame = results[0].plot()
        result_path = os.path.join('detections', f"result_{timestamp}.jpg")
        cv2.imwrite(result_path, annotated_frame)

        # Processa cada deteção
        for i, (x1, y1, x2, y2) in enumerate(detections.tolist()):
            # Calcula o centro do objeto
            center_x = int((x1 + x2) / 2)
            center_y = int((y1 + y2) / 2)

            # Converte centro para coordenadas de grelha
            col = center_x // cell_width
            row = center_y // cell_height

            class_id = int(results[0].boxes.cls[i].item())
            class_name = model.names[class_id]

            # Preenche a grelha com o nome da classe
            if 0 <= row < ROWS and 0 <= col < COLS:
                grid[row][col] = class_name

            # converter coordenadas
            scaled_x = int((center_x / img_width) * screen_width)
            scaled_y = int((center_y / img_height) * screen_height)

            # Pausa breve, entre objetos (se necessario)
            #time.sleep(0.25)

        # Imprime o mapa atual do tabuleiro
        print("📌 Mapa do tabuleiro:")
        for row in grid:
            print(row)

        print("\n🔄 Combinações possíveis:")
        # Sugerir a melhor jogada
        melhor_troca, tamanho_grupo = sugerir_melhor_jogada(grid)

        # mover rato
        if melhor_troca:
            (r1, c1), (r2, c2) = melhor_troca

            def cell_to_screen(row, col):
                # Coordenadas do centro da célula no ecrã
                x = BOARD_REGION["left"] + col * cell_width + cell_width // 2
                y = BOARD_REGION["top"] + row * cell_height + cell_height // 2
                return x, y

            x1, y1 = cell_to_screen(r1, c1)
            x2, y2 = cell_to_screen(r2, c2)

            print(f"🖱️ A mover para ({r1}, {c1}) -> ({r2}, {c2})")
            pyautogui.moveTo(x1, y1, duration=0.3)
            pyautogui.click()
            time.sleep(0.2)  # pequena pausa entre cliques
            pyautogui.moveTo(x2, y2, duration=0.3)
            pyautogui.click()
        else:
            print("⚠️ Nenhuma jogada possível para clicar.")


    time.sleep(3) # Pausa antes da próxima leitura (ajustavel)


0: 640x640 1 green, 819.6ms
Speed: 9.3ms preprocess, 819.6ms inference, 2.0ms postprocess per image at shape (1, 3, 640, 640)

✅ Detetou 1 objetos.
📌 Mapa do tabuleiro:
[None, None, None, None, None, None, None, None]
[None, None, None, None, None, None, None, None]
[None, None, None, None, None, None, None, None]
[None, None, None, None, None, None, None, None]
[None, None, None, None, None, None, None, None]
[None, None, None, None, None, None, None, None]
[None, None, None, None, None, None, None, None]
['green', None, None, None, None, None, None, None]

🔄 Combinações possíveis:

0: 640x512 1 blue, 2 greens, 453.1ms
Speed: 6.7ms preprocess, 453.1ms inference, 1.4ms postprocess per image at shape (1, 3, 640, 512)

✅ Detetou 3 objetivos.

⚠️ Nenhuma jogada possível encontrada.
⚠️ Nenhuma jogada possível para clicar.

0: 640x640 12 blues, 8 greens, 9 purples, 13 reds, 14 yellows, 592.4ms
Speed: 3.6ms preprocess, 592.4ms inference, 2.1ms postprocess per image at shape (1, 3, 640, 640)

KeyboardInterrupt: 