In [None]:
# pip install ipython torch python-dotenv opencv-python matplotlib roboflow ultralytics mss numpy pyautogui pillow transformers

from IPython import display
import torch
from dotenv import load_dotenv
import shutil
import cv2
import os
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import roboflow
import ultralytics
from ultralytics import YOLO
import mss
import numpy as np
import time
import pyautogui
from datetime import datetime
import torch
from PIL import Image
from transformers import AutoProcessor, AutoModelForVision2Seq
from transformers import AutoTokenizer

In [None]:
display.clear_output()
ultralytics.checks()

In [None]:
# Em apple sillicon, verificar se o MPS está disponível
print(torch.backends.mps.is_available())

In [None]:
# Carregar variáveis do ficheiro .env
load_dotenv(override=True)

# Obter variáveis
api_key = os.getenv("ROBOFLOW_API_KEY")
workspace = os.getenv("ROBOFLOW_WORKSPACE")
project_name = os.getenv("ROBOFLOW_PROJECT")
version = int(os.getenv("ROBOFLOW_VERSION", "1"))

In [None]:
# descarregar o dataset do roboflow, depois de etiquetadas as imagens e criado o dataset em Mac tive problemas de permissões e foi necessário dar permissões à pasta de conf. do roboflow:
# - sudo mkdir /Users/davidecarneiro/.config/roboflow (criar pasta onde vai guardar a conf.)
# - sudo chown -R davidecarneiro:staff ~/.config/roboflow (dar permissões ao meu user)
roboflow.login()

rf = roboflow.Roboflow(api_key=api_key) # Faz login no Roboflow com a chave lida

# substituir nome do workspace e do projeto
project = rf.workspace(workspace).project(project_name)
# se versão do dataset > 1, substituir pela versão correspondente
dataset = project.version(version).download("yolov8")

# Move o dataset para a pasta desejada
shutil.move(dataset.location, "./datasets/candy-crush-saga-v3-1")

# Atualiza o caminho no objeto
dataset.location = "./datasets/candy-crush-saga-v3-1"

# WARN: necessário verificar os paths no ficheiro data.yaml, após este ser descarregado
# alterar para:
# train: ./datasets/candy-crush-saga-v3-1/train/images
# val: ./datasets/candy-crush-saga-v3-1/valid/images
# test: ./datasets/candy-crush-saga-v3-1/test/images

In [None]:
# treinar o modelo
# lista de modelos pre-treinados disponível em https://docs.ultralytics.com/models/yolov8/#performance-metrics
model = YOLO("YOLOv8m.pt")  # carregar o modelo pre-treinado que se descarregou

# Treinar o modelo
results = model.train(data='./datasets/candy-crush-saga-v3-1/data.yaml', epochs=100, imgsz=640, device='cpu')  # windows amd cpu and gpu
# results = model.train(data='candy-crush-saga-v3-1', epochs=100, imgsz=640, device=[0, 1]) # intel/windows
# results = model.train(data='candy-crush-saga-v3-1/data.yaml', epochs=100, imgsz=640, device='mps') # apple sillicon

In [None]:
# selecionar a melhor versão do modelo fine-tuned
model = YOLO("runs/detect/train5/weights/best.pt")

In [None]:
# prever em novas imagens
confidence_level = 0.1
input_path = 'captured_images'
output_path = 'detections'
class_names = model.names

for file in os.listdir(input_path):
    if file.lower().endswith((".png")):
        image = cv2.imread(os.path.join(input_path, file))
        results = model.predict(source=image, conf=confidence_level)  # gerar previsões acima de determinada confiança, e guardar imagens


        output_filename = f"prediction_{file}"
        output_filepath = os.path.join(output_path, output_filename)

        for result in results:
            result.save(filename=output_filepath)
            print("==== Resultados Previsão ====")
            print("Imagem: "+os.path.join(input_path, file))
            boxes = result.boxes.xyxy.cpu().numpy()  # Bounding boxes (x_min, y_min, x_max, y_max)
            scores = result.boxes.conf.cpu().numpy()  # Score de confiança
            labels = result.boxes.cls.cpu().numpy()  # Índice da classe

            for i in range(len(boxes)):
                class_id = labels[i]
                class_label = class_names[class_id] if class_id in class_names else "Desconhecido"

                print(f"--- Objeto {i+1} ---")
                print(f"Class: {class_label} (ID: {class_id})")
                print(f"Coordenadas Bounding Box: {boxes[i]}")
                print(f"Confiança: {scores[i]:.4f}")
                print("-------------------")

            print("\n")

###### MODELO RELACIONADO COM OS OBJETIVOS DO NIVEL ATUAL

In [None]:
# treinar o modelo
# lista de modelos pre-treinados disponível em https://docs.ultralytics.com/models/yolov8/#performance-metrics
modelGoal = YOLO("YOLOv8m.pt")  # carregar o modelo pre-treinado que se descarregou

# Treinar o modelo
resultsGoal = modelGoal.train(data='./datasets/candy-crush-saga-mission/data.yaml', epochs=100, imgsz=640, device='cpu')  # windows amd cpu and gpu
# results = modelGoal.train(data='candy-crush-saga-mission', epochs=100, imgsz=640, device=[0, 1]) # intel/windows
# results = modelGoal.train(data='candy-crush-saga-mission/data.yaml', epochs=100, imgsz=640, device='mps') # apple sillicon

In [None]:
# selecionar a melhor versão do modelo fine-tuned
modelGoal = YOLO("runs/detect/train21/weights/best.pt")

In [82]:
# prever numero a partir de uma imagem
def prever_numero_com_yolo(crop_img):
    resultsGoal = modelGoal.predict(crop_img, conf=0.25)
    boxesGoal = resultsGoal[0].boxes

    if boxesGoal is None or len(boxesGoal) == 0:
        return None

    # Guardar (x1, classe) para ordenar da esquerda para a direita
    digitos = []
    for i in range(len(boxesGoal)):
        x1 = boxesGoal.xyxy[i][0].item()
        classeGoal = int(boxesGoal.cls[i].item())
        digito = modelGoal.names[classeGoal]
        digitos.append((x1, digito))

    # Ordenar por posição horizontal
    digitos_ordenados = sorted(digitos, key=lambda x: x[0])
    numero = ''.join([d[1] for d in digitos_ordenados])

    return numero

# 🎮Testar no jogo, o modelo

###### CONFIGURAÇÕES GERAIS

In [74]:
model = YOLO("runs/detect/train5/weights/best.pt") # Carrega o modelo YOLO treinado
modelGoal = YOLO("runs/detect/train21/weights/best.pt") # Carrega o modelo YOLO treinado do objetivo
screen_width, screen_height = pyautogui.size() # Tamanho total do ecrã (para eventualmente converter coordenadas para cliques)

# Região do tabuleiro (ajustável via variáveis de ambiente)
BOARD_REGION = {
    "left": int(os.getenv("BOARD_REGION_LEFT", "0")),     # posição X do canto superior esquerdo
    "top": int(os.getenv("BOARD_REGION_TOP", "0")),      # posição Y do canto superior esquerdo
    "width": int(os.getenv("BOARD_REGION_WIDTH", "0")),    # largura da região
    "height": int(os.getenv("BOARD_REGION_HEIGHT", "0"))    # altura da região
}

# Número de linhas e colunas no tabuleiro (ex: 7x7)
ROWS = int(os.getenv("ROWS_GRID", "8"))
COLS = int(os.getenv("COLS_GRID", "8"))

# Região do objetivo (ajustável via variáveis de ambiente)
GOAL_REGION = {
    "left": int(os.getenv("GOAL_REGION_LEFT", "0")),     # posição X do canto superior esquerdo
    "top": int(os.getenv("GOAL_REGION_TOP", "0")),      # posição Y do canto superior esquerdo
    "width": int(os.getenv("GOAL_REGION_WIDTH", "0")),    # largura da região
    "height": int(os.getenv("GOAL_REGION_HEIGHT", "0"))    # altura da região
}

# Garante que as pastas de output existem
os.makedirs("captured_images", exist_ok=True)
os.makedirs("captured_goals", exist_ok=True)
os.makedirs("detections", exist_ok=True)

###### FUNÇÃO DE CAPTURA DE IMAGEM

In [75]:
# função que captura só a região do tabuleiro e devolve a imagem
def capture_board_region():
    # Captura a imagem da região definida como o tabuleiro
    with mss.mss() as sct:
        screenshot = sct.grab(BOARD_REGION)
        img = np.array(screenshot)
        img = cv2.cvtColor(img, cv2.COLOR_BGRA2BGR)
        img_height, img_width, _ = img.shape
        timestamp = datetime.now().strftime("%Y%m%d-%H%M%S-%f")

        # Guardar imagem opcionalmente
        img_path = os.path.join('captured_images', f"capture_{timestamp}.jpg")
        cv2.imwrite(img_path, img)

        return img, timestamp, img_width, img_height # width, height

###### FUNCAO DE CAPTURA DA REGIAO DOS OBJETIVOS

In [76]:
# função que captura só a região dos objetivos e devolve a imagem
def capture_goal_region():
    # Captura a imagem da região definida como os objetivos
    with mss.mss() as sct:
        screenshot = sct.grab(GOAL_REGION)
        img = np.array(screenshot)
        img = cv2.cvtColor(img, cv2.COLOR_BGRA2BGR)
        img_height, img_width, _ = img.shape
        timestamp = datetime.now().strftime("%Y%m%d-%H%M%S-%f")

        # Guardar imagem opcionalmente
        img_path = os.path.join('captured_goals', f"goal_{timestamp}.jpg")
        cv2.imwrite(img_path, img)

        return img, timestamp, img_width, img_height # width, height

###### IDENTIFICAR PECAS ADJACENTES E POSSIVEIS COMBINACOES

In [89]:
def sugerir_melhor_jogada(grid):
    global ultima_jogada_objetivo
    ROWS, COLS = len(grid), len(grid[0])
    melhores_trocas = []
    max_combo = 0
    troca_com_color_bomb = None

    os.makedirs("debug_objetivos_crop", exist_ok=True)
    imgGoal, timestampGoal, img_widthGoal, img_heightGoal = capture_goal_region()

    # Detetar números (modelGoal)
    resultsGoal = modelGoal.predict(source=imgGoal, conf=0.1)
    caixas_numeros = resultsGoal[0].boxes.xyxy.cpu().numpy()
    classes_numeros = resultsGoal[0].boxes.cls.cpu().numpy()
    nomes_numeros = modelGoal.names

    # Detetar ícones (model)
    resultsIcones = model.predict(source=imgGoal, conf=0.1)
    caixas_icones = resultsIcones[0].boxes.xyxy.cpu().numpy()
    classes_icones = resultsIcones[0].boxes.cls.cpu().numpy()
    nomes_icones = model.names

    objetivos_detectados = []
    print(f"[DEBUG] Objetivos detetados: {objetivos_detectados}")

    for i, (caixa_num, classe_num) in enumerate(zip(caixas_numeros, classes_numeros)):
        x1n, y1n, x2n, y2n = caixa_num.astype(int)
        numero = nomes_numeros[int(classe_num)]

        centro_num_x = (x1n + x2n) // 2
        centro_num_y = (y1n + y2n) // 2

        icone_mais_proximo = None
        menor_distancia = float('inf')

        for j, (caixa_ico, classe_ico) in enumerate(zip(caixas_icones, classes_icones)):
            x1i, y1i, x2i, y2i = caixa_ico.astype(int)
            centro_ico_x = (x1i + x2i) // 2
            centro_ico_y = (y1i + y2i) // 2

            if centro_ico_y < centro_num_y:
                distancia = abs(centro_num_x - centro_ico_x) + abs(centro_num_y - centro_ico_y)
                if distancia < menor_distancia:
                    menor_distancia = distancia
                    icone_mais_proximo = nomes_icones[int(classe_ico)]

        if icone_mais_proximo:
            print(f"[DEBUG] Detetado objetivo: {icone_mais_proximo} → {numero}")

            # Guardar crop para debugging
            altura_icon = y2n - y1n
            largura_icon = x2n - x1n

            # Melhor recorte abaixo do ícone (número dos objetivos)
            h, w = imgGoal.shape[:2]
            margem_baixo = int(altura_icon * 1.8)
            margem_direita = int(largura_icon * 0.7)

            crop_top = y2
            crop_bottom = min(h, y2 + margem_baixo)
            crop_left = x1
            crop_right = min(w, x2 + margem_direita)

            # Garantir cortes válidos
            crop_top = int(max(0, crop_top))
            crop_bottom = int(max(crop_top + 1, crop_bottom))
            crop_left = int(max(0, crop_left))
            crop_right = int(max(crop_left + 1, crop_right))

            numero_crop = imgGoal[crop_top:crop_bottom, crop_left:crop_right]
            
            nome_ficheiro = f"debug_objetivos_crop/{timestampGoal}_{icone_mais_proximo}_{i}.jpg"
            if numero_crop.size > 0:
                cv2.imwrite(nome_ficheiro, numero_crop)
            else:
                print(f"[⚠️ Crop vazio] {icone_mais_proximo} na posição {(x1n, y1n, x2n, y2n)}")

            objetivos_detectados.append({
                "cor": icone_mais_proximo,
                "quantidade": numero,
                "caixa": (x1n, y1n, x2n, y2n)
            })
        else:
            print(f"[⚠️ Sem ícone correspondente] Número {numero} na posição {(x1n, y1n, x2n, y2n)}")

    def posicoes_sequencia(g, r, c, cor):
        posicoes = [(r, c)]
        i = c - 1
        while i >= 0 and g[r][i] == cor:
            posicoes.append((r, i))
            i -= 1
        i = c + 1
        while i < COLS and g[r][i] == cor:
            posicoes.append((r, i))
            i += 1
        if len(posicoes) >= 3:
            return posicoes

        posicoes = [(r, c)]
        i = r - 1
        while i >= 0 and g[i][c] == cor:
            posicoes.append((i, c))
            i -= 1
        i = r + 1
        while i < ROWS and g[i][c] == cor:
            posicoes.append((i, c))
            i += 1
        if len(posicoes) >= 3:
            return posicoes
        return []

    def seq_inclui_qualquer_doce_objetivo(posicoes, objetivos):
        for (rr, cc) in posicoes:
            if any(grid[rr][cc] == obj["cor"] for obj in objetivos):
                return True
        return False

    jogadas_objetivos = []
    todas_jogadas = []

    for r in range(ROWS):
        for c in range(COLS):
            if grid[r][c] is None:
                continue
            for dr, dc in [(0, 1), (1, 0)]:
                nr, nc = r + dr, c + dc
                if nr >= ROWS or nc >= COLS or grid[nr][nc] is None:
                    continue

                if grid[r][c] == "color-bomb" or grid[nr][nc] == "color-bomb":
                    troca_com_color_bomb = ((r, c), (nr, nc))

                cor1, cor2 = grid[r][c], grid[nr][nc]
                grid[r][c], grid[nr][nc] = grid[nr][nc], grid[r][c]

                posicoes_r_c = posicoes_sequencia(grid, r, c, cor2) or []
                posicoes_nr_nc = posicoes_sequencia(grid, nr, nc, cor1) or []

                score = max(len(posicoes_r_c), len(posicoes_nr_nc))

                if score >= 3:
                    if score > max_combo:
                        max_combo = score
                        melhores_trocas = [((r, c), (nr, nc))]
                    elif score == max_combo:
                        melhores_trocas.append(((r, c), (nr, nc)))

                    doces_na_seq = [grid[rr][cc] for (rr, cc) in posicoes_r_c + posicoes_nr_nc]
                    objetivos_na_seq = [obj for obj in objetivos_detectados if obj["cor"] in doces_na_seq]
                    if objetivos_na_seq:
                        prioridade = max(int(obj["quantidade"]) for obj in objetivos_na_seq)
                        jogadas_objetivos.append(((r, c), (nr, nc), prioridade, score))
                    else:
                        todas_jogadas.append(((r, c), (nr, nc), 0, score))

                grid[r][c], grid[nr][nc] = grid[nr][nc], grid[r][c]

    if troca_com_color_bomb:
        print(f"\n💡 Jogada com 'color-bomb': {troca_com_color_bomb} (prioritária)")
        return troca_com_color_bomb, 99

    if jogadas_objetivos:
        objetivos_ordenados = sorted(set(j[2] for j in jogadas_objetivos), reverse=True)
        jogada_encontrada = None

        for idx, prioridade_atual in enumerate(objetivos_ordenados):
            jogadas_para_prioridade = [j for j in jogadas_objetivos if j[2] == prioridade_atual]
            jogadas_para_prioridade.sort(key=lambda x: x[3], reverse=True)

            print(f"\n🔍 Tentativa com objetivo de prioridade {prioridade_atual}")

            for jogada in jogadas_para_prioridade:
                jogada_coords = jogada[:2]
                if jogada_coords != ultima_jogada_objetivo:
                    ultima_jogada_objetivo = jogada_coords
                    tipo = "principal" if idx == 0 else "secundário"
                    print(f"\n💡 Jogada de objetivo {tipo}: {jogada_coords} com prioridade {prioridade_atual}")
                    return jogada_coords, prioridade_atual

            if jogada_encontrada is None:
                jogada_encontrada = jogadas_para_prioridade[0]

        if jogada_encontrada:
            print(f"\n🔁 Todas jogadas são repetidas. Reutilizar: {jogada_encontrada[:2]} com prioridade {jogada_encontrada[2]}")
            return jogada_encontrada[:2], jogada_encontrada[2]

    if todas_jogadas:
        todas_jogadas.sort(key=lambda x: x[3], reverse=True)
        print(f"\n💡 Jogada comum melhor: {todas_jogadas[0][:2]} com combo {todas_jogadas[0][3]}")
        return todas_jogadas[0][:2], todas_jogadas[0][3]

    if melhores_trocas:
        print(f"\n💡 Melhor jogada: {melhores_trocas[0]} que forma grupo de {max_combo}")
        return melhores_trocas[0], max_combo

    print("\n⚠️ Nenhuma jogada possível encontrada.")
    return None, 0

###### LOOP PRINCIPAL

In [90]:
ultima_jogada_objetivo = None

while True:
    # Captura o tabuleiro
    img, timestamp, img_width, img_height = capture_board_region()

    # Previsão com YOLO (doces)
    results = model.predict(source=img, conf=0.1)
    detections = results[0].boxes.xyxy

    # Define dimensões da grelha
    cell_width = img_width // COLS
    cell_height = img_height // ROWS

    grid = [[None for _ in range(COLS)] for _ in range(ROWS)]

    if len(detections) > 0:
        print(f"\n✅ Detetou {len(detections)} objetos.")

        # Guarda imagem anotada
        annotated_frame = results[0].plot()
        result_path = os.path.join('detections', f"result_{timestamp}.jpg")
        cv2.imwrite(result_path, annotated_frame)

        # Preenche a grelha com base nas deteções
        for i, (x1, y1, x2, y2) in enumerate(detections.tolist()):
            center_x = int((x1 + x2) / 2)
            center_y = int((y1 + y2) / 2)
            col = center_x // cell_width
            row = center_y // cell_height

            class_id = int(results[0].boxes.cls[i].item())
            class_name = model.names[class_id]

            if 0 <= row < ROWS and 0 <= col < COLS:
                grid[row][col] = class_name

        # Imprime o mapa atual
        print("📌 Mapa do tabuleiro:")
        for row in grid:
            print(row)

        # Sugere jogada com base no modelo de objetivos
        print("\n🔄 Combinações possíveis:")
        melhor_troca, tamanho_grupo = sugerir_melhor_jogada(grid)

        if melhor_troca:
            (r1, c1), (r2, c2) = melhor_troca

            # ✅ Nova captura antes da jogada
            img_ref, timestamp_ref, _, _ = capture_board_region()
            results_ref = model.predict(source=img_ref, conf=0.1)
            detections_ref = results_ref[0].boxes.xyxy

            grid_ref = [[None for _ in range(COLS)] for _ in range(ROWS)]
            for i, (x1, y1, x2, y2) in enumerate(detections_ref.tolist()):
                center_x = int((x1 + x2) / 2)
                center_y = int((y1 + y2) / 2)
                col = center_x // cell_width
                row = center_y // cell_height

                class_id = int(results_ref[0].boxes.cls[i].item())
                class_name = model.names[class_id]

                if 0 <= row < ROWS and 0 <= col < COLS:
                    grid_ref[row][col] = class_name

            # Mostra grelha atualizada antes da jogada
            print("📌 Tabuleiro atualizado antes da jogada:")
            for row in grid_ref:
                print(row)

            # Converte coordenadas para o ecrã
            def cell_to_screen(row, col):
                x = BOARD_REGION["left"] + col * cell_width + cell_width // 2
                y = BOARD_REGION["top"] + row * cell_height + cell_height // 2
                return x, y

            x1, y1 = cell_to_screen(r1, c1)
            x2, y2 = cell_to_screen(r2, c2)

            print(f"🖱️ A mover para ({r1}, {c1}) -> ({r2}, {c2})")
            pyautogui.moveTo(x1, y1, duration=0.3)
            pyautogui.click()
            time.sleep(0.2)
            pyautogui.moveTo(x2, y2, duration=0.3)
            pyautogui.click()

        else:
            print("⚠️ Nenhuma jogada possível para clicar.")

    else:
        print("⚠️ Nenhuma deteção feita no tabuleiro.")

    time.sleep(5)  # tempo ajustável entre jogadas


0: 640x640 12 blues, 11 greens, 11 purples, 12 reds, 10 yellows, 302.1ms
Speed: 2.9ms preprocess, 302.1ms inference, 1.2ms postprocess per image at shape (1, 3, 640, 640)

✅ Detetou 56 objetos.
📌 Mapa do tabuleiro:
[None, 'purple', 'purple', 'red', 'purple', 'yellow', 'blue', None]
['red', 'yellow', 'red', 'green', 'red', 'yellow', 'blue', 'green']
[None, 'blue', 'green', 'blue', 'green', 'red', 'yellow', None]
['green', 'red', 'green', 'green', 'blue', 'green', 'purple', 'green']
['green', 'yellow', 'purple', 'red', 'red', 'purple', 'purple', 'green']
[None, 'blue', 'yellow', 'blue', 'blue', 'yellow', 'blue', None]
['red', 'red', 'purple', 'yellow', 'purple', 'yellow', 'yellow', 'red']
[None, 'blue', 'purple', 'blue', 'purple', 'red', 'blue', None]

🔄 Combinações possíveis:

0: 640x512 1 1, 2 6s, 226.3ms
Speed: 1.8ms preprocess, 226.3ms inference, 1.3ms postprocess per image at shape (1, 3, 640, 512)
[DEBUG] Objetivos detetados:

💡 Jogada comum melhor: ((2, 4), (3, 4)) com combo 4

0

KeyboardInterrupt: 