In [1]:
import random

# Παράμετροι παιχνιδιού
actions = ["rock", "paper", "scissors"]  # Οι ενέργειες του ΚΑ
reward = {"win": 1, "lose": -1, "draw": 0}  # Ανταμοιβή για την εκάστοτε κατάσταση

# Q-table για το ΚΑ (σημείο μάθησης)
Q = {action: {action: 0 for action in actions} for action in actions}

# Συνάρτηση για να επιλέξει την ενέργεια του ΚΑ με βάση την Q-table
def choose_action(state, epsilon=0.1):
    if random.uniform(0, 1) < epsilon:
        # Τυχαία επιλογή ενέργειας (exploration)
        return random.choice(actions)
    else:
        # Επιλογή της καλύτερης ενέργειας σύμφωνα με την Q-table (exploitation)
        return max(Q[state], key=Q[state].get)

# Συνάρτηση για να υπολογίσει το αποτέλεσμα του παιχνιδιού
def game_result(player_action, opponent_action):
    if player_action == opponent_action:
        return "draw"
    elif (player_action == "rock" and opponent_action == "scissors") or \
         (player_action == "scissors" and opponent_action == "paper") or \
         (player_action == "paper" and opponent_action == "rock"):
        return "win"
    else:
        return "lose"

# Συνάρτηση για να ενημερώσει την Q-table με βάση το αποτέλεσμα του παιχνιδιού
def update_q_table(player_action, opponent_action, result, alpha=0.1, gamma=0.9):
    reward_value = reward[result]
    best_future_q = max(Q[opponent_action].values())  # Η καλύτερη πιθανότητα από την επόμενη κατάσταση
    Q[player_action][opponent_action] += alpha * (reward_value + gamma * best_future_q - Q[player_action][opponent_action])

# Εκπαίδευση του ΚΑ με Q-learning
def train(episodes=10000):
    for _ in range(episodes):
        player_action = random.choice(actions)  # Τυχαία αρχική ενέργεια για τον ΚΑ
        opponent_action = random.choice(actions)  # Τυχαία αρχική ενέργεια για τον αντίπαλο

        # Παίξιμο του παιχνιδιού
        result = game_result(player_action, opponent_action)

        # Ενημέρωση της Q-table
        update_q_table(player_action, opponent_action, result)

# Δοκιμή του εκπαιδευμένου ΚΑ
def test():
    player_action = choose_action("rock")  # Επιλέγουμε την καλύτερη στρατηγική για την "rock" κατάσταση
    opponent_action = random.choice(actions)
    result = game_result(player_action, opponent_action)
    print(f"Player chose {player_action}, Opponent chose {opponent_action}, Result: {result}")

# Εκπαίδευση του ΚΑ
train()

# Δοκιμή του εκπαιδευμένου ΚΑ
test()


Player chose scissors, Opponent chose paper, Result: win


In [6]:
import random
import ipywidgets as widgets
from IPython.display import display

# Παράμετροι παιχνιδιού
actions = ["rock", "paper", "scissors"]  # Οι ενέργειες του ΚΑ
reward = {"win": 1, "lose": -1, "draw": 0}  # Ανταμοιβή για την εκάστοτε κατάσταση

# Q-table για το ΚΑ (σημείο μάθησης)
Q = {action: {action: 0 for action in actions} for action in actions}

# Χάρτης από ελληνικές λέξεις σε αγγλικές για τις επιλογές του παίκτη
action_map = {
    "Πέτρα": "rock",
    "Χαρτί": "paper",
    "Ψαλίδι": "scissors"
}

# Συνάρτηση για να επιλέξει την ενέργεια του ΚΑ με βάση την Q-table
def choose_action(state, epsilon=0.1):
    if random.uniform(0, 1) < epsilon:
        # Τυχαία επιλογή ενέργειας (exploration)
        return random.choice(actions)
    else:
        # Επιλογή της καλύτερης ενέργειας σύμφωνα με την Q-table (exploitation)
        return max(Q[state], key=Q[state].get)

# Συνάρτηση για να υπολογίσει το αποτέλεσμα του παιχνιδιού
def game_result(player_action, opponent_action):
    if player_action == opponent_action:
        return "draw"
    elif (player_action == "rock" and opponent_action == "scissors") or \
         (player_action == "scissors" and opponent_action == "paper") or \
         (player_action == "paper" and opponent_action == "rock"):
        return "win"
    else:
        return "lose"

# Συνάρτηση για να ενημερώσει την Q-table με βάση το αποτέλεσμα του παιχνιδιού
def update_q_table(player_action, opponent_action, result, alpha=0.1, gamma=0.9):
    reward_value = reward[result]
    best_future_q = max(Q[opponent_action].values())  # Η καλύτερη πιθανότητα από την επόμενη κατάσταση
    Q[player_action][opponent_action] += alpha * (reward_value + gamma * best_future_q - Q[player_action][opponent_action])

# Εκπαίδευση του ΚΑ με Q-learning
def train(episodes=10000):
    for _ in range(episodes):
        player_action = random.choice(actions)  # Τυχαία αρχική ενέργεια για τον ΚΑ
        opponent_action = random.choice(actions)  # Τυχαία αρχική ενέργεια για τον αντίπαλο

        # Παίξιμο του παιχνιδιού
        result = game_result(player_action, opponent_action)

        # Ενημέρωση της Q-table
        update_q_table(player_action, opponent_action, result)

# Συνάρτηση που εμφανίζει το αποτέλεσμα και ανανεώνει την Q-table
def play_round(player_choice):
    # Μετατροπή από ελληνικό όνομα σε αγγλικό
    player_action = action_map[player_choice]
    opponent_choice = choose_action(player_action)  # Ο ΚΑ επιλέγει την ενέργειά του
    result = game_result(player_action, opponent_choice)

    # Ενημέρωση Q-table
    update_q_table(player_action, opponent_choice, result)

    # Εμφάνιση αποτελέσματος
    if result == "win":
        result_text = f"Εσύ κέρδισες! (Επέλεξες {player_choice}, Αντίπαλος {opponent_choice})"
    elif result == "lose":
        result_text = f"Εσύ έχασες! (Επέλεξες {player_choice}, Αντίπαλος {opponent_choice})"
    else:
        result_text = f"Ισοπαλία! (Επέλεξες {player_choice}, Αντίπαλος {opponent_choice})"

    print(result_text)

# Δημιουργία κουμπιών για τη γραφική διεπαφή στο Colab
def create_colab_gui():
    # Δημιουργία κουμπιών επιλογής
    rock_button = widgets.Button(description="Πέτρα")
    paper_button = widgets.Button(description="Χαρτί")
    scissors_button = widgets.Button(description="Ψαλίδι")

    # Λειτουργία για να χειριστεί την επιλογή του παίκτη
    def on_button_click(b):
        player_choice = b.description  # Χρήση του ελληνικού κειμένου
        play_round(player_choice)

    # Σύνδεση των κουμπιών με τη λειτουργία
    rock_button.on_click(on_button_click)
    paper_button.on_click(on_button_click)
    scissors_button.on_click(on_button_click)

    # Εμφάνιση των κουμπιών
    display(rock_button, paper_button, scissors_button)

# Εκπαίδευση του ΚΑ
train()

# Δημιουργία γραφικής διεπαφής
create_colab_gui()


Button(description='Πέτρα', style=ButtonStyle())

Button(description='Χαρτί', style=ButtonStyle())

Button(description='Ψαλίδι', style=ButtonStyle())

Εσύ κέρδισες! (Επέλεξες Πέτρα, Αντίπαλος scissors)
Εσύ κέρδισες! (Επέλεξες Χαρτί, Αντίπαλος rock)
Εσύ κέρδισες! (Επέλεξες Ψαλίδι, Αντίπαλος paper)
Εσύ κέρδισες! (Επέλεξες Χαρτί, Αντίπαλος rock)
Εσύ κέρδισες! (Επέλεξες Πέτρα, Αντίπαλος scissors)
Εσύ κέρδισες! (Επέλεξες Χαρτί, Αντίπαλος rock)
Εσύ κέρδισες! (Επέλεξες Πέτρα, Αντίπαλος scissors)
Εσύ κέρδισες! (Επέλεξες Ψαλίδι, Αντίπαλος paper)


In [7]:
import random
import ipywidgets as widgets
from IPython.display import display, Image, clear_output

# Παράμετροι παιχνιδιού
actions = ["rock", "paper", "scissors"]  # Οι ενέργειες του ΚΑ
reward = {"win": 1, "lose": -1, "draw": 0}  # Ανταμοιβή για την εκάστοτε κατάσταση

# Q-table για το ΚΑ (σημείο μάθησης)
Q = {action: {action: 0 for action in actions} for action in actions}

# Χάρτης από ελληνικές λέξεις σε αγγλικές για τις επιλογές του παίκτη
action_map = {
    "Πέτρα": "rock",
    "Χαρτί": "paper",
    "Ψαλίδι": "scissors"
}

# Εικόνες για τις επιλογές
images = {
    "rock": "https://upload.wikimedia.org/wikipedia/commons/2/28/Rock-paper-scissors_rock.png",
    "paper": "https://upload.wikimedia.org/wikipedia/commons/2/21/Rock-paper-scissors_paper.png",
    "scissors": "https://upload.wikimedia.org/wikipedia/commons/3/3e/Rock-paper-scissors_scissors.png"
}

# Συνάρτηση για να επιλέξει την ενέργεια του ΚΑ με βάση την Q-table
def choose_action(state, epsilon=0.1):
    if random.uniform(0, 1) < epsilon:
        # Τυχαία επιλογή ενέργειας (exploration)
        return random.choice(actions)
    else:
        # Επιλογή της καλύτερης ενέργειας σύμφωνα με την Q-table (exploitation)
        return max(Q[state], key=Q[state].get)

# Συνάρτηση για να υπολογίσει το αποτέλεσμα του παιχνιδιού
def game_result(player_action, opponent_action):
    if player_action == opponent_action:
        return "draw"
    elif (player_action == "rock" and opponent_action == "scissors") or \
         (player_action == "scissors" and opponent_action == "paper") or \
         (player_action == "paper" and opponent_action == "rock"):
        return "win"
    else:
        return "lose"

# Συνάρτηση για να ενημερώσει την Q-table με βάση το αποτέλεσμα του παιχνιδιού
def update_q_table(player_action, opponent_action, result, alpha=0.1, gamma=0.9):
    reward_value = reward[result]
    best_future_q = max(Q[opponent_action].values())  # Η καλύτερη πιθανότητα από την επόμενη κατάσταση
    Q[player_action][opponent_action] += alpha * (reward_value + gamma * best_future_q - Q[player_action][opponent_action])

# Εκπαίδευση του ΚΑ με Q-learning
def train(episodes=10000):
    for _ in range(episodes):
        player_action = random.choice(actions)  # Τυχαία αρχική ενέργεια για τον ΚΑ
        opponent_action = random.choice(actions)  # Τυχαία αρχική ενέργεια για τον αντίπαλο

        # Παίξιμο του παιχνιδιού
        result = game_result(player_action, opponent_action)

        # Ενημέρωση της Q-table
        update_q_table(player_action, opponent_action, result)

# Συνάρτηση που εμφανίζει το αποτέλεσμα και ανανεώνει την Q-table
def play_round(player_choice):
    # Μετατροπή από ελληνικό όνομα σε αγγλικό
    player_action = action_map[player_choice]
    opponent_choice = choose_action(player_action)  # Ο ΚΑ επιλέγει την ενέργειά του
    result = game_result(player_action, opponent_choice)

    # Ενημέρωση Q-table
    update_q_table(player_action, opponent_choice, result)

    # Καθαρισμός οθόνης και εμφάνιση γραφικών
    clear_output(wait=True)

    # Εμφάνιση επιλογής του παίκτη
    print(f"Εσύ επέλεξες: {player_choice}")
    display(Image(url=images[player_action], width=100, height=100))

    # Εμφάνιση επιλογής του ΚΑ
    print(f"Ο ΚΑ επέλεξε: {opponent_choice}")
    display(Image(url=images[opponent_choice], width=100, height=100))

    # Εμφάνιση αποτελέσματος
    if result == "win":
        result_text = f"Εσύ κέρδισες! (Επέλεξες {player_choice}, Αντίπαλος {opponent_choice})"
    elif result == "lose":
        result_text = f"Εσύ έχασες! (Επέλεξες {player_choice}, Αντίπαλος {opponent_choice})"
    else:
        result_text = f"Ισοπαλία! (Επέλεξες {player_choice}, Αντίπαλος {opponent_choice})"

    print(result_text)

# Δημιουργία κουμπιών για τη γραφική διεπαφή στο Colab
def create_colab_gui():
    # Δημιουργία κουμπιών επιλογής
    rock_button = widgets.Button(description="Πέτρα")
    paper_button = widgets.Button(description="Χαρτί")
    scissors_button = widgets.Button(description="Ψαλίδι")

    # Λειτουργία για να χειριστεί την επιλογή του παίκτη
    def on_button_click(b):
        player_choice = b.description  # Χρήση του ελληνικού κειμένου
        play_round(player_choice)

    # Σύνδεση των κουμπιών με τη λειτουργία
    rock_button.on_click(on_button_click)
    paper_button.on_click(on_button_click)
    scissors_button.on_click(on_button_click)

    # Εμφάνιση των κουμπιών
    display(rock_button, paper_button, scissors_button)

# Εκπαίδευση του ΚΑ
train()

# Δημιουργία γραφικής διεπαφής
create_colab_gui()


Εσύ επέλεξες: Πέτρα


Ο ΚΑ επέλεξε: rock


Ισοπαλία! (Επέλεξες Πέτρα, Αντίπαλος rock)
