In [16]:
import numpy as np

In [17]:
class Epsilon_greedy:
    def __init__(self, n_arms, eps=0.1):
        """
        - n_arms: количество рук
        - epsilon: вероятность случайного выбора
        """
        self.n_arms = n_arms
        self.eps = eps
        self.counts = np.zeros(n_arms)
        self.values = np.zeros(n_arms)

    def select_arm(self):
        if np.random.random() < self.eps:
            return np.random.randint(self.n_arms)
        else:
            return np.argmax(self.values)

    def update(self, chosen_arm, reward):
        """
        - chosen_arm: выбранная рука
        - reward: полученная награда
        """
        self.counts[chosen_arm] += 1
        n = self.counts[chosen_arm]
        value = self.values[chosen_arm]
        new_value = ((n - 1) / n) * value + (1 / n) * reward
        self.values[chosen_arm] = new_value

In [18]:
n_arms = 2
n_steps = 100
eps = 0.2

true_means = np.random.uniform(0, 1, n_arms)
print(f"Истинные средние значения: {true_means}")

bandit = Epsilon_greedy(n_arms, eps)
rewards = []
optimal_actions = []

for step in range(n_steps):
    arm = bandit.select_arm()
    reward = np.random.normal(true_means[arm], 0.1)
    bandit.update(arm, reward)
    rewards.append(reward)

print(f"\nОценки средних наград: {bandit.values}")
print(f"Количество выборов каждой руки: {bandit.counts}")

Истинные средние значения: [0.27615472 0.43973022]

Оценки средних наград: [0.26853311 0.45216608]
Количество выборов каждой руки: [13. 87.]
