#  Epsilon Greedy faz?

Esse modelo se concentra em duas abordagens: Imagine que voce esta em uma sorveteria, e precisa definir seu sabor favorito.

Experimentar algo novo: Provar um sabor que voc√™ nunca experimentou antes (como sorvete de manga!).

Escolher o que j√° conhece e gosta: Pegar seu favorito, como chocolate, porque sabe que √© bom.

Por que isso √© importante?
Se voc√™ s√≥ pegar chocolate, pode estar perdendo outros sabores incr√≠veis. Mas se s√≥ experimentar novos, talvez nunca aproveite o chocolate que j√° ama. Ent√£o, o computador (ou voc√™, na loja) precisa equilibrar essas escolhas!

Como ele decide?
O algoritmo usa uma coisinha chamada Epsilon (Œµ). Imagine que o Epsilon √© uma moedinha m√°gica:

Quando jogamos a moeda e d√° "cara", provamos um sabor novo (explora√ß√£o üçã).
Quando d√° "coroa", escolhemos nosso favorito de sempre (explora√ß√£o de conhecimento üç´).
No come√ßo, Epsilon ajuda a experimentar bastante, mas depois ele vai deixando voc√™ aproveitar o que j√° sabe que √© bom.

Onde isso √© usado?
Esse m√©todo √© usado em v√°rias coisas legais, como:

YouTube: Para decidir quais v√≠deos recomendar para voc√™.
Jogos: Para ensinar rob√¥s a jogar melhor.
Compras online: Para mostrar produtos que voc√™ pode gostar.
Vantagens e desvantagens
Bom: √â f√°cil de usar e funciona bem em muitos casos.
Ruim: Pode gastar muito tempo explorando coisas que n√£o s√£o t√£o boas no in√≠cio.

Exemplo pr√°tico
Imagine que voc√™ tem 3 sabores de sorvete: baunilha, morango e lim√£o. Voc√™ come√ßa sem saber qual √© o melhor. Cada vez que prova um sabor, d√° uma nota. A m√°quina (ou voc√™) usa essas notas para decidir o que provar da pr√≥xima vez.








In [5]:
import random
import logging

# Configura√ß√£o do logging
logging.basicConfig(level=logging.INFO, format='%(message)s')

# Passo 1: Definir os sabores de sorvete e as recompensas
sabores = ["Baunilha", "Morango", "Lim√£o"]

# Recompensas simuladas para cada sabor (quanto gostamos deles)
recompensas_reais = {"Baunilha": 7, "Morango": 9, "Lim√£o": 6}

# Passo 2: Inicializar as estimativas de recompensa e contadores
valores_estimados = {sabor: 0 for sabor in sabores}  # Valor m√©dio estimado de cada sabor
contagem = {sabor: 0 for sabor in sabores}  # Quantas vezes provamos cada sabor
epsilon = 0.1  # Taxa de explora√ß√£o (10%)

# Passo 3: Fun√ß√£o para simular a recompensa de um sabor
def experimentar_sabor(sabor):
    # Retorna uma recompensa baseada no sabor real com um pouco de aleatoriedade
    recompensa = random.randint(recompensas_reais[sabor] - 2, recompensas_reais[sabor] + 2)
    logging.info(f"Recompensa real do sabor {sabor}: {recompensa}")
    return recompensa

# Passo 4: Rodar o algoritmo Epsilon Greedy
total_rodadas = 50

for rodada in range(total_rodadas):
    logging.info(f"\nRodada {rodada + 1}/{total_rodadas}")
    
    # Decidir se vamos explorar ou explorar
    if random.random() < epsilon:
        # Explorar: Escolher um sabor aleat√≥rio
        sabor_escolhido = random.choice(sabores)
        logging.info(f"Explorando: escolhemos aleatoriamente o sabor {sabor_escolhido}")
    else:
        # Explorar: Escolher o sabor com maior recompensa estimada
        sabor_escolhido = max(valores_estimados, key=valores_estimados.get)
        logging.info(f"Exploitando: escolhemos o sabor com maior valor estimado: {sabor_escolhido}")
    
    # Provar o sabor e obter a recompensa
    recompensa = experimentar_sabor(sabor_escolhido)
    
    # Atualizar as estimativas e contagem para o sabor escolhido
    contagem[sabor_escolhido] += 1
    valores_estimados[sabor_escolhido] += (recompensa - valores_estimados[sabor_escolhido]) / contagem[sabor_escolhido]
    
    logging.info(f"Nova estimativa de {sabor_escolhido}: {valores_estimados[sabor_escolhido]:.2f}")
    logging.info(f"Total de vezes que {sabor_escolhido} foi escolhido: {contagem[sabor_escolhido]}")

# Passo 5: Mostrar os resultados
logging.info("\nEstimativas finais de recompensa para cada sabor:")
for sabor, valor in valores_estimados.items():
    logging.info(f"{sabor}: {valor:.2f} (Provado {contagem[sabor]} vezes)")

# Determinar o sabor mais gostoso
melhor_sabor = max(valores_estimados, key=valores_estimados.get)
logging.info(f"\nO sabor mais gostoso √©: {melhor_sabor} üç¶!")



Rodada 1/50
Explorando: escolhemos aleatoriamente o sabor Lim√£o
Recompensa real do sabor Lim√£o: 6
Nova estimativa de Lim√£o: 6.00
Total de vezes que Lim√£o foi escolhido: 1

Rodada 2/50
Exploitando: escolhemos o sabor com maior valor estimado: Lim√£o
Recompensa real do sabor Lim√£o: 5
Nova estimativa de Lim√£o: 5.50
Total de vezes que Lim√£o foi escolhido: 2

Rodada 3/50
Exploitando: escolhemos o sabor com maior valor estimado: Lim√£o
Recompensa real do sabor Lim√£o: 4
Nova estimativa de Lim√£o: 5.00
Total de vezes que Lim√£o foi escolhido: 3

Rodada 4/50
Exploitando: escolhemos o sabor com maior valor estimado: Lim√£o
Recompensa real do sabor Lim√£o: 8
Nova estimativa de Lim√£o: 5.75
Total de vezes que Lim√£o foi escolhido: 4

Rodada 5/50
Explorando: escolhemos aleatoriamente o sabor Baunilha
Recompensa real do sabor Baunilha: 6
Nova estimativa de Baunilha: 6.00
Total de vezes que Baunilha foi escolhido: 1

Rodada 6/50
Exploitando: escolhemos o sabor com maior valor estimado: Bauni

In [6]:
import random
import logging

# Configura√ß√£o do logging para mostrar informa√ß√µes detalhadas
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(message)s')

# Lista de sabores de sorvete
sabores = ["chocolate", "baunilha", "morango"]

# N√∫mero de vezes que cada sabor foi escolhido e as recompensas acumuladas
num_escolhas = {sabor: 0 for sabor in sabores}
recompensas = {sabor: 0 for sabor in sabores}

# Par√¢metro epsilon para controle da explora√ß√£o
epsilon = 0.1

# Fun√ß√£o para simular a recompensa de um sabor de sorvete
def simular_recompensa(sabor):
    if sabor == "chocolate":
        return random.uniform(0.7, 1.0)  # Chocolate √© o mais popular
    elif sabor == "baunilha":
        return random.uniform(0.5, 0.8)
    elif sabor == "morango":
        return random.uniform(0.3, 0.6)

# Fun√ß√£o para escolher o sabor com a maior recompensa m√©dia at√© agora
def escolher_melhor_sabor():
    melhor_sabor = max(sabores, key=lambda sabor: recompensas[sabor] / num_escolhas[sabor] if num_escolhas[sabor] > 0 else 0)
    return melhor_sabor

# Simula√ß√£o de 50 escolhas
num_rodadas = 50
for rodada in range(1, num_rodadas + 1):
    if random.random() < epsilon:
        # Explorar: escolher um sabor aleat√≥rio
        sabor_escolhido = random.choice(sabores)
        logging.info(f"Rodada {rodada}: Explorando! Escolhendo um sabor aleat√≥rio: {sabor_escolhido}")
    else:
        # Aproveitar: escolher o melhor sabor conhecido
        sabor_escolhido = escolher_melhor_sabor()
        logging.info(f"Rodada {rodada}: Aproveitando! Escolhendo o melhor sabor conhecido: {sabor_escolhido}")

    # Simular a recompensa e atualizar os registros
    recompensa = simular_recompensa(sabor_escolhido)
    num_escolhas[sabor_escolhido] += 1
    recompensas[sabor_escolhido] += recompensa

    logging.info(f"Rodada {rodada}: Recompensa obtida: {recompensa:.2f}")

# Exibir os resultados finais
logging.info("Resultados finais:")
for sabor in sabores:
    media_recompensa = recompensas[sabor] / num_escolhas[sabor] if num_escolhas[sabor] > 0 else 0
    logging.info(f"{sabor}: escolhido {num_escolhas[sabor]} vezes, recompensa m√©dia = {media_recompensa:.2f}")


Rodada 1: Aproveitando! Escolhendo o melhor sabor conhecido: chocolate
Rodada 1: Recompensa obtida: 0.82
Rodada 2: Aproveitando! Escolhendo o melhor sabor conhecido: chocolate
Rodada 2: Recompensa obtida: 0.88
Rodada 3: Aproveitando! Escolhendo o melhor sabor conhecido: chocolate
Rodada 3: Recompensa obtida: 0.96
Rodada 4: Aproveitando! Escolhendo o melhor sabor conhecido: chocolate
Rodada 4: Recompensa obtida: 0.88
Rodada 5: Aproveitando! Escolhendo o melhor sabor conhecido: chocolate
Rodada 5: Recompensa obtida: 0.85
Rodada 6: Aproveitando! Escolhendo o melhor sabor conhecido: chocolate
Rodada 6: Recompensa obtida: 0.75
Rodada 7: Aproveitando! Escolhendo o melhor sabor conhecido: chocolate
Rodada 7: Recompensa obtida: 0.85
Rodada 8: Aproveitando! Escolhendo o melhor sabor conhecido: chocolate
Rodada 8: Recompensa obtida: 0.85
Rodada 9: Aproveitando! Escolhendo o melhor sabor conhecido: chocolate
Rodada 9: Recompensa obtida: 0.81
Rodada 10: Aproveitando! Escolhendo o melhor sabor conh