# `Thompson Sampling`


#### O algoritmo Thompson Sampling é um algoritmo de reinforcement learning do time MAB (Multi Armed Bandit). Um MAB tenta resolver um problema onde você possui várias opções de escolha e tem como objetivo maximizar a sua recompensa obtida numa escolha vencedora. Surgiu com o caça-níquel e hoje utilizamos em muitas aplicações de mercado.

<br>

#### A ideia é que, uma vez identificada a opção que te dá recompensas mais vezes, você passa a majoritariamente escolher essa opção, até que uma outra opção se mostre melhor.

<br>

![alt_text](https://blogs.mathworks.com/images/loren/2016/multiarmedbandit.jpg)

<br>

#### O Thompson Sampling é um MAB que utiliza estatística Bayesiana, numa combinação de uma priori com distribuição de Bernoulli e uma posteriori com distribuição Beta(a, b). Nesse caso,

<br>

* a = número de vezes que se obteve uma recompensa na escolha (sucessos) + 1
* b = número de vezes que não se obteve uma recompensa na escolha (fracassos) + 1

<br>

![alt_text](https://gdmarmerola.github.io/assets/img/posts/ts_for_mab_cover.jpg)

<br>

#### Portanto, cada opção vai ter sua própria distribuição Beta com seus próprios a e b. A partir daí, nós calculamos uma amostra de tamanho 1 de cada distribuição e a que apresentar o maior resultado será a opção escolhida.

<br>

#### As opções com uma taxa de sucesso maior vão ter uma maior probabilidade de terem amostras maiories e, portanto, serão mais escolhidas.

#### Exemplo


Digamos que lançamos uma matéria num portal de notícias, mas a editoria não sabe qual a melhor opção de título da matéria mais vai atrair cliques para a notícia. A editoria criou 4 títulos interessantes, e vamos usar um Thompson Sampling para decidir qual o melhor título da matéria e mostra-lo para a maioria dos usuários que acessar o portal.

In [1]:
# num primeiro momento, a e b serão iguais a 1 para as quatro matérias


titulo_1_a = 0 + 1
titulo_1_b = 0 + 1

titulo_2_a = 0 + 1
titulo_2_b = 0 + 1

titulo_3_a = 0 + 1
titulo_3_b = 0 + 1

titulo_4_a = 0 + 1
titulo_4_b = 0 + 1

In [2]:
# agora, vamos amostrar das Betas de cada título
from numpy.random import beta

In [5]:
t1 = beta(a = titulo_1_a, b = titulo_1_b, size = 1)
t2 = beta(a = titulo_2_a, b = titulo_2_b, size = 1)
t3 = beta(a = titulo_3_a, b = titulo_3_b, size = 1)
t4 = beta(a = titulo_4_a, b = titulo_4_b, size = 1)



print("Resultado para o título 1: {}".format(t1))
print("Resultado para o título 2: {}".format(t2))
print("Resultado para o título 3: {}".format(t3))
print("Resultado para o título 4: {}".format(t4))

Resultado para o título 1: [0.10411888]
Resultado para o título 2: [0.28099458]
Resultado para o título 3: [0.53751817]
Resultado para o título 4: [0.44375402]


A cada vez que for amostrado, vamos mostrar o maior resultado e guardar se foi sucesso (clicado) ou fracasso (não clicado).

Depois de uma hora no site, os resultados são:

* Título 1 - 1000 clicks e 5000 sem clicks
* Título 2 - 987 clicks e 4763 sem clicks
* Título 3 - 1563 clicks e 7580 sem clicks
* Título 4 - 804 clicks e 4503 sem clicks


Vamos ver como ficam os resultados agora!

In [7]:
titulo_1_a = 1000 + 1
titulo_1_b = 5000 + 1

titulo_2_a = 987 + 1
titulo_2_b = 4763 + 1

titulo_3_a = 1563 + 1
titulo_3_b = 7580 + 1

titulo_4_a = 804 + 1
titulo_4_b = 4503 + 1

In [8]:
t1 = beta(a = titulo_1_a, b = titulo_1_b, size = 1)
t2 = beta(a = titulo_2_a, b = titulo_2_b, size = 1)
t3 = beta(a = titulo_3_a, b = titulo_3_b, size = 1)
t4 = beta(a = titulo_4_a, b = titulo_4_b, size = 1)



print("Resultado para o título 1: {}".format(t1))
print("Resultado para o título 2: {}".format(t2))
print("Resultado para o título 3: {}".format(t3))
print("Resultado para o título 4: {}".format(t4))

Resultado para o título 1: [0.17527351]
Resultado para o título 2: [0.17839593]
Resultado para o título 3: [0.16143327]
Resultado para o título 4: [0.13596768]


In [10]:
t1 = beta(a = titulo_1_a, b = titulo_1_b, size = 1)
t2 = beta(a = titulo_2_a, b = titulo_2_b, size = 1)
t3 = beta(a = titulo_3_a, b = titulo_3_b, size = 1)
t4 = beta(a = titulo_4_a, b = titulo_4_b, size = 1)



print("Resultado para o título 1: {}".format(t1))
print("Resultado para o título 2: {}".format(t2))
print("Resultado para o título 3: {}".format(t3))
print("Resultado para o título 4: {}".format(t4))

Resultado para o título 1: [0.16372262]
Resultado para o título 2: [0.167092]
Resultado para o título 3: [0.17281809]
Resultado para o título 4: [0.14982291]


Os títulos 2 e 3 parecem ser os melhores!!