Esse notebook trás funções que buscam fazer a estimativa da proficiência do tipo $v = [v_1, ~v_2]$ para jogadores de tênis, bem como executar o cálculo da probabilidade de um atleta de proficiência $v = [v_1, ~v_2]$ ganhar de um atleta com proficiência $u = [u_1, ~u_2]$.

Abaixo temos o desenvolvimento das funções que calculam as propabilidades, onde $P(A\mbox{ ganhar de }B) = \dfrac{1}{1 + \exp(-logit)}$, onde $logit = \dfrac{v_2}{u_1} - \dfrac{u_2}{v_1}$, além do desenvolvimento da função que calcula o log da verossimilhança negativa, dessa teremos valores positivos, uma vez que o log de cada termo do produtório é negativo, e buscaremos minimizar esse valor.

In [1]:
import math

def calcula_prob(v, u):
    # calcula a probabilidade de acordo com a ideia do logit
    # recebe dois vetores v = [v1, v2] e u = [u1, u2]
    # retorna um vetor p = [p1, p2] com a prob do jogador 1 ganhar do 2 e do 2 ganhar do 1
    logit = v[1]/u[0] - u[1]/v[0]
    p = [0, 0]
    p[0] = 1/(1 + math.exp(-logit))
    p[1] = 1 - p[0]
    
    return p

def verossimilhanca(resultados, jogadores):
    # faz o cálculo da verossimilhança negativa dado como entrada uma lista
    # de resultados e uma lista de parâmetros, conforme abaixo
    
    # resultados é uma lista de lista/matriz n x 2, onde cada lista/linha
    # representa um jogo, sendo da forma [ID_w, ID_l]
    # parâmetros é a lista de parâmetros dos jogadores, assim parâmetros[0]
    # contém os parâmetros do jogador de ID = 0
    
    log_ver = 0
    p = [0, 0]
    
    for i in range(len(resultados)):
        p = calcula_prob(jogadores[resultados[i][0]], jogadores[resultados[i][1]])
        log_ver += math.log(p[0])
    
    return - log_ver

Definida as funções, abaixo temos um pequeno teste para ver como a função que calcula as probabilidades está funcionando:

In [2]:
P1 = [   1,               0]
P2 = [-0.5,  math.sqrt(3)/2]
P3 = [-0.5, -math.sqrt(3)/2]

print("Jogo entre P1 e P2:", calcula_prob(P1, P2))
print("Jogo entre P2 e P3:", calcula_prob(P2, P3))
print("Jogo entre P3 e P1:", calcula_prob(P3, P1))

Jogo entre P1 e P2: [0.2960820052793571, 0.7039179947206429]
Jogo entre P2 e P3: [0.030351090329424395, 0.9696489096705756]
Jogo entre P3 e P1: [0.2960820052793571, 0.7039179947206429]


Estranhei o fato de que na abordagem anterior, vista abaixo, esses 3 vetores geravam probabilidades iguais para esses jogos, ou seja, tínhamos $P(P_1\mbox{ vencer }P_2) = (P_2\mbox{ vencer }P_3) = (P_3\mbox{ vencer }P_1)$, o que agora difere.

Abaixo temos um teste da função que calcula o log da verossimilhança negativa:

In [3]:
resultados = [[0, 1], [1, 2], [2, 0], [2, 1]]
jogadores = [P1, P2, P3]

verossimilhanca(resultados, jogadores)

5.959981695062614

O primeiro elemento da lista de resultados indica que o jogador 0 (P1), ganhou do jogador 1 (P2). O mesmo sendo válido aos demais elementos dessa lista.

## Testes anteriores

Abaixo temos as funções elaboradas para calcular a probabilidade e, dada tal probabilidade, calcular os pares u e v de proficiência dos atletas. Por enquanto, funciona apenas para o caso em que temos dois atletas.

In [None]:
import math

def calcula_prob(v, u):
    # recebe dois vetores v = [v1, v2] e u = [u1, u2]
    # retorna um vetor p = [p1, p2] com a prob do jogador 1 ganhar do 2 e do 2 ganhar do 1
    p = [0, 0]
    p[0] = math.exp(u[0]*v[1])/(math.exp(u[0]*v[1]) + math.exp(u[1]*v[0]))
    p[1] = 1 - p[0]
    
    return p

def gera_parametro(p):
    # p = [p0, p1], onde p0 = x/(x + y) e p1 = y/(x + y), com x = e^(u0*v1) e y = e^(v0*u1)
    # queremos encontrar v = [v0, v1] e u = [u0, u1]
    x = math.log(p[0]) # faz x = ln(x) - ln(x + y) = ln(x) = u0*v1
    y = math.log(p[1]) # faz y = ln(y) - ln(x + y) = ln(y) = v0*u1
    
    # considerando u0 = 1 = v0, temos que 
    u = [1, x]
    v = [1, y]
    
    '''
    tentativa de normalizar
    
    v = [1/math.sqrt(1 + x**2), x/math.sqrt(1 + x**2)]
    u = [1/math.sqrt(1 + y**2), y/math.sqrt(1 + y**2)]
    '''
    
    return [u, v]

Abaixo definimos 3 proficiências com vetores que formam ângulos de $120^{\circ}$ entre si. Note que a probabilidade de $v_2$ ganhar de $v_1$ é maior que a de $v_2$ perder para o mesmo. Além disso, a probabilidade de $v_3$ ganhar de $v_2$ é maior que a $v_3$ perder, mas a probabilidade de $v_3$ perder para $v_1$ é maior que a de ganhar de $v_1$, assim, não há linearidade no modelo.

In [None]:
v1 = [   1,               0]
v2 = [-0.5,  math.sqrt(3)/2]
v3 = [-0.5, -math.sqrt(3)/2]

print("Jogo entre v1 e v2:", calcula_prob(v1, v2))
print("Jogo entre v2 e v3:", calcula_prob(v2, v3))
print("Jogo entre v3 e v1:", calcula_prob(v3, v1))

Abaixo temos o cálculo da probabilidade com as proficiências $v_1$ e $v_2$, em seguida, tomamos o vetor de probabilidades e calculamos os parâmetros, os quais diferem dos valores iniciais ($v_1$ e $v_2$), mas que, como podemos ver em seguida, geram as mesmas probabilidades.

In [None]:
p = calcula_prob(v1, v2)
param = gera_parametro(p)
q = calcula_prob(param[0], param[1])
print("Probabilidades com p:", p)
print("Parâmetros:", param)
print("Probabilidades os parâmetros encontrados:", q)

Agora a ideia é buscar fazer a mesma estimação dos parâmetros, mas dando como entrada alguns pares ordenados que representam as probabilidades (ou uma estimativa das mesmas) e com isso gerar os parâmetros.