<a href="https://colab.research.google.com/github/heloisatambara/computacao-e-simulacao/blob/main/QuaseProntoFaltaRef.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from scipy.stats import chi2
from scipy.optimize import minimize_scalar

import numpy as np
#import matplotlib.pyplot as plt
from datetime import datetime

import math 

In [3]:
def theta(theta1,theta3):
    # funcao potencial
    theta2 = 1 - theta1 - theta3
    if theta1 <0 or theta2<0 or theta3<0:
        return 0
    y = ((theta1**(x1-1))*(theta2**(x2-1))*(theta3**(x3-1)))
    return y
    

def alpha(i,j):
    # alpha de aceitacao utilizado
    if theta(i[0],i[1]) == 0: return 1
    return theta(j[0],j[1])/theta(i[0],i[1])


    
###############################################################################
    
    
def MCMC(aquecimento,tamanho_da_cadeia,saltos,mean,cov,ponto_inicial):
    #gera uma cadeia a partir do n do aquecimento, n do tamanho da cadeia e
    # tamanho dos saltos, matriz de covariancia e ponto inicial
    # funciona apenas para dimensao dois
    
    
    # total de pontos a serem gerados
    n = aquecimento+(tamanho_da_cadeia*saltos)
    
    
    # gera os valores da normal e uniforme anteriormente por vetorizacao
    normal = np.random.multivariate_normal(mean,cov,n)
    uniforme = np.random.uniform(0,1,n)
    
    #contagem dos pontos gerados para pegar o k-esimo candidato
    k = 0
    
    
    #cria a base da cadeia, apenas para facilitar o codigo
    cadeia = [0]*(tamanho_da_cadeia*saltos)

    
    
    
                        #### Aquecimento ####   
    # funcionamento igual ao topico MCMC, sem salvar a cadeia
    # Salvando apenas o ultimo membro
    cadeia_fria = ponto_inicial 
    for i in range(aquecimento):   
        atual = cadeia_fria
        proximo = (0,0)
        caminho = normal[k]
        proximo = (atual[0] + caminho[0] , atual[1] + caminho[1])
        if uniforme[k] < alpha(atual , proximo):
            cadeia_fria = proximo
        k += 1
        
        
        
    # calculo da taxa de aceitacao
    taxa_num = 0
    
            
            
                        #### MCMC ####   
        #######################################################################
    cadeia[0] = cadeia_fria        #A cadeia esquentada recebe o ultimo 
                                     #termo da fria
        #######################################################################
    for i in range((tamanho_da_cadeia*saltos)-1):     
        atual = cadeia[i]    # Posicao atual da cadeia
        #######################################################################
        # Calculo do proximo candidato
        proximo = (0,0)   
        caminho = normal[k]
        proximo = (atual[0] + caminho[0] , atual[1] + caminho[1])
        #######################################################################
                                                   # Decide se a nova posicao é
        if uniforme[k] < alpha(atual , proximo):    # aceita, movendo a 
            cadeia[i+1] = proximo                            # cadeia caso seja 
            
            taxa_num += 1 #calcula a taxa de aceitacao
            
        else:
            #repete o ultimo termo caso n seja aceito
            cadeia[i+1] = atual
            
        k += 1
        #######################################################################  
        
    #taxa de aceitacao
    taxa = taxa_num/len(cadeia)
        
    
    
    if saltos ==1:
        return cadeia,taxa
    
    # elimina parte da amostra para diminuir a correlacao
    cadeia_final = [0]*tamanho_da_cadeia
    for i in range(tamanho_da_cadeia):
        cadeia_final[i] = cadeia[saltos*i]
    return cadeia_final,taxa # a cadeia final é s?

def u(c,v):
      # calculo de u a partir da cadeia e de um vetor v de cortes, retorna vetor
      soma = [0]*len(v)
      for j in range(len(v)):
          # aqui q entra a ctt de integracao
          k = v[j]/(math.gamma(x1+x2+x3)/(math.gamma(x1)*math.gamma(x2)*math.gamma(x3)))
          for i in c:
              if theta(i[0],i[1]) > k:
                  soma[j] += 1
      somas = np.array(soma)
      return 1 - (somas/len(c) )



    

In [62]:
num = 100000  #numero de pontos

# media da dist normal utilizada
mean = [0,0]
# definificao da matriz de covariancia utilizada
# dimensao 2 pois o terceiro valor eh um menos os outros dois
sigma = 0.02
cov = np.array([[sigma,0],[0,sigma]])
#Ponto inicial da cadeia
ponto_inicial = (0,0)
saltos = 10
n_cadeia_fria = 10000
###############################################################################

#gera a cadeia
c,taxa = MCMC(n_cadeia_fria,num,saltos,mean,cov,ponto_inicial)   #           


In [None]:
    
string = ""
for i in range(len(v)):
  string += f"U({v[i]}) = {lista[i]}\n"
print("As estimativas foram: ")
print(string)

print(f"A taxa de aceitacao foi de {taxa}%")
now2 = datetime.now()
print(f"Programa demorou {now2-now1} para rodar.\n")
print(f"Foram gerados {n_cadeia_fria+(num*saltos)} pontos sendo",
      f"{n_cadeia_fria} o tamanho da cadeia fria e {num*saltos} a",
      f"quantia gerada para se ter uma cadeia de tamanho {num} com",
      f"{saltos} saltos.\n")
print(f"A cadeia se iniciou no ponto {ponto_inicial} e variou a partir",
      "de uma normal multivariada com a seguinte distribuicao:")

string = f"  / |{mean[0]}| |{str(cov[0])[1:-1]}| \\\n"
string+= f"N \ |{mean[1]}|,|{str(cov[1])[1:-1]}| /"
print(string)

As estimativas foram: 
U(0) = 0.0
U(1) = 0.04132000000000002
U(0.5) = 0.018669999999999964
U(7) = 0.37605999999999995
U(15) = 0.89059

A taxa de aceitacao foi de 0.389137%
Programa demorou 0:00:09.675377 para rodar.

Foram gerados 1010000 pontos sendo 10000 o tamanho da cadeia fria e 1000000 a quantia gerada para se ter uma cadeia de tamanho 100000 com 10 saltos.

A cadeia se iniciou no ponto (0, 0) e variou a partir de uma normal multivariada com a seguinte distribuicao:
  / |0| |0.02 0.  | \
N \ |0|,|0.   0.02| /


In [84]:
def getThetaVector(theta):
  thetaVector = [theta, 1 - theta - (1-theta**(1/2))**2, (1-theta**(1/2))**2]
  return thetaVector


  
def fdps(theta): # função densidade probabilidade - função S a ser maximizada 
    betha = ( math.factorial(x[0]+x[1]+x[2]-1) ) / ( math.factorial(x[0]-1)*math.factorial(x[1]-1)*math.factorial(x[2]-1) )
    thetaVector = [theta, 1 - theta - ((1-math.sqrt(theta))**2), (1-math.sqrt(theta))**2] # Hipotese de Hardy-Weinberg
    if thetaVector[0]<0 or thetaVector[1]<0 or thetaVector[2]<0: #
       return 0
    else:
      return -((thetaVector[0]**(x[0]-1)*thetaVector[1]**(x[1]-1)*thetaVector[2]**(x[2]-1))*betha) # negativo pois a função minimiza seu valor
     

def listOfXvectors(): # cria a lista dos vetores x a serem testados, mostrados no artigo
    Xvectors = []
    for x3 in range(2, 19):
        Xvectors.append([1, 19-x3, x3])
    for x3 in range(0,11):
        Xvectors.append([5, 15-x3, x3])
    for x3 in range(0,8):
        Xvectors.append([9, 11-x3, x3])
    return Xvectors

def sev(t,h,ev): # calcula o evalor normalizado
    y = 1- QQ(t,h,1-ev)
    return y

t = 2 #dim(theta) - seria 3 mas theta2 = n-theta1-theta3
h = 1 #dim(H) - seria 2 mas theta2 = n-theta1-theta3

def QQ(t,h,z): 
    fz = chi2.cdf( chi2.ppf(z,t), t-h)
    return fz



In [99]:
def fdps(theta): # função densidade probabilidade - função S a ser maximizada 
    betha = ( math.factorial(X[0]+X[1]+X[2]-1) ) / ( math.factorial(X[0]-1)*math.factorial(X[1]-1)*math.factorial(X[2]-1) )
    thetaVector = [theta, 1 - theta - ((1-math.sqrt(theta))**2), (1-math.sqrt(theta))**2] # Hipotese de Hardy-Weinberg
    if thetaVector[0]<0 or thetaVector[1]<0 or thetaVector[2]<0: #
       return 0
    else:
      return -((thetaVector[0]**(X[0]-1)*thetaVector[1]**(X[1]-1)*thetaVector[2]**(X[2]-1))*betha) # negativo pois a função minimiza seu valor

x = [1,17,2] # teste
a = minimize_scalar(fdps, bounds = (0,1), method = 'bounded')
print(a)
print(a.get('x'))
print(a.get('fun'))
     

     fun: -7.726585773537931
 message: 'Solution found.'
    nfev: 13
  status: 0
 success: True
       x: 0.08650599873859365
0.08650599873859365
-7.726585773537931


In [83]:
x = [1,17,2] # teste
max = 0
for i in range(1000000):
  new = fdps(i/100000)
  if new >= max:
    max = new
    a = i/1000000/2

print(max, a)

0.02352321037486343 0.0110725


In [94]:
x = [1,17,2] # teste
a = minimize_scalar(fdps, bounds = (0,1), method = 'bounded')
print(a)
print(a.get('x'))
print(a.get('fun'))
print(fdps(a.get('x')))
print(u(c, [s_estrela]))

     fun: -4.045959819889278e-06
 message: 'Solution found.'
    nfev: 10
  status: 0
 success: True
       x: 0.22145422914814739
0.22145422914814739
-4.045959819889278e-06
-4.045959819889278e-06
[0.]


In [32]:
num = 100000  #numero de pontos

# media da dist normal utilizada
mean = [0,0]
# definificao da matriz de covariancia utilizada
# dimensao 2 pois o terceiro valor eh um menos os outros dois
sigma = 0.02
cov = np.array([[sigma,0],[0,sigma]])
#Ponto inicial da cadeia
ponto_inicial = (0,0)
saltos = 10
n_cadeia_fria = 10000

In [110]:
Y = [1,1,1] # priori
Xvectors = listOfXvectors() # gera todos os X na tabela
for X in Xvectors: # para cada vetor X:
    x1, x2, x3 = X[0]+1, X[1]+1, X[2]+1  # pega cada valor do vetor
    X[0], X[1], X[2] = x1, x2, x3  # X + Y
    c,taxa = MCMC(n_cadeia_fria,num,saltos,mean,cov,ponto_inicial) # gera a amostra
    maximizando = minimize_scalar(fdps, bounds = (0,1), method = 'bounded')
    s_estrela = -maximizando.get('fun') # acha o valor máximo de s
    ev = u(c, [s_estrela]) # acha W(s*) = ev(H|x) - e valor
    vetor_theta = getThetaVector(maximizando.get('x')) # acha o vetor theta
    Sev = sev(t,h,ev) # calcula e valor padronizado
    if Sev <= .05: H = "Rejeita H0" # decide se aceita ou rejeita H0
    else: H = "Aceita  H0"

    print(f" x1={x1-1} , x3={x3-1}, Y= {Y}, H={H},  θ*= {vetor_theta}, ev(H|X)={format(ev[0],'.5f')} e sev(H|X)={format(Sev[0],'.5f')}")

TypeError: ignored

In [107]:
Y = [0,0,0] # priori
Xvectors = listOfXvectors() # gera todos os X na tabela
for X in Xvectors: # para cada vetor X:
    x1, x2, x3 = X[0]+1, X[1]+1, X[2]+1  # pega cada valor do vetor
    X[0], X[1], X[2] = x1, x2, x3  # X + Y
    c,taxa = MCMC(n_cadeia_fria,num,saltos,mean,cov,ponto_inicial) # gera a amostra
    maximizando = minimize_scalar(fdps, bounds = (0,1), method = 'bounded')
    s_estrela = -maximizando.get('fun') # acha o valor máximo de s
    vetor_theta = getThetaVector(maximizando.get('x'))
    try:
      ev = u(c, [s_estrela]) # acha W(s*) = ev(H|x)
      Sev = sev(t,h,ev)
      if Sev <= .05: H = "Rejeita H0"
      else: H = "Aceita H0"
      print(f"x1={x1}, x3={x3}, Y= {Y}, H={H},  θ*= {vetor_theta}, ev(H|X)={ev[0]} e sev(H|X)={Sev[0]}")
    except:
      print(f"x1={x1}, x3={x3}, Y= {Y} - não calculados, erro de domínio")

x1=2, x3=3, Y= [0, 0, 0], H=Rejeita H0,  θ*= [0.22562494241741132, 0.4987499939386672, 0.27562506364392153], ev(H|X)=0.003730000000000011 e sev(H|X)=0.0008256380137031671
x1=2, x3=4, Y= [0, 0, 0], H=Rejeita H0,  θ*= [0.20250073581388872, 0.49500016351271214, 0.30249910067339913], ev(H|X)=0.013619999999999965 e sev(H|X)=0.003375628991411972
x1=2, x3=5, Y= [0, 0, 0], H=Rejeita H0,  θ*= [0.18062558861584468, 0.48875020774564043, 0.3306242036385149], ev(H|X)=0.037959999999999994 e sev(H|X)=0.010533051128116644
x1=2, x3=6, Y= [0, 0, 0], H=Rejeita H0,  θ*= [0.15999924890102757, 0.4799996244483102, 0.36000112665066225], ev(H|X)=0.12226999999999999 e sev(H|X)=0.04035141079173532
x1=2, x3=7, Y= [0, 0, 0], H=Aceita H0,  θ*= [0.14062548888677232, 0.46875032592338184, 0.3906241851898459], ev(H|X)=0.18323999999999996 e sev(H|X)=0.06543732167396832
x1=2, x3=8, Y= [0, 0, 0], H=Aceita H0,  θ*= [0.12249999094496618, 0.45499999223854193, 0.42250001681649185], ev(H|X)=0.31315000000000004 e sev(H|X)=0.127