# 13 - Simulação

## 13.1 - O problema do tumor renal

- Determinar se o câncer se formou antes de me aposentar das forças armadas;
- Possível determinar quando havia uma chance de 50/50 de desenvolver o doença?
- É possível determinar a probabilidade na data da aposentadoria?
    - Meu tumor tinha 15,5 cm x 15 cm na detecção (Grau II);

- Benefícios diferentes se é "mais provável do que não";

![](cap13_1.png)
- Distribuição de RDT para 53 pacientes.

- Coletou os dados de um artigo de Zhang;
- Imprimiu um gráficos e medindo-os com uma régua.
- Tempo de duplicação recíproca (RDT): unidades de duplicação por ano;
- Uma mistura de duas distribuições exponenciais;

## 13.2 Um modelo simples

- O modelo simples é suficiente para o problema em questão e, se não, você pode usá-lo para validar o modelo mais complexo.
- Suposições:
    - Tempo de duplicação constante;
    - Sejam tridimensionais:
        - Se a medida linear máxima duplicar, o volume será multiplicado por oito;

- A alta do exército e o diagnóstico foi de 3291 dias (cerca de 9 anos);
- Se esse tumor crescesse na taxa média, qual seria o tamanho na data da alta?
- O tempo médio de duplicação do volume relatado por Zhang et al é de 811 dias

In [57]:
# time between discharge and diagnosis, in days 
interval = 3291.0

# doubling time in linear measure is doubling time in volume * 3
dt = 811.0 * 3

# number of doublings since discharge
doublings = interval / dt

# how big was the tumor at time of discharge (diameter in cm)
d1 = 15.5
d0 = d1 / 2.0 ** doublings
d0

6.069363645997591

- É mais provável que o tumor se formou antes da data da alta.

Taxa de crescimento que seria implícita se este tumor tivesse se formado após a data da alta

In [58]:
import math
def log2(x, denom=math.log(2)):
    """Computes log base 2."""
    return math.log(x) / denom

In [59]:
# assume an initial linear measure of 0.1 cm
d0 = 0.1
d1 = 15.5

# how many doublings would it take to get from d0 to d1
doublings = log2(d1 / d0)

# what linear doubling time does that imply?
dt = interval / doublings

# compute the volumetric doubling time and RDT
vdt = dt / 3
rdt = 365 / vdt
rdt

2.420952969849678

- **dt** é o tempo de duplicação linear;
- **vdt** é o tempo de duplicação volumétrico;
- **rdt** é o tempo de duplicação recíproco;

- Apenas 20% dos tumores cresceram tão rápido durante um período de observação.
- É mais provável que o tumor se formou antes da data da alta.
- Esses cálculos são suficientes para responder à pergunta apresentada

## 13.3 - Um modelo mais geral

Probabilidade de o tumor se formar antes de qualquer data;
- Distribuição das idades.

A simulação começa com um pequeno tumor e executa estas etapas:

- Escolha uma taxa de crescimento na distribuição do RDT.
- Calcule o tamanho do tumor no final de um intervalo.
- Registre o tamanho do tumor em cada intervalo.
- Repita até o tumor exceder o tamanho máximo relevante.

Tamanho inicial: 0.3 cm;

Intervalo de 245 dias (cerca de 8 meses);

Tamanho máximo 20 cm;

![](cap13_tamanho.png)

Simulações de crescimento tumoral, tamanho versus tempo.

- A taxa de crescimento é escolhida independentemente durante cada intervalo;
- Os resultados são apresentados em termos de medidas lineares, mas os cálculos são em termos de volume;

## 13.4 - Implementação

## 13.5 - Armazenando a distribuição conjunta em cache

![](cap13_joint.png)

Distribuição conjunta da idade e tamanho do tumor.

Distribuição conjunta após 1000 simulações.

![](cap13_cond.png)

Distribuições de idade, condicionadas ao tamanho.

## 13.6 - Distribuições condicionais

![](cap13_perc.png)

Percentis da idade do tumor em função do tamanho.

Ao fazer uma fatia horizontal, podemos obter a distribuição das idades condicionada ao tamanho.

## 13.7 - Correlação serial

Os resultados até agora são baseados em várias decisões de modelagem;
- Assumimos que os tumores são aproximadamente esféricos;
- A distribuição das taxas de crescimento nas simulações é baseada em um modelo contínuo que escolhemos para ajustar os dados relatados por Zhang et al;
- O modelo de crescimento não leva em consideração o subtipo ou grau do tumor; 
- A distribuição da taxa de crescimento não depende do tamanho do tumor;
- A taxa de crescimento durante cada intervalo é independente das taxas de crescimento anteriores.

O primeiro e o último parecem os mais problemáticos

- Gere valores correlacionados a partir de uma distribuição gaussiana. Isso é fácil, pois podemos calcular a distribuição do próximo valor condicionado ao valor anterior.
- Transforme cada valor em sua probabilidade cumulativa usando o CDF gaussiano.
- Transforme cada probabilidade cumulativa no valor correspondente usando o Cdf fornecido.

Sem correlação serial, a probabilidade de um tumor de 15.5 cm ter mais de 8 anos é de 0.999, ou quase certa. Com a correlação 0.4, o crescimento mais rápido dos tumores são mais prováveis, mas a probabilidade ainda é de 0.995. Mesmo com a correlação 0.8, a probabilidade é 0.978.

Mesmo levando em consideração os erros de modelagem, é improvável que um tumor tão grande possa ter se formado menos de 8 anos.

## 13.8 - Discussão

- Sem usar o teorema de Bayes;
- É mais difícil condicionar a distribuição da idade ao tamanho ou p(idade|tamanho);
    - Oportunidade perfeita para usar o teorema de Bayes.
    - Eficiência computacional (motivo para não ter usado bayes)