# EXPERIMENTO PROBABILÍSTICO - NASCIMENTO DE GÊMEOS

Imagine o seguinte experimento probabilístico
Existe um hospital que é especializado em gêmeos.
Nesse momento, o hospital possui 100 famílias que tiveram gêmeos
25 tiveram uma menina e depois um menino (denotaremos como [g,b])
25 tiveram um menino e depois uma menina ([b,g])
25 tiveram dois meninos ([b,b])
25 tiveram duas meninas ([g,g])

Assim, podemos dizer que a probabilidade de uma família ter duas meninas é 1/4, assim como
de ter dois meninos é 1/4, enquanto a de ter uma menina e um menino (independente de quem veio primeiro)
é 1/2.

Dois pesquisadores resolveram criar um experimento para esclarecer o "paradoxo da informação", onde
a probabilidade muda caso seja fornecida uma nova informação, como por exemplo,
a probabilidade de uma família ter duas meninas dado que pelo menos uma é menina seria de 1/3, já que
o hospital tem 25 casos de duas meninas e 75 casos de pelo menos uma menina, ou seja, 25/75.
O paradoxo diz que caso eu informe não só que teve pelo menos uma menina, mas que a menina
é a mais velha, a probabilidade irá passar de 1/3 para 1/2.
Assim, propuseram o seguinte experimento para avaliar o paradoxo.

Resolveram que dois cenários seriam simulados.

**1) Primeiro Cenário:**

Das 100 famílias do hospital, será feita uma amostragem aleatória e com reposição, onde
cada família tem igual chance de ser escolhida (p=1/100).
A família escolhida chega para os pesquisadores e revela a informação sobre uma das crianças,
por exemplo, tivemos pelo menos uma menina. Assim, a informação
agora foi condicionada pelo fato de que nasceu pelo menos uma menina.
Pelo paradoxo, a probabilidade de serem duas meninas seria de 1/3.

**2) Segundo Cenário - Mais informações:**

A família escolhida chega para os pesquisadores e revela a informação sobre uma das crianças,
por exemplo, a criança que nasceu depois (mais velha) é uma menina. Assim, a informação
agora foi condicionada pelo fato de que nasceu pelo menos uma menina e ela é a mais velha.
Pelo paradoxo, a probabilidade de serem duas meninas agora mudou para 1/2, igual a de ser uma
menina ou um menino.

---
Nos dois cenários o comportamento dos pesquisadores será o seguinte:

Caso a família diga que possui pelo menos uma filha:
O pesquisador A irá dizer então que a família possui duas filhas,
enquanto o pesquisador B irá dizer que é um menino e uma menina.
O pesquisador que acertar ganha um ponto e o que errar não ganha nada.

No cenário dois, o comportamento dos dois pesquisadores é o mesmo, assim
Para ficar mais claro, vamos listar todas as possibilidades:

**1) Primeiro cenário**

* Família X informa que teve pelo menos uma menina       -> Pesquisador A diz [g,g], Pesquisador B diz [g,b] ou [b,g]

* Família X informa que teve pelo menos um menino menino -> Pesquisador A diz [b,b], Pesquisador B diz [g,b] ou [b,g]

**2) Seguno cenário**
* Família X informa que a mais velha é menina -> Pesquisador A diz [g,g], Pesquisador B diz [g,b] ou [b,g]
* Família X informa que a mais nova é menina  -> Pesquisador A diz [g,g], Pesquisador B diz [g,b] ou [b,g]
* Família X informa que o mais velho é menino -> Pesquisador A diz [b,b], Pesquisador B diz [g,b] ou [b,g]
* Família X informa que o mais novo é menino  -> Pesquisador A diz [b,b], Pesquisador B diz [g,b] ou [b,g]

O jogo será repetido 10.000 vezes em cada um dos cenários.
Assim, ao final do experimento teremos a pontuação de cada
pesquisador. Se o paradoxo estiver correto, 
A probabilidade de Pesquisador A acertar no cenário 1 é de
é de 1/3, e a do Pesquisador B será 2/3. Assim, o pesquisador B deve ter uma pontução maior
que a pontuação de A.

No cenário 2, os pesquisadores são informados também se a ordem de nascimento da criança.
Portanto, a probabilidade do Pesquisador A acertar mudaria de 1/3 para 1/2. Logo, ambos
pesquisadores teriam probabilidade de acertar. Portanto, ao final do jogo eles devem ter uma
pontução parecida.

Se o paradoxo estiver errado, independente de receber a informação da ordem,
ambos pesquisadores irão obter a mesma pontuação. O que implica que a informação
da ordem na verdade é inútil e não altera as probabilidades.

In [223]:
%matplotlib inline
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt

## 1) Construindo a lista de famílias no hospital

Vamos criar a lista das famílias do hospital com a distribuição definida no experimento,
ou seja, 25 com duas meninas, 25 com dois meninos, 25 com um menino seguido de menina
25 com menina seguido de menino.

In [256]:
familias = []
for i in [['g','g'],['b','b'],['g','b'],['b','g']]:
    for j in range(25):
        familias.append(i)

# Vamos verificar se a lista foi construída corretamento

print('Quantidade de famílias = ',len(familias))
for i in [['g','g'],['b','b'],['g','b'],['b','g']]:
    print('Total de famílias com {} = '.format(i),familias.count(i))

Quantidade de famílias =  100
Total de famílias com ['g', 'g'] =  25
Total de famílias com ['b', 'b'] =  25
Total de famílias com ['g', 'b'] =  25
Total de famílias com ['b', 'g'] =  25


## 2) Criar o comportamento nos cenários 1 e 2

A função *informar_pesquisadores()* recebe uma família e o cenário (1 ou 2). Baseado nisso, ela retorna
somente a informação sobre o sexo da criança, ou o sexo e a ordem de nascimento. Essa função
simula a família dando a informação para os pesquisadores.

In [266]:
def informar_pesquisadores(familia,cenario,ocultar_print=0):
    posicao = np.random.randint(0,2)
    if posicao == 0:
        ordem = 'velho(a)'
    else:
        ordem = 'novo(a)'
    if familia[posicao]=='g':
        sexo = 'menina'
    else:
        sexo = 'menino'
        
    if ocultar_print == 0:
        if cenario == 1:
            print('Tenho pelo menos um(a) {}'.format(sexo))
            return sexo

        if cenario == 2:
            print('Tenho pelo menos um(a) {} e é o(a) mais {}'.format(sexo,ordem))
            return sexo, ordem
        
    if ocultar_print == 1:
        if cenario == 1:
            return sexo

        if cenario == 2:
            return sexo, ordem

Vamos criar agora qual será o palpite do pesquisador A dado a informação que ele recebe.

Note que o palpite do pesquisador B será sempre um menino e uma menina, sem importar
a ordem, ou seja, "['g','b'] U ['b','g']".

In [267]:
# Chute no cenário 1

def cenario1_chute_pesquisadorA(sexo):
    if sexo == 'menina':
        chute = ['g','g']
    else:
        chute = ['b','b']
    return chute



# Chute no cenário 2
def cenario2_chute_pesquisadorA(sexo, ordem):
    if ordem == 'novo(a)' and sexo == 'menina':
        chute = ['g','g']
        
    if ordem == 'velho(a)' and sexo == 'menina':
        chute = ['g','g']
        
    if ordem == 'novo(a)' and sexo == 'menino':
        chute = ['b','b']
        
    if ordem == 'velho(a)' and sexo == 'menino':
        chute = ['b','b']
        
    return chute

## 3) Simulando uma rodada do experimento

Vamos fazer uma simulação de 10 casos, somente para ilustrar o como funciona cada cenário.

### Cenário 1 - Pesquisadores informados somente sobre o sexo de pelo menos uma criança

Vamos amostrar uma família que irá informar os pesquisadores do sexo de pelo menos uma criança.
Em seguida, cada pesquisador irá fazer seu palpite sobre a distribuição das crianças,
de acordo com a especificação do experimento.

*Basta rodar a célula várias vezes para ver o experimento para diferentes amostragens.

In [272]:
print('RODANDO UM CASO DO CENÁRIO 1')
print('')

# Pontuação inicial dos pesquisadores
pontosA = 0
pontosB = 0

# Número da família selecionada aleatoriamente
n_familia = np.random.randint(0,100)
print('Foi escolhida a família {}, que possui {}'.format(n_familia,familias[n_familia]))


#Obter informação sobre o sexo de pelo menos uma criança.

print('')
print('A família informa que:')
sexo = informar_pesquisadores(familias[n_familia], cenario=1)
print('')


# Pesquisador A recebe informação sobre o sexo de pelo menos uma criança

chute_A = cenario1_chute_pesquisadorA(sexo)

chute_B = [['g','b'],['b','g']]

print('Pesquisador A diz que ', chute_A)
print('Pesquisador B diz que ', chute_B)

if chute_A == familias[n_familia]:
    pontosA = pontosA + 1
    print('Pesquisador A acertou!')
    
# Se o chute de A estiver errado, necessariamente o pesquisador B aceretou

else:
    pontosB = pontosB + 1
    print('Pesquisador B acertou!')
    
print('')
print('Pontos A = ',pontosA)
print('Pontos B = ',pontosB)

RODANDO UM CASO DO CENÁRIO 1

Foi escolhida a família 75, que possui ['b', 'g']

A família informa que:
Tenho pelo menos um(a) menino

Pesquisador A diz que  ['b', 'b']
Pesquisador B diz que  [['g', 'b'], ['b', 'g']]
Pesquisador B acertou!

Pontos A =  0
Pontos B =  1


------

### Cenário 2 - Pesquisadores informados sobre o sexo e a ordem de nascimento de uma das crianaças

Vamos amostrar uma família que irá informar os pesquisadores do sexo de pelo menos uma criança.
Em seguida, cada pesquisador irá fazer seu palpite sobre a distribuição das crianças,
de acordo com a especificação do experimento.

*Basta rodar a célula várias vezes para ver o experimento para diferentes amostragens.

In [273]:
print('RODANDO UM CASO DO CENÁRIO 2')
print('')

# Pontuação inicial dos pesquisadores
pontosA = 0
pontosB = 0

# Número da família selecionada aleatoriamente
n_familia = np.random.randint(0,100)
print('Foi escolhida a família {}, que possui {}'.format(n_familia,familias[n_familia]))


#Obter informação sobre o sexo de pelo menos uma criança.

print('')
print('A família informa que:')
sexo, ordem = informar_pesquisadores(familias[n_familia], cenario=2)
print('')


# Pesquisador A recebe informação sobre o sexo e a ordem de nascimento de uma das crianças

chute_A = cenario2_chute_pesquisadorA(sexo,ordem)

chute_B = [['g','b'],['b','g']]

print('Pesquisador A diz que ', chute_A)
print('Pesquisador B diz que ', chute_B)

if chute_A == familias[n_familia]:
    pontosA = pontosA + 1
    print('Pesquisador A acertou!')
    
# Se o chute de A estiver errado, necessariamente o pesquisador B aceretou

else:
    pontosB = pontosB + 1
    print('Pesquisador B acertou!')
    
print('')
print('Pontos A = ',pontosA)
print('Pontos B = ',pontosB)

RODANDO UM CASO DO CENÁRIO 2

Foi escolhida a família 76, que possui ['b', 'g']

A família informa que:
Tenho pelo menos um(a) menino e é o(a) mais velho(a)

Pesquisador A diz que  ['b', 'b']
Pesquisador B diz que  [['g', 'b'], ['b', 'g']]
Pesquisador B acertou!

Pontos A =  0
Pontos B =  1


----

## 4) Simulando 10.000 rodadas do experimento em cada cenário

Agora que já definimos de forma clara como funciona o experimento em cada cenário, vamos
repetir o experimento 10.000 vezes para cada cenário, e verificar como fica a pontuação
dos pesquisadores em cada situação.

Vamos ocultar o texto, e expor somente o resultado final.

In [289]:
print('RODANDO UM CASO DO CENÁRIO 1')
print('Pesquisadores só são informados sexo de uma criança')
print('')

# Pontuação inicial dos pesquisadores
pontosA = 0
pontosB = 0

n_rodadas = 10000

for i in range(n_rodadas):
    n_familia = np.random.randint(0,100)
    sexo = informar_pesquisadores(familias[n_familia], cenario=1,ocultar_print=1)
    
    chute_A = cenario1_chute_pesquisadorA(sexo)
    chute_B = [['g','b'],['b','g']]
    
    if chute_A == familias[n_familia]:
        pontosA = pontosA + 1
    else:
        pontosB = pontosB + 1
    
print('')
print('Pontos A = ',pontosA)
print('Pontos B = ',pontosB)

print('')
print('-------------------------------------------------------------------------------')
print('')

print('RODANDO UM CASO DO CENÁRIO 2')
print('Pesquisadores só são informados sexo e ordem de nascimento')
print('')

# Pontuação inicial dos pesquisadores
pontosA = 0
pontosB = 0

n_rodadas = 10000

for i in range(n_rodadas):
    
    n_familia = np.random.randint(0,100)
    sexo, ordem = informar_pesquisadores(familias[n_familia], cenario=2, ocultar_print=1)

    chute_A = cenario2_chute_pesquisadorA(sexo,ordem)

    chute_B = [['g','b'],['b','g']]

    if chute_A == familias[n_familia]:
        pontosA = pontosA + 1

    else:
        pontosB = pontosB + 1
    
print('')
print('Pontos A = ',pontosA)
print('Pontos B = ',pontosB)

RODANDO UM CASO DO CENÁRIO 1
Pesquisadores só são informados sexo de uma criança


Pontos A =  5068
Pontos B =  4932

-------------------------------------------------------------------------------

RODANDO UM CASO DO CENÁRIO 2
Pesquisadores só são informados sexo e ordem de nascimento


Pontos A =  4995
Pontos B =  5005


### CONCLUSÃO

A pontuação nos dois cenários se aproximou de 50%, o que significa que a informação extra sobre
a ordem de nascimento não influiciou!

Concluímos que o paradoxo é **FALSO**.

O motivo é que informação posterior à amostragem não impacta realmente na probabilidade de um evento,
o que está completamente alinhado com nossa intuição. Ou seja, se alguém me fornece uma informação
"irrelevante", como a criança ter nascido no inverno, ou ter o nome Jenifer, ou até ser a mais velha,
a probabilidade de acertarmos continua a mesma, pois o que importa é a forma que o dado foi amostrado.

Nesse experimento, construímos uma situação clara e com premissas evidentes sobre de onde estaria
vindo nossas amostras, para assim evitar erros de semântica.

Quer dizer que a probabilidade de P(Duas garotas | Pelo menos uma garota) não é igual à 1/3?!
A resposta é *Sim*. Porém, o operador "dado que" (|) não pode ser interpretado como atualização de uma
probabilidade dado o recebimento de uma nova informação, mas sim como um redefinidor do nosso espaço amostral!

Em outras palavras, nossas observações nos informam não sobre o resultado específico do experimento,
mas sobre o espaço amostral que estamos realmente trabalhando.

Assim, quando temos P(Duas garotas | Pelo menos uma garota), isso na verdade "significa" (ou se aproxima mais)
da seguinte sentença:

"Se deixarmos no hospital somente as famílias com pelo menos uma garota, qual será então
a chance de ao selecionarmos aleatoriamente uma família com duas garotas?"

Nesse caso, a probabilidade de fato é 1/3!

** PARADOXO RESOLVIDO!!!**

:)