> [Linkedin](https://www.linkedin.com/in/vasconcelosmatheus/), [Kaggle](https://www.kaggle.com/mhvasconcelos), [Medium](https://medium.com/@mhvasconcelos)

In [None]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats


# Distribuição de Bernoulli

Na prática, há vários experimentos que admitem somente dois tipos de resultados, como sucesso e fracasso, esses experimentos são chamados de Distribuição de Bernoulli.

O sucesso é o que se deseja observar, por exemplo, se o seu interesse for observar a ocorrência de uma determinada doença ser prevista em um paciente. Um paciente selecionado aleatoriamente, com essa doença, seria um resultado do tipo “sucesso” (o resultado “sucesso” não está associado a algo bom, necessariamente).

Considere um problema (experimento) no qual só podem ocorrer dois tipos de resultados, “sucesso” e “fracasso”.

> A distribuição de Bernoulli é um caso especial da distribuição binomial, em que **n = 1 e k é sempre 0 ou 1**

**n:** número de tentativas independentes;

**p:** probabilidade de sucesso em cada tentativa independente;

**k:** número de sucessos obtidos nas n tentativas.

**q**: probabilidade de fracasso (1 -p)

### Média e Variância
É importante que você saiba que a média e a variância serão obtidas por:

>**Média = p**

>**Variância = p x q**



In [None]:
p = 0.7
amostra = np.random.binomial(n=1, p=p, size=1000) #n = 1 é Bernoulli

print("Média:",np.mean(amostra)) #Média em Bernoulli = p
print("Variância:", np.var(amostra))

Note que conforme aumentamos o size, mais próximo de p fica a média

In [None]:
sucesso = np.mean(amostra)
fracasso = 1 - np.mean(amostra)

In [None]:
import matplotlib.pyplot as plt

categorias = ['Fracasso', 'Sucesso']

probabilidades = [fracasso, sucesso]

plt.bar(categorias, probabilidades, color=['red', 'green'])


plt.xlabel('Resultado')
plt.ylabel('Probabilidade')

plt.show()


### Outro exemplo, usando scipy

In [None]:
#p = probabilidade sucesso

# Defina a probabilidade de sucesso (p)
p = 0.001

# # Crie a variável aleatória
va = stats.bernoulli(p)

#Vamos usar a variável aleatória va para gerar uma determinada amostra

amostra_evolucao = va.rvs(size=10000)
v1 = [x for x in amostra_evolucao if x == 1] #v1 são os valores igual a 1, ou seja, é a chance de sucesso

print(f"Quantidade de sucesso: {len(v1)}")


Conforme aumentamos o size, mais sucesso teríamos, ou seja, mais valores igual a 1.

### Probabilidade e Evolução

Você pode se perguntar: A distribuição de Bernoulli pode ser usada para evolução? É claro que há outros tipos mais vistos no contexto evolutivo, mas a distribuição de Beernoulli é um passo inicial para aprendermos as outras, como a distribuição Binomial, que é literalmente, como dito no começo do notebook, uma generalização da distribuição de Bernoulli para mais tentativas (n).

O experimento de Bernoulli poderia ser utilizado para modelar a mudança de características de uma geração para outra, especialmente em contextos evolutivos onde as mudanças são discretas e raras.

Cada geração representa um único "experimento" de ocorrência de mutação inovadora, e você está interessado na probabilidade de sucesso (ou seja, o desenvolvimento da mutação).

O experimento de Bernoulli é uma situação de teste binária onde há dois resultados possíveis (como sucesso ou fracasso). Isso pode ser aplicado à evolução para representar eventos como mutações benéficas ou prejudiciais, reprodução bem-sucedida ou não, entre outros.

Por exemplo, se estivermos modelando uma característica específica que pode ser alterada por uma mutação em um determinado gene, poderíamos usar um experimento de Bernoulli para representar a ocorrência dessa mutação em uma geração. O "sucesso" poderia ser interpretado como a ocorrência da mutação benéfica, enquanto o "fracasso" representaria a ausência dessa mutação.

## Situação 1

> Imagine que uma população de hominídeos numa determinada época entre o período Miosceno e o período Pliosceno (iniciado cerca de 5 milhões de anos atrás) não tenha desenvolvido a característica de bipedalismo (caminhar ereto) nos primeiros anos, mas, ao fim do Miosceno e no início do Pliosceno, alguns já andavam dessa maneira.

> Imagine que a probabilidade de nós caminharmos sobre duas pernas fosse muito baixa, cerca de 0.01%. Partindo de algum ponto qualquer do Miosceno até o Pliosceno, em centenas de anos, a partir de quantos anos para termos o primeiro bípede entre nós?




In [None]:
lista = [1,2,3]
np.sum(lista)

In [None]:
#Definindo p = 0.01%

#O intervalo de tempo começa no meio do Pliosceno até o meio do Miosceno (mais ou menos de 0 à 1 milhão de anos)

#Note que n = 1, mantendo a estrutura de Bernoulli. Mas a quantidade de tempo (ou gerações) são indepedentes
#Portanto, cada experimento (geração) é independente

p = 0.0001
va = stats.bernoulli(p)

for i in range(0,10001,100): #Intervalo de tempo entre um momento do Pliosceno até algum outro momento posterior já no Miosceno
  c=0 #Contador de 1's (mutações ocorridas)
  amostra_evolucao = va.rvs(size=i)
  for j in amostra_evolucao:
    c = np.sum(amostra_evolucao)
  print(f"Para {i*100}  anos: Quantidade de mutações: {c}")



> **Obs: O parâmetro 'c' poderia estar fora do loop também, como forma de uma evolução em que cada geração "aprende" coma a anterior, conforme teorizou Dawkins no 'Relojoeiro Cego'. Mas para fins de demonstração, interpretamos cada geração com uma certa independência**

> **Outra possibilidade é usar apenas um for em vez de dois. E incrementando c como a soma do c anterior com a soma dos elementos da lista.**

> **Portanto, cada geração é tratada como um experimento independente (distribuição de Bernoulli).**


In [None]:
#Experimento com um for em vez de dois:
total_mutacoes = 0

for i in range(0,10001,100):
  amostra_evolucao = va.rvs(size=i)
  total_mutacoes += np.sum(amostra_evolucao)
  print(f"Para {i*100} anos: Quantidade de mutações: {total_mutacoes}")

Na primeira simulação, que leva em conta cada geração como independente (pelo menos quando eu executei a célula), podemos entender que a probabilidade de 0.01% de um hominídeo desenvolver o bipedalismo só se concretizaria depois de 180 mil anos (no meu caso) após o período analisado

Note que conforme damos mais tempo, ou seja, vamos aumentando até chegar perto de 1 milhão de anos após o período intermediário do Pliosceno, temos mais oocrrências dessa mutação. É pela teoria dos Grandes Números que a evolução se verifica. É por ela analisamos como o comportamento de médias de amostras progride à medida que o tamanho da amostra/tempo aumenta indefinidamente.


## Graficamente

In [None]:
suc = np.mean(amostra_evolucao)
frac = 1 - suc

In [None]:
categorias = ['Fracasso', 'Sucesso']

probabilidades = [frac, suc]

plt.bar(categorias, probabilidades, color=['red', 'green'])


plt.xlabel('Resultado')
plt.ylabel('Probabilidade')

plt.show()

### Minhas Redes:
> [Linkedin](https://www.linkedin.com/in/vasconcelosmatheus/):

> [Kaggle](https://www.kaggle.com/mhvasconcelos):

> [Medium](https://medium.com/@mhvasconcelos):