In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
import scipy.stats as stats
import random

# Uniform Distribution

Usamos stats.distribution.rvs() para gerar pontos aleatórios para uma dada
distribuição, no caso a seguir usamos a distribuição uniform como primeiro exemplo

In [3]:
uniform_data = stats.uniform.rvs(size = 100000, loc = 0, scale = 10)
pd.DataFrame(uniform_data).plot(kind = 'density', figsize = (9,9), xlim = (-1,11))

Usamos stats.distribution.cdf() para determinar a probabilidade de obter um valor abaixo de
um valor limite chamado cutoff

In [8]:
prob_of_measure = stats.uniform.cdf(x =2.5 , loc = 0, scale = 10.0)
prob_of_measure

stats.distribution.ppf() é a função inversa de cdf retornando o valor x do cutoff
associado com uma dada probabilidade.

In [9]:
cutoff = stats.uniform.ppf(q = 0.4, loc = 0, scale = 10)
cutoff

stats.distribution.pdf() fornece a densidade de probabilidade (altura da distribuição)
em um valor x

In [10]:
for x in np.arange(-1,12,3):
     print( " Density at x value: " + str(x))
     print(stats.uniform.pdf(x, loc = 0, scale = 10))

# Gerar número aleatórios

Para gerar números reais aleatórios em um determinado range com igual probabilidade, 
podemos usar stats.uniforme.rvs(). Contúdo, existe uma library "random" que lhe permite 
fazer algumas operações envolvendo randomização

Quando fazemos algumas operações com a library random obtemos números ditos 
"pseudoaleatórios"  que serão comentados a seguir

random.randint(a,b) geram número inteiros aleatórios entra a e b


random.random() gera um número inteiro aleatório entro 0 e 1


random.choice([a,b,c,d]) escolhe aleatóriamente uma das entras


random.uniform(0,10) geram núemros aléatórios uniformes tbm

Em alguns casos queremos que nosso processo seja reproduzível, 
então queremos que esses números sejam aleatórios, contúdo apresente o mesmo resultado
, assim, podemos colocar uma semente, o exemplo abaixo adiciona uma semente e se colocadas
iguais resultaram no mesmo conjunto de números aleatórios

In [11]:
random.seed(12)
[random.uniform(0,10) for x in range(4)]

Esta reproducibilidade é o que representa os números serem pseudoaleatórios 

# Normal Distribution

Na função stats.norm.pdf() temos os parâmetros x (cutoff), loc é a média da distribuição 
e scale é o valor do desviopadrão.

In [26]:
prob_under_minus1 = stats.norm.cdf(x = -1,
                                    loc = 0,
                                    scale = 1)
prob_over_1 = 1 - stats.norm.cdf(x = 1,
                              loc = 0,
                              scale = 1)

between_prob1 = 1 - (prob_over_1 + prob_under_minus1)
prob_under_minus1, prob_over_1, between_prob1

In [16]:
prob_under_minus2 = stats.norm.cdf(x = -2,
                                     loc = 0,
                                     scale = 1)
prob_over_2 = 1 - stats.norm.cdf(x = 2,
                               loc = 0,
                               scale = 1)
between_prob2 = 1 - (prob_over_2 + prob_under_minus2)    
prob_under_minus2, prob_over_2,between_prob2
    

In [17]:
prob_under_minus3 = stats.norm.cdf(x = -3,
                                    loc = 0,
                                    scale = 1)
prob_over_3 = 1 - stats.norm.cdf(x = 3,
                              loc = 0,
                              scale = 1)

between_prob3 = 1 - (prob_over_3 + prob_under_minus3)
prob_under_minus3, prob_over_3, between_prob3


Os valores acima mostram medidas de 1sigma, 2sigma e 3sigma

Podemos ver que aproximadamente 15,9% dos pontos são menor que x = -1 e maior que x = +1, e que a 
probabilidade de encontrar valores entre -1 e 1 é aproximadamente 68% isto é 1sigma

In [27]:
plt.rcParams["figure.figsize"] = (9,9)

plt.fill_between(x = np.arange(-4,-1, 0.01),
                 y1 = stats.norm.pdf(np.arange(-4,-1, 0.01)),
                 facecolor = 'red',
                 alpha = 0.35)

plt.fill_between(x = np.arange(1,4,0.01),
                 y1 = stats.norm.pdf(np.arange(1,4, 0.01)),
                 facecolor = 'red',
                 alpha = 0.35)
plt.fill_between(x = np.arange(-1,1,0.01),
                 y1 = stats.norm.pdf(np.arange(-1,1,0.01)),
                 facecolor = 'blue',
                 alpha = 0.35)
plt.text(x=-1.8, y=0.03, s= round(prob_under_minus1,3))
plt.text(x=-0.2, y=0.1, s= round(between_prob1,3))
plt.text(x=1.4, y=0.03, s= round(prob_over_1,3))



Podemos checar os quantils para a distribuição normal por stats.norm.ppf(q), q é a porcentagem de dados que são menos que o valor do cutoff que teremos como output:

In [24]:
stats.norm.ppf(q = 0.025), stats.norm.ppf(q = 0.975)


Os quantis apresentados acima mostram que aproximadamente 5% dos dados estão deslocados 2sigma da média. 

In [3]:
stats.norm.cdf(x = -3, loc = 0, scale = 1), stats.norm.cdf(x =3, loc = 0, scale = 1)

*Note: Python interpreta como padrão os parâmetros loc = 0 e scale = 1.*

O último output da função cdf() indicam que aproximandamente 99% dos dados estão a 3sigma da média. 

# Binomial Distribution

Binomial Distribution é uma distribuição de probabilidade discreta que modela 
resultados em um dado número de tentativas aleatórias de um evento ou experimento.
A distribuição é definida por dois parâmetros p = a probabilidade de sucesso em cada tentativa e n = número de tentativas.

A distribuição binomial nos diz quão provável é alcançar um dado nº de sucessos em n tentativas de um experimento. Por exemplo, 

Podemos modelar o lançamento de uma moeda 10 vezes com uma distribuição binomial, onde n é nº de tentativas é 10 e a prob. de sucesso é 0.5. Neste caso, a distribuição nos diz quão provável é obter 0 caras, 1 caras, 2 caras,..., 10 caras. 

O scipy name para a distribuição binomial é *binom*

In [14]:
fair_coin_flips = stats.binom.rvs(n = 10,
                                  p = 0.5,
                                  size = 10000)
print(pd.crosstab(index = "counts", columns = fair_coin_flips))
pd.DataFrame(fair_coin_flips).hist(range=(-0.5, 10.5), bins = 11)



O histograma mostra que uma distribuição binomial com 50% de probabilidade de sucesso é simétrica. Seguindo a mesma ideia da distribuição normal. Contudo se auterarmos a probabilidade de sucesso essa distribuição perde sua simetria. 

In [29]:
biased_coin_flips = stats.binom.rvs( n = 10,
                                   p = 0.8,
                                   size = 10000)
print( pd.crosstab(index = "counts", columns = biased_coin_flips))
pd.DataFrame(biased_coin_flips).hist(range = (-0.5, 10.5), bins = 11)

A função cdf() fornece a probabilidade de se obter um número k de sucessos em um certo range.

In [38]:
stats.binom.cdf(k = 5, n = 10, p = 0.8), 1 - stats.binom.cdf(k = 8, n = 10, p = 0.8)

Os outputs acima mostram que a uma aproximadamente 3% de chance de obtermos um valor menor ou igual a cinco de sucessos e que existe uma chace de aproximadamente 37,5% de obtermos um valor maior ou igual a nove.

Para distribuições continuas usamos a função pdf() para oberto o valor. Contúdo para a distribuição binomia (por ser uma distribuição discreta) usamos stats.binom.pmf() para checar a massa (proporção de observações) a um dado número de sucessos k.

In [6]:
stats.binom.pmf(k = 5,
                n = 10,
                p = 0.5)

In [7]:
stats.binom.pmf(k = 8,
               n = 10,
               p = 0.8)

 # The Geometric and Exponential Distributions¶

As distribuições Geométrica e Expencial modelam quanto tempo leva para um evento ocorrer, por exemplo o decaimento de uma átomo. 

A distribuição geométrica é uma distribuição discreta e modela o número de tentativas que deve-se ter para obter um sucesso em um experimento repetido com uma dada probabilidade de sucesso. 

A distribuição exponencial é a versão contínua da distribuição discreta e modela quanto tempo você deve esperar para um evento ocorrer em uma dada tava ocorrencia. O scipy name para elas são, respectivamente, *geom* e *expon* 

In [19]:
random.seed(12)

flips_till_heads = stats.geom.rvs(size = 10000, p = 0.5)
print(pd.crosstab(index = "counts", columns = flips_till_heads))
pd.DataFrame( flips_till_heads).hist(range = (-0.5, max(flips_till_heads) + 0.5), bins = max(flips_till_heads) + 1 )

A distribuição mostra que é fácil conseguir cara em um ou dois flips da moeda e que é difícil precisar de um número grande para se obter uma cara na moeda.

In [24]:
stats.geom.cdf(k = 8,
              p = 0.5)

Vamos usar a função cdf() para checar a probabilidade de precisar de 6 ou mais flips para se obter cara.

In [26]:
first_five = stats.geom.cdf(k =5, 
                           p = 0.5) # retorna a probabilidade de eu obter cara com 5 ou menos flips.

1 - first_five # retorna a probabilidade de eu precisa de 6 ou mais flips para se obter cara.



pmf() é usado para saber a probabilidade de vermos um número k de flips antes de um sucesso.

In [27]:
stats.geom.pmf(k = 2,
              p = 0.5)

Vamos investigar a distribuição exponencial agora usando a probability distribution function pdf():

In [35]:
# Obtendo a probabilidade de ter que esperar até umas unidade de tempo para visualizar um sucesso.
prob_1 = stats.expon.cdf(x =1,   
                        scale = 1) # taxa de ocorrencia ou taxa de chegada. 
prob_1

*Note: O tempo médio de espera é dado por 1/taxa de ocorrencia*


O output acima mostra que para um evento que tem taxa de ocorrencia igual a um ocorre antes de esperar uma unidade de tempo 63% das vezes.

In [43]:
plt.fill_between(x = np.arange(0,1,0.01),
                y1 = stats.expon.pdf(np.arange(0,1,0.01)),
                facecolor = 'blue',
                alpha = 0.5)
plt.fill_between(x = np.arange(1,7,0.01),
                y1 = stats.expon.pdf(np.arange(1,7,0.01)),
                facecolor = 'red',
                alpha = 0.5)
plt.text(x = 0.03, y = 0.2, s = round(prob_1,3))
plt.text(x = 1.5, y = 0.05, s = round(1 - prob_1,3))

# The Poisson Distribution

A distribuição de Poisson modela a probabilidade de ver um certo número de sucessos em um intervalo de tempo, onde o tempo necessário para o próximo sucesso é modelado por uma distribuição exponencial. Pode ser usada para modelar o tráfego, número de chegadas em um hospital em uma hora, etc.


In [61]:
random.seed(12)
arrival_rate_1 = stats.poisson. rvs(size = 10000, 
                                   mu = 1) # avarege arrival time

print(pd.crosstab(index = 'counts', columns = arrival_rate_1))
pd.DataFrame(arrival_rate_1).hist(range = (-0.5,max(arrival_rate_1) + 0.5) ,bins = max(arrival_rate_1)+1)
      


Diferente da distribuição exponencial que mostra a probabilidade de eu ver um único evento em uma escala de tempo com uma taxa de ocorrencia fixa, a distribuição de poisson mostra qual o número de eventos que veremos em um dado valor de tempo para uma taxa de ocorrencia fixa. 

Assim, no histograma acima vemos que para uma taxa de ocorrencia igual a uma unidade em 10000 número muito ocorrem próximo a uma unidade de tempo, enquanto para duas unidades de tempo dimínui consideravelmente o número de enventos  e para 6 unidades de tempo o número de eventos é quase nulo.

In [69]:
random.seed(12)
arrival_rate_10 = stats.poisson.rvs(size = 10000, 
                 mu = 10)
print(pd.crosstab(index = "counts", columns = arrival_rate_10 ))
pd.DataFrame(arrival_rate_10).hist(range = (-0.5,max(arrival_rate_10) + 0.5), bins = max(arrival_rate_10) +1 )