# Distribuições Estatísticas com SciPy
## Disciplina: Ciência de Dados
## Autor: Luiz Affonso Guedes

O objetivo deste nootebook é apresentar como usar as distribuições estatísticas em SciPy-Python

## SciPy
- O pacote stats do SciPy fornece uma gama de classes e métodos para se trabalhar com distribuições estatísitcas discretas e contínuas.
- Importação do pacote

    from scipy import stats

In [0]:
# Importação do Pacote

from scipy import stats


In [0]:
# Geração de um número randômico seguindo uma distribuição normal de média ZERO e desvio padrão 1.
stats.norm.rvs()

In [0]:
# Assinatura padrão para geração de números aleatórios seguindo distribuição normal
# .norm,  --> é a classe de distribuição normal
# .rvs()  --> método que gera os números aleatórios
# variável loc é a média no caso da distribuição normal
# variável scale é o desvio padrão no caso da distribuição normal
# variável size é o número de amostras geradas
# variável random_state é para geração da semente dos números

stats.norm.rvs(loc=0, scale=1, size=1, random_state=None)

In [0]:
# Geração de 7 números com distribuição normal de média 5 e desvio padrão 2

stats.norm.rvs(5,2,7)

## Distribuições como Classes

- Lembrete: Python é uma linguagem orientada a objetos
- As distribuições são implementadas como classes.
- Essas classes possuem um conjunto de métodos com mesma assinatura.
- O pacote stas do SciPy impementa as principais distribuições estatísticas com os respectivos métodos.
    


### Métodos Básicos
Os principais métodos disponíveis para as distribuições são os seguintes:

    - rvs(loc=0, scale=1, size=1, random_state=None)    ---> geram números randômicos
    - pdf(x, loc=0, scale=1)                            ---> gera a função densidade de probabilidade
    - cdf(x, loc=0, scale=1)                            ---> gera a função cumulativa de probabilidade 
    - ppf(q, loc=0, scale=1)                            ---> gera a função percentil, inversa da função cdf


### Métodos para Cálculo de Métricas Estatísticas
    - median(loc=0, scale=1) 	      ---> fornece a Mediana da distribuição.
    - mean(loc=0, scale=1) 	        ---> fornece a média da distribuição.
    - var(loc=0, scale=1) 	         ---> fornece a Variancia da distribuição.
    - std(loc=0, scale=1) 	         ---> fornece o Desvio Padrão da distribuição.

In [0]:
print('Obtém a a média de uma distribuição normal com média zero e desvio padrão 1')
stats.norm.mean(0,1)

In [0]:
stats.norm.std(0,1)

In [0]:
# A distribuição é um objeto Scipy

dist1 = stats.norm(5,2)
dist1.mean()

In [0]:
print("Nunca se esqueça que Python é uma Linguagem Orientada a Objetos")
stats.norm.rvs(0,1,1000).mean()

In [0]:
# obtenha o desvio padrão de dist2
dist2 = stats.norm(5,2)
#?????

In [0]:
# gere 1000 amostras de dist2 e calcule a sua média e desvio padrão numéricos
dist2_samples = dist2.???(1000)
print('média = ' dist2_samples.??() )
print('desvio padrão = ' dist2_samples.??() )

### Outros Métodos Importantes 
- moment(n, loc=0, scale=1)   --> Momento não-central de ordem n.
- stats(loc=0, scale=1, moments='mvsk')  --> gera Mean(‘m’), variance(‘v’), skew(‘s’), e kurtosis(‘k’) da distribuição.

In [0]:
# Exemplo do uso do método moment sobre a distribuição normal
# No exemplo se obtém o segundo momento não-central de uma distribuição normal de média 2 e desvio padrão 3
stats.norm.moment(2,1,3)

In [0]:
# Exercício: o obtenha o terceiro momento não-central de uma distribuição normal padrão de média 1 e desvio padrão 1


In [0]:
# Exemplo do uso do método stats sobre a distribuição normal
mean, var, skew, kurt = stats.norm.stats(moments='mvsk')

In [0]:
print(mean)
print(var)
print(skew)
print(kurt)

#### Exemplo de Uso
- Função de distribuição normal.
- Reproduzido do site do SciPy 
    - https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html#scipy.stats.norm


In [0]:
# Importat NumPy
# Importar MatPlot e criar plot
import numpy as np
import matplotlib.pyplot as plt

fig, ax = plt.subplots(1, 1)

In [0]:
x = np.linspace(stats.norm.ppf(0.01), stats.norm.ppf(0.99), 100)
# x = np.linspace(-3, 3, 100)
ax.plot(x, stats.norm.pdf(x),'r-', lw=5, alpha=0.6, label='norm pdf')

In [0]:
# Uma outra forma é obter a distribuição como um objeto.
rv = stats.norm()
ax.plot(x, rv.pdf(x), 'k-', lw=2, label='frozen pdf')

In [0]:
# geração de n números randômicos com distribuição normal padrão
n = 1000
r = stats.norm.rvs(size=n)

In [0]:
# Obtenção do histograma da distribuição dos números gerados no passo anterior

ax.hist(r, normed=True, histtype='stepfilled', alpha=0.2)
ax.legend(loc='best', frameon=False)

In [0]:
plt.show()

## Distribuições Discretas

### Distribuição Discreta Uniforme


### Distribuição de Bernoulli

Função de probabilidade: 

$ P_X(x) = p^x (1-p)^{1-x}, x =0,1. $

Média: 

$
EX= p
$

Variância:

$
Var(X) = p(1-p)
$


In [0]:
# Obetendo a média numérica da distribuide Bernoulli

# p = 0.5
toss = stats.bernoulli(0.5)

# gerando os valores randomicos
r = toss.rvs(size=100)

print('Bernoulli:')
print(r)

p = np.zeros(len(r))
for i,x in enumerate(r):
    p[i] = sum(r[:i+1])/(i+1)

plt.plot(p, 'b-', lw=2, alpha=0.6)
plt.title('Bernoulli')
plt.ylabel('Probabilidade')
plt.xlabel('Lançamentos')
plt.show()

In [0]:
# Obtenha a média utilizando-se o método mean()

???

### Distribuição Binomial

Mede a quantidade de vezes que ocorre de uma variável aleatória de Bernoulli acontecer (cuja probabilidade é p) após o evento ser repetido n vezes.

Média: 

$
EX= np
$

Variância:

$
Var(X) = np(1-p)
$

In [0]:
# Exemplo de uso da distrubição Binomial

x = stats.binom.rvs(50, 0.2, size=1000)
print(x.mean())
print(x.var())
print(x.std())
print(stats.binom.mean(50,0.2))
print(stats.binom.var(50,0.2))
print(stats.binom.std(50,0.2))
h = plt.hist(x, density=False, histtype='stepfilled', alpha=0.2)
plt.show()

### Distribuição de Poisson

É uma aproximação do modelo binomial quando o número de ensaios de Bernoulli tende a infinito.

Função de probabilidade: 



$$ 
\begin{equation}
             \nonumber P_X(x) = \left\{
              \begin{array}{l l}
                \frac{e^{-\lambda} \lambda^k}{k!} & \quad  para k  inteiro não negativo\\
                0 & \quad para os outros casos
              \end{array} \right.
\end{equation}
$$

Média: 

$
EX= \lambda\
$

Variância:

$
Var(X) = \lambda\
$



In [0]:
mu = 1
r = stats.poisson.rvs(mu, size=1000)
print('média = ', r.mean())
print('desvio padrão = ', r.std())


In [0]:
mu = 0.6
mean, var, skew, kurt = stats.poisson.stats(mu, moments='mvsk')

In [0]:
print('média = ', mean)
print('variância = ', var)
print('skew = ', skew)
print('Kurtose = ', kurt)

## Distribuições Contínuas

### Distribuição Uniforme

$$ 
\begin{equation}
             \nonumber f_X(x) = \left\{
              \begin{array}{l l}
                \frac{1}{b-a} & \quad  a < x < b\\
                0 & \quad x < a \textrm{ or } x > b
              \end{array} \right.
\end{equation}
$$

$$
EX=\frac{a+b}{2} \
$$

$$
Var(X) =\frac{(b - a)^2}{12}
$$


Veja em [Probability Course] (https://www.probabilitycourse.com/chapter3/3_1_5_special_discrete_distr.php).


Em Python, a distribuição uniforme está no módulo scipy.stats.uniform. 

Os parâmetro são "loc" e "scale", que têm a seguinte relação com "a" e "b":

$$
loc = a
$$

$$
scale = b - a
$$

Caso seja dado a média e a variância para gerar uma distribuição uniforme, utilize a seguintes equações para converter para "loc" e "scale":

$$
scale = \sqrt{12*Var(x)}
$$

$$
loc = \frac{(2*EX - scale)}{2}
$$

As principais funções são:

 - uniform.rvs(loc=0, scale=1, size=1, random_state=None) - Gera a variável randômica
 - uniform.pdf(x, loc=0, scale=1) - Calcula a Função Densidade de Probabilidade
 - uniform.cdf(x, loc=0, scale=1) - Calcula a Função Distribuição Cumulativa
 - uniform.mean(loc=0, scale=1)   - Calcula a Média da distribuição
 - uniform.var(loc=0, scale=1)    - Calcula a variância da distribuição


In [0]:
# loc = a, scale = (b-a)

r = stats.uniform.rvs(loc=0, scale=10, size=100000)
print('Média=%.4f' % r.mean())
print('Variância=%.4f' % r.var())

plt.hist(r, bins=20, density=False, histtype='stepfilled', alpha=0.2)
plt.title('Uniform(0,10)')
plt.ylabel('Frequência')
plt.xlabel('Random Variable')
plt.show()

x = np.linspace(-5.0, 15.0, 100000)
y = stats.uniform.pdf(x, loc=0, scale=10.0)
plt.plot(x,y, 'r-', lw=3, alpha=0.6)
plt.title('Uniform(0,10)')
plt.ylabel('PDF')
plt.xlabel('Random Variable')
plt.show()

#### É possível se gerar uma distribuição exponencial a partir de uma distribuição uniforme

In [0]:
# Gerando uma distrubuição exponencial a aprtir de uma distribuição uniforme

u = stats.uniform.rvs(size=1000)
plt.hist(u, density=False, histtype='stepfilled', alpha=0.2)
plt.title('Uniforme')
plt.show()
e = -np.log(u)
plt.hist(e, density=False, histtype='stepfilled', alpha=0.2)
plt.title('Exponencial')
plt.show()

### Distribuição Exponencial

### Distribuição Normal


$$ 
f_X(x) = \frac{e^{-{0.5(\frac{x-\mu}{\sigma})}^2}}{\sigma\sqrt{2\pi}}              
$$

$$
EX=\mu\
$$

$$
Var(X) =\sigma^2
$$

#### É possível se gerar uma distribuição Gaussiana através de uma Uniforme (via algoritmo de Box-Muller)

In [0]:
import math
n = 10000
u1 = stats.uniform.rvs(size=n)
u2 = stats.uniform.rvs(size=n)
z1 = np.sqrt(-2*np.log(u1))*np.cos(2*math.pi*u2)
z2 = np.sqrt(-2*np.log(u1))*np.sin(2*math.pi*u2)
h = plt.hist(z1)
plt.show()

In [0]:
# Utilizando o pacote Stats do Scipy

# geração de n números randômicos com distribuição normal padrão
n = 1000
r = stats.norm.rvs(size=n)

In [0]:
# loc = mu = média
# scale = sigma = desvio padrão

mu = 0
sigma = 1

r = stats.norm.rvs(loc=mu, scale=sigma, size=100000)
print('Média=%.4f' % r.mean())
print('Variância=%.4f' % r.var())

plt.hist(r, bins=20, density=False, histtype='stepfilled', alpha=0.2)
plt.title('Distribuição Normal')
plt.ylabel('Frequência')
plt.xlabel('Random Variable')
plt.show()

x = np.linspace(-4.0, 4.0, 100000)
y = stats.norm.pdf(x, loc=mu, scale=sigma)
plt.plot(x,y, 'r-', lw=3, alpha=0.6)
plt.title('Distribuição Normal')
plt.ylabel('PDF')
plt.xlabel('Random Variable')
plt.show()

In [0]:
# 
x = np.linspace(-4.0, 4.0, 100000)
ya = stats.norm.cdf(x, loc=mu, scale=sigma)
plt.plot(x,ya, 'r-', lw=3, alpha=0.6)
plt.title('Distribuição Normal Acumulada')
plt.ylabel('CDF')
plt.xlabel('Random Variable')
plt.show()

In [0]:
stats.norm.ppf(0.5, loc=mu, scale=sigma)

In [0]:
# Obtenha o valor da área da pdf para -sigma < x < sigma


In [0]:
# Obtenha as medidas de média, variância, skew(‘s’) e kurtosis(‘k’) da distribuição normal padrão

Exercício: Soma de distribuições uniformes
- Seja a V.A. Y, dada por Y = X1, X2, ..., Xn. Onde Xi é uma variável aleatória uniforme entre 0 e 1.
- Gere 10.000 amostras de Y; calcule E[Y], Var[Y] e mediana e apresente seu histograma, para:
    - n=1; n=2, n=3, n=4, ..., n = 12.
- O que ocorre com f(Y) a madida que n aumenta?
- Como se pode gerar uma V.A. Z~N(0,1)?

In [0]:
# Implementação do Exercício


Exercício: Distribuição de Gaussiana
- Dado uma VA X~N(0,1), obter média, variância e histograma para a Y=a.X+b, quando:
    - (a=2, b=3), (a=2, b=-3), (a=-2, b=3),(a=-2, b=3).
- Compare com os valores teóricos.
- gere 10000 amostras para a VA X.

In [0]:
# Implementação do Exercício

print("Programa: distribuição gaussiana genérica")
n = 100000
a = 2
b = 3
X = ????
Y = a * X + b
????
???

Exercício: Distribuição de Gaussiana
- Teorema: A soma de V.A. gaussianas independentes também é uma distribuição gaussiana.
- Implemente um programa que:
    - soma de n variáveis aleatórias normais (n=3,4,5).
    - calcule média e variância da distribuição resultante. Compare com os valores teóricos.
    - utilize 10000 amostras para cada variável.
    - escolha os valores de média e desvio padrão para as variáveis aleatórias.
    - plot os histogramas das distribuições resultantes resultantes e compare com as PDF das distribuições teóricas.

In [0]:
# Implementação do Exercício
