<a href="https://colab.research.google.com/github/vitormiro/estatistica_ppger_ufc/blob/main/python_fundamentos_6_numpy_p2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Mais sobre o uso do NumPy

In [None]:
# importar o numpy
import numpy as np

In [None]:
# Criando um array
x = np.array([1,2,3,4,5,6])

In [None]:
# imprimir
print (x)

In [None]:
# imprimir tipo dos elementos
print ('Tipo de elementos do array: ', x.dtype)

In [None]:
# imprimir a dimensão do ndarray
print ('Dimensão do array: ', x.shape)

In [None]:
# Modificar a dimensão de x para 2X3
x.shape = (2,3)

In [None]:
# imprimir
print(x)

In [None]:
# imprimir a dimensão do ndarray
print ('Dimensão do array: ', x.shape)

#### Algumas funções convenientes

In [None]:
# criar um array de 1's com `np.ones` e dimensão 3 X 2
ones = np.ones((3,2))
print(ones)

In [None]:
# criar um array de zeros com `np.zeros`
zeros = np.zeros((3,2))
print(zeros)

In [None]:
# criar um array 'identidade' (1's na diagonal principal e zeros nas demais entradas) de dimensão 3 com `np.eye`
id = np.eye(3)
print(id)

In [None]:
# Criar um array definindo os valores da diagonal principal
D = np.diag([1,2,3])
print(D)

# Usando o NumPy para princípios de Probabilidade e Estatística

Um algoritmo de números pseudo-aleatórios recebe essa denominação por se tratar de um algoritmo que gera uma seqüência de números que são aproximadamente independentes uns dos outros mas, pelo processo, não são verdadeiramente aleatórios.

### Semente aleatória

A semente aleatória é um número (ou vetor) usado para iniciar o algoritmo gerador de números pseudo-aleatórios.

O objetivo da semente é permitir que o usuário "bloqueie" o gerador de números pseudo-aleatórios, para permitir análises replicáveis.

A biblioteca padrão do Python apresenta o método `seed()` que é usado para inicializar o gerador de números pseudo-aleatórios.

No NumPy temos o método `random.seed()`.

In [None]:
# importar método `random`
import random
# definir a semente aleatória
random.seed(123)

### Geradores de números pseudo-aleatórios

O `numpy.random` é um módulo presente na biblioteca NumPy que contém funções próprias para gerar números aleatórios. Este módulo contém alguns métodos simples de geração de dados aleatórios, além de funções de distribuição.

In [None]:
# importar o módulo `random` do NumPy
from numpy import random     # não precisaremos usar o aliás "np." 

In [None]:
# Gerar uma semente aleatória para o numpy.random
random.seed(123)

O método `random.randint()` retorna números (inteiros) aleatórios de uma **distribuição discreta uniforme**, definindo um intervalo `[a, b)`.

Também podemos criar um array de números aleatórios atribuindo valores para um limite inferior (`a`), limite superior (`b`) e o tamanho ou dimensão do array (`size`).

```
random.randint(a, b, size)
```


In [None]:
# Gerar um número inteiro aleatório de [0 - 100)
x = random.randint(100)
print(x)

In [None]:
# Gerar um número inteiro aleatório no intervalo [0 - 100) usando uma semente aleatória
random.seed(456)
x = random.randint(100)
print(x)

In [None]:
# Gerar 5 números inteiros aleatórios no intervalo [1 - 10)
x = random.randint(1, 10, size=5)
print(x)

In [None]:
# Gerar 5 números inteiros aleatórios no intervalo [1 - 10) com uma semente aleatória
random.seed(12)
x = random.randint(1, 10, size=5)
print(x)

In [None]:
# Gerar um array números inteiros aleatórios no intervalo [1 - 10) de dimensão (2 X 3)
x = random.randint(1, 10, size=(2, 3))
print(x)


Por sua vez, o método `random.rand()` cria um array com amostras aleatórias (números 'float') de uma distribuição uniforme no intervalo `[0, 1)`.

In [None]:
# Retorna um número aleatório 'float' entre 0 e 1.
x = random.rand()
print(x)

In [None]:
# Retorna um array de dimensão (3X2) de números aleatórios 'float' entre 0 e 1.
x = random.rand(3,2)
print(x)


O método `randn()` cria um array com amostras aleatórias a partir de uma **distribuição normal padrão** (média = 0 e variância = 1).
Os argumento do método definem a dimensão do array.

In [None]:
# Um array de dimensão 2
x = random.randn(2)
print(x)

In [None]:
# média de x
np.mean(x)

In [None]:
# variância de x
np.var(x)

In [None]:
# Um array de dimensão 100
random.seed(123)
x_normp = random.randn(100)
print(x_normp)

In [None]:
# média de x_normp
np.mean(x_normp)

In [None]:
# variância de x_normp
np.var(x_normp)

In [None]:
# criar um array (10 X 5)
x = random.randn(10, 5)
print(x)

In [None]:
# estabelecendo uma semente aleatória "123)
random.seed(123)
# criar um array (1000 X 1)
X = random.randn(1000)

### Gráficos com o Matplotlib

O Matplotlib é uma biblioteca para a visualização de dados em Python. 

Veremos a Matplotlib com mais detalhes em outra aula.

Aqui vamos apenas usá-lo para plotar histogramas (`plt.hist()`) das distribuições estudadas.

A documentação do Matplolib pode ser acessada [aqui](https://matplotlib.org/).

In [None]:
# Importar o Matplotlib
import matplotlib.pyplot as plt
%matplotlib inline
# esta função é importante no uso do IPython, permitindo a visualização e o armazenamento dos gráficos.

In [None]:
# Plotar um histograma dos dados acima
plt.hist(X)
# Mostrar o gráfico gerado
plt.show()

In [None]:
# média
np.mean(X)

In [None]:
# variância
np.var(X)

In [None]:
# desvio-padrão
np.std(X)

### Experimento de Bernoulli e distribuição Binomial

O método `random.binomial()` retorna amostras de uma distribuição binomial com parâmetros, `n` (número de tentativas, $n \geq 0$) e `p` (probabilidade de sucesso, $p \in [0,1]$ ).

O valor retornado é o número de sucessos nas `n` tentativas.

```
random.binomial(n = n, p = p, size= N)
```


In [None]:
# Número de sucessos em 5 tentativas com p=0.5
b = random.binomial(n=5, p=0.5)  
print(b)

In [None]:
# Número de sucessos em 5 tentativas com p=0.5. Experimento realizado 2 vezes.
b2 = random.binomial(n=5, p=0.5, size=2)  
print(b2)

In [None]:
# Criar um array com amostras de uma v.a. binomial
xbin = random.binomial(10, 0.5, 1000)

In [None]:
plt.hist(xbin, bins=10);

In [None]:
# média de 'xbin' (obs: p=0.5)
xbin.mean()

Como estudamos no nosso curso, o processo de Bernoulli pode ser simulado como um processo gerador de dados de um binomial com `n=1`.

In [None]:
# Um processo de Bernoulli com p=0.5 (perceba que serão gerados valores 0 ou 1)
ber = random.binomial(n=1, p=0.5)  
print(ber)

In [None]:
# Um processo de Bernoulli com p=0.5 repetido 5 vezes
ber5 = random.binomial(n=1, p=0.5, size=5)  
print(ber5)

#### O método `choice()`

O método `choice()` permite gerar um valor aleatório com base em um array de valores. O método usa um array como parâmetro e retorna aleatoriamente um dos valores.

Em um primeiro exemplo, vamos simular o lançamento de uma moeda.

In [None]:
# lançamento de uma moeda
moeda = ["cara", "coroa"]
random.choice(moeda)

In [None]:
# 10 lançamentos de moeda
random.choice(moeda, size=10)

In [None]:
# Um array aleatório de zeros e uns
random.choice([0, 1], size=(3, 5))

### Distribuição de Poisson
Vimos que a distribuição de Poisson representa a contagem de ocorrências de um evento aleatório discreto em um intervalo contínuo (tempo, área ou volume).
Sabemos também que essa distribuição depende de um único paramêtro: $\lambda$.

Usando o método `random.poisson()` podemos simular eventos de uma distribuição de Poisson especificando o $\lambda$ por meio do parâmetro `lam`.

```
random.poisson(lam, size)
```


In [None]:
# Poisson com lambda=3 e size=10
random.poisson(lam=3, size=10)

In [None]:
# Poisson com lambda=5 e size=1000
y = random.poisson(5, 1000)

In [None]:
plt.hist(y);

### Distribuição Normal

Com o Numpy podemos simular uma amostra proveniente de uma distirbuição normal com o método `random.normal()`.


```
random.normal(loc=mean, scale=standard deviation, size=N)
```


In [None]:
# Simular uma amostra de uma distribuição normal com média m=10 e desvio-padrão std=3
m = 10
std = 3

In [None]:
# x é uma amostra de 1000 valores da Normal com média m=10 e desvio-padrão std=3
# semente aleatória "123"
random.seed(123)
x = random.normal(m, std, size=1000)

In [None]:
plt.hist(x, bins=20);

In [None]:
# calcular a média de x
x.mean()

In [None]:
# calcular o desvio-padrão de x
x.std()

## O módulo `scipy.stats`

O módulo [`scipy.stats`](https://docs.scipy.org/doc/scipy/tutorial/stats.html) contem uma ampla gama de funções estatísticas que envolvem distribuições de probabilidade, sumários estatísticos, testes, entre outras.

### Processo de Bernoulli

Devemos importar o método `bernoulli`.

In [None]:
from scipy.stats import bernoulli

Podemos simular uma variável aleatória com Distribuição de Bernoulli usando o método `bernoulli.rvs()` que tem como parametro o valor de `p`(probabilidade de sucesso). O parâmetro `size` recebe a informação a respeito do número de realizações do processo de Bernoulli.

In [None]:
x_bern = bernoulli.rvs(size=100, p=0.4)
print(x_bern)

Para os gráficos usaremos a biblioteca [seaborn](https://seaborn.pydata.org/), que é baseada em matplotlib.

In [None]:
# importar a biblioteca seaborn com alias sns
import seaborn as sns

In [None]:
ax = sns.displot(x_bern)
ax.set(xlabel='Distribuição de Bernoulli', ylabel='Frequência');

### Distribuição Binomial

Devemos importar o método `binom`.

In [None]:
from scipy.stats import binom

A simulação de uma variável aleatória com Distribuição Binomial é realizada com o método `binom.rvs()` que tem como parâmetro o valor de `p`(probabilidade de sucesso) e o número de realizações do processo (de Bernoulli) `n`. O parâmetro `size` recebe a informação a respeito do número de realizações do processo gerador de dados.

In [None]:
x_binom = binom.rvs(n=10,p=0.6,size=500)
print(x_binom)

In [None]:
ax = sns.displot(x_binom)
ax.set(xlabel='Distribuição Binomial', ylabel='Frequência');

### Distribuição de Poisson

Devemos importar o método `poisson`.

In [None]:
from scipy.stats import poisson

Uma variável aleatória com Distribuição de Poisson pode ser simulada com o método `poisson.rvs()` que tem como parâmetro o valor de `mu`(que representa o $\lambda$). O parâmetro `size` recebe a informação a respeito do número de realizações do processo gerador de dados.

In [None]:
x_poisson = poisson.rvs(mu=3, size=500)

In [None]:
ax = sns.displot(x_poisson)
ax.set(xlabel='Distribuição de Poisson', ylabel='Frequência');

### Distribuição Exponencial

Devemos importar o método `expon`.

In [None]:
from scipy.stats import expon

A simulação de uma variável aleatória com Distribuição Exponencial é realizada com o método `expon.rvs()` que tem como parâmetro `scale` que corresponde ao valor de $\frac{1}{\lambda}$. O parâmetro `size` recebe a informação a respeito do número de realizações do processo gerador de dados.

In [None]:
x_expon = expon.rvs(scale=1,size=100)

In [None]:
ax = sns.displot(x_expon, kde=True)
ax.set(xlabel='Distribuição Exponencial', ylabel='Frequência');

### Distribuição Normal

Devemos importar o método `norm`.

In [None]:
from scipy.stats import norm

A simulação de uma variável aleatória normalmente distribuída é realizada com o método `norm.rvs()` que tem como parâmetro `scale` que corresponde a média da distribuição e o parâmetro `scale` que representa o valor do desvio-padrão. O parâmetro `size` recebe a informação a respeito do número de realizações do processo gerador de dados.

In [None]:
x_normal = norm.rvs(size=1000, loc=0, scale=1)

In [None]:
ax = sns.displot(x_normal, kde=True)
ax.set(xlabel='Distribuição Normal', ylabel='Frequência');