# Prática 01 - Visualização Numérica de dados em Python usando Numpy e Visualização gráfica com Matplotlib

## Parte 1 - visualização numérica

Veja que o ambiente **probS** foi ativado.

A biblioteca [Numpy](https://numpy.org/doc/1.18/) dispõe de poderosas funções para manipulação numérica e estatística. Ao longo do curso, iremos utilizar exaustivamente suas funcionalidades. As demais bibliotecas podem ser instaladas, após a ativação do ambiente, utilizando o comando `pip install`, no terminal linux. Ex.: `pip install numpy`

No [Google Colaboratory](https://colab.research.google.com/notebooks/) nao há necessidade de instalar a biblioteca Numpy.

In [None]:
import numpy as np

Iremos calcular a média de uma amostra segundo a formula:

$$
\overline{x} = \frac{1}{n} \sum_1^n {x_i}
$$

In [None]:
x = [1, 2, 3, 4, 5, 6, 7, 8, 9]
media = float(sum(x))/ float(len(x))
print("Média:", media)

A biblioteca numpy possui método de cálculo de média amostral. Para tanto chamamos o método na forma `np.mean(x)`:

In [None]:
media = np.mean(x)
print("Média Amostral:",media)

## Trabalhando com funções em Python

Em python podemos transformar certas rotinas recorrentes em funções, veja o exemplo a seguir para cálculo da média:

In [None]:
def myMedia(vetor = [0]):
	mediaCalc = float(sum(vetor))/ float(len(vetor))
	return mediaCalc

# aqui o print já está fora da funçao devido à identação
print("Média:", myMedia(x))

### Exercício 1
Crie, no espaço de código a seguir, uma função myVariancia que retorne a variância de um vetor de dados $X$ segundo a expressão:

$$
VAR(X) = \frac{1}{n} \sum_1^n {{x_i}^2 - \texttt{myMedia}(X)^2}
$$

In [None]:
def myVariancia(vetor = [0]):
	varCalc = 0
	return varCalc
print("Variância:", myVariancia(x))

Compare sua função com o método de cálculo de variância `np.var`

In [None]:
x = [1, 3, 5, 3, 2, 0, 1, 2, 6, 3, 4, 2, 1, 4, 6, 11, 9, 10, 18, 4]
print("Minha Variância:",myVariancia(x))
print("Variância Numpy:",np.var(x))

## Quartis e Percentis

Para determinação de quartis podemos utilizar o método `np.quantile`. Os parâmetros são o veto $x$ contendo a amostra (não há necessidade de ordenar) e os intervalos para cálculo do quartil desejado. Usamos o vetor `[0.25,0.5,0.75]` para referenciar os quartis $q_1$ (25%), $q_2$ (mediana, 50%) e $q_3$ (75%).

In [None]:
x = [1, 3, 5, 3, 2, 0, 1, 2, 6, 3, 4, 2, 1, 4, 6, 11, 9, 10, 18, 4]
print("Amostra ordenada:",np.sort(x))
qNumpy = np.quantile(x,[0.25,0.5,0.75])
print("q1 =",qNumpy[0],"\tq2 =",qNumpy[1],"\tq3 =",qNumpy[2] )

Crie uma função no espaço de código a seguir para cálculo do quartil utilizando a expressão: 
$$
p = k \times \left(\frac{n+1}{4}\right) \rightarrow i + f
$$
$i$: parte inteira e $f$: parte fracionária; $k$ é o número do quartil desejado (1, 2 ou 3)

$$
q_k = x_i + f\times(x_{i+1} - x_{i})
$$

In [None]:
def myQuartil(arrayX = [0]):
	return [0.0, 0.0, 0.0]

Compare sua função de cálculo de quartil com o método `np.quantile`. Há alguma diferença?

In [None]:
x = [1, 3, 5, 3, 2, 0, 1, 2, 6, 3, 4, 2, 1, 4, 6, 11, 9, 10, 18, 4]
qNumpy = np.quantile(x,[0.25,0.5,0.75])
print("Meu quartil:",myQuartil(x))
print("Quartil Numpy:",np.quantile(x,[0.25,0.5,0.75]))

### Resumo dos principais métodos de descrição numérica:

- Tamanho da amostra: `len(input)`
- Média: `np.mean(input)`
- Variância: `np.var(input)`
- Mediana/ quartis `np.quantile(input,[0.25, 0.5, 0.75])`
- Amplitude: `np.amax(input) - np.amin(input)` (alternativamente: `max(x) - min(x)` )

## Parte 2: visualização gráfica

## Histograma

O histograma é um dos principais métodos de exibição gráfica de uma amostra. Com ele, podemos ter noção do comportamento de uma amostra, sua dispersão e, caso haja, o eixo de assimetria. Trata-se de um excelente primeiro método pra traçar hipóteses sobre uma amostra.

Podemos construir histogramas utilizando a biblioteca [`matplotlib`](https://matplotlib.org/contents.html):

In [None]:
import matplotlib.pyplot as plt

Observe o exemplo a seguir para construção de histograma:

In [None]:
np.random.seed(0)

mu = 200
sigma = 25
x = np.random.normal(mu, sigma, size=100)

fig, (ax0, ax1) = plt.subplots(ncols=2, figsize=(8, 4))

ax0.hist(x, 20, histtype='stepfilled', facecolor='green', alpha=0.8)
ax0.set_title('stepfilled')
# Create a histogram by providing the bin edges (unequally spaced).
bins = [100, 150, 180, 195, 205, 220, 250, 300]
ax1.hist(x, bins, histtype='bar', rwidth=0.8, facecolor='blue', alpha=0.8)
ax1.set_title('Bins desiguais')

fig.tight_layout()
plt.show()

Veja a sintaxe completa na documentação do [histograma](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.hist.html#matplotlib.pyplot.hist). No código acima foram gerados 100 dados aleatórios utilizando o comando `np.random.normal(mu, sigma, size=100)` (posteriormente entraremos em detalhes sobre a geração de números aleatórios em python). Dessa vez, iremos criar um histograma a partir de um dado inserido manualmente [(Questão 4, Lista 01)](https://marcielbp.github.io/Statistics-and-Probability/listas/lista-01-est-descritiva/)

In [None]:
x = [43, 45, 49, 47, 52, 45, 51, 46, 44, 48, 51, 50, 52, 44, 48, 50, 49, 50, 46, 46, 49, 49, 51, 50]

fig, ax = plt.subplots(ncols=1, figsize=(8, 4))
numBins = 10
ax.hist(x, numBins, histtype='bar', rwidth=.75, facecolor='blue', alpha=0.8)
ax.set_title('Histograma da amostra $x$')
plt.show()

É possível realizar anotações no gráfico usando os comandos `ax.text` e `ax.annotate`:

In [None]:
fig, ax = plt.subplots(ncols=1, figsize=(8, 4))
numBins = 10
ax.hist(x, numBins, histtype='bar', rwidth=.75, facecolor='blue', alpha=0.8)
ax.set_title('Histograma da amostra $x$')
ax.text(50, 2,'Anotação')
plt.show()

Para salvar a figura em formato .png use o comando savefig ou, no própro Jupyter, salve a figura gerada.

In [None]:
fig, ax = plt.subplots(ncols=1, figsize=(8, 4))
numBins = 10
ax.hist(x, numBins, histtype='bar', rwidth=.75, facecolor='blue', alpha=0.8)
ax.set_title('Histograma da amostra $x$')
ax.text(50, 2,'Anotação')

plt.savefig('foo.png', transparent=True)

Podemos inserir linhas para delimitar regiões ou valores de interesse em um histograma. Observe que o método `ax.get_ylim()[0]` recupera o valor mínimo do eixo  $y$ enquanto `ax.get_ylim()[1]` retorna seu valor máximo. Podemos utilizar esse recurso para inserir um texto na posição correta.

In [None]:
media = np.mean(x)

fig, ax = plt.subplots(ncols=1, figsize=(8, 4))
numBins = 10
ax.hist(x, numBins, histtype='bar', rwidth=.75, facecolor='blue', alpha=0.8)
ax.get_ylim()[1]
ax.set_title('Histograma da amostra $x$')
plt.plot([media, media], [ax.get_ylim()[0], ax.get_ylim()[1]], 'k-', lw=2)
ax.text(media - 0.25, ax.get_ylim()[1] - 0.25,'Média = {}'.format(media),horizontalalignment='right')
plt.show()

## Exercicio 1 

Com base nos exemplos anteriores, crie um histograma da amostra da questão [(Questão 8, Lista 01)](https://marcielbp.github.io/Statistics-and-Probability/listas/lista-01-est-descritiva/). Crie um **plot** contendo um histograma com **12 bins** cor laranja. Insira três linhas, uma para cada **quartil**. Salve o gráfico em formato **png**.

In [None]:
# Resposta exercício 1