# Curso de Jupyter Notebooks: Visualização de Dados com Matplotlib

> Instruções: leia a explicação de cada seção/subseção e tente executar os códigos apresentados. 
Quando houverem códigos comentados, tire o símbolo de comentário (#) e execute o código

## Seção 1: Introdução ao Matplotlib
> Matplotlib é uma biblioteca de visualização de dados em Python, amplamente utilizada para criar gráficos estáticos, animados e interativos.
Antes de começar a criar gráficos, é importante entender alguns conceitos fundamentais:
> - `figure`: Representa a janela ou o espaço onde o gráfico será desenhado.
> - `axes`: São os eixos do gráfico, que podem ser vistos como subplots dentro da `figure`.
> - `show()`: Função usada para exibir o gráfico.

In [None]:
## certificando que possuímos a biblioteca instalada em nosso ambiente
# !pip install matplotlib

In [None]:
## importando a biblioteca
# import matplotlib.pyplot as plt

> Para criar um gráfico simples, podemos usar o código abaixo
```
fig, ax = plt.subplots()
ax.plot([1, 2, 3, 4], [10, 20, 25, 30])
plt.show()
```

In [None]:
# tente executar o código acima aqui

### Salvando um gráfico

> Ao usar o comando `plt.show()`, o gráfico será renderizado no notebook. Entretanto, caso seja necessário salvar o gráfico gerado, podemos usar a função `savefig` da figura `fig`. É possível especificar a densidade de píxels da imagem gerada através do parâmetro `dpi`. Isso é muito útil para artigos que exigem figuras com pelo menos 300 dpi. A figura será gerada com o nome especificado no primeiro parâmetro. No exemplo abaixo, o nome será figura1.png e a imagem será salva na mesma pasta do notebook.

```
fig.savefig('figura1.png', dpi=300)
```

In [None]:
# tente executar o código acima aqui e verifique a imagem gerada na pasta do notebook

## Seção 2: Histogramas

> Um histograma é uma representação gráfica da distribuição de um conjunto de dados. 
Ele divide os dados em intervalos (bins) e conta quantos valores caem em cada intervalo.

> Vamos criar um conjunto de dados sintéticos usando o NumPy para testar o histograma.
A função `np.random.normal` cria uma distribuição normal aleatória, 
onde o primeiro parâmetro é o centro da distribuição,
o segundo parâmetro é o desvio padrão 
e o terceiro parâmetro é o tamanho da distribuição.

```
import numpy as np
dados_hist = np.random.normal(50, 15, 1000)
```

In [None]:
# tente executar o código acima aqui

> Agora vamos criar o histograma usando os dados armazenados em `dados_hist`

```
plt.hist(dados_hist, bins=30, color='blue', edgecolor='black')
plt.title('Histograma de Distribuição')
plt.xlabel('Valor')
plt.ylabel('Frequência')
plt.show()
```

In [None]:
# tente executar o código acima aqui

### Customizando o histograma

> Você pode personalizar a aparência do histograma ajustando o número de bins, cores, bordas, títulos e rótulos dos eixos.
Por exemplo, alterando o número de bins e a cor do histograma.
```
plt.hist(dados_hist, bins=50, color='green', edgecolor='black')
plt.title('Histograma Customizado')
plt.xlabel('Valor')
plt.ylabel('Frequência')
plt.show()
```

In [None]:
# tente executar o código acima aqui

## Seção 3: Scatterplot

> Um scatterplot (gráfico de dispersão) é usado para representar a relação entre duas variáveis.
Cada ponto no gráfico representa uma observação no conjunto de dados.

> Vamos criar um conjunto de dados sintéticos para testar o scatterplot. Para a primeira variável (x), usaremos a função do NumPy `np.random.rand`, que gera números aleatórios com uma distribuição uniforme com valores entre 0 e 1. O seu parâmetro especifica qual o tamanho do array a ser gerado. Para a segunda variável (y), usaremos a função `np.random.normal`, mas seu valor será um valor próximo de x.

```
x = np.random.rand(100)
y = x + np.random.normal(0, 0.1, 100)
```

In [None]:
# tente executar o código acima aqui

### Criando um scatterplot básico

```
plt.scatter(x, y, color='purple')
plt.title('Scatterplot Básico')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()
```

In [None]:
# tente executar o código acima aqui

### Customizando o scatterplot

> Assim como no histograma, o scatterplot pode ser customizado. 
Podemos alterar as cores (`color`), tamanhos dos pontos (`s`), transparência (`alpha`), títulos e rótulos dos eixos.

```
plt.scatter(x, y, color='magenta', s=50, alpha=0.5)
plt.title('Scatterplot Customizado')
plt.xlabel('X')
plt.ylabel('Y')
plt.show()
```

In [None]:
# tente executar o código acima aqui

# Seção 4: Boxplot

> Um boxplot é uma representação gráfica que mostra a distribuição dos dados baseada em cinco números principais: mínimo, primeiro quartil (Q1), mediana (Q2), terceiro quartil (Q3) e máximo.
É útil para identificar outliers e a dispersão dos dados.

> Vamos criar um conjunto de dados sintéticos para testar o boxplot. Criaremos 3 conjuntos de dados, representando 3 grupos de observações.

```
dados_box = [np.random.normal(50, 10, 200), np.random.normal(60, 15, 200), np.random.normal(70, 5, 200)]
```

In [None]:
# tente executar o código acima aqui

> Agora, vamos criar um boxplot básico a partir dos dados gerados acima.

```
plt.boxplot(dados_box)
plt.title('Boxplot Básico')
plt.xlabel('Grupo')
plt.ylabel('Valor')
plt.show()
```

In [None]:
# tente executar o código acima aqui

### Customizando o boxplot

> O boxplot também pode ser customizado. 
Podemos alterar a orientação dos boxplots (`vert`), ocultar outliers (`showfliers`) e mudar o nome dos grupos (`xticks`), por exemplo.

```
plt.boxplot(dados_box, notch=True, vert=True, showfliers=False)
plt.title('Boxplot Customizado')
plt.xticks([1,2,3],['Tratamento 1','Tratamento 2','Controle'])
plt.xlabel('Grupo')
plt.ylabel('Valor')
plt.show()
```

In [None]:
# tente executar o código acima aqui