# Aula 4 - Visualização de dados (Dataviz)

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Dataviz
- 2) Matplotlib
- 3) Seaborn
- 4) Sua vez de praticar!
- 5) Estruturas adicionais do matplotlib

## 1) Dataviz

Como discutimos desde a primeira aula, uma das atribuições do cientista de dados é **apresentar os resultados e conclusões** das análises realizadas, de forma o mais **intuitiva e visual** possível.

Afinal, não seria muito interessante apresentar equações complicadas e tabelas "cruas" para um comitê executivo, não é mesmo?

Por esse motivo, é muito importante que sejam aplicadas técnicas de **visualização de dados**. Esta é uma área de data science por si só, muitas vezes é chamada de **dataviz**, e é de enorme importância para que um projeto de data science seja bem sucedido e **bem comunicado**!

Além disso, a habilidade de visualizar os dados ajuda muito no processo de **EDA**, como discutimos anteriormente, afinal, representações visuais dos dados sempre são mais simples e intuitivas de serem interpretadas!

Então, os principais objetivos do dataviz são:

- Auxiliar na EDA; Exploratory Data Analysis
- Auxiliar na apresentação de resultados.

Vamos agora aprender algumas ferramentas de dataviz!

## um site bem bacana

https://www.python-graph-gallery.com/

## 2) Matplotlib

O matplotlib é a biblioteca mais popular para visualização de dados em Python. Ela permite a geração de diferentes tipos de gráfico, como gráficos de linha, de barras, de pizza, de dispersão e histogramas.

Além disso, a matplotlib permite personalizar os gráficos de diversas maneiras, acrescentando **múltiplas fontes de dados**, **trocando cor**, **formato dos marcadores** ou gerando **diversos gráficos na mesma imagem**.

Vamos aprender como utilizá-la!

In [None]:
# bibliotecas de processamento de dados

import numpy as np
import pandas as pd

In [None]:
# importando o matplotlib

import matplotlib.pyplot as plt

Vamos começar com uns gráficos simples...

A forma mais simples de criar gráficos com o matplotlib é a partir de **listas**,**arrays**, etc.

A ideia é que sejam dados os pontos **(x, y)** que são então plotados

In [None]:
# 1

Note que o gráfico ficou meio "serrilhado"... Isso acontece porque pegamos apenas 4 pontos para fazer o gráfico, que foram ligados por linhas retas. 

Se quisermos um gráfico mais suave, é interessante usar o numpy!

In [None]:
# 2

In [None]:
# 3

In [None]:
# 4

In [None]:
# 5

In [None]:
# 6

Vamos fazer uns outros gráficos, pra praticar:

In [None]:
# 7

In [None]:
# 8

In [None]:
# 9

In [None]:
# 10

In [1]:
# 11

In [2]:
#12

In [3]:
# 13

In [4]:
# 14

In [5]:
# 15

In [6]:
# 16

In [7]:
# 17

In [8]:
# 18

O matplotlib nos permite **alterar o tamanho do gráfico** e também **plotar mais de uma curva em um mesmo eixo**

In [9]:
# 19

Para fazermos gráficos em eixos separados, usamos o `plt.show()`, que finaliza a figura e a exibe

In [10]:
# 20

In [11]:
# 21


Note que a imagem foi salva com umas bordas que podem ser indesejáveis... Pra corrigir isso, sete o parâmetro **bbox_inches = "tight"**

In [None]:
# 22

Também é possível adicionar títulos ao gráfico e aos eixos

In [None]:
# 23

É possível mover as legendas com os argumentos do **plt.legend()**

In [None]:
# 24

In [None]:
# 25

Para maiores informações sobre legendas, [clique aqui!](https://matplotlib.org/tutorials/intermediate/legend_guide.html)

Você encontra outros exemplos de legenda [aqui.](http://jb-blog.readthedocs.io/en/latest/posts/0012-matplotlib-legend-outdide-plot.html)

É possível mudar a cor das curvas, bem como o estilo, usando os [argumentos de estilo](https://matplotlib.org/2.1.2/api/_as_gen/matplotlib.lines.Line2D.html).

Dica: para escolha de cores, use o **color picker do google** para pegar o código HEX

In [None]:
# 26

## 3) Seaborn

Vamos agora conhecer outra biblioteca de dataviz: o **seaborn**.

Essa biblioteca é construída usando a matplotlib, e tem como foco produzir **gráficos estatísticos** como por exemplo:

- plots de distribuição
- plots categóricos
- plots de matriz

Vamos ver exemplos de usabilidade dos tipos de gráficos acima!


Para ilustrar esses gráficos, vamos utilizar alguns datasets que já vêm com o prório seaborn!

O seaborn passou por algumas modificações recentemente... Pra garantir que vamos ter as mesmas funcionalidades, é importante que todos estejamos com a versão `v.0.11` ou maior.

Para quem precisar atualizar o seaborn, faça o seguinte (em uma célula aqui do jupyter mesmo):

`!pip install seaborn --upgrade`

In [None]:
# importa o seaborn

import seaborn as sns

In [None]:
# 27

### Plots de distribuição

Como o nome indica, são gráficos que nos auxiliam a visualizar a **distribuição dos dados**, ou seja, como os dados estão distribuídos nos diferentes valores que determinadas variáveis podem assumir.


In [None]:
# 28


In [12]:
# 29

Esse é um dataframe que contém informações sobre mesas de um restaurante e as gorjetas (tips) que as pessoas da mesa deram, juntamente com outras informações relativas ao pedido.

Esses dados podem ser utilizados, por exemplo, para prever o quanto de gorjeta se espera receber de determinada mesa!

In [None]:
# 30

In [None]:
# 31

__Histplot (antigo "distplot")__

Este tipo de gráfico ilustra a **distribuição dos dados numéricos**, através de um histograma.

Por padrão, o gráfico não mais produz automaticamente a curva [KDE](https://pt.wikipedia.org/wiki/Estimativa_de_densidade_kernel) da distribuição, isso é, uma **estimativa para a função densidade de probabilidade da distribuição.**

In [13]:
# 32

KDE - kernel density estimate

In [14]:
# 33

In [15]:
# 34

In [16]:
# 35

In [17]:
# 36

In [18]:
# 37

In [19]:
# 38

In [20]:
# 39

A legenda tá bem em cima do gráfico, grrrr ... pra colocar ela pra fora, não é tão simples

Encontrei a solução nesse post: https://stackoverflow.com/questions/66623746/no-access-to-legend-of-sns-histplot-used-with-data-normalisation

In [21]:
# 40

In [None]:
# 41

Aplique essa técnica a todos os gráficos do seaborn que vc quiser posicionar a legenda fora do eixo ;)

In [None]:
# 42

In [23]:
# 43

In [24]:
# 44

In [None]:
# 45

In [None]:
# 46

In [None]:
# 47

In [25]:
# 48

In [26]:
# 49

In [27]:
# 50

In [28]:
# 51

In [29]:
# 52

Vamos ver a distribuição de outras colunas numéricas...

In [30]:
# 53

### exercicio - plot de distribuição (histograma) pras demais colunas numericas, acima

In [None]:
# 54

__Jointplot__

O jointplot é um gráfico que relaciona duas colunas diferentes.

Em cada um dos eixos são exibidas as distribuições das respectivas colunas, e entre os eixos é mostrado algum tipo de gráfico para os pares de pontos das duas colunas.

Este gráfico no meio é definido pelo parâmetro "kind", que pode assumir 6 valores diferentes.

Através desse gráfico podemos rapidamente examinar a **relação entre as diferentes variáveis**! Dessa forma, podemos já saber o que esperar das análises posteriores

In [31]:
# 55

In [None]:
# 56

In [32]:
# 57

In [33]:
# 58

In [34]:
# 59

In [35]:
# 60

In [36]:
# 61

In [37]:
#62


Um argumento bem interessante é o "hue", que **separa os dados** de acordo com alguma variável **categórica**.

Essa funcionalidade nos ajuda a visualizar claramente a relação entre as variáveis **numéricas** com as variáveis **categóricas**!

(Essa é uma funcionalidade nova do seaborn (v. 0.11), por isso, pode ser necessário atualizar a versão... Para isso, rode em alguma célula: !pip install seaborn --upgrade)


In [38]:
# 63

In [None]:
# 64

In [39]:
# 65

In [40]:
# 66

In [41]:
# 67

In [42]:
# 68

In [43]:
# 69

In [44]:
# 70

In [45]:
# 71

In [46]:
# 72

Podemos criar uma nova coluna "weekday", que indica se o dia é dia útil ou fds:

In [47]:
# 73

__Pairplot__

O pairplot produz uma matriz de gráficos, onde a diagonal principal terá a **distribuição** dos dados da respectiva coluna, e os demais elementos são **gráficos de relação** entre as diferentes colunas.

Ambos os gráficos podem ser controlados pelos argumentos "diag_kind" e "kind", respectivamente

kind : {'scatter', 'kde', 'hist', 'reg'}

diag_kind : {'auto', 'hist', 'kde', None}

In [48]:
# 74

In [49]:
# 75

In [50]:
# 76

Também é possível usar o hue

In [51]:
# 77

In [52]:
# 78

In [53]:
# 79

In [54]:
# 80

### Plots categóricos

Esse tipo de gráfico é muito útil para visualizarmos os dados categóricos!

Vamos ver alguns gráficos para esse fim:

__Countplot__

Esse gráfico é a visualização do "value_counts"!

In [55]:
# 81

In [None]:
# 82

In [None]:
# 83

In [56]:
# 84

In [57]:
# 85

In [58]:
# 86

In [59]:
# 87

In [60]:
# 88

__Barplot__

Esse é o gráfico de barras, similar ao countplot, mas com a diferença que no eixo x teremos dados categóricos, e no eixo y algum dado numérico.

O que o barplot mostra é **alguma estatística descritiva** (média, mediana, etc...) da variável numérica, separada pela variável categórica (como se fosse um "hue")

A barra no topo é a barra de erro, que é comumente tomada como o **desvio padrão**.


In [61]:
# 89

In [None]:
# 90

É possível mudar a função descritiva:


In [62]:
# 91

In [None]:
# 92

__Boxplot__

Os gráficos "boxplots" (diagramas de caixa) ilustram a **distribuição de dados numéricos entre os diferentes valores de dados categóricos**

Nesses gráficos, é possível visualizar os **quartis**, bem como os **outliers**

Quartis (Q1, Q2 e Q3): São valores dados a partir do conjunto de observações ordenado em ordem crescente, que dividem os dados **em quatro partes iguais**. 

- O primeiro quartil, Q1, é o número que deixa 25% das observações abaixo e 75% acima;
- O segundo quartil, Q2 é a **mediana**, deixa 50% das observações abaixo e 50% das observações acima;
- O terceiro quartil, Q3, deixa 75% das observações abaixo e 25% acima;


<img src="https://aprendendogestao.com.br/wp-content/uploads/2016/07/QE-Figura-1.png" width="700" height="700" />

O boxplot permite a visualização da construção acima:

<img src="https://miro.medium.com/max/18000/1*2c21SkzJMf3frPXPAR_gZA.png" width=500>

Essas barras fora da caixa são chamadas de "whisker", que estabelecem os limites para os dados serem considerados típicos dentro da dsitrtibuição

In [63]:
# 93

In [64]:
# 94

In [None]:
# 95

In [None]:
# 96

In [65]:
# 97

In [66]:
# 98

In [67]:
# 99

In [68]:
# 100

In [69]:
# 101

In [70]:
# 102

In [None]:
# 103

__Violinplot__

Este tipo de gráfico é bem semelhante ao boxplot quanto ao uso: ele ilustra **a distribuição dos dados numéricos entre as diferentes classes de dados categóricos**, mas de forma explícita, exibindo a curva KDE da distribuição: