# Aula 09 - Visualização de dados para tomada de decisão
(fortemente baseada no módulo de NumPy, Pandas e Matplotlib do _AI Programming with Python Nanodegree_ da Udacity)

A exploração de dados de _qualquer_ dataset começa com a visualização univariada.
* **Objetivo:** intuição de como cada variável é distribuída antes de pensar em interações mais complexas.
![](http://www.tamarabroderick.com/img/dino_release.png)

É nessa etapa que encontramos bizarrices como _outliers_ e onde descobrimos quais pedaços dos dados podem precisar de mais processamento.

## Dados bonitos <3
Um _dataset_ limpo é tabular e:
* cada variável é uma coluna
* cada observação é uma linha
* cada tipo de unidade observacional é uma tabela

**Vocês já devem saber como brincar disso, então vamos fazer de conta que o mundo é lindo e os dados são bonitos. Esse é o caso do nosso _dataset_**.

## Pokemon
![](https://media.giphy.com/media/10LKovKon8DENq/giphy.gif)
O _dataset_ tem atributos utilizados para calcular quanto dano um ataque causará nos jogos de Pokémon (não o _card game_ nem Pokemon Go). Os atributos são:
* #: número de cada Pokemon
* Name: nome de cada Pokemon
* Type 1: todo Pokemon tem um tipo que determina a resistência/fraqueza a ataques
* Type 2: alguns Pokemons são _dual type_ e têm dois
* Total: soma de todas as estatísticas a seguir. É um guia geral de quão forte o Pokemon é
* HP: _hit points_ ou saúde. Define quanto dano um Pokemon aguenta antes de desmaiar
* Attack: modificador base de ataques normais (ex.: _scratch_, _punch_, ...)
* Defense: base de resistência a dano contra ataques normais
* SP Atk: _special attack_. Modificador base para ataques especiais ( ex: _fire blast_, _bubble team_, ...)
* SP Def: base de resistência contra ataques especiais
* Speed: determina qual Pokemon começa atacando em cada rodada
* Generation: geração em que o Pokemon apareceu
* Legendary: binário para se o Pokemon é lendário ou não

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import re

%matplotlib inline

In [None]:
pokemon = pd.read_csv('Pokemon.csv')
pokemon.head()

In [None]:
pokemon.shape

### Gráfico de barras, o mais tradicional
Infalível para variáveis qualitativas!

Esse gráfico dá enfase pra parte temporal das gerações. Mas se estivermos interessados na ótica de quantos Pokemons apareceram em cada geração, pode ser mais interessante ordenar de forma decrescente.

Mas isso foi um bocado manual... Podemos fazer isso programaticamente, porque Pandas <3

In [None]:
pokemon['Generation'].value_counts()

In [None]:
generation_order = pokemon['Generation'].value_counts().index
generation_order

#### Outra variável: Tipo!
Hora de dar o show (:
![](https://media.giphy.com/media/ToMjGpys6SYsvUSE0JW/giphy.gif)

#### Gráfico de Barras, o resumão
Gráficos de barras são usados para visualizarmos a distribuição de uma variável categórica.
* Cada nível da variável é representado por uma barra.
* A altura da barra indica a frequência dos dados naquele nível.

### Gráfico de Pizza
![](https://media.giphy.com/media/9fuvOqZ8tbZOU/giphy.gif)
Utilizado para representar frequências representativas de variáveis categóricas.

In [None]:
plt.pie(pokemon['Generation'].value_counts(),
        labels = generation_order,
        startangle = 90,
        counterclock = False);

E temos a versão donut, também.

In [None]:
plt.pie(pokemon['Generation'].value_counts(),
        labels = generation_order,
        startangle = 90,
        counterclock = False,
        wedgeprops = {'width': 0.4});

#### Quem odeia pizza?
Eu, nesse caso. Não dá pra entender nada da informação e o gráfico fica pouco informativo. Se eu puder dar uma dica procês, ela é:
> Não usem gráfico de pizza. Nunca. 

(Exceto pra fazer uma brincadeira sobre sabores de pizza).

### Histograma
Histogramas, por outro lado, são lindos.

* Histogramas nos mostram a distribuição de variáveis numéricas.
* É a versão quantitativa do gráfico de barras.
* Porém, cada barra é agrupada por _bins_, que representam os valores num intervalo.

Vamos olhar para a velocidade dos Pokemons.

Repare que os limites das _bins_ não são valores inteiros porque forçamos o número de _bins_ pra algo mais ou menos tirado do sentido do vento. Mas podemos dar mais inteligência pra isso!
Sabemos que a velocidade só assume valores inteiros e gostamos de múltiplos de 5.

Agora eu tenho uma idéia muito mais clara das estatísticas descritivas desses dados... Lembrando que podemos acessar a versão numérica disso também:

In [None]:
pokemon['Speed'].describe()

#### Que que acontece se eu usar uma _bin_ pequena demais, tipo 1?
Hora de dar o show (:
![](https://media.giphy.com/media/ToMjGpys6SYsvUSE0JW/giphy.gif)

Histogramas são legais porque falam da distribuição dos dados e a distribuição dos dados é relevante porque todo o mundo da estatística se baseia nisso! (Mas não pirem nisso agora, tem chão nesse bootcamp ainda (: )

![](https://res.cloudinary.com/teepublic/image/private/s--R6U6EMSR--/t_Preview/b_rgb:ffffff,c_limit,f_jpg,h_600,q_90,w_600/v1519899416/production/designs/2408176_0.jpg)

### Que que cê pode me dizer sobre os ataques e defesas dos Pokemons?
Parece equilibrado?

Hora de dar o show (:
![](https://media.giphy.com/media/ToMjGpys6SYsvUSE0JW/giphy.gif)

**Em geral:**
* Gráfico de barras para variáveis qualitativas
* Histogramas para variáveis quantitativas

#### Estatísticas descritivas e _outliers_
Normalmente, montamos visualizações já pensando em quais são as perguntas que queremos responder e em qual é a finalidade da análise. Para treinar modelos, precisamos entender bem as relações entre os dados, bem como a possível necessidade de um bom trabalho de limpeza.

Um simples gráfico dá várias informações sobre a distribuição dos dados logo de cara:
* Os dados são simétricos ou assimétricos?
* Os dados são unimodais ou bimodais?

Histogramas com _outliers_ podem levar a conclusões erradas sobre a real distribuição dos dados.

In [None]:
# Vamos olhar um pouquinho pros hit points dos Pokemons
pokemon['HP'].describe()

In [None]:
bins = np.arange(0, pokemon['HP'].max() + 5, 5)
plt.hist(data = pokemon,
         x = 'HP',
         bins = bins);

Tem um maluco ali que bate com mais força que o resto, aparentemente...

## Gráficos de dispersão e correlação
Em boa parte das vezes, estamos interessados em gráficos bivariados, porque queremos entender as relações entre variáveis.

Um dos mais populares para isso é o gráfico de dispersão, que está diretamente ligado à correlação entre as variáveis.

Com ele podemos ver, por exemplo, a relação entre Ataque e Defesa!

In [None]:
plt.scatter(data = pokemon,
            x = 'Attack',
            y = 'Defense');
plt.xlabel('Attack');
plt.ylabel('Defense');

Parece que temos uma relação... Podemos fazer a mesma coisa com o `regplot` do `seaborn` que, de quebra, nos dá a linha de regressão linear do gráfico, além de mudara opacidade dos pontos.

Conseguimos o mesmo fator de opacidade no `matplotlib` através do parâmetro `alpha`.

Uma forma mais matemática de entender a relação entre variáveis é através do coeficiente de correlação de Pearson. Tenha em mente que ele só avalia a correlação _linear_ entre duas variáveis.
![](https://statistics.laerd.com/statistical-guides/img/pearson-2-small.png)

In [None]:
pokemon[['Attack', 'Defense']].corr()

## Boxplots
Mais uma das minhas coisas prediletas no mundo <3 

![](https://media.giphy.com/media/QbkL9WuorOlgI/giphy.gif)

Boxplots são mais uma forma de mostrar a relação entre uma variável numérica e outra categórica. Além de ser uma visualização "de cima" da distribuição dos dados.

![](https://cdn-images-1.medium.com/max/1600/1*2c21SkzJMf3frPXPAR_gZA.png)

In [None]:
sns.boxplot(data = pokemon,
            x = 'Generation',
            y = 'Speed',
            color = base_color);

## Heatmaps (ou mapas de calor)
Uma forma muito rápida e visual de ter idéias da relação entre variáveis. Só funciona pra variáveis numéricas (né) e tem um bazilhão de formas diferentes de fazer, e de coisas diferentes.

* [Uma pancada de exemplos da própria documentação do Seaborn](https://seaborn.pydata.org/generated/seaborn.heatmap.html)

In [None]:
sns.heatmap(data = pokemon[['Total',
                            'HP',
                            'Attack',
                            'Defense',
                            'Sp. Atk',
                            'Sp. Def',
                            'Speed',
                            'Generation']].corr(),
            cmap = 'viridis_r');

# Agora me mostre o que você sabe.
Vamos trocar de dataset para os resultados da pesquisa de 2017 do Kaggle, [The State of Data Science and Machine Learning](https://www.kaggle.com/surveys/2017).

In [None]:
mc_responses = pd.read_csv('kaggle-survey-2017/multipleChoiceResponses.csv', 
                           encoding = 'ISO-8859-1')
mc_responses.head()

### Qual será a idade dos cientistas de dados da pesquisa?
Será que o perfil é de gente mais jovem? Quantos anos tem o mais velho?

Para conseguir brincar, vamos transformar a variável de idade, `Age` em números inteiros.

In [None]:
mc_responses_copy = mc_responses.copy()

In [None]:
mc_responses.Age.isnull().sum()

In [None]:
mc_responses.shape

Ok, não são tantos nulos assim... Vamos substituí-los pelo quê? Podemos escolher 0, 1, a média, a mediana... O que preferimos?

In [None]:
# Eu tomei a decisão prévia de substituir por zero, porque queria dar destaque pra isso...
# Mas, na prática, depende da finalidade da substituição.
mc_responses['Age'] = mc_responses.Age.fillna(0).astype(int)

# Showtime!
Ao invés de substituir os valores nulos por zero, troque pela média da idade. Em seguida, faça o histograma e troque a cor dele.

**Dica:** use a [paleta de cores do Seaborn](https://seaborn.pydata.org/tutorial/color_palettes.html#palette-tutorial)!

![](https://camo.githubusercontent.com/c0dbd3e526ee348950d56eb45be8d30858701bb7/68747470733a2f2f6d656469612e67697068792e636f6d2f6d656469612f7a787858594a71546c70426e4f2f67697068792e676966)

# Quais são as áreas de graduação dos cientistas de dados?

# Qual é o maior grau de graduação dentre os cientistas de dados?

# Tá, chega de brincadeira... Conversem com os amiguinhos e vamos resolver uns desafios desafiadores.
## Qual é a correlação dos tempos das etapas de um projeto de data science de acordo com os pesquisados?
As informações dos tempos existem nas colunas:
* TimeGatheringData
* TimeVisualizing
* TimeModelBuilding
* TimeFindingInsights
* TimeProduction

**Dica:** [esse tutorial](https://seaborn.pydata.org/examples/many_pairwise_correlations.html). E use apenas essas variáveis!

## % de tempo investido criando modelos?
Use a variável `TimeModelBuilding` e pense numa visualização útil.

## Quais foram os empregos anteriores dos cientistas de dados?
Essa informação existe em `PastJobTitlesSelect`. Veja que essa coluna possui vários valores. Você precisará criar um método para reduzir a granularidade dessa coluna.

**Dica:** A solução fica mais fácil se você usar [expressões regulares](https://pt.wikipedia.org/wiki/Express%C3%A3o_regular). Para testá-las use [esse site](https://regexr.com/).

# Links extras
* Uma das análises desse dataset no blog do kaggle -> http://blog.kaggle.com/2017/10/30/introducing-kaggles-state-of-data-science-machine-learning-report-2017/
* Joyplots -> http://blog.kaggle.com/2017/07/20/joyplots-tutorial-with-insect-data/
* Plots de mapas -> http://blog.kaggle.com/2016/11/30/seventeen-ways-to-map-data-in-kaggle-kernels/
* Pra inspirar -> https://informationisbeautiful.net/