# 1. Preparação
## 1.1 Datasets
Coletando os dados das flores:

In [None]:
!wget https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv

Instalando a biblioteca Pandas:

In [None]:
!pip install pandas

Importando para um dataframe Panda:

In [None]:
import pandas as pd
iris = pd.read_csv('iris.csv')
print(iris.shape) # dimensoes
iris.head()

O que é sépala? (http://www.feiradeciencias.com.br/sala26/image26/flower.jpg)

# 1. Bibliotecas imperativas

## 1.1 Pandas
### Gráfico de dispersão

In [None]:
iris.plot.scatter('petal_length', 'sepal_length')

## 1.2 Matplotlib
### Gráfico de dispersão
Criando o dicionário de cores:

In [None]:
color_map = dict(zip(iris.species.unique(),
                    ['blue', 'green', 'red']))
color_map

Instalando a biblioteca:

In [None]:
!pip install matplotlib

Plotando:

In [None]:
import matplotlib.pyplot as plt
for species, group in iris.groupby('species'):
    plt.scatter(group['petal_length'], group['sepal_length'],
               color=color_map[species],
               alpha=0.3, edgeColor=None,
               label=species)

plt.legend(frameon=True, title='Espécie')
plt.xlabel('Tam. Pétala')
plt.ylabel('Tam. Sépala')
plt.plot()

## Matplotlib: conclusão
### Vantagens
+ Baseada em MatLab
+ Biblioteca padrão há mais de uma década (= bem testada)
+ Pouca dificuldade para produzir diferentes gráficos
### Desvantagens
+ Super descritiva
+ Pobre de estilo
+ Sem gráficos interativos
+ Lento para grandes volumes de dados

## 1.2 Seaborn
### Gráfico de dispersão

Instalando a biblioteca:

In [None]:
!pip install seaborn

In [None]:
import seaborn as sns
sns.lmplot('petal_length', 'sepal_length', iris,
          hue='species', fit_reg=False)

### Dispersão múltipla

In [None]:
sns.pairplot(iris, hue='species')

## Seaborn: conclusão
+ Matplotlib com estilo melhorado
+ Foco em visualização estatística e modelagem

## 1.3 Bokeh

Instalando:

In [None]:
!pip install bokeh

In [None]:
import bokeh
p = figure()
p.cirle(iris.petal_length, iris.sepal_length)
show(p)

## Bokeh: conclusão
### Vantagens
+ Interatividade
+ Camada imperativa e declarativa
+ Suporta grandes datasets/streammings
+ Geoespacial
+ Completamente open source
### Desvantagens
+ Não exporta para PDF/EPS
+ Base de usuários menor que a Matplotlib

### Andrews Curves

In [None]:
from pandas.plotting import andrews_curves
andrews_curves(iris, 'species')

# 2. Bibliotecas declarativas

## 2.1 Altair
Instalando:

In [None]:
!pip install altair

Adicionando a extensão Vega:

In [None]:
!jupyter nbextension install --sys-prefix --py vega 

### Gráfico geospacial

Baixando o dataset:

In [None]:
!wget https://github.com/jakevdp/altair-examples/raw/master/data/airports.csv
data_url = 'airports.csv'
pd.read_csv(data_url).head()

Plotando:

In [None]:
from altair import Chart, X, Y, Axis, Scale

Chart(data_url).mark_circle(
    size=1,
    opacity=0.2
).encode(
    x=X('longitude_deg:Q', axis=Axis(title=' ')),
    y=Y('latitude_deg:Q', axis=Axis(title=' '),
        scale=Scale(domain=(-60, 80))),
    color='type:N',
).configure_cell(
    width=800,
    height=350
).configure_axis(
    grid=False,
    axisWidth=0,
    tickWidth=0,
    labels=False,
)

### Gráfico sobreposto

Baixando o dataset:

In [None]:
!wget https://raw.githubusercontent.com/jakevdp/altair-examples/master/data/strikeouts.csv
data = "strikeouts.csv"
pd.read_csv(data).head()

Plotando a primeira camada:

In [None]:
from altair import *

# Create an empty LayeredChart with our data
chart = LayeredChart(data).transform_data(
    calculate=[Formula(field='so_per_game', expr='datum.so / datum.g')]
).configure_cell(
    height=300,
    width=700
)

# Add-in team-by-team points
chart += Chart().mark_circle(
    color='gray',
    opacity=0.1,
).encode(
    x=X('year:T', timeUnit='year', axis=Axis(title=' ')),
    y=Y('so_per_game', axis=Axis(title='Strikeouts Per Game')),
    detail='histcode:N',
)

chart.display()

Segunda camada:

In [None]:
# Add a rolling-mean as a line
chart += Chart().mark_line().encode(
    x='year:T',
    y='mean(so_per_game)',
)

# Add rolling-mean as a circle
chart += Chart().mark_circle().encode(
    x='year:T',
    y='mean(so_per_game)',
)

chart.display()