# Visualização de Dados

## Matplotlib

In [None]:
import matplotlib.pyplot as plt
fig = plt.figure()
ax1 = fig.add_subplot(2, 2, 1)
ax2 = fig.add_subplot(2, 2, 2)
ax3 = fig.add_subplot(2, 2, 3)

In [None]:
import numpy as np
from numpy.random import randn
ax1.plot(randn(50).cumsum(), 'k--')
ax2.hist(randn(100), bins=20, color='k', alpha=0.3)
ax3.scatter(np.arange(30), np.arange(30) + 3 * randn(30))
fig

In [None]:
x = np.linspace(0, 2, 100)
plt.plot(x, x, label='linear')
plt.plot(x, x**2, label='quadratic')
plt.plot(x, x**3, label='cubic')

plt.xlabel('x label')
plt.ylabel('y label')
plt.title("Simple Plot")

plt.legend()
plt.show()

In [None]:
plt.plot(randn(30).cumsum(), color='r', linestyle='dashed', marker='+')

In [None]:
fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)
ax.plot(randn(1000).cumsum())
ticks = ax.set_xticks([0, 250, 500, 750, 1000])
labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'],
                            rotation=30, fontsize='small')
ax.set_title('My matplotlib plot')
ax.set_xlabel('Stages')

In [None]:
fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)
ax.plot(randn(1000).cumsum(), 'k', label='one')
ax.plot(randn(1000).cumsum(), 'k--', label='two')
ax.plot(randn(1000).cumsum(), 'k.', label='three')
ax.legend(loc='best')

In [None]:
#histograma
np.random.seed(19680801)

mu, sigma = 100, 15
x = mu + sigma * np.random.randn(10000)

plt.hist(x, 50, density=True, facecolor='g', alpha=0.75)


plt.xlabel('Smarts')
plt.ylabel('Probability')
plt.title('Histogram of IQ')
plt.text(60, .025, r'$\mu=100,\ \sigma=15$')
plt.axis([40, 160, 0, 0.03])
plt.grid(True)
plt.show()

In [None]:
#barra
from matplotlib.ticker import FuncFormatter
x = np.arange(4)
money = [1.5e5, 2.5e6, 5.5e6, 2.0e7]
def millions(x, pos):
    'valor e posição'
    return '$%1.1fM' % (x * 1e-6)
formatter = FuncFormatter(millions)

fig, ax = plt.subplots()
ax.yaxis.set_major_formatter(formatter)
plt.bar(x, money)
plt.xticks(x, ('Bill', 'Fred', 'Mary', 'Sue'))
plt.show()

In [None]:
# barra empilhada
N = 5
menMeans = (20, 35, 30, 35, 27)
womenMeans = (25, 32, 34, 20, 25)
menStd = (2, 3, 4, 1, 2)
womenStd = (3, 5, 2, 3, 3)
ind = np.arange(N)    
width = 0.35       # largura das barras

p1 = plt.bar(ind, menMeans, width, yerr=menStd)
p2 = plt.bar(ind, womenMeans, width,
             bottom=menMeans, yerr=womenStd)

plt.ylabel('Scores')
plt.title('Scores por grupo e sexo')
plt.xticks(ind, ('G1', 'G2', 'G3', 'G4', 'G5'))
plt.yticks(np.arange(0, 81, 10))
plt.legend((p1[0], p2[0]), ('Homem', 'Mulher'))

plt.show()

In [None]:
#Scatter-plot
pontos_f = [89, 90, 70, 89, 100, 80, 90, 100, 80, 34]
pontos_m = [30, 29, 49, 48, 100, 48, 38, 45, 20, 30]
range_pontos = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
plt.scatter(range_pontos, pontos_f, color='r')
plt.scatter(range_pontos, pontos_m, color='g')
plt.xlabel('Range de Pontos')
plt.ylabel('Pontos')
plt.show()

In [None]:
#Box plot
np.random.seed(19680801)

#criando dados fictícios
spread = np.random.rand(50) * 100
center = np.ones(25) * 50
flier_high = np.random.rand(10) * 100 + 100
flier_low = np.random.rand(10) * -100
data = np.concatenate((spread, center, flier_high, flier_low))
fig1, ax1 = plt.subplots()
ax1.set_title('Basic Plot')
ax1.boxplot(data)

## Altair

In [None]:
import pandas as pd
data = pd.DataFrame({'a': list('CCCDDDEEE'),
                     'b': [2, 7, 4, 1, 2, 6, 8, 4, 7]})

In [None]:
import altair as alt
chart = alt.Chart(data)

In [None]:
alt.Chart(data).mark_point()

In [None]:
alt.Chart(data).mark_point().encode(
    x='a',
)

In [None]:
alt.Chart(data).mark_point().encode(
    x='a',
    y='b'
)

In [None]:
alt.Chart(data).mark_bar().encode(
    y='a',
    x='average(b)'
)

In [None]:
alt.Chart(data).mark_bar(color='firebrick').encode(
    alt.Y('a', axis=alt.Axis(title='category')),
    alt.X('average(b)', axis=alt.Axis(title='avg(b) by category'))
)

In [None]:
ex = alt.Chart(data).mark_bar(color='firebrick').encode(
    alt.Y('a', axis=alt.Axis(title='category')),
    alt.X('average(b)', axis=alt.Axis(title='avg(b) by category'))
)

ex.save('exemplo.png')

In [None]:
text = """
O interesse de Ada pela ciência aplicada foi ainda mais estimulado quando ela conheceu uma das poucas mulheres que havia se tornado 
conhecida na matemática e na ciência britânicas, Mary Somerville. Somerville tinha acabado de escrever uma de suas grandes obras, 
On the Connexion of the Physical Sciences, em que ligava desenvolvimentos da astronomia, da óptica, da eletricidade, da química, da física, 
da botânica e da geologia. Emblemático de seu tempo, o livro fornecia uma percepção unifi cada dos extraordinários esforços de descoberta que 
estavam sendo feitos. Ela proclamava em sua primeira frase: “O progresso da ciência moderna, sobretudo nos últimos cinco anos, tem sido 
impressionante em razão de uma tendência a simplifi car as leis da natureza e a unir ramos distintos por meio de princípios gerais”. 
"""

In [None]:
import numpy as np

data = pd.DataFrame(
    {'letras': np.array([c for c in text if c.isalpha()])}
)

alt.Chart(data).transform_aggregate(
    count='count()',
    groupby=['letras']
).transform_window(
    rank='rank(count)',
    sort=[alt.SortField('count', order='descending')]
).transform_filter(
    alt.datum.rank < 10
).mark_bar().encode(
    y=alt.Y('letras:N',
        sort=alt.EncodingSortField(field='count', op='sum', order='descending')
    ),
    x='count:Q',
)

In [None]:
from vega_datasets import data
stocks = data.stocks()
print(len(stocks))
print(stocks['symbol'].unique())
stocks.head()

In [None]:
alt.Chart(stocks).mark_line().encode(
    x='date',
    y='price',
    color='symbol'
)

In [None]:
from vega_datasets import data

In [None]:
iowa = data.iowa_electricity()
print(iowa['source'].unique())
iowa.head()

In [None]:
alt.Chart(iowa).mark_area(opacity=0.3).encode(
    x="year:T",
    y=alt.Y("net_generation:Q", stack=None),
    color="source:N"
)

In [None]:
temps = data.seattle_temps()
print(len(temps))
temps.head()

In [None]:
temps = temps[temps.date < '2010-01-15']

alt.Chart(temps).mark_line().encode(
    x='date:T',
    y='temp:Q'
)

In [None]:
alt.Chart(temps).mark_rect().encode(
    alt.X('hoursminutes(date):O', title='hour of day'),
    alt.Y('monthdate(date):O', title='date'),
    alt.Color('temp:Q', title='temperature (F)')
)

In [None]:
poke = pd.read_csv('Pokemon.csv')
poke.head()

In [None]:


alt.Chart(poke).transform_aggregate(
    count='count()',
    groupby=['Type 1']
).transform_window(
    rank='rank(count)',
    sort=[alt.SortField('count', order='descending')]
).mark_bar().encode(
    y=alt.Y('Type 1:N',
        sort=alt.EncodingSortField(field='count', op='sum', order='descending')
    ),
    x='count:Q',
)