### **Visualização Individual - Italo Santos**

O dataset escolhido desta vez foi o `iris.json`, no qual possui informações de 3 espécies e contém largura e comprimento das pétalas e sépalas. Não é o dataset tão rico, mas julguei ser suficiente e interessante para fazer as análises.
Em resumo foi feita uma análise estatistica, fazendo uso do boxplot, análises uni e bidimensionais, e um gráfico final. Vele ressaltar que em cada visualização foi buscado trazer informações de todo dataset.

In [1]:
import altair as alt
import pandas as pd

df = pd.read_json('https://raw.githubusercontent.com/altair-viz/vega_datasets/master/vega_datasets/_data/iris.json')

df.head()

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


**Análise Estatistica:** Inicialmente, para visualizar algumas informações sobre o dataset, usamos o `.describe()` que já nos da alguns dados. Ademais, utilizamos o `.median()` para calcular a mediana dos valores do dataset.

In [6]:
d1 = df.describe()

d2 = df.groupby('species').median()

d1, d2


(       sepalLength  sepalWidth  petalLength  petalWidth
 count   150.000000  150.000000   150.000000  150.000000
 mean      5.843333    3.057333     3.758000    1.199333
 std       0.828066    0.435866     1.765298    0.762238
 min       4.300000    2.000000     1.000000    0.100000
 25%       5.100000    2.800000     1.600000    0.300000
 50%       5.800000    3.000000     4.350000    1.300000
 75%       6.400000    3.300000     5.100000    1.800000
 max       7.900000    4.400000     6.900000    2.500000,
             sepalLength  sepalWidth  petalLength  petalWidth
 species                                                     
 setosa              5.0         3.4         1.50         0.2
 versicolor          5.9         2.8         4.35         1.3
 virginica           6.5         3.0         5.55         2.0)

**Análise Estatistica 2:** Para melhor visualização e compreensão dos dados estatisticos, utilizei o boxplot para mostrar separadamente cada informação de comprimento e largura, só que agora separadas por espécie. Passando a seta em cima de cada um obterá os dados estatisticos individuais de cada espécie. Ademais, fiz algumas manipulações em `color` fazendo abordagens que foram vistas no capítulo, cada medida possui conjunto de cores diferentes.

In [3]:
graf1 = alt.Chart(df).mark_boxplot().encode(
    x='species:N',
    y='sepalLength:Q',
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#ff7f0e', '#2ca02c', '#1f77b4']))
).properties(
    title='Distribuição do Comprimento das Sépalas'
)


graf2 = alt.Chart(df).mark_boxplot().encode(
    x='species:N',
    y='sepalWidth:Q',
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#d62728', '#9467bd', '#8c564b']))
).properties(
    title='Distribuição da Largura das Sépalas'
)

graf3 = alt.Chart(df).mark_boxplot().encode(
    x='species:N',
    y='petalLength:Q',
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#e377c2', '#7f7f7f', '#bcbd22']))
).properties(
    title='Distribuição do Comprimento das Pétalas'
)


graf4 = alt.Chart(df).mark_boxplot().encode(
    x='species:N',
    y='petalWidth:Q',
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#17becf', '#9edae5', '#f7b6d2']))
).properties(
    title='Distribuição da Largura das Pétalas'
)


graf1.show()
graf2.show()
graf3.show()
graf4.show()

In [4]:

graf1 = alt.Chart(df).mark_bar().encode(
    x=alt.X('sepalLength:Q', bin=alt.Bin(maxbins=30), title='Comprimento da Sépala'),
    y=alt.Y('count():Q', title='Quantidade', scale=alt.Scale(domain=[0, 20])),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#ff7f0e', '#2ca02c', '#1f77b4'])),
    tooltip=[alt.Tooltip('species:N', title='Espécie'), alt.Tooltip('count():Q', title='Quantidade')]
).properties(
    title="Distribuição do Comprimento da Sépala por Espécie"
)

graf2 = alt.Chart(df).mark_bar().encode(
    x=alt.X('sepalWidth:Q', bin=alt.Bin(maxbins=30), title='Largura da Sépala'),
    y=alt.Y('count():Q', title='Quantidade', scale=alt.Scale(domain=[0, 30])),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#d62728', '#9467bd', '#8c564b'])),
    tooltip=[alt.Tooltip('species:N', title='Espécie'), alt.Tooltip('count():Q', title='Quantidade')]
).properties(
    title="Distribuição da Largura da Sépala por Espécie"
)

graf3 = alt.Chart(df).mark_bar().encode(
    x=alt.X('petalLength:Q', bin=alt.Bin(maxbins=30), title='Comprimento da Pétala'),
    y=alt.Y('count():Q', title='Quantidade', scale=alt.Scale(domain=[0, 30])),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#e377c2', '#7f7f7f', '#bcbd22'])),
    tooltip=[alt.Tooltip('species:N', title='Espécie'), alt.Tooltip('count():Q', title='Quantidade')]
).properties(
    title="Distribuição do Comprimento da Pétala por Espécie"
)

graf4 = alt.Chart(df).mark_bar().encode(
    x=alt.X('petalWidth:Q', bin=alt.Bin(maxbins=30), title='Largura da Pétala'),
    y=alt.Y('count():Q', title='Quantidade', scale=alt.Scale(domain=[0, 30])),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#17becf', '#9edae5', '#f7b6d2'])),
    tooltip=[alt.Tooltip('species:N', title='Espécie'), alt.Tooltip('count():Q', title='Quantidade')]
).properties(
    title="Distribuição da Largura da Pétala por Espécie"
)

graf1.show()
graf2.show()
graf3.show()
graf4.show()

In [5]:

species_selector = alt.param(
    name='species_param', bind=alt.binding_select(
        options=['setosa', 'versicolor', 'virginica'], name='Espécie: '
    )
)


interactive_chart = alt.Chart(df).mark_circle().encode(
    x='sepalLength',
    y='sepalWidth',
    color=alt.Color('petalWidth:Q', scale=alt.Scale(scheme='viridis'), legend=alt.Legend(title="Largura da Pétala")),
    size=alt.Size('petalLength', scale=alt.Scale(domain=[0, 7], range=[50, 300]), legend=alt.Legend(title="Comprimento da Pétala")),
    tooltip=['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth', 'species']
).transform_filter(
    alt.datum.species == species_selector
).add_params(
    species_selector
).properties(
    width=600,
    height=400,
    title='Gráfico Interativo: Analisando uma Espécie Específica'
).interactive()

interactive_chart
