### **Visualização Individual - Italo Santos**

O dataset escolhido desta vez foi o `iris.json`, no qual possui informações de 3 espécies e contém largura e comprimento das pétalas e sépalas. Não é o dataset tão rico, mas julguei ser suficiente e interessante para fazer as análises.
Em resumo foi feita uma análise estatistica, fazendo uso do boxplot, análises uni e bidimensionais, e um gráfico final. Vele ressaltar que em cada visualização foi buscado trazer informações de todo dataset.

In [117]:
import altair as alt
import pandas as pd

df = pd.read_json('https://raw.githubusercontent.com/altair-viz/vega_datasets/master/vega_datasets/_data/iris.json')

df.head()

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


**Análise Estatistica 1:** Inicialmente, para visualizar algumas informações sobre o dataset, usamos o `.describe()` que já nos da alguns dados. Ademais, utilizamos o `.median()` para calcular a mediana dos valores do dataset.

In [116]:
d1 = df.describe()

d2 = df.groupby('species').median()

d1, d2


(       sepalLength  sepalWidth  petalLength  petalWidth
 count   150.000000  150.000000   150.000000  150.000000
 mean      5.843333    3.057333     3.758000    1.199333
 std       0.828066    0.435866     1.765298    0.762238
 min       4.300000    2.000000     1.000000    0.100000
 25%       5.100000    2.800000     1.600000    0.300000
 50%       5.800000    3.000000     4.350000    1.300000
 75%       6.400000    3.300000     5.100000    1.800000
 max       7.900000    4.400000     6.900000    2.500000,
             sepalLength  sepalWidth  petalLength  petalWidth
 species                                                     
 setosa              5.0         3.4         1.50         0.2
 versicolor          5.9         2.8         4.35         1.3
 virginica           6.5         3.0         5.55         2.0)

**Análise Estatistica 2:** Para melhor visualização e compreensão dos dados estatisticos, utilizei o boxplot para mostrar separadamente cada informação de comprimento e largura, só que agora separadas por espécie. Passando a seta em cima de cada um obterá os dados estatisticos individuais de cada espécie. Ademais, fiz algumas manipulações em `color` fazendo abordagens que foram vistas no capítulo, cada medida possui conjunto de cores diferentes.

In [115]:
graf1 = alt.Chart(df).mark_boxplot().encode(
    x= alt.X('species:N', title = 'Espécies'),
    y= alt.Y('sepalLength:Q', title = 'Comprimento da Sépala'),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#ff7f0e', '#2ca02c', '#1f77b4']))
).properties(
    title='Distribuição do Comprimento das Sépalas'
)


graf2 = alt.Chart(df).mark_boxplot().encode(
    x= alt.X('species:N', title = 'Espécies'),
    y= alt.Y('sepalWidth:Q', title = 'Largura da Sépala'),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#d62728', '#9467bd', '#8c564b']))
).properties(
    title='Distribuição da Largura das Sépalas'
)

graf3 = alt.Chart(df).mark_boxplot().encode(
    x= alt.X('species:N', title = 'Espécies'),
    y= alt.Y('petalLength:Q', title = 'Comprimento da Pétala'),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#e377c2', '#7f7f7f', '#bcbd22']))
).properties(
    title='Distribuição do Comprimento das Pétalas'
)


graf4 = alt.Chart(df).mark_boxplot().encode(
    x= alt.X('species:N', title = 'Espécies'),
    y= alt.Y('petalWidth:Q', title = 'Largura da Pétala'),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#17becf', '#9edae5', '#f7b6d2']))
).properties(
    title='Distribuição da Largura das Pétalas'
)


graf1.show()
graf2.show()
graf3.show()
graf4.show()

**Análise Unidimensional:** Para a análise unidimensional foi realizado gráficos barra empilhados, no qual representa melhor a quantidade de flores que respeitam determinado intervalo de tamanho (comprimento ou largura). Desta forma, foram realizados 4 gráficos (um para cada variação: comprimento e largura de sépala e pétala). Vale ressaltar que mantive as mesmas cores do boxplot para ficar algo unificado. Passando a seta em cima de cada cor (que representa cada espécie), voce consegue visualizar a quantidade de flores da determinada espécie no intervalo escolhido de tamanho.

In [114]:

graf1 = alt.Chart(df).mark_bar().encode(
    x=alt.X('sepalLength:Q', bin=alt.Bin(maxbins=30), title='Comprimento da Sépala'),
    y=alt.Y('count():Q', title='Quantidade', scale=alt.Scale(domain=[0, 20])),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#ff7f0e', '#2ca02c', '#1f77b4'])),
    tooltip=[alt.Tooltip('species:N', title='Espécie'), alt.Tooltip('count():Q', title='Quantidade')]
).properties(
    title="Distribuição do Comprimento da Sépala por Espécie"
)

graf2 = alt.Chart(df).mark_bar().encode(
    x=alt.X('sepalWidth:Q', bin=alt.Bin(maxbins=30), title='Largura da Sépala'),
    y=alt.Y('count():Q', title='Quantidade', scale=alt.Scale(domain=[0, 30])),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#d62728', '#9467bd', '#8c564b'])),
    tooltip=[alt.Tooltip('species:N', title='Espécie'), alt.Tooltip('count():Q', title='Quantidade')]
).properties(
    title="Distribuição da Largura da Sépala por Espécie"
)

graf3 = alt.Chart(df).mark_bar().encode(
    x=alt.X('petalLength:Q', bin=alt.Bin(maxbins=30), title='Comprimento da Pétala'),
    y=alt.Y('count():Q', title='Quantidade', scale=alt.Scale(domain=[0, 30])),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#e377c2', '#7f7f7f', '#bcbd22'])),
    tooltip=[alt.Tooltip('species:N', title='Espécie'), alt.Tooltip('count():Q', title='Quantidade')]
).properties(
    title="Distribuição do Comprimento da Pétala por Espécie"
)

graf4 = alt.Chart(df).mark_bar().encode(
    x=alt.X('petalWidth:Q', bin=alt.Bin(maxbins=30), title='Largura da Pétala'),
    y=alt.Y('count():Q', title='Quantidade', scale=alt.Scale(domain=[0, 30])),
    color=alt.Color('species:N', title='Espécie', scale=alt.Scale(domain=['setosa', 'versicolor', 'virginica'], range=['#17becf', '#9edae5', '#f7b6d2'])),
    tooltip=[alt.Tooltip('species:N', title='Espécie'), alt.Tooltip('count():Q', title='Quantidade')]
).properties(
    title="Distribuição da Largura da Pétala por Espécie"
)

graf1.show()
graf2.show()
graf3.show()
graf4.show()

**Análise Bidimensional:** Para análise bidimensional, fiz a escolha de analisar cada espécie separadamente (o usuário seleciona). Em busca de analisar as 4 variaveis presentes no dataset, coloquei os eixos para representar a sépala (comprimento e largura) e para representar as pétalas utilizei o tamanho do círculo para identificar o comprimento e o degrade de cor representa a largura da pétala.

OBS: As vezes acontece alguns bugs (nao sei porque), mas basta rodar novamente.

In [113]:
botao = alt.param(
    name='species_param', bind=alt.binding_select(
        options=['setosa', 'versicolor', 'virginica'], name='Espécie: '))

graf5 = alt.Chart(df).mark_circle().encode(
    x=alt.X('sepalLength', title='Comprimento da Sépala', scale=alt.Scale(domain=[df['sepalLength'].min(), df['sepalLength'].max()])),
    y=alt.Y('sepalWidth', title='Largura da Sépala', scale=alt.Scale(domain=[df['sepalWidth'].min(), df['sepalWidth'].max()])),
    color=alt.Color('petalWidth:Q', scale=alt.Scale(scheme='viridis'), legend=alt.Legend(title="Largura da Pétala")),
    size=alt.Size('petalLength', scale=alt.Scale(domain=[0, 7], range=[50, 300]), legend=alt.Legend(title="Comprimento da Pétala")),
    tooltip=[alt.Tooltip('sepalLength', title='Comprimento da Sépala'), alt.Tooltip('sepalWidth', title='Largura da Sépala'),
             alt.Tooltip('petalLength', title='Comprimento da Pétala'), alt.Tooltip('petalWidth', title='Largura da Pétala'),
             alt.Tooltip('species', title='Espécie')]
).transform_filter(
    alt.datum.species == botao
).add_params(
    botao
).properties(
    width=600,
    height=400,
    title='Analisando uma Espécie Específica'
).interactive()

graf5.show()

**Gráfico Final:** Para esse gráfico final, resolvi me inspirar na análise bidimensional realizada. Achei que ela englobou todas as variaveis do dataset, fazendo uma análise bem concisa. Então, baseado no gráfico anterior, resolvi fazer algo mais interativo, onde o usuario seleciona as variaveis que ele quer analisar e como cada variavel sera identificada no gráfico (se será por meio do tamanho, da cor, etc).

In [112]:
botao_especie = alt.binding_select(options=['setosa', 'versicolor', 'virginica'], name="Espécie:")
esp_param = alt.param(name="esp_param", bind=botao_especie)

botao_x = alt.binding_select(options=['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth'], name="Eixo X:")
x_param = alt.param(name="x_param", bind=botao_x, value="sepalLength")

botao_y = alt.binding_select(options=['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth'], name="Eixo Y:")
y_param = alt.param(name="y_param", bind=botao_y, value="sepalWidth")

botao_tam = alt.binding_select(options=['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth'], name="Tamanho dos Pontos:")
tam_param = alt.param(name="tam_param", bind= botao_tam, value="petalLength")

botao_cor = alt.binding_select(options=['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth'], name="Cor (Degradê):")
cor_param = alt.param(name="cor_param", bind=botao_cor, value="petalWidth")


df_auto = alt.Chart(df).transform_calculate(
    x_auto=f"datum[{x_param.name}]",
    y_auto=f"datum[{y_param.name}]",
    tam_auto=f"datum[{tam_param.name}]",
    cor_auto=f"datum[{cor_param.name}]"
)


graf_fim = df_auto.mark_circle().encode(
    x=alt.X("x_auto:Q", title="Eixo X"),
    y=alt.Y("y_auto:Q", title="Eixo Y"),
    size=alt.Size("tam_auto:Q", scale=alt.Scale(range=[10, 300]), legend=alt.Legend(title="Tamanho")),
    color=alt.Color("cor_auto:Q", scale=alt.Scale(scheme='viridis'), legend=alt.Legend(title="Cor (Degradê)")),
    tooltip=[alt.Tooltip('sepalLength', title='Comprimento da Sépala'), alt.Tooltip('sepalWidth', title='Largura da Sépala'),
             alt.Tooltip('petalLength', title='Comprimento da Pétala'), alt.Tooltip('petalWidth', title='Largura da Pétala'),
             alt.Tooltip('species', title='Espécie')]
).transform_filter(
    alt.datum.species == esp_param
).add_params(
    esp_param, x_param, y_param, tam_param, cor_param
).properties(
    width=600,
    height=400,
    title="Gráfico Final",
    padding=100
).interactive()


graf_fim.show()
