## Aplicando connhecimento e diferentes funcionalidades

Nessa seção, nosso objetivo foi apresentar exemplos aplicando os aprendizados do capítulo juntamente com outras ferramentas das bibliotecas Altair e Pandas. Tais gráficos visam a ampliar o repertório do nosso leitor, otimizar seu aprendizado e instigar sua curiosidade. Os exemplos abaixo foram construídos a partir de diferentes *datasets* da [Base dos Dados](https://basedosdados.org/).

Cada exemplo é acompanhado de:

- Estatísticas de resumo (ex.: cálculo de médias, medianas, distribuições, frequências, etc.).
- Análises unidimensionais e bidimensionais.
- Explicações sobre a criação e objetivo de cada visualização, a escolha de marcas gráficas e canais de codificação.
- A evolução das mudanças feitas até chegar na versão final do exemplo.

In [2]:
import pandas as pd
import altair as alt

### Vencedores do Oscar

**Exemplo: Bianca Zavadisk**

---

O exemplo abaixo foi construído usando o *dataset* [Oscar](https://basedosdados.org/dataset/faf3f3ae-e5af-4ec1-9f4c-aa38f677cd71?table=59270276-dc2f-462a-a4d5-dbd22b077046) da Base dos Dados.

O Oscar, comumente e agora oficialmente conhecido como Oscar, é um prêmrio da Academia por mérito artístico e técnico para a indústria cinematográfica. Eles são apresentados anualmente pela *Academy of Motion Picture Arts and Sciences* (Academia de Artes e Ciências Cinematográficas) localizada em Beverly Hills, Califórnia, Estados Unidos, em reconhecimento à excelência em realizações cinematográficas conforme avaliadas pelos membros votantes da Academia. 

Esse *dataset* inclui informações sobre seus vencedores e suas características, o que colabora para uma visão geral dos dados históricos de seus vencedores.

Vamos começar exportanto o arquivo csv com os dados para um *data frame* do Pandas.

In [3]:
oscar_path = './world_ampas_oscar_winner_demographics.csv'
oscar = pd.read_csv(oscar_path)
oscar.head()

Unnamed: 0,name,birth_year,birth_date,birthplace,race_ethnicity,religion,sexual_orientation,year_edition,category,movie
0,Marie Dressler,1868,1868-11-02,"Cobourg, Ontario, Canada",White,,Straight,1931,Best Actress,Min and Bill
1,George Arliss,1868,1868-04-10,"London, England",White,,Straight,1930,Best Actor,Desraeli
2,Edmund Gwenn,1875,1875-09-26,"Vale of Glamorgan, Wales",White,,Na,1948,Best Supporting Actor,Miracle on 34th Street
3,Charles Coburn,1877,1877-06-17,"Savannah, Ga",White,,Straight,1944,Best Supporting Actor,The More the Merrier
4,Lionel Barrymore,1878,1878-04-28,"Philadelphia, Pa",White,Roman Catholic,Straight,1931,Best Actor,A Free Soul


O *data frame* apresenta informações demográficas dos vencedores do Oscar em várias categorias, incluindo Melhor Diretor, Melhor Ator, Melhor Ator Coadjuvante, Melhor Atriz e Melhor Atriz Coadjuvante. Os dados abrangem desde a edição de 1927 até a edição de 2014 do Oscar, fornecendo informações sobre os dados demográficos dos vencedores ao longo do tempo.

Vamos traduzir as colunas para melhor entendimento.

In [4]:
oscar = oscar.rename(columns={
    'name': 'Nome',
    'birth_year': 'Ano_Nascimento',
    'birth_date': 'Data_Nascimento',
    'birthplace': 'Local_Nascimento',
    'race_ethnicity': 'Raça_Etnia',
    'religion': 'Religião',
    'sexual_orientation': 'Orientação_Sexual',
    'year_edition': 'Ano_Edição',
    'category': 'Categoria',
    'movie': 'Filme'
})

raca_etnia = {
    'White': 'Branco',
    'Black': 'Preto',
    'Hispanic': 'Hispânico',
    'Asian': 'Asiático',
    'Multiracial': 'Multiracial',
    'Middle Eastern': 'Oriente Médio'
}
oscar['Raça_Etnia'] = oscar['Raça_Etnia'].map(raca_etnia)

religiao = {
    'Roman Catholic': 'Católico Apostólico Romano',
    'Jewish': 'Judeu',
    'Atheist': 'Ateu',
    'Baptist': 'Batista',
    'Protestant': 'Protestante',
    'Born-Again Christian': 'Cristão Renascido',
    'Buddhist': 'Budista',
    'Lutheran': 'Luterano',
    'Christian Science': 'Ciência Cristã',
    'Deist': 'Deísta',
    'Anglican/episcopalian': 'Anglicano/Episcopal',
    'Christian': 'Cristão',
    'Presbyterian': 'Presbiteriano',
    'Quaker': 'Quaker',
    'See Note': 'Ver Nota',
    'Agnostic': 'Agnóstico',
    'Sufism': 'Sufismo',
    'Methodist': 'Metodista',
    'Congregationalist': 'Congregacionalista',
    'Disciples of Christ': 'Discípulos de Cristo',
    'Hindu': 'Hindu'
}
oscar['Religião'] = oscar['Religião'].map(religiao)

orientacao = {
    'Straight': 'Hétero',
    'Na': 'Na',
    'Bisexual': 'Bissexual',
    'Gay': 'Gay',
    'Matter of Dispute': 'Assunto em Discussão',
    'Lesbian': 'Lésbica'
}
oscar['Orientação_Sexual'] = oscar['Orientação_Sexual'].map(orientacao)

categorias = {
    'Best Actor': 'Melhor Ator',
    'Best Actress': 'Melhor Atriz',
    'Best Director': 'Melhor Diretor',
    'Best Supporting Actor': 'Melhor Ator Coadjuvante',
    'Best Supporting Actress': 'Melhor Atriz Coadjuvante',
}
oscar['Categoria'] = oscar['Categoria'].map(categorias)

oscar.head()

Unnamed: 0,Nome,Ano_Nascimento,Data_Nascimento,Local_Nascimento,Raça_Etnia,Religião,Orientação_Sexual,Ano_Edição,Categoria,Filme
0,Marie Dressler,1868,1868-11-02,"Cobourg, Ontario, Canada",Branco,,Hétero,1931,Melhor Atriz,Min and Bill
1,George Arliss,1868,1868-04-10,"London, England",Branco,,Hétero,1930,Melhor Ator,Desraeli
2,Edmund Gwenn,1875,1875-09-26,"Vale of Glamorgan, Wales",Branco,,Na,1948,Melhor Ator Coadjuvante,Miracle on 34th Street
3,Charles Coburn,1877,1877-06-17,"Savannah, Ga",Branco,,Hétero,1944,Melhor Ator Coadjuvante,The More the Merrier
4,Lionel Barrymore,1878,1878-04-28,"Philadelphia, Pa",Branco,Católico Apostólico Romano,Hétero,1931,Melhor Ator,A Free Soul


In [5]:
oscar.shape

(415, 10)

Agora podemos começar nossa análise exploratória e conhecer melhor as variáveis do *data frame*, seus tipos e relações.

As variáveis disponíveis são:
- `Nome:N` - Nome do Vencedor
- `Ano_Nascimento:Q`- Ano de nascimento do vencedor
- `Data_Nascimento:T` - Data de nascimento do vencedor
- `Local_Nascimento:N` - Local de nascimento do vencedor
- `Raça_Etnia:N` - Raça e etnia do vencedor
- `Religião:N` - Religião do vencedor
- `Orientação_Sexual:N` - Orientação sexual do vencedor
- `Ano_Edição:Q` - Ano da edição do Oscar
- `Categoria:N` -  Categoria do vencedor
- `Filme:N` - Filme do vencedor

Iniciaremos com uma análise unidimensional junto a estatísticas de resumo para cada variável.

In [6]:
oscar.describe()

Unnamed: 0,Ano_Nascimento,Ano_Edição
count,415.0,415.0
mean,1928.848193,1972.86747
std,25.716376,24.057284
min,1868.0,1927.0
25%,1908.0,1952.5
50%,1928.0,1973.0
75%,1949.0,1994.0
max,1990.0,2014.0


Podemos analisar visualmente a distribuição de frequências das nossas duas variáveis quantitativas, além de sobrepor uma linha demarcando a média dos valores.

In [7]:
birth_dist = alt.Chart(oscar).mark_bar().encode(
    alt.X('Ano_Nascimento:Q'),
    alt.Y('count()', title='Número de Registros'),
    tooltip='Ano_Nascimento:Q'
).properties(
    width=700,
    height=200,
    title={
        'text': 'Distribuição de frequência do Ano de Nascimento dos Vencedores',
        'anchor': 'middle'
    }
)

mean_birth = alt.Chart(oscar).mark_rule().encode(
    x='mean(Ano_Nascimento)',
    size=alt.value(3)
)

edition_dist = alt.Chart(oscar).mark_bar().encode(
    alt.X('Ano_Edição:Q'),
    alt.Y('count()', title='Número de Registros'),
    tooltip='Ano_Edição:Q'
).properties(
    width=700,
    height=200,
    title={
        'text': 'Distribuição de frequência do Ano da Edição',
        'anchor': 'middle'
    }
)

mean_edition = alt.Chart(oscar).mark_rule().encode(
    x='mean(Ano_Edição)',
    size=alt.value(3)
) 

(birth_dist + mean_birth) & (edition_dist + mean_edition)

Podemos melhorar nossas visualizações definindo uma paleta de cores que seja adequada ao tema. Para isso, extraímos as [cores indicadas no site de marca do Oscar](https://brand.oscars.org/color).

In [8]:
colors = {
    'gold': '#D6BB6E', 
    'red': '#801B1D',
    'ginger': '#Bd4b1a',
    'charcoal': '#55565A',
    'emerald': '#046852',
    'violet': '#5C2B85', 
    'cherry': '#DC1E33',
    'blue': '#1C4F90', 
}

In [9]:
birth_dist = alt.Chart(oscar).mark_bar(color=colors['red']).encode(
    alt.X('Ano_Nascimento:Q'),
    alt.Y('count()', title='Número de Registros'),
    tooltip='Ano_Nascimento:Q'
).properties(
    width=700,
    height=200,
    title={
        'text': 'Distribuição de frequência do Ano de Nascimento dos Vencedores',
        'anchor': 'middle'
    }
)

mean_birth = alt.Chart(oscar).mark_rule(color=colors['gold']).encode(
    x='mean(Ano_Nascimento)',
    size=alt.value(3)
)

edition_dist = alt.Chart(oscar).mark_bar(color=colors['gold']).encode(
    alt.X('Ano_Edição:Q'),
    alt.Y('count()', title='Número de Registros'),
    tooltip='Ano_Edição:Q'
).properties(
    width=700,
    height=200,
    title={
        'text': 'Distribuição de frequência do Ano da Edição',
        'anchor': 'middle'
    }
)

mean_edition = alt.Chart(oscar).mark_rule(color=colors['red']).encode(
    x='mean(Ano_Edição)',
    size=alt.value(3)
) 

(birth_dist + mean_birth) & (edition_dist + mean_edition)

Podemos obervar, ao passar o mouse sobre as barras, que temos 12 vencedores nascidos em 1937, e 11 nascidos em 1907 e 1946. Além disso, o ano com mais vencedores no *data frame* foi 1969. No entando, a distribuição de vencedores por ano é, em sua maioria, uniforme, o que é esperado de uma premiação com categorias específicas como o Oscar, podemos analisar com mais atenção os anos iniciais e verificar quais categorias temos, faremos isso mais em frente.

Para as variáveis nominais podemos analisar a moda dos valores.

In [10]:
oscar[['Nome', 'Data_Nascimento', 'Local_Nascimento', 'Raça_Etnia', 'Religião', 'Orientação_Sexual', 'Categoria', 'Filme']].mode()

Unnamed: 0,Nome,Data_Nascimento,Local_Nascimento,Raça_Etnia,Religião,Orientação_Sexual,Categoria,Filme
0,John Ford,1894-02-01,New York City,Branco,Católico Apostólico Romano,Hétero,Melhor Atriz,West Side Story
1,Katharine Hepburn,1907-05-12,,,,,,


As duas primeiras variáveis são bimodais, os vencedores mais frequentes são John Ford e Katharine Hepburn, assim como suas datas de nascimento. No caso das demais variávies, há apenas uma moda. Vamos separar a moda nos dois primeiros e no restante para melhor entendimento.

In [11]:
oscar[['Nome', 'Data_Nascimento']].mode()

Unnamed: 0,Nome,Data_Nascimento
0,John Ford,1894-02-01
1,Katharine Hepburn,1907-05-12


Faremos um top 10 dos ganhadores do Oscar. Para isso usamos algumas transformações.

In [12]:
top10_winners = alt.Chart(oscar).mark_bar().transform_aggregate(
    Premios='count(Nome)',
    groupby=['Nome']
).transform_window(
    Rank='rank()',
    sort=[alt.SortField('Premios', order='descending')]
).transform_filter(
    'datum.Rank < 10'
).encode(
    alt.X('Premios:Q', title='Prêmios'),
    alt.Y('Nome:N', sort=alt.EncodingSortField(
        op='max', field='Premios', order='descending'
    ))
).properties(
    title={
        'text': 'Top 10 Vencedores com mais Prêmios',
        'anchor': 'middle',
    }
)
top10_winners

Podemos colorir o gráfico usando a nossa paleta de cores definida anteiormente, dando destaque os ganhadores com mais prêmios. Faremos isso definindo uma condição (`alt.condition`) para os nomes da moda.

In [13]:
top10_winners.encode(
    color = alt.condition((alt.datum.Nome == 'John Ford') | (alt.datum.Nome == 'Katharine Hepburn'), 
                                alt.ColorValue(colors['gold']), 
                                alt.ColorValue(colors['red']))
)

In [14]:
oscar[['Local_Nascimento', 'Raça_Etnia', 'Religião', 'Orientação_Sexual', 'Categoria', 'Filme']].mode()

Unnamed: 0,Local_Nascimento,Raça_Etnia,Religião,Orientação_Sexual,Categoria,Filme
0,New York City,Branco,Católico Apostólico Romano,Hétero,Melhor Atriz,West Side Story


Podemos ver que o filme com mais vencedores foi *"West Side Story"*, vamos verificar as informações dos ganhadores desse filme:

In [15]:
oscar[oscar['Filme'] == 'West Side Story']

Unnamed: 0,Nome,Ano_Nascimento,Data_Nascimento,Local_Nascimento,Raça_Etnia,Religião,Orientação_Sexual,Ano_Edição,Categoria,Filme
137,Robert Wise,1914,1914-09-10,"Winchester, In",Branco,,Hétero,1961,Melhor Diretor,West Side Story
155,Jerome Robbins,1918,1918-10-11,New York City,Branco,Judeu,Gay,1962,Melhor Diretor,West Side Story
224,Rita Moreno,1931,1931-12-11,"Humacao, Puerto Rico",Hispânico,,Hétero,1962,Melhor Atriz Coadjuvante,West Side Story
242,George Chakiris,1934,1934-09-16,"Norwood, Oh",Branco,,Gay,1962,Melhor Ator Coadjuvante,West Side Story


Podemos faz um top 10 dos filmes com mais vencedores, como esperado 'West Side Story' está em primeiro, como 4 vencedores, seguido de outros filmes com 3 vencedores.

In [16]:
top10_movies = alt.Chart(oscar).mark_bar().transform_aggregate(
    Vencedores='count(Filme)',
    groupby=['Filme']
).transform_window(
    Rank='rank()',
    sort=[alt.SortField('Vencedores', order='descending')]
).transform_filter(
    'datum.Rank < 10'
).encode(
    alt.X('Vencedores:Q'),
    alt.Y('Filme:N', sort=alt.EncodingSortField(
        op='max', field='Vencedores', order='descending'
    ))
).properties(
    title={
        'text': 'Número de Ganhadores por Filme',
        'anchor': 'middle',
    }
)
top10_movies

Faremos o mesmo para colorir o top 10 dos filmes:

In [17]:
top10_movies.encode(
    color = alt.condition(alt.datum.Filme == 'West Side Story', 
                                alt.ColorValue('#D6BB6E'), 
                                alt.ColorValue('#801B1D'))
)

Olhando novamente para as modas, podemos fazer rapidamente histogramas das variáveis `Raça_Etnia`, `Religião` e `Orientação_Sexual`.

In [18]:
dist_chart = alt.Chart(oscar).mark_bar().encode(
    alt.Y('count()', title='Número de Registros'),
).properties(
    width=300,
    height=200
)

dist_chart.mark_bar(color=colors['emerald']).encode(
    alt.X('Raça_Etnia:N')
) | dist_chart.transform_filter(
    'datum.Religião != null'
).mark_bar(color=colors['violet']).encode(
    alt.X('Religião:N')
) | dist_chart.transform_filter(
    'datum.Orientação_Sexual != "Na"'
).mark_bar(color=colors['cherry']).encode(
    alt.X('Orientação_Sexual:N')
)

A moda prevalesse, podemos verificar isso vendo a frequência.

In [19]:
# Calcula a frequência normalizada para cada coluna
freq_raca = oscar['Raça_Etnia'].value_counts(normalize=True).rename('Frequência_Raça_Etnia')
freq_raca

Raça_Etnia
Branco           0.930120
Preto            0.033735
Hispânico        0.019277
Asiático         0.009639
Multiracial      0.004819
Oriente Médio    0.002410
Name: Frequência_Raça_Etnia, dtype: float64

Os Brancos constiem 93% dos vencedores de alguma categoria.

In [20]:
freq_religiao = oscar['Religião'].value_counts(normalize=True).rename('Frequência_Religião')
freq_religiao

Religião
Católico Apostólico Romano    0.358491
Judeu                         0.283019
Ateu                          0.094340
Batista                       0.031447
Protestante                   0.031447
Cristão Renascido             0.025157
Budista                       0.025157
Luterano                      0.018868
Ciência Cristã                0.018868
Deísta                        0.018868
Anglicano/Episcopal           0.012579
Cristão                       0.012579
Presbiteriano                 0.012579
Quaker                        0.012579
Ver Nota                      0.006289
Agnóstico                     0.006289
Sufismo                       0.006289
Metodista                     0.006289
Congregacionalista            0.006289
Discípulos de Cristo          0.006289
Hindu                         0.006289
Name: Frequência_Religião, dtype: float64

Apesar da moda ser os Católicos Apostólicos Romanos, os Judeus também representam uma porcentagem significativa dos vencedores.

In [21]:
freq_orientacao = oscar['Orientação_Sexual'].value_counts(normalize=True).rename('Frequência_Orientação_Sexual')
freq_orientacao

Orientação_Sexual
Hétero                  0.898795
Bissexual               0.048193
Na                      0.024096
Gay                     0.016867
Assunto em Discussão    0.007229
Lésbica                 0.004819
Name: Frequência_Orientação_Sexual, dtype: float64

Como esperado pela moda, os héteros constuem quase 90% dos vencedores.

Com essa noção do comportamento das variáveis, podemos partir para a análise bidimensional, verificando a correlação entre as variáveis. Podemos fazer isso estatisticamente usando o método `corr()` do Pandas. Para isso vamos filtrar o *data frame* para apenas variáveis quantitativas.

In [22]:
oscar_quant = oscar[['Ano_Nascimento', 'Ano_Edição']]

# Coeficiente Padrão de Correlação 
oscar_quant.corr(method='pearson')

Unnamed: 0,Ano_Nascimento,Ano_Edição
Ano_Nascimento,1.0,0.875288
Ano_Edição,0.875288,1.0


Pela matriz de correlação, os dados aparentes estar consideravelmente correlacionados. Além disso, podemos utilizar um método diferente para calcular essa relação. Por padrão, o método utilizado é o de Pearson, no entando, podemos alterar usando o atributo `method` para alguma das opções: ['pearson', 'kendall', 'spearman']. Faremos isso abaixo:

In [23]:
# Coeficiente Tau de Correlação de Kendall
oscar_quant.corr(method='kendall')

Unnamed: 0,Ano_Nascimento,Ano_Edição
Ano_Nascimento,1.0,0.699143
Ano_Edição,0.699143,1.0


In [24]:
# Coeficiente de Correlação de Postos de Spearman
oscar_quant.corr(method='spearman')

Unnamed: 0,Ano_Nascimento,Ano_Edição
Ano_Nascimento,1.0,0.878635
Ano_Edição,0.878635,1.0


Podemos observar que, enquanto o método de Pearson e de Spearman retornaram valores próximos, o de Kendall aponta uma correlação menor que os outros métodos.

Visualmente, podemos representar essa correlação com um gráfico de dispersão.

In [25]:
alt.Chart(oscar).mark_circle().encode(
    x='Ano_Nascimento',
    y='Ano_Edição',
    color='Categoria',
    tooltip=['Nome', 'Categoria', 'Ano_Nascimento', 'Ano_Edição']
).interactive()

A identificação dos pontos é prejudicada pela escala padrão do Altair, começando na origem. Tente dar um zoom e movimentar o gráfico, isso é permitido pelo método `interactive()`. 

Para começar a resolver essa questão, podemos alterar as escalas do nosso gráfico para permitir a visualização dos dados. Faremos isso a partir dos anos mínimos e máximos de cada variáveis, podemos checar novamente usando o método `agg()`.

In [26]:
oscar_quant.agg(['min', 'max'])

Unnamed: 0,Ano_Nascimento,Ano_Edição
min,1868,1927
max,1990,2014


Podemos definir um mapeamento de cores por categoria para enriquecer esteticamente nossa visualização.

In [27]:
color_map = alt.Scale(
    domain=['Melhor Ator', 'Melhor Atriz', 'Melhor Diretor', 'Melhor Ator Coadjuvante', 'Melhor Atriz Coadjuvante'],
    range=[colors['blue'], colors['cherry'], colors['emerald'], colors['violet'], colors['ginger']]
)

Para alterar efetivamente a escala, definimos o domínio de cada eixo com `domain` em `alt.Scale()` para cada canal de codificação.

In [28]:
alt.Chart(oscar).mark_circle(opacity=0.7).encode(
    x=alt.X('Ano_Nascimento:Q', scale=alt.Scale(domain=[1868, 1990])),
    y=alt.Y('Ano_Edição:Q', scale=alt.Scale(domain=[1927, 2014])),
    color=alt.Color('Categoria:N', scale=color_map),
    tooltip=['Nome', 'Categoria', 'Ano_Nascimento', 'Ano_Edição']
).properties(
    width=300,
    height=250
)

No entanto, note que, ao reescalar os eixos pelo mínimo e máximo, alguns pontos se encontram exatamente em cima do eixo. Podemos resolver isso, usando um intervalo maior.

In [29]:
alt.Chart(oscar).mark_circle(opacity=0.7).encode(
    x=alt.X('Ano_Nascimento:Q', scale=alt.Scale(domain=[1850, 2000])),
    y=alt.Y('Ano_Edição:Q', scale=alt.Scale(domain=[1920, 2020])),
    color=alt.Color('Categoria:N', scale=color_map),
    tooltip=['Nome', 'Categoria', 'Ano_Nascimento', 'Ano_Edição']
).properties(
    width=300,
    height=250
)

A análise com as categorias sobrepostas ainda é válida. Por exemplo, as atrizes vencedoras da categoria 'Melhor Atriz' são, em média, mais novas do que os atores vencedores da categoria 'Melhor Ator'.

Os dados aparentam apresentar uma correlação, mas a visualização ainda parece poluída pela sobreposição dos pontos por categoria, então, podemos ainda fazer um gráfico de dispersão por categoria usando o método `facet()`.

In [30]:
alt.Chart(oscar).mark_circle(opacity=0.7).encode(
    x=alt.X('Ano_Nascimento:Q', scale=alt.Scale(domain=[1850, 2000])),
    y=alt.Y('Ano_Edição:Q', scale=alt.Scale(domain=[1920, 2020])),
    color=alt.Color('Categoria:N', scale=color_map),
    tooltip=['Nome', 'Categoria', 'Ano_Nascimento', 'Ano_Edição']
).properties(
    width=200,
    height=150
).facet(
    column='Categoria:N',
    title={
        'text': 'Gráficos de dispersão para o Ano de Nascimento e da Edição separados por categoria',
        'anchor': 'middle'
    }
)

Podemos então criar uma nova coluna para a idade com que cada pessoa venceu alguma categoria.

In [31]:
oscar['Idade'] = oscar['Ano_Edição'] - oscar['Ano_Nascimento']
oscar.head()

Unnamed: 0,Nome,Ano_Nascimento,Data_Nascimento,Local_Nascimento,Raça_Etnia,Religião,Orientação_Sexual,Ano_Edição,Categoria,Filme,Idade
0,Marie Dressler,1868,1868-11-02,"Cobourg, Ontario, Canada",Branco,,Hétero,1931,Melhor Atriz,Min and Bill,63
1,George Arliss,1868,1868-04-10,"London, England",Branco,,Hétero,1930,Melhor Ator,Desraeli,62
2,Edmund Gwenn,1875,1875-09-26,"Vale of Glamorgan, Wales",Branco,,Na,1948,Melhor Ator Coadjuvante,Miracle on 34th Street,73
3,Charles Coburn,1877,1877-06-17,"Savannah, Ga",Branco,,Hétero,1944,Melhor Ator Coadjuvante,The More the Merrier,67
4,Lionel Barrymore,1878,1878-04-28,"Philadelphia, Pa",Branco,Católico Apostólico Romano,Hétero,1931,Melhor Ator,A Free Soul,53


Essa variável é quantitativa ordinal e podemos fazer algumas medidas de resumo rápidas a respeito dela

In [32]:
#Ordena os valores
oscar_idade = oscar['Idade'].copy()
oscar_idade.sort_values(inplace=True)
oscar_idade

367    11
412    12
292    17
355    21
373    22
       ..
65     79
40     80
111    81
78     82
212    83
Name: Idade, Length: 415, dtype: int64

Verificamos a distribuição das idades por categoria:

In [33]:
alt.Chart(oscar).mark_bar().encode(
    alt.X('Idade'),
    alt.Y('count()', title='Número de Registros'),
    alt.Color('Categoria', scale=color_map)
).properties(
    width=500,
    height=200, 
    title={
        'text': 'Gráfico de distribuição de frequência para a Idade dos Vencedores por categoria',
        'anchor': 'middle'
    }
)

Podemos visualizar em intervalos mais abrangentes:

In [34]:
alt.Chart(oscar).mark_bar().encode(
    alt.X('Idade', bin=alt.BinParams(maxbins=15)),
    alt.Y('count()', title='Número de Registros'),
    alt.Color('Categoria', scale=color_map)
).properties(
    width=500,
    height=200, 
    title={
        'text': 'Gráfico de distribuição de frequência para a Idade dos Vencedores por categoria',
        'anchor': 'middle'
    }
)

Os ganhadores do Oscar estão concentrados na faixe entre 30 e 50 anos. Além disso, como tinhámos apontado anterioremente, as ganhadoras da categoria de 'Melhor Atriz' são mais novas do que os ganhadores de 'Melhor Ator'.

Ainda, podemos analisar o intervalo de idade para cada cateegoria, usando as codificações `x` e `x2`.

In [49]:
bar = alt.Chart(oscar).mark_bar(cornerRadius=10, height=10).encode(
    x=alt.X('min(Idade):Q').scale(domain=[1, 100]).title('Idade (anos)'),
    x2='max(Idade):Q',
    y=alt.Y('Categoria:N').title(None)
).properties(
    width=500
)

text_min = alt.Chart(oscar).mark_text(align='right', dx=-5).encode(
    x='min(Idade):Q',
    y=alt.Y('Categoria:N'),
    text='min(Idade):Q'
)

text_max = alt.Chart(oscar).mark_text(align='left', dx=5).encode(
    x='max(Idade):Q',
    y=alt.Y('Categoria:N'),
    text='max(Idade):Q'
)

(bar + text_min + text_max).encode(
    alt.Color('Categoria:N', scale=color_map)
).properties(
    title=alt.Title(text='Variação de Idade por Categoria', subtitle='Oscar, 1927-2014'),
)

Observamos intervalos extensos de idade para categoria, seria interessante analisar medidas que são mais robustas a outliers, para isso, vamos dar uma olhada na estatística dos 5 números para essa variável:

In [50]:
oscar_idade.describe()

count    415.000000
mean      44.019277
std       12.532455
min       11.000000
25%       35.000000
50%       43.000000
75%       50.500000
max       83.000000
Name: Idade, dtype: float64

Podemos representar visualmente com um *boxplot*

In [51]:
alt.Chart(oscar).mark_boxplot(color=colors['red']).encode(
    alt.X('Idade'),
    tooltip=['Nome', 'Idade', 'Categoria']
).properties(
    title={
        'text': 'BoxPlot das Idades dos Ganhadores do Oscar',
        'anchor': 'middle'
    }
) & alt.Chart(oscar).mark_boxplot().encode(
    alt.X('Categoria'),
    alt.Y('Idade'),
    alt.Color('Categoria', scale=color_map),
    tooltip=['Nome', 'Idade']
).properties(
    width=300,
    title={
        'text': ['BoxPlot das Idades dos', 'Ganhadores do Oscar por categoria'],
        'anchor': 'middle'
    }
)

Podemos ver que os intervalos se concentram entre valores menores e temoos algum outiliers, o que pode justificar a interpretação da visualização anterior.

Voltando para a nossa visualização, podemos modificar o canal de codificação `size` do marcador para ser proporcional à idade. Fazemos isso definindo a escala, `scale`, e ecolhendo o domínio (`domain`) e intervalo (`range`). Para os valores do domínio consideramos valores próximos das idades máximas e mínimas.

In [37]:
oscar['Idade'].agg(['min', 'max'])

min    11
max    83
Name: Idade, dtype: int64

In [38]:
alt.Chart(oscar).mark_circle(opacity=0.7).encode(
    x=alt.X('Ano_Nascimento:Q', scale=alt.Scale(domain=[1850, 2000])),
    y=alt.Y('Ano_Edição:Q', scale=alt.Scale(domain=[1920, 2020])),
    color=alt.Color('Categoria:N', scale=color_map),
    size=alt.Size('Idade', scale=alt.Scale(type="sqrt", domain=[10, 85], range=[5, 120])), 
    tooltip=['Nome', 'Idade', 'Categoria', 'Ano_Nascimento', 'Ano_Edição']
).properties(
    width=220,
    height=180
).facet(
    column='Categoria:N',
    title={
        'text': 'Gráficos de dispersão para o Ano de Nascimento e da Edição separados por categoria',
        'anchor': 'middle'
    }
)

Agora com a informação de idade associada ao tamnho do marcador, podemos voltar a sobrepor os dados.

In [39]:
alt.Chart(oscar).mark_circle(opacity=0.7).encode(
    x=alt.X('Ano_Nascimento:Q', scale=alt.Scale(domain=[1850, 2000])),
    y=alt.Y('Ano_Edição:Q', scale=alt.Scale(domain=[1920, 2020])),
    color=alt.Color('Categoria:N', scale=color_map),
    size=alt.Size('Idade', scale=alt.Scale(type="sqrt", domain=[10, 85], range=[5, 250]), title='Escala de Idade'), 
    tooltip=['Nome', 'Idade', 'Categoria', 'Ano_Nascimento', 'Ano_Edição']
).properties(
    width=700,
    height=520,
    title={
        'text': ['Gráficos de dispersão para o Ano de Nascimento e da Edição', ' separados por categoria e redimensioando por idade'],
        'anchor': 'middle',
        'fontSize': 20
    }
)

Para melhorar ainda mais nossa visualização, podemos adicionar a parte interativa do gráfico, permitindo a selação e comparação da dispersão apenas com o click do mouse. Fazemos isso adicionando uma seleção por categoria com `selection_point()` no método `add_params()`. E modificamos o comportamento da cor do gráfico adicionando uma opacidade condicional no canal de codificação `opacity` usando `condition()`.

In [40]:
alt.Chart(oscar).mark_circle(opacity=0.7).encode(
    x=alt.X('Ano_Nascimento:Q', scale=alt.Scale(domain=[1850, 2000])),
    y=alt.Y('Ano_Edição:Q', scale=alt.Scale(domain=[1920, 2020])),
    color=alt.Color('Categoria:N', scale=color_map),
    size=alt.Size('Idade', scale=alt.Scale(type="sqrt", domain=[10, 85], range=[5, 250]), title='Escala de Idade'),
    opacity=alt.condition(
        alt.selection_point(fields=['Categoria'], name='category_sel'),
        alt.value(0.8),
        alt.value(0.1)
    ),
    tooltip=['Nome', 'Idade', 'Categoria', 'Ano_Nascimento', 'Ano_Edição']
).add_params(
    alt.selection_point(fields=['Categoria'], name='category_sel')
).properties(
    width=700,
    height=520,
    title={
        'text': ['Gráficos de dispersão para o Ano de Nascimento e da Edição', ' separados por categoria e redimensioando por idade'],
        'anchor': 'middle',
        'fontSize': 20
    }
)

O resultado é um gráfico interativo que exibe dicas de contexto com `tooltip` ao passar o mouse, e permite seleções de mais de uma categoria para visualização. Para isso, clique em algum ponto pertencente à categoria desejada e pressione SHIFT para selecionar o ponto da outra categoria que deseja comparar.