---
layout: page
title: Um pouco Mais de Visualiza√ß√£o de Dados
nav_order: 8
---
[<img src="https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/colab_favicon_small.png" style="float: right;">](https://colab.research.google.com/github/flaviovdf/fcd/blob/master/_lessons/08-MaisViz.ipynb)

# T√≥pico 8 ‚Äì Um pouco Mais de Visualiza√ß√£o de Dados üìà
{: .no_toc .mb-2 }

Um pouco de como representar dados de forma visual!
{: .fs-6 .fw-300 }

{: .no_toc .text-delta }
Resultados Esperados

1. Junto com a aula passada, ferramentas simples para explora√ß√£o de dados
1. Aprender a base de pandas para realizar um plot simples
1. Aprender conceitos b√°sicos de visualiza√ß√£o dados

{: .no_toc .text-delta }
Material Adaptado do [DSC10 (UCSD)](https://dsc10.com/)

In [None]:
import numpy as np
import babypandas as bpd
import matplotlib.pyplot as plt
plt.style.use('ggplot')

# Aula 7 ‚Äì Histogramas e gr√°ficos sobrepostos

## DSC 10, inverno de 2023

### An√∫ncios

- O laborat√≥rio 2 est√° previsto para **S√°bado, 28/01 √†s 23h59**.
- O dever de casa 2 deve ser entregue **Ter√ßa-feira, 21/01 √†s 23h59**.
- Venha ao hor√°rio comercial para obter ajuda! Consulte [calendar](https://dsc10.com/calendar/) para obter instru√ß√µes.
- Opcional [extra videos](https://www.youtube.com/playlist?list=PLDNbnocpJUhbczUw2Rw6bqreEECMvZ8gN) dos trimestres anteriores para complementar a √∫ltima palestra:
- Usando `str.contains()`.
- Como os gr√°ficos de linha funcionam com a classifica√ß√£o.

### Agenda

- Distribui√ß√µes.
- Histogramas de densidade.
- Parcelas sobrepostas.

### Revis√£o: tipos de visualiza√ß√µes

O tipo de visualiza√ß√£o que criamos depende dos tipos de vari√°veis ‚Äã‚Äãque estamos visualizando.

- **Gr√°fico de dispers√£o**: num√©rico versus num√©rico.
- Exemplo: peso x altura.
- **Gr√°fico de linhas**: num√©rico sequencial (tempo) vs.
- Exemplo: altura vs. tempo.
- **Gr√°fico de barras**: categ√≥rico vs. num√©rico.
- Exemplo: alturas de diferentes membros da fam√≠lia.
- **Histograma**: distribui√ß√£o num√©rica.

**Observa√ß√£o:** Podemos trocar as palavras "plot", "chart" e "graph"; todos eles significam a mesma coisa.

### Algumas visualiza√ß√µes ruins

<center><img src="images/bananas.png" width=60%></center>

<center><img src="images/average_height.png" width=50%></center>

<center><img src="images/weather.png" width=80%></center>

## Distribui√ß√µes

### Qual √© a distribui√ß√£o de uma vari√°vel?

- A distribui√ß√£o de uma vari√°vel consiste em todos os valores da vari√°vel que ocorrem nos dados, juntamente com suas frequ√™ncias.
- As distribui√ß√µes ajudam voc√™ a entender:
> Com que frequ√™ncia uma vari√°vel assume um determinado valor?_
- Ambas as vari√°veis ‚Äã‚Äãcateg√≥ricas e num√©ricas t√™m distribui√ß√µes.

### Vari√°veis ‚Äã‚Äãcateg√≥ricas

A distribui√ß√£o de uma vari√°vel categ√≥rica pode ser exibida como uma tabela ou gr√°fico de barras, entre outras formas! Por exemplo, vejamos as faculdades de alunos matriculados no DSC 10 neste trimestre.

In [None]:
colleges = bpd.DataFrame().assign(College=['Seventh', 'Sixth', 'Roosevelt', 'Warren', 'Marshall', 'Muir', 'Revelle'], 
                                  Students=[45, 81, 46, 41, 50, 42, 43])
colleges

In [None]:
colleges.plot(kind='barh', x='College', y='Students');

In [None]:
colleges.plot(kind='bar', x='College', y='Students');

### Vari√°veis ‚Äã‚Äãnum√©ricas

A distribui√ß√£o de uma vari√°vel num√©rica nem sempre pode ser representada com precis√£o por um gr√°fico de barras. Por exemplo, vejamos o n√∫mero de streams de cada uma das 200 m√∫sicas mais populares no Spotify. üéµ

In [None]:
charts = bpd.read_csv('data/regional-us-daily-2023-01-21.csv')
charts = (charts.set_index('rank')
          .assign(million_streams = np.round(charts.get('streams')/1000000, 2))
          .get(['track_name', 'artist_names', 'streams', 'million_streams'])
         )
charts

Para ver a distribui√ß√£o do n√∫mero de streams, precisamos agrupar pela coluna `'million_streams'`.

In [None]:
stream_counts = charts.groupby('million_streams').count()
stream_counts = stream_counts.assign(Count=stream_counts.get('track_name')).drop(columns=['track_name', 'artist_names', 'streams'])
stream_counts

In [None]:
stream_counts.plot(kind='bar', y='Count', figsize=(15,5));

- Isso obscurece o fato de que as duas m√∫sicas principais s√£o at√≠picas, com **muito mais streams** do que as outras m√∫sicas.

- O eixo horizontal deve ser num√©rico (como uma reta num√©rica), n√£o categ√≥rico. Deve haver mais espa√ßo entre certas barras do que outras.

## Histogramas de densidade

### Histogramas de densidade mostram a distribui√ß√£o de vari√°veis ‚Äã‚Äãnum√©ricas

Em vez de um gr√°fico de barras, visualizaremos a distribui√ß√£o de uma vari√°vel num√©rica com um **histograma de densidade**. Vamos ver como √© um histograma de densidade para `'million_streams'`. O que voc√™ percebe nessa visualiza√ß√£o?

In [None]:
# Ignore the code for right now.
charts.plot(kind='hist', y='million_streams', density=True, bins=np.arange(0, 4, 0.5), ec='w');

### Primeira ideia chave por tr√°s dos histogramas: binning üóëÔ∏è

- Binning √© o ato de contar o n√∫mero de valores num√©ricos que se enquadram nos intervalos definidos por dois pontos finais. Esses intervalos s√£o chamados de ‚Äúcaixas‚Äù.
- Um valor cai em uma caixa se for **maior ou igual ao ponto final esquerdo** e **menor que o ponto final direito**.
- [a, b): a est√° inclu√≠do, b n√£o.
- A largura de uma caixa √© sua extremidade direita menos sua extremidade esquerda.


In [None]:
binning_animation()

### Tra√ßando um histograma de densidade

- **Histogramas de densidade** (n√£o gr√°ficos de barras!) visualizam a distribui√ß√£o de uma √∫nica vari√°vel num√©rica colocando n√∫meros em caixas.
- Para criar um a partir de um DataFrame `df`, use
```py
df.plot(
    kind='hist', 
    y=column_name,
    density=True
)
```
- Opcional, mas recomendado: Use `ec='w'` para ver onde os compartimentos come√ßam e terminam com mais clareza.

### Personalizando as caixas

- Por padr√£o, o Python agrupar√° seus dados em 10 compartimentos de tamanhos iguais.
- Voc√™ pode especificar outro n√∫mero de compartimentos de tamanhos iguais definindo o argumento opcional `bins` igual a algum outro valor inteiro.
- Voc√™ tamb√©m pode especificar o in√≠cio e os pontos finais do compartimento personalizado definindo `bins` iguais a uma sequ√™ncia de pontos finais do compartimento.
- Pode ser um array `list` ou `numpy`.

In [None]:
# There are 10 bins by default, some of which are empty.

charts.plot(kind='hist', y='million_streams', density=True, ec='w');

In [None]:
charts.plot(kind='hist', y='million_streams', density=True, bins=20, ec='w');

In [None]:
charts.plot(kind='hist', y='million_streams', density=True,
            bins=[0, 1, 2, 3, 4, 5],
            ec='w');

Nos tr√™s histogramas acima, o que √© diferente e o que √© igual?

### Observa√ß√µes
- A forma geral de todos os tr√™s histogramas √© a mesma, independentemente dos compartimentos. Esta forma √© chamada de *inclinada √† direita*.
- Mais compartimentos fornecem uma imagem mais precisa e granular da distribui√ß√£o da vari√°vel `'million_streams'`.
- Os valores do eixo $y$ parecem mudar muito quando mudamos os compartimentos. Agarre-se a esse pensamento; veremos o porqu√™ em breve.

### Detalhes da lixeira

- Em um histograma, apenas o √∫ltimo compartimento inclui o ponto final correto!
- Os compartimentos especificados n√£o precisam incluir todos os valores de dados. Os valores de dados que n√£o est√£o em nenhum compartimento n√£o ser√£o mostrados no histograma.
- Para caixas de tamanhos iguais, use `np.arange`.
- Tenha **muito cuidado** com os endpoints. Exemplo: `bins=np.arange(4)` cria os bins [0, 1), [0, 1), [2, 3].
- As caixas n√£o precisam ter tamanhos iguais.

In [None]:
charts.plot(kind='hist', y='million_streams', density=True,
            bins=np.arange(4),
            ec='w');

A m√∫sica principal (Flowers) n√£o est√° inclu√≠da porque o compartimento mais √† direita √© [3,4] e Flowers tem 3,36 milh√µes de streams.

In [None]:
charts.plot(kind='hist', y='million_streams', density=True,
            bins=[0, 0.5, 1, 1.5, 2.5, 4],
            ec='w');

### Segunda ideia chave por tr√°s dos histogramas: a √°rea total √© 1

- Em um histograma de densidade, o eixo $y$ pode ser dif√≠cil de interpretar, mas foi projetado para dar ao histograma uma propriedade muito boa: $$\textbf{As barras de um histograma de densidade }$$
$$\textbf{t√™m uma √°rea total combinada de 1.}$$
- Isso significa que a √°rea de uma barra √© igual √† propor√ß√£o de todos os pontos de dados que caem nessa caixa.
- Propor√ß√µes e percentagens representam a mesma coisa.
- Uma propor√ß√£o √© um decimal entre 0 e 1, uma porcentagem est√° entre 0\% e 100\%.
- A propor√ß√£o 0,34 significa 34\%.


### C√°lculo de exemplo

In [None]:
charts.plot(kind='hist', y='million_streams', density=True,
            bins=[0, 0.5, 1, 1.5, 2.5, 4],
            ec='w');

Com base neste histograma, que propor√ß√£o das 200 m√∫sicas mais populares teve menos de meio milh√£o de streams?

### Exemplo de c√°lculo

- A altura da barra [0, 0.5) parece ser apenas 1,6.
- A largura da caixa √© 0,5 - 0 = 0,5.

- Portanto, usando a f√≥rmula da √°rea de um ret√¢ngulo,

$$\begin{align}\textArea} e= \text{Altura} \times \text{Largura} \\ &= 1,6 \times 0,5 \\ e= 0,8
\end{align}$$

- Como as √°reas representam propor√ß√µes, isso significa que a propor√ß√£o das 200 m√∫sicas mais populares com menos de 0,5 milh√£o de streams foi de aproximadamente 0,8 (ou 80\%).

### Verifique a matem√°tica

In [None]:
first_bin = charts[charts.get('million_streams') < 0.5].shape[0]
first_bin

In [None]:
first_bin/200

Isso corresponde ao resultado que obtivemos. (N√£o exatamente, j√° que fizemos uma estimativa para a altura.)

### Como calcular alturas em um histograma de densidade

Como a barra de um histograma √© um ret√¢ngulo, sua √°rea √© dada por

$$\text{√Årea} = \text{Altura} \vezes \text{Largura}$$

Que significa

$$\text{Altura} = \frac{\text{√Årea}}{\text{Largura}} = \frac{\text{Propor√ß√£o (ou Porcentagem)}}{\text{Largura}}$$

Isso implica que as unidades de altura s√£o "propor√ß√£o por (unidade $x$-eixo)". O eixo $y$ representa uma esp√©cie de *densidade*, e √© por isso que o chamamos de histograma de densidade.



In [None]:
charts.plot(kind='hist', y='million_streams', density=True,
            bins=[0, 0.5, 1, 1.5, 2.5, 4],
            ec='w');

As unidades do eixo $y$ aqui s√£o "propor√ß√£o por milh√£o de fluxos", j√° que o eixo $x$ representa milh√µes de fluxos.
- Infelizmente, as unidades do eixo $y$ no histograma sempre s√£o exibidas como "Frequ√™ncia". **Isto est√° errado!**
- Podemos corrigir com `plt.ylabel(...)` mas normalmente n√£o o fazemos.

### Verifica√ß√£o de conceito ‚úÖ ‚Äì Resposta em [cc.dsc10.com](http://cc.dsc10.com)

Suponha que criamos um histograma de densidade dos tamanhos dos sapatos das pessoas. üëü Abaixo est√£o as caixas que escolhemos junto com suas alturas.

| Caixa | Altura da barra |
| --- | --- |
| [3, 7) | 0,05 |
| [7, 10) | 0,1 |
| [10, 12) | 0,15 |
| [12, 16] | $X$ |


Qual deve ser o valor de $X$ para que este seja um histograma v√°lido?

A. 0,02
B. 0,05
C. 0,2
D. 0,5
E. 0.7 ¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†


### Gr√°ficos de barras vs. histogramas

Gr√°fico de barras | Histograma
---|---
Mostra a distribui√ß√£o de uma vari√°vel categ√≥rica | Mostra a distribui√ß√£o de uma vari√°vel num√©rica
1 eixo categ√≥rico, 1 eixo num√©rico | 2 eixos num√©ricos
As barras t√™m larguras e espa√ßamentos arbitr√°rios, mas iguais | O eixo horizontal √© num√©rico e est√° em escala
Os comprimentos das barras s√£o proporcionais √† quantidade num√©rica de interesse | A altura mede a densidade; as √°reas s√£o proporcionais √† propor√ß√£o (porcentagem) de indiv√≠duos

### üåü Importante üåü

Nesta aula, **"histograma" sempre significar√° um "histograma de densidade".** Usaremos **apenas** histogramas de densidade.

*Nota:* √â poss√≠vel criar o que √© chamado de *histograma de frequ√™ncia* onde o eixo $y$ simplesmente representa uma contagem do n√∫mero de valores em cada compartimento. Embora sejam mais f√°ceis de interpretar, os histogramas de frequ√™ncia n√£o t√™m a importante propriedade de que a √°rea total √© 1, portanto n√£o podem ser conectados √† probabilidade da mesma forma que os histogramas de densidade. Isso os torna muito menos √∫teis para cientistas de dados.

## Gr√°ficos sobrepostos

### Novo conjunto de dados: popula√ß√µes de San Diego e San Jose ao longo do tempo

Os dados para ambas as cidades v√™m de [macrotrends.net](https://www.macrotrends.net/cities/23129/san-diego/population).

In [None]:
population = bpd.read_csv('data/sd-sj-2022.csv').set_index('date')
population

### Lembre-se: gr√°ficos de linha

In [None]:
population.plot(kind='line', y='Growth SD', 
                title='San Diego population growth rate', legend=False);

In [None]:
population.plot(kind='line', y='Growth SJ', 
                title='San Jose population growth rate', legend=False);

Observe os argumentos opcionais `title` e `legend`. Alguns outros argumentos opcionais √∫teis s√£o `figsize`, `xlabel` e `ylabel`. Existem [many optional arguments](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html).

### Gr√°ficos sobrepostos

Se `y=column_name` for omitido, **todas** colunas ser√£o plotadas!

In [None]:
population.plot(kind='line');

Por que existem apenas tr√™s linhas mostradas, mas quatro na legenda? ü§î

### Selecionando v√°rias colunas de uma vez
- Para selecionar v√°rias colunas, use `.get([column_1, ..., column_k])`.
- Passar uma `lista` de r√≥tulos de colunas para `.get` retorna um DataFrame.
- `.get([column_name])` retornar√° um DataFrame com apenas uma coluna!

In [None]:
growths = population.get(['Growth SD', 'Growth SJ'])
growths

In [None]:
growths.plot(kind='line');

### Para tra√ßar v√°rios gr√°ficos de uma vez:
* `.get` apenas as colunas que cont√™m informa√ß√µes relevantes para o seu gr√°fico.
* Equivalentemente, `.drop` todas as colunas estranhas.
* Especifique a coluna para o eixo $x$ (se n√£o for o √≠ndice) em `.plot(x=column_name)`.
* Omita o argumento `y`. Ent√£o **todas** as outras colunas ser√£o plotadas em um eixo $y$ compartilhado.

A mesma coisa funciona para `'barh'`, `'bar'` e `'hist'`, mas n√£o para `'scatter'`.

### Novo conjunto de dados: alturas das crian√ßas e de seus pais üë™ üìè

- Os dados abaixo foram coletados no final de 1800 por [Francis Galton](https://en.wikipedia.org/wiki/Francis_Galton).
- Ele era eugenista e defensor do racismo cient√≠fico, por isso coletou esses dados.
- Hoje entendemos que a eugenia √© imoral e que n√£o h√° evid√™ncias cient√≠ficas ou qualquer outra justificativa para o racismo.
- Revisitaremos esse conjunto de dados posteriormente no curso.
- Por enquanto, precisaremos apenas das colunas `'mother'` e `'childHeight'`.

In [None]:
mother_child = bpd.read_csv('data/galton.csv').get(['mother', 'childHeight'])
mother_child

### Plotando histogramas sobrepostos

`alpha` controla o qu√£o transparentes as barras s√£o (`alpha=1` √© opaco, `alpha=0` √© transparente).

In [None]:
height_bins = np.arange(55, 80, 2.5)
mother_child.plot(kind='hist', density=True, ec='w',
                  alpha=0.65, bins=height_bins);

Por que as crian√ßas parecem muito mais altas que as m√£es?

### Pr√°tica Extra

Tente responder a estas perguntas com base no histograma sobreposto.

1. Qual propor√ß√£o de crian√ßas tinha entre 70 e 75 polegadas de altura?

2. Qual propor√ß√£o de m√£es tinha entre 60 e 63 polegadas de altura?

<h3>Respostas</h3>
<detalhes>
<summary>Clique aqui para mostrar.</summary>

<b>Pergunta 1</b>

A altura da barra $[70, 72.5)$ √© em torno de $0,08$, o que significa que $0,08 \cdot 2,5 = 0,2$ de crian√ßas tinham altura nesse intervalo. A altura da barra $[70, 72.5)$ √© em torno de $0,02$, o que significa $0,02 \cdot 2,5 = 0,05$ de crian√ßas tinham altura nesse intervalo. Assim, a propor√ß√£o geral de crian√ßas que tinham entre $70$ e $75$ polegadas de altura era de cerca de $0,20 + 0,05 = 0,25$, ou $25\%$.

Para verificar nossa resposta, podemos executar

<code>heights[(heights.get('childHeight') >= 70) & (heights.get('childHeight') < 75)].shape[0] / heights.shape[0]</code>

<b>Pergunta 2</b>

N√£o podemos dizer. Poder√≠amos tentar dividir na propor√ß√£o de m√£es em $[60, 62.5)$ e $[60, 62.5)$, mas n√£o sabemos o √∫ltimo. Na aus√™ncia de qualquer informa√ß√£o adicional, n√£o podemos inferir sobre a distribui√ß√£o de valores dentro de um compartimento. Por exemplo, pode ser que todos no intervalo $[60, 62.5)$ realmente caiam no intervalo $[60, 62.5)$ - ou pode ser que ningu√©m caia!

</detalhes>

## Resumo, da pr√≥xima vez

### Resumo

- Histogramas (n√£o gr√°ficos de barras!) s√£o usados ‚Äã‚Äãpara exibir a distribui√ß√£o de uma vari√°vel num√©rica.
- Sempre usaremos histogramas de densidade.
- Em histogramas de densidade, a √°rea de uma barra representa a propor√ß√£o (porcentagem) de valores dentro de seu compartimento.
- A √°rea total de todas as barras √© 1 (100%).
- Podemos sobrepor v√°rios gr√°ficos de linhas, gr√°ficos de barras e histogramas uns sobre os outros para observar v√°rios relacionamentos ou distribui√ß√µes.

### Pr√≥xima vez

- Escrevendo nossas pr√≥prias fun√ß√µes.
- Aplicar fun√ß√µes aos dados num DataFrame.