<div class="alert alert-block alert-info">
    
<h1 style="color:Blue;"> <center> <ins> <b> 
ESTATÍSTICA APLICADA 
</b> </ins> </center> </h1>
    
<h3 style="color:Blue;"> <center> <b> 
Visualização de Dados Qualitativos
</b></center> </h3>
    
</div>


Nas aulas anteriores nós trabalhamos a construção de distribuições de frequências, usando tabelas, dos conjuntos de dados crus que nós analisamos. 

Nas próximas aulas nós veremos como essas distribuições podem ser representadas visualmente, por meio de gráficos ao invés de tabelas.

Gráficos são ferramentas essenciais na análise de dados e seu uso, tipicamente, causa impactos nos leitores de suas análises muito maiores que apresentação de medidas e/ou tabelas. Arrisco dizer que, sem gráficos, os dados não estão completamente analisados.

Existem diversas bibliotecas em Python para visualização de dados: a [matplotlib](https://matplotlib.org/), biblioteca básica de geração de gráficos em Python, que possibilita a criação de uma enorme gama de gráficos com alta qualidade de acabamento e com grande possibilidade de customização; a [seaborn](https://seaborn.pydata.org/), biblioteca derivada da `matplotlib`, especializada em gráficos estatísticos, com funções que facilitam a interação do usuário para a geração de gráficos, tornando o trabalho mais simples do que usando a `matplotlib` diretamente; a [plotly](https://plot.ly/) e a [bokeh](https://bokeh.pydata.org/en/latest/), que permitem construir, de forma relativamente simples, gráficos interativos e _dashboards_ ([O que é um dashboard?](http://marketingpordados.com/analise-de-dados/o-que-e-dashboard-%F0%9F%93%8A/)).

Para a nossa disciplina, nós faremos uso "indireto" da `matplotlib`, chamando-a por meio da `pandas`, que possui algumas funções internas que chamam diretamente funções da `matplotlib` (ver documentação [aqui](http://pandas.pydata.org/pandas-docs/stable/visualization.html#bar-plots)). Eventualmente, usaremos funções das outras bibiotecas apresentadas aqui.

Além disso, nos basearemos bastante nos exemplos disponíveis no site [Python Graph Gallery](https://python-graph-gallery.com/), um excelente repositório (julgo ser o melhor) para exemplos de códigos para gerar diversos tipos de gráficos em python e no [The Data Visualisation Catalogue](https://datavizcatalogue.com), repositório com a descrição de funcionalidades e construção de vários tipos de gráficos. 

Mesmo com essas funções chamando indiretamente cada função de geração de gráficos, é interessante, para certas configurações que possam surgir, criamos o hábito de importar a biblioteca `matplotlib`, especificamente o submódulo `pyplot`, onde se encontram todas as funções responsáveis pel geração dos gráficos.

Assim,

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [7]:
df = pd.read_csv('Dados_moretin.csv', sep = ';', decimal = ',')
df

FileNotFoundError: [Errno 2] No such file or directory: 'Dados_moretin.csv'

Aqui vale um comentário importante. 

Para que o gráfico apareça, tipicamente, temos que usar o método `plt.show()` logo abaixo do gráfico. Essa função, obviamente, mostra o gráfico em uma janela (quando executamos o código `.py` em uma IDE convencional ou quando executamos comandos em um terminal) ou _inline_, quando usamos um notebook. 

Acontece que notebooks herdaram comandos especiais do IPython, e temos uma opção mais elegante para não ficar escrevendo `plt.show()`o tempo inteiro: basta colocar, logo após importar a biblioteca, o comando `%matplotlib inline`. Feito isso, não existe mais a necessidade de escrever o `plt.show()` após cada gráfico gerado.

Vale salientar também que versões mais recentes do Jupyter Noteboob trazem o comando por padrão, não sendo necessário, nesses casos, explicitá-lo. 

In [8]:
%matplotlib inline

Caso queira que apareça uma janela fora do notebook para visualização do gráfico (opção interessante quando temos muitos gráficos dentro do notebook), basta substituir `inline` por `qt` no comando acima, escrevendo

In [9]:
%matplotlib qt

<div class="alert alert-block alert-info" style="color:Blue;">
Gerando um primeiro gráfico: o gráfico em linha
</div>

O gráfico mais básico que podemos gerar em qualquer biblioteca de visualização de dados é um gráfico em linha. Basicamente, gráficos em linha são gráficos feitos a partir de um plano cartesiano, interligando pares de ponto nesse plano, como ilustrado na figura abaixo.

![](line_graph.png)

Para plotar um gráfico em linha, a biblioteca `matplotlib` tem a função `plot`, cujos argumentos básicos são os conjuntos de valores de $x$ e $y$, tipicamente numéricos.

Vejamos um exemplo:

In [10]:
x = np.linspace(1,20,100)
y = x**2
plt.plot(x,y)

[<matplotlib.lines.Line2D at 0x139951dd370>]

---
__Exercício 1:__ 
Dê uma olhada na documentação da função [plot](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.html), e veja como modificar o tipo de linha, a cor dela, acrescentar um _grid_ e um título ao seu gráfico e aos eixos.

---


Para gráficos estatísticos, podemos usar, ao invés de chamar diretamente a `matplotlib`, podemos usar o método `plot` da `pandas` que, basicamente, chama indiretamente a função da `matplotlib`, mas de uma forma muito mais integrável às estruturas de dados da `pandas`.

Como um exemplo básico, podemos transformar a função criada no exemplo anterior em uma `series` e, então, plotar seu gráfico.

In [11]:
ts = pd.Series(y)
ts

0       1.000000
1       1.420671
2       1.915009
3       2.483012
4       3.124681
         ...    
95    369.882257
96    377.301194
97    384.793797
98    392.360065
99    400.000000
Length: 100, dtype: float64

In [12]:
ts.plot()

<AxesSubplot:>

Obviamente, obteremos o mesmo resultado.

---
__Exercício 2:__ 
As configurações feitas no exercício anterior podem ser usadas também no método `plot` da biblioteca `pandas`?

---


No contexto de estatística, o gráfico em linha é bastante utilizado para mostrar evolução de um conjunto de dados, tipicamente de dados que variam ao longo do tempo. Conjuntos de dados assim são chamados de séries temporais.

O exemplo a seguir cria uma série temporal com dados sintéticos (criados artificialmente), e plota o gráfico da soma cumulativa desses valores.

Os dados, basicamente, são 1000 valores aleatórios gerados com uma distribuição gaussiana, alocados para uma janela de tempo de 1000 dias a contar de 01/01/2000 (a `pandas` tem um conjunto de métodos bem interessantes para se trabalhar com datas e tempo).

In [13]:
ts = pd.Series(np.random.randn(1000), 
               index=pd.date_range('1/1/2000', 
                                   periods=1000)).cumsum()
ts

2000-01-01    -1.185381
2000-01-02    -0.597789
2000-01-03    -0.604385
2000-01-04    -1.195663
2000-01-05    -1.659166
                ...    
2002-09-22    59.424157
2002-09-23    60.786692
2002-09-24    59.708866
2002-09-25    57.996752
2002-09-26    58.565369
Freq: D, Length: 1000, dtype: float64

In [14]:
ts.plot()

<AxesSubplot:>

O mesmo método `plot` também pode ser usado diretamente em um dataframe, gerando uma curva diferente para cada uma das variáveis (colunas) disponíveis no conjunto de dados.

In [15]:
df = pd.DataFrame(np.random.randn(1000, 4), 
                  index=ts.index, 
                  columns=list('ABCD')).cumsum()
df

Unnamed: 0,A,B,C,D
2000-01-01,0.556804,0.165439,-0.957224,0.577791
2000-01-02,-0.409284,1.874599,-1.914439,0.005849
2000-01-03,-1.387021,1.038918,-0.893092,-0.123664
2000-01-04,-0.945684,1.203647,-2.005447,-0.647933
2000-01-05,0.067927,2.660106,-1.826053,-0.857455
...,...,...,...,...
2002-09-22,-44.292439,-15.245690,-11.926731,-10.470322
2002-09-23,-43.512955,-16.005885,-11.138767,-9.958833
2002-09-24,-42.116750,-16.002495,-9.879826,-9.354349
2002-09-25,-41.685205,-16.780438,-9.198342,-9.920408


In [16]:
df.plot()

<AxesSubplot:>

Nós exploraremos dados de séries temporais em alguns exemplos ao longo do curso. Nesse momento, precisamos conhecer alguns gráficos básicos, bastante comuns, que servirão de base para construção de gráficos mais elaborados ou como comparativo para outras análises gráficas.

Em aulas anteriores, nós falamos sobre distribuições de frequência de variáveis qualitativas e quantitativas, vimos como fazer essas distribuições e, conforme dito na aula, foi destacado que classificar variáveis tem grande importância, pois os métodos de análise dos dados mudam de acordo com o tipo de variável.

Isso não é diferente para gráficos. Existem gráficos que são exclusivamente usados para dados categóricos, outros para dados numéricos. Essa será nossa primeira separação.

Os gráficos gerados nas sessões seguintes são, basicamente, representações gráficas das distribuições de frequência estudadas anteriormente. Cada parte ou representação desses gráficos diz respeito a uma categoria, ou classe numérica vista nas tabelas de distribuição de frequência.

<div class="alert alert-block alert-info" style="color:Blue;">
Gráficos básicos para variáveis qualitativas
</div> 

__Gráficos em setores__

O gráfico em setores (ou pizza, ou torta, ou setorizado) é um tipo bastante comum de gráfico, extensivamente usado em ambientes empresariais e escritórios para apresentar resultados.

Basicamente, o gráfico representa cada proporção da frequência relativa como uma "fatia" ou setor, obtida pela divisão do círculo pelo ângulo associado à essa proporção. Assim como a soma de todas as frequências relativas deve somar $100\%$ (se representada de forma percentual), a soma de todos os ângulos de cada setor deve somar $360°$.

O gráfico abaixo ilustra a anatomia desse tipo de gráfico. Logo em seguida, nós executamos esse mesmo exemplo usando o método `pie`, da `Pandas`.

![](pie_chart.png)

Primeiro, criaremos uma `Series` com resultados (escolhidos por mim) que condizem com os da figura acima.

In [17]:
var = pd.Series(['Rock','Paper','Rock','Scissor','Scissor',
                 'Paper', 'Paper', 'Scissor', 'Scissor'])
var

0       Rock
1      Paper
2       Rock
3    Scissor
4    Scissor
5      Paper
6      Paper
7    Scissor
8    Scissor
dtype: object

Podemos, então, obter as frequências absoluta e relativa desse conjunto de dados, inclusive em forma percentual, 

In [18]:
a = var.value_counts()
a

Scissor    4
Paper      3
Rock       2
dtype: int64

In [19]:
var.value_counts(normalize=True)*100

Scissor    44.444444
Paper      33.333333
Rock       22.222222
dtype: float64

e podemos, então, gerar o gráfico, como se segue, o argumento `figsize`, do método `pie`, basicamente tem a função de deixar o gráfico em proporção.

In [20]:
a.plot.pie(figsize=(6, 6))

<AxesSubplot:ylabel='None'>

---
__Exercício 3:__ 
Você deve ter percebido que o gráfico foi aplicado sobre a distribuição de frequência (a) e não o conjunto de dados crus (var). Explique porque isso é necessário. 

---


O método `pie` também pode ser usado diretamente em `DataFrames`, como ilustra o exemplo abaixo.

In [21]:
df = pd.DataFrame({'massa': [0.330, 4.87 , 5.97],
                   'raio': [2439.7, 6051.8, 6378.1]},
                   index=['Mercúrio', 'Vênus', 'Terra'])
df

Unnamed: 0,massa,raio
Mercúrio,0.33,2439.7
Vênus,4.87,6051.8
Terra,5.97,6378.1


In [22]:
df.plot.pie(y='raio', figsize=(5, 5))

<AxesSubplot:ylabel='raio'>

Usando o argumento `subplots=True` é possível gerar mais de um gráfico em setores do mesmo `DataFrame`.

In [23]:
df.plot.pie(figsize=(10, 5), subplots=True)

array([<AxesSubplot:ylabel='massa'>, <AxesSubplot:ylabel='raio'>],
      dtype=object)

---
__Exercício 4:__ 
É possível gerar gráficos em setores de um DataFrame inteiro, sem selecionar uma coluna especificamente? Justifique sua resposta.

---

---
__Exercício 5:__ 
Quais as desvantagens de se usar gráficos em setores? Pesquise nas referências disponíveis no começo desse notebook.

---



__Uma variação mais elegante: o gráfico de rosca__

Os gráficos em setores às vezes são criticados por induzirem os leitores a focar nas áreas proporcionais das fatias entre si e no gráfico como um todo. Isso dificulta a visualização das diferenças entre as fatias, especialmente quando você tenta comparar vários gráficos juntos.

Um gráfico de rosca, de certa forma, remedia esse problema ao não enfatizar o uso da área. Em vez disso, os leitores se concentram mais em ler o comprimento dos arcos, em vez de comparar as proporções entre as fatias.

Além disso, os gráficos de rosca são mais eficientes em termos de espaço do que os Gráficos de pizza, porque o espaço em branco dentro de um gráfico de rosca pode ser usado para exibir informações dentro dele.

Para criar um gráfico de rosca, basicamente nós criaremos um círculo branco e, depois, sobreporemos ele ao gráfico em setores convencional, usando os métodos [gcf](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.gcf.html) e [gca](https://matplotlib.org/api/_as_gen/matplotlib.pyplot.gca.html) da `matplotlib`.

In [24]:
circulo=plt.Circle( (0,0), 0.5, color='white')

In [25]:
df.plot.pie(y='massa', figsize=(5, 5))
p=plt.gcf()
p.gca().add_artist(circulo)

<matplotlib.patches.Circle at 0x13993403940>

---
__Exercício 6:__ 
Como alterar as cores de cada fatia de um gráfico em setores?

---


__Gráficos em barras para uma variável__

O gráfico de barras clássico usa barras horizontais ou verticais (gráfico de colunas) para fazer comparações entre as categorias de uma dada variável, seja usando a frequência absoluta, seja a relativa. Um eixo do gráfico mostra as categorias específicas sendo comparadas e o outro eixo representa uma escala de valores discretos, como mostra a figura abaixo.

![](bar_chart.png)

As tabelas de barras são diferenciadas dos histogramas, pois não exibem desenvolvimentos contínuos durante um intervalo. Os dados discretos do gráfico de barras são dados categóricos e, portanto, respondem à pergunta "quantos?" em cada categoria.

No `pandas`, usamos o método `bar` para gerar gráficos em barras, como mostra o exemplo a seguir.

In [26]:
var

0       Rock
1      Paper
2       Rock
3    Scissor
4    Scissor
5      Paper
6      Paper
7    Scissor
8    Scissor
dtype: object

In [27]:
x = var.value_counts().sort_index()
x

Paper      3
Rock       2
Scissor    4
dtype: int64

In [28]:
x.plot.bar()

<AxesSubplot:ylabel='massa'>

In [29]:
var.value_counts().plot.barh()
plt.grid()

Gráficos em barras também podem ser usados para valores numéricos

In [30]:
df = pd.DataFrame({'velocidade': [0.1, 17.5, 40, 48, 52, 69, 88], 
                   'tempo de vida': [2, 8, 70, 1.5, 25, 12, 28]}, 
                   index=['caracol', 'porco', 'elefante', 'coelho', 'girafa', 'coiote', 'cavalo'])
df

Unnamed: 0,velocidade,tempo de vida
caracol,0.1,2.0
porco,17.5,8.0
elefante,40.0,70.0
coelho,48.0,1.5
girafa,52.0,25.0
coiote,69.0,12.0
cavalo,88.0,28.0


In [31]:
df.plot.pie(y='velocidade', figsize=(5, 5))

<AxesSubplot:ylabel='velocidade'>

In [32]:
df['velocidade'].plot.bar()

<AxesSubplot:ylabel='velocidade'>

---
__Exercício 7:__ 
Gere um gráfico em setores da mesma variável do gráfico acima e compare os dois gráficos, enfatizando, principalmente, a transmissão da informação para o leitor. 

---


Uma grande falha nos gráficos de barras é que a rotulagem se torna problemática quando há um grande número de barras. Por esse motivo, existe uma variação do método `bar`, o `barh`que gera o gráfico com as barras dispostas horizontalmente. Assim, o exemplo anterior pode aparecer como

In [33]:
df['velocidade'].plot.barh()

<AxesSubplot:ylabel='velocidade'>

Foi visto também que, quando queremos investigar a relação entre duas variáveis categóricas, construir tabelas de contingência são uma excelente escolha para verificar essas relações. Um exemplo disso é o próprio `DataFrame` desse exemplo que relaciona as espécimes animais com duas de suas características.

Até agora, todos os exemplos de gráficos em barra foram feitos para um só atributo, nesse contexto. 

No caso de um `DataFrame`, para fazer isso, podemos plotar os gráficos de cada atributo lado a lado, usando o argumento `subplots=True`, que possibilita, na mesma figura, ter dois gráficos.

In [34]:
df.plot.bar(subplots=True)

array([<AxesSubplot:title={'center':'velocidade'}>,
       <AxesSubplot:title={'center':'tempo de vida'}>], dtype=object)

---
__Exercício 8:__ 
Explique o resultado obtido quando fazemos `df.plot.bar(y="velocidade", x='tempo de vida')`. E se invertermos $x$ e $y$?

---
