# Visualizando distribuições de dados

Uma parte importante da análise exploratória de dados é identificar as distribuições dos dados disponíveis.

Diferentes tipos de visualização podem ser utilizadas em função do tipo de dado que se quer analisar.

## Visualizando dados discretos

Uma variável discreta  possui valores contáveis, como a quantidade de meses num ano, a quantidade de alunos numa escola, a quantidade de objetos numa lista, etc. 

Dessa forma, cada valor possível da variável pode ser associado a uma probabilidade diferente de zero.

Distribuições de dados discretos costumam ser analisadas a partir de contagens de frequência dos valores possíveis.

O exemplo mais direto são os **histogramas**, que já vimos anteriormente. 

*Como* discutimos, histogramas são úteis principalmente quando a característica em análise apresenta poucos valores possíveis.

Esse não costuma ser o caso quando desejamos analisar os termos mais frequentes em documentos, por exemplo.

Uma opção mais interessante neste caso são as **nuvens de palavras** (em inglês, *word clouds*).

Em uma nuvem de palavras, os termos que são mais frequentes aparecem em destaque (posições mais centrais e em tamanho maior). 

Em Python, podemos usar a biblioteca `wordcloud` em conjunto com a biblioteca `matplotlib` para gerar uma nuvem de palavras:

In [0]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

### Uma nuvem de palavras simples

Vamos começar usando um exemplo artificial para focarmos no uso das bibliotecas:

In [0]:
texto="Natal Calor Sol Quente Calor Praia IMD IMD Calor Natal Tecnologia Digital Tecnologia Praia Praia Sol Verão Verão Verão Calor Calor Quente Quente Quente Quente IMD Sol Sol Calor Calor Calor Calor Digital IMD Verão Praia Praia Litoral Litoral Praia Calor Sol IMD Quente Vulcão"

A nuvem de palavras é criada em duas etapas. 

Primeiro, usamos o método `WordCloud` da biblioteca `wordcloud`, que nos permite passar parâmetros como a altura, largura e cor de fundo.

In [0]:
wordcloud = WordCloud(width=550, height=550, background_color="white").generate(texto)

Em seguida, usamos o método `imshow` da bibloteca `matplotlib` para visualizar a nuvem produzida. 

In [0]:
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

Alguns pequenos detalhes técnicos do código acima: 
- Para ter uma melhor qualidade na imagem produzida, usamos como parâmetro um método de interpolação bilinear:
```python
plt.imshow(wordcloud, interpolation='bilinear')
```
- Como o `matplotlib` é geralmente usado para gerar gráficos matemáticos, precisamos especificar que não queremos que sejam gerados eixos para nossa nuvem de palavra:
```python
plt.axis("off")
```
- A renderização final é feita com o método `show` da biblioteca `matplotlib`:
```python
plt.show()
```


### Uma nuvem de palavras no mundo real

Em termos de bibliotecas e métodos, o exemplo acima é muito próximo do que usamos no dia a dia da análise de documentos.

No entanto, com textos reais, é necessário atentarmos para os conceito de **stopwords** e **corpus**.

Vamos ver um exemplo que ilustra isso, extraído da introdução da página da Wikipedia sobre Natal-RN:

In [0]:
texto="""
        Natal é um município brasileiro, capital do estado do Rio Grande do Norte, na Região Nordeste do país. Com uma área de aproximadamente 167 km², é a segunda capital brasileira com a menor área territorial e a sexta maior capital do país em densidade populacional, distando 2 227 quilômetros de Brasília, a capital federal.
        Fundada em 1599, às margens do Rio Potenji, conta com importantes monumentos, parques e museus e pontos turísticos, como o Teatro Alberto Maranhão e a Coluna Capitolina Del Pretti, no Centro Histórico, além de outras atrações, entre elas a Ponte Newton Navarro, o Museu Câmara Cascudo, o Parque da Cidade Dom Nivaldo Monte, o Museu de Cultura Popular, o Parque das Dunas, a Catedral Metropolitana e praias como Ponta Negra e dos Artistas, e eventos de grande repercussão, tais como a Feira Internacional de Artesanato (FIART), o Carnatal, as festas juninas e as comemorações natalinas.
        Historicamente, a cidade teve grande importância durante a Segunda Guerra Mundial em 1942 durante a Operação Tocha, já que os aviões da base aliada americana se abasteciam com combustível no lugar onde durante muito tempo foi o Aeroporto Internacional Augusto Severo, sendo classificada como "um dos quatro pontos mais estratégicos do mundo". Devido às operações da primeira base de foguetes da América do Sul, no Centro de Lançamento da Barreira do Inferno, hoje localizada no município limítrofe de Parnamirim, Natal também passou a ser conhecida como a "Capital Espacial do Brasil". A capital potiguar foi também uma das doze sedes da Copa do Mundo de 2014.
        De acordo com a estimativa realizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE) em 2018, a população do município é de 877 640 habitantes, sendo o décimo nono município mais populoso do país e sua região metropolitana, formada por outros treze municípios do Rio Grande do Norte, possui uma população de pouco mais de 1,5 milhão de habitantes, formando a quinta maior aglomeração urbana do Nordeste e a décima nona do Brasil.
        """

In [0]:
wordcloud = WordCloud(width=550, height=550, background_color="white").generate(texto)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

Em textos reais, é bem comum que os termos mais frequentes sejam termos pouco relevantes, como artigos e preposições.

No campo de **processamento de linguagem natural** (NLP), esses termos são conhecidos como *stopwords*.

Em geral, stopwords são fornecidas por bibliotecas de NLP como parte de um *corpus*, isto é, uma base de dados em um determinado idioma construída a partir de uma coleção de documentos.

Em Python, as principais bibliotecas de NLP são a `nltk` e a `spacy`. Vamos ver a seguir um exemplo usando a biblioteca `nltk`, onde começamos baixando a coleção de stopwords da biblioteca:

In [0]:
import nltk
nltk.download('stopwords')

Uma vez baixada a coleção de stopwords, podemos selecionar apenas as para o português, idioma do texto da Wikipedia sobre Natal-RN:

In [0]:
from nltk.corpus import stopwords
stopwords_pt = stopwords.words("portuguese")

Agora podemos gerar nossa nuvem de palavras como fizemos anteriormente, adicionando apenas o parâmetro `stopwords` ao método `WordCloud`:

In [0]:
wordcloud = WordCloud(width=550, height=550, background_color="white", stopwords=stopwords_pt).generate(texto)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

Em destaque, vemos os termos que de fato melhor identificam Natal-RN no texto da Wikipedia.

Note que alguns termos aparecem separados, como Rio Grande do Norte e Região Nordeste. Esse tipo de análise requer o uso de n-gramas, que você pode pesquisar em tutoriais sobre a `nltk` =)

## Visualizando dados contínuos

Quando desejamos analisar dados contínuos, podemos:
- usar representações que aplicam uma discretização aos dados
- usar representações próprias para dados contínuos

O principal exemplo de visualização discretizada é o histograma, como já vimos anteriormente.

Já para visualização contínua, podemos usar gráficos de densidade, que também já discutimos.

Seja qual for o tipo de visualização adotada, o essencial é conseguir identificar o tipo de distribuição apresentada e como proceder em cada caso.

### Principais tipos de distribuição

Em notebooks anteriores, discutimos rapidamente sobre as distribuições normal e bimodal.

Aqui, vamos discutir rapidamente sobre outros dois tipos de distribuição que são comuns, a **uniforme** e a **exponencial**.

#### Distribuição Uniforme

Nesta distribuição, todos os valores possíveis para um dado têm iguais chances de ocorrer.

Esse tipo de distribuição é mais comum na teoria do que na prática, então vamos gerar um exemplo artificial usando o método `arange` da biblioteca `numpy`.

Esse método gera uma lista de valores com probabilidade uniforme. No exemplo a seguir, geramos valores entre 0 e 10, usando como cinco casas decimais de precisão.

In [0]:
import numpy as np
s = np.arange(10, step=0.00001)

Pra visualizarmos a distribuição desses dados, vamos usar o método `distplot` da biblioteca `seaborn`, que produz tanto um histograma como um gráfico de densidade.

No exemplo abaixo, limitamos o gráfico ao intervalo de valores entre 1 e 2.

In [0]:
import seaborn as sns
sns.distplot(s)
plt.xlim(1,2)

Note que a função de densidade é uma reta, indicando que cada valor possível apresenta a mesma probabilidade de ocorrência.

#### Distribuição exponencial

Em uma distribuição exponencial, os valores mais frequentes ocorrem com uma probabilidade exponencialmente maior que os valores menos frequentes.

Essa distribuição pode ser observada, por exemplo, ao analisarmos a população dos municípios brasileiros.

Vamos carregar inicialmente a estimativa fornecida pelo TCU para o ano de 2019:

In [0]:
import pandas as pd

In [0]:
ibge = pd.read_csv("https://raw.githubusercontent.com/leobezerra/pandas-zero/master/datasets/estimativa_TCU_2019_20191031_limpa.csv", header=0, sep=",", thousands=",")

In [0]:
ibge.head()

Para nossa análise, nos interessa visualizar a distribuição da característica `"POPULAÇÃO ESTIMADA"`:

In [0]:
sns.distplot(ibge["POPULAÇÃO ESTIMADA"])

Note que a visualização do gráfico é bastante difícil, tamanha a discrepância entre as frequências.

Uma forma de lidar com uma distribuição exponencial é realizar uma transformação logarítmica sobre os dados.

Na prática, isto significa que a grandeza passará a ser representada em uma escala logarítmica:

In [0]:
sns.distplot(np.log(ibge["POPULAÇÃO ESTIMADA"]))

Note que agora a distribuição dos dados se aproxima de uma distribuição normal.

### Identificando o tipo de distribuição

A distribuição apresentada no gráfico acima se assemelha a uma distribuição normal, mas gera dois questionamentos:
- a presença de dois picos é um sinal de bimodalidade?
- existe uma inclinação da distribuição para a esquerda? 

Para visualizarmos esses questionamentos de forma mais clara, vamos adicionar ao gráfico uma distribuição normal de referência usando o método `norm` do módulo `scipy.stats`:

In [0]:
from scipy.stats import norm
ibge_log = np.log(ibge["POPULAÇÃO ESTIMADA"])
sns.distplot(ibge_log, fit=norm)

Note que, de fato, a distribuição aparenta estar um pouco para esquerda, e apenas um de seus picos coincide com a distribuição de referência.

Vamos então usar outros dois métodos para verificar a normalidade dessa distribuição.

#### Gráficos QQ

É possível comparar duas distribuições a partir de seus quantis.

Em linhas gerais, um gráfico QQ é um gráfico que analisa a **correlação** entre os quantis de cada distribuição comparada.

Se duas distribuições de dados forem de mesma natureza, a correlação será máxima, o que fará o gráfico se alinhar com uma reta inclinada 45 graus em relação ao eixo x.

Vamos comparar nossa distribuição com a distribuição normal para ver o resultado que temos. 

Para isso, vamos usar o método `probplot` da biblioteca `scipy`:

In [0]:
from scipy.stats import probplot
probplot(ibge_log, plot=plt)
plt.show()

Um pequeno detalhe técnico do código acima é que precisamos informar ao método que exibisse o resultado através do matplotlib (`plot=plt`).

Note que a curva apresentada não está perfeitamente alinhada com a reta ideal.

No entanto, vamos ver o que aconteceria se comparássemos nossos dados com uma distribuição uniforme.

In [0]:
probplot(ibge_log, plot=plt, dist="uniform")
plt.show()

Note que a discrepância em relação à reta de referência nas extremidades é ainda mais acentuada.

Assim, temos a certeza de que a distribuição que temos se aproxima mais de uma distribuição normal que de uma distribuição uniforme.

#### Testes de hipótese

Uma outra ferramenta da estatística para análise de normalidade são os testes de hipótese.

A módulo `scipy.stats` traz uma série de testes que poderíamos adotar aqui.

Por simplicidade, vamos adotar o método `normaltest`:

In [0]:
from scipy.stats import normaltest
normaltest(ibge_log)

Em um teste de hipótese, estamos tentando refutar uma hipótese base (conhecida como nula).

Neste caso, a hipótese nula é de que os dados que temos vêm de uma distribuição normal.

Se não conseguirmos refutar essa hipótese, aceitamos que os dados disponíveis seguem de fato uma distribuição normal.

Em geral, o resultado de um teste de hipótese é dado por um p-valor, que representa o nível de significância do teste.

Uma boa referência de descarte da hipótese nula é adotar um p-valor de 0.05 como limite. 

Assim, para p-valores abaixo de 0.05, podemos rejeitar a hipótese nula.

Neste caso, vemos que o p-valor do teste foi consideravelmente menor que este limite, o que nos dá confiança para dizer que os dados não seguem uma distribuição normal.

### Desvios comuns em distribuições normais

Por ser uma das distribuições mais estudadas, a distribuição normal apresenta muitos recursos teóricos e práticos disponíveis para sua análise.

Em relação a desvios de normalidade, os dois conceitos mais comuns são a assimetria, discutida acima, e a **curtose** (*kurtosis*).

Enquanto a assimetria é percebida em relação ao centro da distribuição, a curtose é percebida como um pico ou como uma distribuição plateau (sem pico).

Podemos medir ambas estas medidas usando métodos do módulo `scipy`:

In [0]:
from scipy.stats import skew, kurtosis

In [0]:
skew(ibge_log)

In [0]:
kurtosis(ibge_log)

Em ambos os casos, uma distribuição normal deveria apresentar valores próximos a zero.

Poderíamos tratar a assimetria e a curtose desta distribuição aplicando novas transformações logarítmicas.


In [0]:
ibge_4logs = np.log(np.log(np.log(ibge_log)))
print(skew(ibge_4logs))
print(kurtosis(ibge_4logs))
sns.distplot(ibge_4logs, fit=norm)

In [0]:
print(normaltest(ibge_4logs))
probplot(ibge_4logs, plot=plt)
plt.show()

Note que, apesar do teste de hipótese continuar não indicando a normalidade da distribuição, as demais medidas melhoraram consideravelmente.

No entanto, transformar os dados seguidas vezes pode compremeter severamente sua interpretação no domínio original.

Assim, o uso deste tipo de técnica de transformação deve ser avaliado cuidadosamente.