# Análise e apresentação de dados

## Preparação para a análise

Sempre que se deseja explorar e extrair informação de um conjunto de dados, é preciso entender, antes, quais tipos de informações é possível obter com os dados disponíveis. De modo geral, os dados se classificam em:

**Dados Numéricos:** Também chamados de quantitativos, são conjuntos de dados que representam contagens ou medidas, por exemplo: Idade, altura, peso. Com esse tipo de dado é possível fazer análises estatísticas e determinar média, desvio padrão, etc. Esses dados se dividem ainda em dois grupos, sendo:


*   ***Discretos:*** Representados por números inteiros (ex.: Idade).
*   ***Contínuos:*** Podem assumir qualquer valor real (ex.: peso, altura).

**Dados categóricos:** Também chamados de qualitativos, são conjuntos de dados que refletem características não numéricas, podendo ser:


*   ***Ordinais:*** Podem ser ordenados de alguma forma que faça sentido (ex.: Faixa etária, estágios de uma doença, datas).
*   ***Nominais:*** se definem exclusivamente por nomes, sem ordem específica (ex.: grupo sanguíneo, raça, sexo, Sim/não).

### Dados inválidos ou faltantes

Sempre que um conjunto de dados é coletado e posto para análise, uma série de atividades precisam ser feitas até que de fato seja confiável extrair alguma informação relevante. Nos tópicos anteriores vimos como iniciar a exploração de dados com pandas. Porém, depois de obter nosso dataframe, precisamos checar a integridade dos nossos dados, e limpá-los antes de fazer qualquer análise. De acordo com a [IBM Data Analytics](https://www.ibm.com/cloud/blog/ibm-data-catalog-data-scientists-productivity), 80% do tempo dedicado a um conjunto de dados disponível para análise é gasto com limpeza dos dados.

Uma fase importante na limpeza de dados é o tratamento de dados faltando ou inválidos (pense que, se um dado não serve para a análise, ele está faltando). Vamos utilizar uma [base dados](https://raw.githubusercontent.com/dataoptimal/posts/master/data%20cleaning%20with%20python%20and%20pandas/property%20data.csv) pequena, porém suficiente para entendermos como lidar com dados faltando.  

Execute as células abaixo para importar os dados do exemplo.

In [None]:
import pandas as pd

In [None]:
dados_faltando = pd.read_csv('https://raw.githubusercontent.com/dataoptimal/posts/master/data%20cleaning%20with%20python%20and%20pandas/property%20data.csv',sep=',')
dados_faltando

É possível perceber os dados inválidos do dataframe acima. O pandas consegue detectar alguns valores inválidos ou faltantes. Para esses dados, ele utiliza a etiqueta `NaN`.

O Pandas possui um método específico para identificar valores faltantes em uma série, de nome `isnull()`.

In [None]:
dados_faltando['NUM_BATH'].isnull()

Perceba que o método `isnull()` retorna `True` sempre que existe um valor faltando no campo avaliado.

Para um conjunto de dados muito grande, é impraticável aplicar a função `isnull()` manualmente a cada característica. Para avaliar a quantidade de valores faltando em todas as características, basta combinar o método `sum()` com o resultado do método `isnull()` aplicado a todo o conjunto de dados.

In [None]:
dados_faltando.isnull().sum()

Nem sempre o Pandas será capaz de identificar um dado inválido. No nosso exemplo, existe um dado inválido `'na'` na série que representa a característica `NUM_BEDROOMS` e outro valor inválido `'--'` na série que representa a característica `SQ_FT`. 

Nesses casos, podemos usar os métodos `unique()` ou `value_counts()` para ver os valores existentes em uma série:

In [None]:
dados_faltando["NUM_BEDROOMS"].unique()

In [None]:
dados_faltando["SQ_FT"].value_counts()

Outro caso de dados inválidos ocorre quando um dado de tipo diferente do esperado para uma dada característica é encontrado. A coluna `OWN_OCCUPIED` deveria conter somente valores no formato `Y` ou `N`. Contudo, em uma das linhas é encontrado o valor `12`, que não tem relação com os valores esperados.

Nesse caso, podemos usar o método `all` para ver se todos os valores de uma série respeitam o ***domínio*** de valores previsto para aquela série:

In [None]:
condição_domínio = dados_faltando["OWN_OCCUPIED"].isin(["Y","N"])
all(condição_domínio)

In [None]:
dados_faltando[~condição_domínio]

## Começando a análise

Os dados para esta parte do tutorial serão carregados a partir de uma URL. 

Vamos deixar que o Pandas baixe diretamente o dataset, informando apenas a URL onde ele está localizado.

In [None]:
dados_url = 'http://bit.ly/2cLzoxH'
dados = pd.read_csv(dados_url)
dados.head(n=10)

Uma vez concluída a limpeza dos dados, o primeiro conjunto de ferramentas que podemos usar para analisá-los é a das ***estatísticas descritivas***. 

O Pandas oferece as principais medidas ***centrais*** e de ***dispersão***, que podemos ser aplicadas a qualquer série de dados numéricos.

### Medidas centrais

**Média**: A soma de todas as medições divididas pelo número de observações no conjunto de dados.

In [None]:
dados.mean()

**Mediana**: Valor do meio que separa a metade maior da metade menor no conjunto de dados.

In [None]:
dados["year"].median()

**Moda**: O(s) valor(es) que aparece(m) com mais frequência no conjunto de dados.

In [None]:
dados["year"].mode()

### Medidas de dispersão

**Variância**: Indica o espalhamento dos valores de uma série. 

É calculada como a distância média de cada valor de uma série para a média da série. Para que distâncias positivas e negativas não se anulem, cada distância é elevada ao quadrado durante a soma. Por esse motivo, a ordem de grandeza da variância não casa com a ordem de grandeza dos dados da série.

Uma baixa variância indica que os valores da série tendem a estar próximos da média. Uma alta variância indica que os valores da série estão dispersos.

In [None]:
dados["year"].var()

**Desvio Padrão**: Raiz quadrada da variância. Mantém todas as suas propriedades, mas apresenta a mesma ordem de grandeza dos dados da série: 

In [None]:
dados["year"].std()

**Quantis**: Particionam os valores ordenados de uma série. Um quantil de 25% indica que 25% dos valores da série são inferiores àquele quantil. Por convenção, ***quartis*** são os quantis de 25%, 50% e 75%, também conhecidos como primeiro, segundo e terceiro quartis:


In [None]:
dados["year"].quantile(0.25)

In [None]:
primeiro_quartil = dados["year"] < dados["year"].quantile(0.25)
dados[primeiro_quartil].shape

In [None]:
dados.shape

### Outros métodos de estatística descritiva

* `describe()`: presente nos objetos `DataFrame` e `Series`, reúne várias medidas descritivas sobre os dados, incluindo os métodos `count()`, `min()` e `max()`:

In [None]:
dados["year"].describe()

In [None]:
dados.describe()

* `nunique()`: informa a quantidade de valores distintos.

In [None]:
dados.nunique()

In [None]:
dados["year"].nunique()

* `sort_values()`: ordena os valores de um `DataFrame` ou `Series`, em ordem crescente ou decrescente. Ao usar o método `sort_values()` do `DataFrame`, podemos especificar múltiplas colunas para a ordenação. Nesse caso, empates na primeira coluna são resolvidos pela segunda coluna, e assim por diante.

In [None]:
dados["year"].sort_values().head()

In [None]:
dados.sort_values(by=['year','country'],ascending=False).head()

## Apresentação dos dados

A análise de medidas centrais e de dispersão do `DataFrame` costuma ser aprofundada pela visualização das séries de dados.

Para começar vamos carregar as bibliotecas necessárias. Além do Pandas, vamos precisar também da Matplotlib, uma biblioteca que serve exclusivamente para criar gráficos.

Por convenção, carregamos apenas o módulo `pyplot` e o chamamos de `plt`.

<!--
 - Pandas é uma biblioteca escrita para Python, que serve, principalmente, para manipulação e análise de dados;
 
 - Numpy é uma biblioteca também, que adiciona suporte para matrizes grandes e arrays multi-dimensionais. Além disso, também é composta por uma série de funções matemáticas que operam nesses conjuntos de dados;
 
 - Matplotlib é biblioteca que serve exclusivamente para criar gráficos;
 
 - Seaborn é uma biblioteca feita para criar gráficos estatísticos em Python, é construída em cima do Matplotlib e é integrada às estruturas de dados do Pandas.
 -->

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

### Histogramas

Com os comandos oferecidos pelo Pandas é fácil construir um histograma, porém, é necessário entender exatamente o que se está construindo. 

No trecho abaixo dizemos que do conjunto `dados` vamos usar a coluna `lifeExp`, que mostra a expectativa de vida por ano.

Com o método `hist(bins = 100)` teremos o histograma com 100 faixas diferentes de valores. 

In [None]:
dados['lifeExp'].hist(bins=100)

Abaixo podemos ver o efeito (extremo) de se construir um histograma com poucos intervalos de valores (apenas dois, neste caso).

In [None]:
dados['lifeExp'].hist(bins=2)

O caso abaixo é exatamente o inverso do que foi mostrado acima: muitas faixas de valores (1000 no gráfico abaixo) torna a compreensão muito difícil.

In [None]:
dados['lifeExp'].hist(bins=1000)


O histograma padrão do Pandas é básico e serve apenas para uma olhada rápida na distribuição dos dados, mas não conta a história toda. 

Além de não haver nomes nos eixos X e Y, há uma região do eixo X sendo apresentada mesmo que não haja dados nela.

Podemos resolver isso configurando o histograma através dos seguintes parâmetros:
 - `xlabelsize` e `ylabelsize` ditam o tamanho da fonte nos eixos;
 - `xlabel `e `ylabel` são os métodos que alteram o título do eixo e o tamanho desse texto;
 - `xlim` também é um método e determina os limites inferior e superior do eixo horizontal.

A seguir podemos ver como customizar as informações que aparecem no histograma.

In [None]:
dados['lifeExp'].hist(bins=100, grid=False, xlabelsize=12, ylabelsize=12)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.xlim([22.0,90.0])

Um bom gráfico deve ser fácil de se entender.

Ele mostra os dados e nos ajuda a atirar conclusões de acordo com a distribuição desses dados, que valores ocorrem mais entre outros detalhes, que podem ser mais difíceis de se enxergar apenas olhando números. 

Então é importante customizar o histograma, mudando os `bins`, a cor, os valores limite etc.



In [None]:
dados['lifeExp'].hist(bins=100, grid=False, xlabelsize=12, ylabelsize=12, 
                     color = 'darkgreen')
plt.title("Distribuição da expectativa de vida", fontsize = 17)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.grid(axis = 'y', alpha = 0.8)
plt.xlim([22.0,90.0])

As duas células de código a seguir produzem gráficos usando a expectativa de vida no continente Africano e na Europa, respectivamente. 

Analise esses dados, tire suas conclusões e compare com outras regiões usando o que foi mostrado ao longo do tutorial.

In [None]:
dados_africa = dados[dados['continent'] == 'Africa']

dados_africa['lifeExp'].hist(bins=50, grid=False, xlabelsize=12, ylabelsize=12, 
                     color = 'darkblue')
plt.title("Distribuição da expectativa de vida no Continente Africano", 
          fontsize = 17)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.grid(axis = 'y', alpha = 0.8)
plt.xlim([20.0,90.0])

In [None]:
dados_europa = dados[dados['continent'] == 'Europe']

dados_europa['lifeExp'].hist(bins=50, grid=False, xlabelsize=12, ylabelsize=12, 
                     color = 'darkblue')
plt.title("Distribuição da expectativa de vida na Europa", 
          fontsize = 17)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.grid(axis = 'y', alpha = 0.8)
plt.xlim([20.0,90.0])

## Boxplots

Abaixo serão feitos exemplos com o boxplot. 

Esse gráfico possui alguns detalhes e pode ser um pouco mais difícil de visualizar os dados que o histograma, porém, apresenta alguns pontos mais claros (como mediana, primeiro e terceiro quartil).

Usando um comando semelhante ao do histograma, podemos construir um gráfico boxplot simples. 

O exemplo abaixo produz um boxplot que mostra a distribuição da expectativa de vida de acordo com os continentes.

In [None]:
dados.boxplot(by='continent', 
                       column=['lifeExp'], 
                       grid=False)

O parâmetro `columns` aceita uma lista de características e produz um boxplot para cada uma. 

No entanto, se essas características apresentarem faixas de valores muito diferentes, a visualização de cada boxplot fica comprometida:

In [None]:
dados.boxplot(by='continent', 
                       column=['lifeExp','pop'], 
                       grid=False)

Nos gráficos acima, é possível notar que existem muitos outliers.

É interessante filtrar os dados e analisar a expectativa de vida por ano (por exemplo). 

O código abaixo produz um boxplot da expectativa de vida para o ano de 2007:

In [None]:
dados_2007 = dados[dados['year']==2007]
dados_2007.boxplot(by='continent', 
                       column=['lifeExp'], 
                       grid=False)
plt.xlabel("Expectativa de vida (2007)", fontsize=15)

Também é interessante analisar anos diferentes, já que escolhemos essa variável para filtrar. 

No código a seguir os dados são filtrados pelo ano de 1982.

In [None]:
dados_1982 = dados[dados['year']==1982]
dados_1982.boxplot(by='continent', 
                       column=['lifeExp'], 
                       grid=False)
plt.xlabel("Expectativa de vida (1982)", fontsize=15)

Por fim, o boxplot a seguir tem alguns incrementos:

- a adição de linhas horizontais para melhor visualização das linhas das "caixas"
- títulos nos eixos horizontal e vertical

In [None]:
dados_1982 = dados[dados['year']==1982]
dados_1982.boxplot(by='continent', 
                       column=['lifeExp'], 
                       grid=False)
plt.xlabel("Continentes", fontsize=15)
plt.ylabel("Idades",fontsize=15)
plt.grid(axis = 'y', alpha = 0.8)