# Análise e apresentação de dados

Para começar vamos carregar as bibliotecas necessárias.

Além do Pandas, vamos precisar também da Matplotlib, uma biblioteca que serve exclusivamente para criar gráficos.

Por convenção, carregamos apenas o módulo `pyplot` e o chamamos de `plt`.

<!--
 - Pandas é uma biblioteca escrita para Python, que serve, principalmente, para manipulação e análise de dados;
 
 - Numpy é uma biblioteca também, que adiciona suporte para matrizes grandes e arrays multi-dimensionais. Além disso, também é composta por uma série de funções matemáticas que operam nesses conjuntos de dados;
 
 - Matplotlib é biblioteca que serve exclusivamente para criar gráficos;
 
 - Seaborn é uma biblioteca feita para criar gráficos estatísticos em Python, é construída em cima do Matplotlib e é integrada às estruturas de dados do Pandas.
 -->

In [0]:
import pandas as pd
import matplotlib.pyplot as plt

Os dados serão carregados a partir de uma URL. 

Neste tutorial, vamos deixar que o Pandas baixe diretamente o dataset, informando apenas a URL onde ele está localizado.

É possível ver as primeiras observações da tabela usando o método `head()`:

In [0]:
dados_url = 'http://bit.ly/2cLzoxH'
dados = pd.read_csv(dados_url)
dados.head(n=10)

No código abaixo, usando o comando `tail()`, também é possível ver as últimas observações do conjunto de dados. 

Tanto no método `head()` como no método `tail()`, podemos escolher quantas observações serão mostradas (`n = 10`).

Isso pode ser alterado, mostrando 5, 20, 50 etc.

In [0]:
dados.tail(n=10)

### Histogramas

Com os comandos oferecidos pelo Pandas é fácil construir um histograma, porém, é necessário entender exatamente o que se está construindo. 

No trecho abaixo dizemos que do conjunto `dados` vamos usar a coluna `lifeExp`, que mostra a expectativa de vida por ano.

Com o método `hist(bins = 100)` teremos o histograma com 100 faixas diferentes de valores. 

In [0]:
dados['lifeExp'].hist(bins=100)

Abaixo podemos ver o efeito (extremo) de se construir um histograma com poucos intervalos de valores (apenas dois, neste caso).

In [0]:
dados['lifeExp'].hist(bins=2)

O caso abaixo é exatamente o inverso do que foi mostrado acima: muitas faixas de valores (1000 no gráfico abaixo) torna a compreensão muito difícil.

In [0]:
dados['lifeExp'].hist(bins=1000)


O histograma padrão do Pandas é básico e serve apenas para uma olhada rápida na distribuição dos dados, mas não conta a história toda. 

Além de não haver nomes nos eixos X e Y, há uma região do eixo X sendo apresentada mesmo que não haja dados nela.

Podemos resolver isso configurando o histograma através dos seguintes parâmetros:
 - `xlabelsize` e `ylabelsize` ditam o tamanho da fonte nos eixos;
 - `xlabel `e `ylabel` são os métodos que alteram o título do eixo e o tamanho desse texto;
 - `xlim` também é um método e determina os limites inferior e superior do eixo horizontal.

A seguir podemos ver como customizar as informações que aparecem no histograma.

In [0]:
dados['lifeExp'].hist(bins=100, grid=False, xlabelsize=12, ylabelsize=12)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.xlim([22.0,90.0])

Um bom gráfico deve ser fácil de se entender.

Ele mostra os dados e nos ajuda a atirar conclusões de acordo com a distribuição desses dados, que valores ocorrem mais entre outros detalhes, que podem ser mais difíceis de se enxergar apenas olhando números. 

Então é importante customizar o histograma, mudando os `bins`, a cor, os valores limite etc.



In [0]:
dados['lifeExp'].hist(bins=100, grid=False, xlabelsize=12, ylabelsize=12, 
                     color = 'darkgreen')
plt.title("Distribuição da expectativa de vida", fontsize = 17)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.grid(axis = 'y', alpha = 0.8)
plt.xlim([22.0,90.0])

As duas células de código a seguir produzem gráficos usando a expectativa de vida no continente Africano e na Europa, respectivamente. 

Analise esses dados, tire suas conclusões e compare com outras regiões usando o que foi mostrado ao longo do tutorial.

In [0]:
dados_africa = dados[dados['continent'] == 'Africa']

dados_africa['lifeExp'].hist(bins=50, grid=False, xlabelsize=12, ylabelsize=12, 
                     color = 'darkblue')
plt.title("Distribuição da expectativa de vida no Continente Africano", 
          fontsize = 17)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.grid(axis = 'y', alpha = 0.8)
plt.xlim([20.0,90.0])

In [0]:
dados_europa = dados[dados['continent'] == 'Europe']

dados_europa['lifeExp'].hist(bins=50, grid=False, xlabelsize=12, ylabelsize=12, 
                     color = 'darkblue')
plt.title("Distribuição da expectativa de vida na Europa", 
          fontsize = 17)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.grid(axis = 'y', alpha = 0.8)
plt.xlim([20.0,90.0])

## Boxplots

Abaixo serão feitos exemplos com o boxplot. 

Esse gráfico possui alguns detalhes e pode ser um pouco mais difícil de visualizar os dados que o histograma, porém, apresenta alguns pontos mais claros (como mediana, primeiro e terceiro quartil).

Usando um comando semelhante ao do histograma, podemos construir um gráfico boxplot simples. 

O exemplo abaixo produz um boxplot que mostra a distribuição da expectativa de vida de acordo com os continentes.

In [0]:
dados.boxplot(by='continent', 
                       column=['lifeExp'], 
                       grid=False)

O parâmetro `columns` aceita uma lista de características e produz um boxplot para cada uma. 

No entanto, se essas características apresentarem faixas de valores muito diferentes, a visualização de cada boxplot fica comprometida:

In [0]:
dados.boxplot(by='continent', 
                       column=['lifeExp','pop'], 
                       grid=False)

Nos gráficos acima, é possível notar que existem muitos outliers.

É interessante filtrar os dados e analisar a expectativa de vida por ano (por exemplo). 

O código abaixo produz um boxplot da expectativa de vida para o ano de 2007:

In [0]:
dados_2007 = dados[dados['year']==2007]
dados_2007.boxplot(by='continent', 
                       column=['lifeExp'], 
                       grid=False)
plt.xlabel("Expectativa de vida (2007)", fontsize=15)

Também é interessante analisar anos diferentes, já que escolhemos essa variável para filtrar. 

No código a seguir os dados são filtrados pelo ano de 1982.

In [0]:
dados_1982 = dados[dados['year']==1982]
dados_1982.boxplot(by='continent', 
                       column=['lifeExp'], 
                       grid=False)
plt.xlabel("Expectativa de vida (1982)", fontsize=15)

Por fim, o boxplot a seguir tem alguns incrementos:

- a adição de linhas horizontais para melhor visualização das linhas das "caixas"
- títulos nos eixos horizontal e vertical

In [0]:
dados_1982 = dados[dados['year']==1982]
dados_1982.boxplot(by='continent', 
                       column=['lifeExp'], 
                       grid=False)
plt.xlabel("Continentes", fontsize=15)
plt.ylabel("Idades",fontsize=15)
plt.grid(axis = 'y', alpha = 0.8)