<a href="https://colab.research.google.com/github/eBetcel/Data-analysis-and-presentation-minicourse/blob/master/Visualizacao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data analysis and presentation

## Preparation before analysis

Everytime you want to explore and extract information from a dataset, first you need to understand what kind of information it's possible obtain with the available data. In general, data is classified as: 

**Numerical:** Also known as quantitative data, are datasets that represents counts or measures, like age, height or weight. Is possible with this type of data do statistical analysis and determine mean, median, standart deviation, etc. This data are also divided into two groups: 

*   **Discrete:** Represented by integer numbers (ex: Age).

*   **Continuous:** Can assume any real value (ex: Weight, height).




**Categorical:** Also known as qualitaties, are the datasets that has non-numerical caracteristcs:


*   **Ordinal:** Has an ordinal scale or a ranking: (ex: Age range, stage of a disease, dates).
*   **Nominais:** Are basically defined by names, with no specif order (ex: Blood type, race, sex, yes/no).

### Invalid or missing data

Everytime a dataset is collected and sent to analysis, a number of activities must to be done before is possible to extract any relevat and reliable information. In the previous topics, we've seen how to initialize the data exploration with Pandas. However, after obtaining our dataframe, it's needed to check the integrity of our data and clean them before we can do any analysis. According to [IBM Data Analytics](https://www.ibm.com/cloud/blog/ibm-data-catalog-data-scientists-productivity), 80% of the time of a data analysis is spended in data cleaning.

Data treatment is an important stage in data cleaning (if some data can't be used in the analysis, it's missing). We're going to use a small [dataset](https://raw.githubusercontent.com/dataoptimal/posts/master/data%20cleaning%20with%20python%20and%20pandas/property%20data.csv), while big enought to understand how to deal with missing data.

Run the cells below to import the example data.

In [0]:
import pandas as pd

In [0]:
missing_data = pd.read_csv('https://raw.githubusercontent.com/dataoptimal/posts/master/data%20cleaning%20with%20python%20and%20pandas/property%20data.csv',sep=',')
missing_data

It is possible to notice the invalid data in the dataframe above. Pandas can detect some invalid or missing values. For this data, it uses the label 'NaN'.
'isnull()' is a specific method to identify missing value in a serie.

In [0]:
missing_data['NUM_BATH'].isnull()

Perceba que o método `isnull()` retorna `True` sempre que existe um valor faltando no campo avaliado.

Para um conjunto de dados muito grande, é impraticável aplicar a função `isnull()` manualmente a cada característica. Para avaliar a quantidade de valores faltando em todas as características, basta combinar o método `sum()` com o resultado do método `isnull()` aplicado a todo o conjunto de dados.

In [0]:
dados_faltando.isnull().sum()

Nem sempre o Pandas será capaz de identificar um dado inválido. No nosso exemplo, existe um dado inválido `'na'` na série que representa a característica `NUM_BEDROOMS` e outro valor inválido `'--'` na série que representa a característica `SQ_FT`. 

Nesses casos, podemos usar os métodos `unique()` ou `value_counts()` para ver os valores existentes em uma série:

In [0]:
dados_faltando["NUM_BEDROOMS"].unique()

In [0]:
dados_faltando["SQ_FT"].value_counts()

Outro caso de dados inválidos ocorre quando um dado de tipo diferente do esperado para uma dada característica é encontrado. A coluna `OWN_OCCUPIED` deveria conter somente valores no formato `Y` ou `N`. Contudo, em uma das linhas é encontrado o valor `12`, que não tem relação com os valores esperados.

Nesse caso, podemos usar os métodos `isin` e `all` para ver se todos os valores de uma série respeitam o **domínio** de valores previsto para aquela série.

* O método `isin` avalia se um dado nominal está presente em uma lista de opções, convertendo a série original em uma séries de valores `True` (caso esteja) ou `False` (caso contrário).
* O método `all` avalia se todos os valores na série transformada são iguais a `True`.

In [0]:
condição_domínio = dados_faltando["OWN_OCCUPIED"].isin(["Y","N"])
all(condição_domínio)

Para identificar quais dados da série `"OWN_OCCUPIED"` ferem a condição informada, invertemos a condição de busca usando o operador `~` (lemos como NÃO):

In [0]:
dados_faltando[~condição_domínio]

## Começando a análise

Os dados para esta parte do tutorial serão carregados a partir de uma URL. 

Vamos deixar que o Pandas baixe diretamente o dataset, informando apenas a URL onde ele está localizado.

In [0]:
dados_url = 'http://bit.ly/2cLzoxH'
dados = pd.read_csv(dados_url)
dados.head(n=10)

Uma vez concluída a limpeza dos dados, o primeiro conjunto de ferramentas que podemos usar para analisá-los é a das **estatísticas descritivas**. 

O Pandas oferece as principais medidas **centrais** e de **dispersão**, que podemos ser aplicadas a qualquer série de dados numéricos.

### Medidas centrais

**Média**: A soma de todas as medições divididas pelo número de observações no conjunto de dados.

In [0]:
dados.mean()

**Mediana**: Valor do meio que separa a metade maior da metade menor no conjunto de dados.

In [0]:
dados["year"].median()

**Moda**: O(s) valor(es) que aparece(m) com mais frequência no conjunto de dados.

In [0]:
dados["year"].mode()

### Medidas de dispersão

**Variância**: Indica o espalhamento dos valores de uma série. 

É calculada como a distância média de cada valor de uma série para a média da série. Para que distâncias positivas e negativas não se anulem, cada distância é elevada ao quadrado durante a soma. Por esse motivo, a ordem de grandeza da variância não casa com a ordem de grandeza dos dados da série.

Uma baixa variância indica que os valores da série tendem a estar próximos da média. Uma alta variância indica que os valores da série estão dispersos.

In [0]:
dados["year"].var()

**Desvio Padrão**: Raiz quadrada da variância. Mantém todas as suas propriedades, mas apresenta a mesma ordem de grandeza dos dados da série: 

In [0]:
dados["year"].std()

**Quantis**: Particionam os valores ordenados de uma série. Um quantil de 25% indica que 25% dos valores da série são inferiores àquele quantil. Por convenção, ***quartis*** são os quantis de 25%, 50% e 75%, também conhecidos como primeiro, segundo e terceiro quartis:


In [0]:
dados["year"].quantile(0.25)

In [0]:
primeiro_quartil = dados.query(f"year < {dados['year'].quantile(0.25)}")
primeiro_quartil.shape

In [0]:
dados.shape

### Outros métodos de estatística descritiva

* `describe()`: presente nos objetos `DataFrame` e `Series`, reúne várias medidas descritivas sobre os dados, incluindo os métodos `count()`, `min()` e `max()`:

In [0]:
dados["year"].describe()

In [0]:
dados.describe()

* `nunique()`: informa a quantidade de valores distintos.

In [0]:
dados.nunique()

In [0]:
dados["year"].nunique()

* `sort_values()`: ordena os valores de um `DataFrame` ou `Series`, em ordem crescente ou decrescente. Ao usar o método `sort_values()` do `DataFrame`, podemos especificar múltiplas colunas para a ordenação. Nesse caso, empates na primeira coluna são resolvidos pela segunda coluna, e assim por diante.

In [0]:
dados["year"].sort_values().head()

In [0]:
dados.sort_values(by=['year','country'],ascending=False).head()

## Apresentação dos dados

A análise de medidas centrais e de dispersão do `DataFrame` costuma ser aprofundada pela visualização das séries de dados.

Para começar vamos carregar as bibliotecas necessárias:
- `matplotlib` é uma biblioteca que serve exclusivamente para criar gráficos; 
- `seaborn` é uma biblioteca feita para criar gráficos estatísticos em Python. É construída em cima do Matplotlib e é integrada às estruturas de dados do Pandas.

Por convenção, carregamos apenas o módulo `pyplot` da biblioteca `matplotlib` e o chamamos de `plt`.

No caso do `seaborn`, carregamos toda a biblioteca, a chamamos de `sns` e usamos seu método `set()` para colocar em vigor suas configurações iniciais. 

In [0]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

### Histogramas

Com os comandos oferecidos pelo Pandas é fácil construir um histograma. Porém, é necessário entender exatamente o que se está construindo. 

No trecho abaixo dizemos que do conjunto `dados` vamos usar a coluna `lifeExp`, que mostra a expectativa de vida por ano.

Com o método `hist(bins = 100)` teremos o histograma com 100 faixas diferentes de valores. 

In [0]:
dados['lifeExp'].hist(bins=100)

Abaixo podemos ver o efeito (extremo) de se construir um histograma com poucos intervalos de valores (apenas dois, neste caso).

In [0]:
dados['lifeExp'].hist(bins=2)

O caso abaixo é exatamente o inverso do que foi mostrado acima: muitas faixas de valores (1000 no gráfico abaixo) torna a compreensão muito difícil.

In [0]:
dados['lifeExp'].hist(bins=1000)

O histograma padrão do Pandas é básico e serve apenas para uma olhada rápida na distribuição dos dados, mas não conta a história toda. 

Além de não haver nomes nos eixos X e Y, há uma região do eixo X sendo apresentada mesmo que não haja dados nela.

Podemos resolver isso configurando o histograma através dos seguintes parâmetros:
 - `xlabelsize` e `ylabelsize` ditam o tamanho da fonte nos eixos;
 - `xlabel `e `ylabel` são os métodos que alteram o título do eixo e o tamanho desse texto;
 - `xlim` também é um método e determina os limites inferior e superior do eixo horizontal.

A seguir podemos ver como customizar as informações que aparecem no histograma.

In [0]:
dados['lifeExp'].hist(bins=100, grid=False, xlabelsize=12, ylabelsize=12)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.title("Distribuição das expectativas de vida", fontsize=17)
plt.xlim([22.0,90.0])

Apesar de ser conveniente usar o método `hist()` diretamente a partir de uma série, o método `distplot()` do `seaborn` é bem mais poderoso.

Além de apresentar um histograma dos dados, o `distplot()` estima uma **distribuição de probabilidade** dos dados:

In [0]:
sns.distplot(dados["lifeExp"])
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.title("Distribuição das expectativas de vida", fontsize=17)

A distribuição de probabilidade estimada no gráfico acima é uma importante fonte de informação sobre os dados.

Podemos compará-la com uma **distribuição normal** usando o método `norm` da biblioteca `scipy`:

In [0]:
from scipy.stats import norm

In [0]:
sns.distplot(dados["lifeExp"], fit=norm)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.title("Distribuição das expectativas de vida", fontsize=17)

Nesse caso, vemos que a distruição real dos dados difere bastante da distribuição normal.

De fato, ela se assemelha mais a uma **distribuição bimodal**, que costuma ocorrer quando os dados apresentam subconjuntos normalmente distribuídos.

As duas células de código a seguir produzem gráficos usando a expectativa de vida no continente Africano e na Europa, respectivamente, mostrando de onde surge a distribuição bimodal do gráfico acima:

In [0]:
dados_africa = dados.query("continent == 'Africa'")
dados_europa = dados.query("continent == 'Europe'")

sns.distplot(dados_europa["lifeExp"], fit=norm)
sns.distplot(dados_africa["lifeExp"], fit=norm)
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Frequência",fontsize=15)
plt.title("Distribuição das expectativas de vida nos continentes europeu e africano", fontsize=17)

Além de interessante do ponto de vista estatístico, o gráfico acima é socialmente impactante e preocupante, tamanha a diferença nas distribuições.

### Boxplots e violin plots

Outros tipos de gráfico úteis para análise de distribuições são obtidos pelos métodos `boxplot()` e `violinplot()` do `seaborn`. 

**Boxplot**: apresenta os quartis de uma série, representados por uma caixa - as extremidades são o primeiro e terceiro quartil, enquanto a divisória dentro da caixa é o segundo quartil. 

Esse tipo de gráfico também é conhecido como caixas e bigodes (box-and-whiskers), porque os elementos mínimo e máximo são representados pelos "bigodes" da caixa. 

Uma particularidade desse gráfico é que os elementos mínimo e máximo são calculados em função da distância entre o primeiro e o terceiro quartil. Assim, valores da série que extrapolem esses valores extremos são considerados outliers e aparecem no boxplot como pontos.

In [0]:
sns.boxplot(x="lifeExp", y="continent", data=dados.sort_values("continent"))
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Continente",fontsize=15)
plt.title("Expectativa de vida por continente", fontsize=17)

Como podemos ver, a África é o continente com menor expectativa de vida em geral, enquanto a Ásia é o continente onde esse dado apresenta maior dispersão.

Nos gráficos acima, é possível notar que existem muitos outliers.

É interessante filtrar os dados e analisar a expectativa de vida por ano (por exemplo). 

O código abaixo produz um boxplot da expectativa de vida para o ano de 2007:

In [0]:
dados_2007 = dados.query("year == 2007")
sns.boxplot(x="lifeExp", y="continent", data=dados_2007.sort_values("continent"))
plt.xlabel("Expectativa de vida", fontsize=15)
plt.ylabel("Continente",fontsize=15)
plt.title("Expectativa de vida por continente (2007)", fontsize=17)

Delimitando o ano da análise, vemos bem menos outliers.

* **Violin plots**: combinam as informações presentes em um boxplot e em gráficos de densidade. Apesar de serem extremamente ricos em informação, são pouco difundidos na prática. 

In [0]:
plt.figure(figsize=(12,6))
sns.violinplot(x="continent", y="lifeExp", data=dados_2007)
plt.xlabel("Continente", fontsize=15)
plt.ylabel("Expectativa de vida",fontsize=15)
plt.title("Expectativa de vida por continente", fontsize=17)