In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Ciência dos Dados - Aula 01 - Atividade Exploratória

A biblioteca **pandas** é um conjunto de funções para o Python para trabalhar com Data Science. Ele permite além de abrir diversos tipos de arquivos, trabalhar também com o ferramental descritivo para responder perguntas sobre seus dados.

Vamos começar abrindo um arquivo no formato Excel. Os dados contem informações sobre países disponíveis em um dos mais conhecidos databases da Internet: World Bank.

Primeiramente abrimos o arquivo e armazenamos em uma variável (verifique se o arquivo XLSX está na mesma pasta):

** Nome:** 

In [None]:
dados = pd.read_excel('WorldBank.xlsx')

Será que funcionou? Vamos usar o método ``head()`` para olhar as primeiras linhas do DataFrame:

In [None]:
dados.head()

`dados` é uma variável do tipo `DataFrame`, tipo padrão usado no pandas para representar uma tabela.

Para ver o final da lista, podemos usar o método ``tail()``. Tanto ``head()`` quanto ``tail()`` podem receber como argumento o número de linhas a serem exibidas:

In [None]:
dados.tail(15)

O resultado acima não parece muito útil para visualizar os dados. Vamos ordernar os dados pela população usando o
método `sort_values()`, que retorna um novo DataFrame ordenado pela coluna de sua escolha. Por exemplo:

In [None]:
dados.sort_values(by='Population').head()

Agora sabemos quem são os países mais pobres presentes nos dados.

**Atividade 1:** Liste os 10 países mais ricos (em GDP per capita)

A coluna 'region' indica a região geográfica à qual o país pertence. Vamos ver quantos países tem em cada região:

In [None]:
dados['region']

Assim fica dificil entender como os paises se distribuem ao longo das regiões! Vamos realmente contá-los:

In [None]:
dados['region'].value_counts()

Note que especificamos a coluna de interesse como se estivéssemos trabalhando com um dicionário, onde a chave é o nome de coluna e o valor é a *série* de dados (ou seja, todas as linhas) associados àquela coluna.

Podemos também acessar a coluna usando a notação de atributo, como se cada coluna fosse um atributo de objeto:

In [None]:
dados.region.value_counts()

Podemos observar essa distribuição de contagens de modo mais visual em um gráfico de setor:

In [None]:
dados.region.value_counts().plot.pie();

---
A coluna 'landlocked' indica se um pais tem acesso ao mar ou não (neste caso este pais é chamado de 'landlocked' em inglês). Esta coluna indica por zero os paises que tem acesso ao mar, e 1 para os landlocked.

**Atividade 2:** Conte quantos países não possuem acesso ao mar.

Até agora visualizamos quantos países tem em cada região, depois montamos a quantidade de países sem acesso ao mar. E se quiséssemos analisar conjuntamente essas variáveis, ou seja, quantos países que não tem acesso ao mar para cada região?

In [None]:
pd.crosstab(index=dados.region, columns=[dados.landlocked])

Podemos ver que a África Sub Saariana é a região com maior proporção de países sem acesso ao mar.

Será que o acesso ao mar tem impacto na riqueza do país? Antes vamos olhar a variável (coluna) que indica riqueza (GDP)

In [None]:
dados.GDPcapita.describe()

Quais das medidas acima você conhece além da média (mean)? Veremos com mais calma nas próximas aulas.

**Atividade 3:** Faz sentido usar o `value_counts()` para essa variável? Teste!


Incrementando nossa análise, queremos saber se o acesso ao mar impacta na riqueza de um país. Nesse caso a contagem de países por região e acesso ao mar não tem muito significado prático. Vamos substituir a frequência pela média do GDP per capita:

In [None]:
pd.pivot_table(data=dados, index='region', columns='landlocked', values='GDPcapita', aggfunc=np.mean)

**Atividade 4:** O que vocês concluem dos dados acima?

R:

Parece que a região oeste europeia é diferente das demais, por que será? Para responder essa pergunta, vamos analisar apenas essa região. Criaremos um novo DataFrame filtrado por essa região:

In [None]:
dados_ew = dados[dados.region=='europe_west']
dados_ew

Podemos juntar duas condições simultâneas (como o `and` visto em Design de Software) para ver quais são os países sem acesso ao mar da europa ocidental:

In [None]:
dados_ew_ll = dados[(dados.region=='europe_west') & (dados.landlocked==1)]
dados_ew_ll

Onde `&` é equivalente ao `and`, `|` é equivalente ao `or` e `~` é equivalente ao `not`.

**Atividade 5:** Você saberia explicar agora a razão da anomalia?

R:

Vamos mudar um pouco o foco da investigação. Vamos ver como a área de um país se relaciona com a sua riqueza:

In [None]:
dados.plot.scatter(x='surface',y='GDPcapita');

O gráfico ficou ruim de visualizar. Existem 6 países com uma área muito maior que os demais e acabam se destacando. O mesmo ocorre para o GDP per capita.

Para corrigir essa anomalia, vamos passar para uma escala logaritmica em ambos os eixos:

In [None]:
dados.plot.scatter(x='surface',y='GDPcapita', loglog=True);

**Atividade 6**: Analisando os pontos do gráfico acima, o que você conclui disso?

R:

**Atividade 7**: Agora é com você! Existem outras variáveis no dataset: descubra relações interessantes! Não se esqueçam de olhar o tutorial completo de pandas no Blackboard!