# Ciência dos Dados - 2019 / Segundo Semestre

## Aula 01 - Atividade Exploratória

___
A biblioteca **Pandas** é um conjunto de funções para o Python com intuito de trabalhar com Data Science. Essa biblioteca permite, além de abrir diversos tipos de arquivos, trabalhar também com o ferramental descritivo para responder perguntas sobre seus dados.

In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

___
### Abrindo um arquivo e visualizando seu conteúdo:

Vamos começar abrindo um arquivo no formato Excel. Verifique ANTES se o arquivo XLSX está na mesma pasta que salvou este arquivo notebook. O comando a seguir mostra a pasta de trabalho!

In [None]:
import os
print('Esperamos trabalhar no diretório')
print(os.getcwd())

...

Os dados contem informações sobre países disponíveis em um dos mais conhecidos databases da Internet: World Bank.

Primeiramente, abra o arquivo e armazene em uma variável!

In [None]:
dados = pd.read_excel('WorldBank.xlsx')

In [None]:
# dimensão da base de dados: (número de linhas, número de colunas)
dados.shape

...

Será que funcionou? Utilize o método ``head()`` para olhar as primeiras linhas do DataFrame:

In [None]:
dados.head()

Agora, `dados` é uma variável do tipo `DataFrame`, tipo padrão usado no pandas para representar uma tabela.

Para ver o final da lista, podemos usar o método ``tail()``. Tanto ``head()`` quanto ``tail()`` podem receber como argumento o número de linhas a serem exibidas:

In [None]:
dados.tail(15)

...

Dependendo do objetivo (intuito) ao visualizar o conteúdo dos dados, pode ser feita uma ordenação dos dados segundo alguma variável da base de dados.

Para ordernar os dados pela variável `Population` usando o método `sort_values()`, o qual retorna um novo DataFrame ordenado pela coluna de sua escolha. Por exemplo:

In [None]:
dados.sort_values(by='Population').head()

Agora sabe-se quais são os cinco países mais pobres presentes nos dados.

___
**Atividade 1:** 

Liste os 10 países mais ricos utilizando `GDPcapita` (PIB per capita).

In [None]:
dados.sort_values(by='GDPcapita', ascending=False).head(10)

___

---

### Explorando o conteúdo das variáveis (qualitativas):

A coluna `region` indica a região geográfica à qual o país pertence. Vamos ver quantos países tem em cada região:

In [None]:
dados.region

In [None]:
dados['region']

...

Assim fica difícil entender como os países se distribuem dentre as diferentes regiões! Vamos contá-los:

In [None]:
dados['region'].value_counts()

Note que especificamos a coluna de interesse como se estivéssemos trabalhando com um dicionário, onde a chave é o nome de coluna e o valor é a *série* de dados (ou seja, todas as linhas) associados àquela coluna.

Podemos também acessar a coluna usando a notação de atributo, como se cada coluna fosse um atributo de objeto:

In [None]:
dados.region.value_counts()

Podemos observar essa distribuição de contagens de modo mais visual em um gráfico de setor:

In [None]:
dados.region.value_counts().plot.pie();

___
**Atividade 2:** 

A coluna `landlocked` indica se um pais tem acesso ao mar ou não (neste caso, este pais é chamado de 'landlocked' em inglês). Esta coluna indica por `0` os paises que tem acesso ao mar, e `1` para os landlocked.

    i) Conte quantos países não possuem acesso ao mar.
    ii) Conte quantos países não possuem acesso ao mar em cada região.
    iii) Conte quantos países possuem ou não possuem acesso ao mar em cada região.

In [None]:
#i)
dados[dados.landlocked==1].landlocked.value_counts()


In [None]:
#ii)
dados[dados.landlocked==1]['region'].value_counts()

In [None]:
#iii)
pd.crosstab(index=[dados.region], columns=[dados.landlocked])

---

### Explorando o conteúdo das variáveis (quantitativas):

Podemos ver que a África Sub Saariana é a região com maior proporção de países sem acesso ao mar.

Será que o acesso ao mar tem impacto na riqueza do país? Antes vamos olhar a variável (coluna) que indica riqueza `GPDcapita`.

Faz sentido usar o `value_counts()` para essa variável? Teste!

In [None]:
dados.GDPcapita.value_counts()

...

Quais das medidas abaixo você conhece além da média (mean)? *Veremos com mais calma nas próximas aulas.*

In [None]:
dados.GDPcapita.describe()

___
**Atividade 3**:

Incrementando nossa análise, queremos saber se o acesso ao mar impacta na riqueza de um país. Nesse caso a contagem de países por região e acesso ao mar não tem muito significado prático. 

Vamos substituir a **frequência** pela **média** do GDP per capita:

In [None]:
pd.pivot_table(data=dados, index='region', columns='landlocked', values='GDPcapita', aggfunc=np.mean)

...

O que vocês concluem dos dados acima?

**Resp.:**

Parece que a região oeste europeia (`europe_west`) é diferente das demais. Por que será? 

Para responder essa pergunta, vamos analisar apenas essa região. Criaremos um novo DataFrame filtrado por essa região!

---

### Filtrando ou criando novos DataFrame:



In [None]:
dados_ew = dados[dados.region=='europe_west']
dados_ew

...

Podemos juntar duas condições simultâneas (como o `and` visto em Design de Software) para ver quais são os países sem acesso ao mar da europa ocidental:

In [None]:
dados_ew_ll = dados[(dados.region=='europe_west') & (dados.landlocked==1)]
dados_ew_ll

...

Filtrar linhas e colunas utilizando comando `loc`, por exemplo:

In [None]:
dados_ew_ll = dados.loc[(dados.region=='europe_west') & (dados.landlocked==1), ['Country','GDPcapita']]
dados_ew_ll

Onde `&` é equivalente ao `and`, `|` é equivalente ao `or` e `~` é equivalente ao `not`.

___
**Atividade 4:** 

Crie um novo dataframe com as variáveis quantitativas apenas dos países das américas?

In [None]:
dados_am = dados.loc[(dados.region=='america_north') | (dados.region=='america_south'), ['Population','GDPcapita','surface']]
dados_am

---

## Uso do Tutorial:

Agora é com você! Existem outras análises interessantes que podem ser feitos neste `dataset`!

Não se esqueçam de olhar o tutorial completo de pandas no Blackboard!

Faça:

    - Uma análise exploratória considerando UMA variável qualitativa.
    - Uma análise exploratória considerando UMA variável quantitativa.
    - Uma análise exploratória considerando DUAS qualitativas e UMA quantitativa.
    - Filtre a base de dados excluindo uma determinada categoria de uma variável qualitativa e selecionando duas variáveis quaisquer.