___
# Atividade: Exploratória para Manipular um DataFrame
___

## Aula 01

<div id="indice"></div>

## Índice

1. [Introdução](#introducao)
    - [Abrindo um arquivo e visualizando seu conteúdo](#abrindo-arquivo)
    - [Visualizando primeiras linhas de uma base de dados](#head)
    - [Visualizando últimas linhas de uma base de dados](#tail)
    - [Hands on: Remover linhas ou colunas de uma base de dados](#drop)
 
 
2. [Começando a explorar os dados](#comecando-exploracao)
    - [Exercício 1](#ex1)
    
 
3. [Filtrando ou criando novos DataFrame](#filtrando)
    - [Selecionando uma coluna de um DataFrame](#select1)
    - [Uso do `loc[ , ]`](#loc)
    - [Uso do `iloc[ , ]`](#iloc)
    - [Um exemplo sobre a diferença entre `loc[ , ]` e `iloc[ , ]`](#diflociloc)
    - [Selecionando linhas de um DataFrame](#selectlinhas)
    - [Selecionando linhas de um DataFrame usando mais de uma condição](#selectlinhas-combinando)
    - [Selecionando um subconjunto de um DataFrame](#selectmais)
    - [Exercício 2](#ex2)
    - [Exercício 3](#ex3)
    - [Exercício 4](#ex4)
    

4. [Resumo dos comandos](#resumo-comandos)

<div id="introducao"></div>

___

## 1. Introdução

A biblioteca [**pandas**](https://pandas.pydata.org/docs/user_guide/index.html) é um conjunto de funções para o Python com intuito de trabalhar com Data Science. Essa biblioteca permite, além de abrir diversos tipos de arquivos, trabalhar também com o ferramental descritivo para responder perguntas sobre seus dados.

In [None]:
# Importando as bibliotecas necessárias para esta atividade
import pandas as pd

<div id="abrindo-arquivo"></div>

___

### Abrindo um arquivo e visualizando seu conteúdo:

Vamos começar abrindo um arquivo no formato Excel. 

Mas vamos verificar ANTES se o arquivo `WorldBank.xlsx` está na mesma pasta que salvou este arquivo notebook (pasta de trabalho). O comando a seguir importa a biblioteca [**os**](https://docs.python.org/pt-br/3/library/os.html) e mostra a pasta de trabalho!

In [None]:
# Importando biblioteca para Sistema Operacional
import os

In [None]:
print(f'Esperamos trabalhar no diretório: \n{os.getcwd()}\n')

In [None]:
filename = 'WorldBank.xlsx'

if filename in os.listdir():
    print(f'Parece que o arquivo {filename} está na mesma pasta do notebook, yay!')
    
else:
    print(f'Não encontrei o arquivo {filename}')

...

Os dados contem informações sobre países disponíveis em um dos mais conhecidos databases da Internet: [World Bank](https://data.worldbank.org/).

Primeiramente, abra o arquivo e armazene em uma variável!

<div id="read_excel"></div>

In [None]:
dados = pd.read_excel('WorldBank.xlsx')

# Se esse comando não funcionar, pode ser que você não tenha instalado a 
# biblioteca 'xlrd', leia a mensagem de erro até o fim.

Vamos ver quais informações estão disponíveis neste arquivo:

In [None]:
type(dados)

In [None]:
dados.shape

In [None]:
dados.dtypes

...

Agora `dados` é uma variável do tipo `DataFrame`, o tipo padrão usado no pandas para representar uma tabela. Podemos ver em **negrito** à esquerda o índice de cada linha e acima os nomes das colunas. Depois de imprimir a tabela o pandas também mostra a quantidade de linhas (168) e colunas (6) disponíveis.

Antes de prosseguir, vamos garantir que sabemos o que cada uma das colunas significa:

- **Country**: nome do país;
- **Population**: população;
- **GDPcapita**: PIB per capita;
- **surface**: área total em km$^2$;
- **region**: região;
- **landlocked**: sem litoral (0=com litoral; 1=sem litoral).

Voltando ao nosso `DataFrame`, você notou que ele não imprimiu todas as linhas? Isso acontece porque o conjunto de dados pode ser **muito** grande. No nosso caso só queríamos ter uma ideia de quais dados estão disponíveis, então não precisávamos ver todas as linhas. Talvez seria interessante ver até menos do que isso.

[Voltar ao Índice](#indice)

<div id="head"></div>

### Visualizando primeiras linhas de uma base de dados

Para ver somente as primeiras linhas podemos usar o comando `.head()`:

In [None]:
dados.head()

Você pode especificar outra quantidade de linhas passando um número inteiro como argumento:

In [None]:
dados.head(10)

[Voltar ao Índice](#indice)

<div id="tail"></div>

### Visualizando últimas linhas de uma base de dados

Se preferir, podemos ver as últimas linhas com o comando `.tail()`, que também pode receber a quantidade de linhas como argumento:



In [None]:
dados.tail(3)

[Voltar ao Índice](#indice)

<div id="drop"></div>

### Hands on: Remover linhas ou colunas de uma base de dados

Suponha os seguintes objetivos:
 * Construir uma nova base de dados sem as colunas `Country` e `surface` da base original `dados`.
 * Construir uma nova base de dados sem as linhas 1, 4 e 6 da base original `dados`.

Encontre como fazer isso.

In [None]:
# Coloque seu código aqui...

[Voltar ao Índice](#indice)

___
<div id="comecando-exploracao"></div>

## 2. Começando a explorar os dados

A princípio as informações apresentadas nas últimas células não parecem muito úteis. São simplesmente as primeiras ou últimas linhas de uma tabela na qual as linhas estão em ordem alfabética do nome dos países. Mas esses comandos podem se tornar mais úteis se os combinarmos com outras operações.

Suponha que ao invés da ordem pelo nome dos países o `DataFrame` estivesse ordenado pelo tamanho da população. Nesse caso, as 5 primeiras linhas seriam os 5 países com menor população. Para obter esta informação vamos tentar utilizar o comando [`sort_values`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html).

In [None]:
dados.sort_values()

A célula acima não funcionou, mas a mensagem de erro nos dá uma dica: está faltando um argumento para a função `sort_values`. Vamos refletir sobre o que queremos fazer. Queremos a tabela armazenada em `dados` ordenada, mas ordenada utilizando qual critério? É para isso que precisamos desse argumento adicional `by`. Devemos indicar qual coluna deve ser utilizada como critério de ordenação:

In [None]:
dados.sort_values(['Population'])  # Equivalente a: dados.sort_values(by='Population')

**Importante:** a operação da célula anterior **não** modifica o `DataFrame` original. Para comprovar, vamos verificar que `dados` ainda está em ordem alfabética:

Mas então, o que aconteceu? Ao executar o `sort_values` um *novo* `DataFrame` é devolvido. 

In [None]:
dados_ordenados_por_população = dados.sort_values(by='Population')
dados_ordenados_por_população

Podemos então utilizar o comando `.head()` neste novo `DataFrame` para visualizar os 5 países menos populosos:

In [None]:
dados_ordenados_por_população.head()

Podemos até evitar a criação de uma nova variável e simplesmente encadear os comandos `.sort_values()` e `.head()` em uma linha só! Isso é um padrão comum de escrita de código quando usamos Pandas.

In [None]:
dados.sort_values(by='Population').head()

[Voltar ao Índice](#indice)

<div id="ex1"></div>

### EXERCÍCIO 1

Faça:
 * Liste os 10 países mais ricos utilizando o PIB per capita. Dica: leia a documentação da função `sort_values` do pandas.

In [None]:
# Coloque seu código aqui...


[Voltar ao Índice](#indice)

<div id="filtrando"></div>

___

## 3. Filtrando ou criando novos DataFrame



<div id="select1"></div>

### Selecionando uma coluna de um DataFrame

Suponha que haja o interesse em trabalhar apenas com a variável `region` - podemos estar interessados em *estatísticas* acerca desta variável, ou talvez quiséssemos montar uma lista impressa das regiões. Como separar apenas essa variável?

No Pandas, cada coluna de um `DataFrame` é chamada de `Series`. O `DataFrame` é como uma coleção de `Series` que são indexadas pelo nome da coluna, como se fosse um *dicionário* do Python. Inclusive podemos extrair nossa `Series` do nosso `DataFrame` usando a notação de dicionário!

Há várias maneiras de escrever o código para extrair a coluna `region` do `dataframe`, aqui, chamado de `dados`.

Vejas algumas maneiras:

In [None]:
# Maneira 1:
dados['region']

Existe outra maneira de acessar uma coluna do `DataFrame`. O Pandas oferece também o acesso às colunas de um `DataFrame` como se fossem *atributos* do `DataFrame` (lembra de classes e atributos lá de Design de Software?):

In [None]:
# Maneira 2:
dados.region

Caso queira, é possível guardar as informações dessa coluna em uma variável, aqui, nomeado de `serie_region`:

In [None]:
serie_region = dados['region']

In [None]:
print(type(dados))
print(type(serie_region))

Agora podemos observar alguns dados contidos nesta série:

In [None]:
serie_region

Note a informação impressa ao término da listagem dos primeiros elementos da série. Temos o nome da série e o `dtype`, que é o tipo de dados (*data type*) da série. Quando o tipo é `object`, geralmente trata-se de uma série de itens de texto puro. Já outras séries podem ter tipos diferentes como:

| Tipo | Significado |
|---|---|
| `int64` | Valores inteiros. |
| `float64` | Números reais representados em notação de ponto-flutuante |
| `bool` | Variáveis *booleanas* (só podem valer `True` ou `False`) |
| `categorical` | Variáveis *categóricas*, que representam elementos de um conjunto finito de categorias (por exemplo: escolhas em um formulário) |
| `datetime64` | Datas |
| `timedelta[ns]` | Diferenças entre instantes de tempo |

[Voltar ao Índice](#indice)

<div id="loc"></div>

### Uso do `loc[ , ]`

Ainda, é possível utilizar o comando `loc` cuja propriedade é acessar um subconjunto de linhas e/ou colunas considerando seus respectivos rótulos. Esse comando é semelhante ao fatiamento (*slicing*) de listas e strings que utilizaram em Design de Software.

De **maneira geral**, funciona da seguinte maneira:

        `DataFrame.loc[<filtro ou rótulo linhas>,<rótulos colunas>]`

Consulte mais detalhes [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html).


In [None]:
# Maneira 3:
dados.loc[:,'region']

Se for utilizado o rótulo da coluna em formato de lista, o resultado se mantem como tipo `DataFrame`:

In [None]:
# Maneira 4:
dados.loc[:,['region']]

[Voltar ao Índice](#indice)

<div id="iloc"></div>

### Uso do `iloc[ , ]`

Por fim, também é possível utilizar o comando `iloc` cuja propriedade é acessar um subconjunto de linhas e/ou colunas considerando números inteiros para indicar a posição. Lembrando que a posição começa em $0$ e termina em `length`$-1$.

De **maneira geral**, funciona da seguinte maneira:

        `DataFrame.iloc[<índice linhas>,<índice colunas>]`

Consulte mais detalhes [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html).


Antes, para saber a posição da coluna que procura:

In [None]:
list(dados).index('region')

Finalmente, mais uma maneira para selecionar apenas a coluna `region` que está na quinta coluna (ou seja, na posição 4), temos:

In [None]:
# Maneira 5:
dados.iloc[:,4].head(5)

<div id="diflociloc"></div>

### Um exemplo sobre a diferença entre `loc[ , ]` e `iloc[ , ]`

Lembram da base de dados ordenada por `Population`? Note que rótulo da linha manteve a ordenação do conjunto de dados original guardado em `dados`.

In [None]:
dados_ordenados_por_população

Veja o que acontece com os códigos abaixo:

In [None]:
dados_ordenados_por_população.loc[0:2,:]

In [None]:
dados_ordenados_por_população.iloc[0:2,:]

[Voltar ao Índice](#indice)

<div id="selectlinhas"></div>

### Selecionando linhas de um DataFrame

Suponha que você queira filtrar o `DataFrame`, deixando apenas os países da América do Sul. Em todos os exemplos até aqui usando tanto o `.loc` quanto o `.iloc` utilizamos dois pontos (`:`) no primeiro argumento. Isso é semelhante ao que fazíamos em Design de Software para fazer um fatiamento de uma lista que vai desde o começo até o fim, ou seja, que pega todas as linhas. Assim, utilizaremos esse primeiro argumento do `.loc` e `.iloc` para selecionar apenas algumas linhas específicas.

Uma facilidade oferecida pelo pandas é a possibilidade de comparar uma coluna inteira do `DataFrame` (ou seja, uma `Series`) com um valor. Por exemplo:


In [None]:
print('Regiões:')
print(dados['region'])
print("\n\nComparação das regiões iguais à string 'america_south':")
print(dados['region'] == 'america_south')

O resultado dessa operação foi uma coluna de valores booleanos, que indica para cada elemento da coluna original se ele era igual à string desejada. A vantagem disso é que podemos usar essa coluna de booleanos como filtro do `DataFrame`:

In [None]:
filtra_linhas = dados['region'] == 'america_south'
dados.loc[filtra_linhas, :]

Utilizamos diversos conceitos na célula anterior. Para facilitar a compreensão, explique para um colega o que está acontecendo no comando acima.

**Importante:** no exemplo acima utilizamos o comparador `==`, mas também podemos utilizar os outros comparadores que já conhecemos do Python (desde que faça sentido levando em conta o tipo dos dados da coluna): `<`, `<=`, `>`, `>=`, etc.



[Voltar ao Índice](#indice)

<div id="selectlinhas-combinando"></div>

### Selecionando linhas de um DataFrame usando mais de uma condição

É possível que queiramos combinar condições. Por exemplo, queremos todos os países da América do Sul que possuam população menor do que 10.000.000 pessoas. Para combinar condições em Design de Software, utilizávamos a palavras `and` e `or`. Para combinar condições de colunas, vamos utilizar `&` e `|`, que são análogos ao `and` e `or`, respectivamente.

In [None]:
america_do_sul = dados['region'] == 'america_south'
populacao_menor_que_10m = dados['Population'] < 10000000

dados.loc[america_do_sul & populacao_menor_que_10m, :]

Os comandos acima criam as variáveis com os filtros simplificando o uso direto como abaixo:

In [None]:
dados.loc[(dados['region'] == 'america_south') & (dados['Population'] < 10000000), :]

[Voltar ao Índice](#indice)

<div id="selectmais"></div>

### Selecionando um subconjunto de um DataFrame

Selecione as colunas `Country` e `region` com todas as linhas.

Para selecionar apenas uma variável, a linha de comando `dados['region']` funciona, como já vimos anteriormente.

Mas usar a mesma ideia para duas colunas: `dados['Country','region']`, dá certo? Faça a tentativa.

In [None]:
dados['Country','region']

Vimos que não funciona. 

Aqui vamos precisar ter os rótulos das colunas em uma lista `['Country','region']` para fazer a pesquisa.

In [None]:
# Maneira 1:
dados[['Country','region']]

<div id="ex2"></div>

### EXERCÍCIO 2

Outra maneira é utilizando `loc[ , ]` como vimos acima [uso do loc](#loc). 

Faça:
 * Utilizando `loc[ , ]`, construa uma nova base de dados contendo todas linhas com `:` e as colunas `Country` e `region`.

In [None]:
# Maneira 2:
# Coloque seu código aqui...


<div id="ex3"></div>

### EXERCÍCIO 3

Por fim, a terceira maneira é usar `iloc[ , ]` como vimos acima [uso do iloc](#iloc), 

Faça:
 * Por meio de comandos, encontre a posição (índice) das duas colunas `Country` e `region`.
 * Utilizando `iloc[ , ]`, construa uma nova base de dados contendo todas linhas com `:` e as colunas `Country` e `region`.


In [None]:
# Maneira 3:
# Coloque seu código aqui...


[Voltar ao Índice](#indice)

<div id="ex4"></div>

### EXERCÍCIO 4

Selecione as colunas `Country` e `region` com países que possuem PIB per capita acima de $35$ mil.

In [None]:
# Coloque seu código aqui...


[Voltar ao Índice](#indice)

<div id="resumo-comandos"></div>

## 4. Resumo dos Comandos

Aqui você encontra um resumo dos comandos apresentados neste notebook:

- [`read_excel`](#read_excel): abre um arquivo do tipo XLSX;
- [`head`](#head): mostra apenas as primeiras linhas do `DataFrame`;
- [`tail`](#tail): mostra apenas as últimas linhas do `DataFrame`;
- [`sort_values`](#sort_values): devolve um **novo** `DataFrame` com o conteúdo ordenado;
- [`loc`](#loc): acessa um subconjunto de linhas e/ou colunas considerando seus respectivos rótulos no DataFrame.
- [`iloc`](#iloc): acessa um subconjunto de linhas e/ou colunas considerando números inteiros para indicar a posição.


Consulte [aqui](https://medium.com/horadecodar/data-science-tips-02-como-usar-loc-e-iloc-no-pandas-fab58e214d87) estudar mais sobre `loc` e `iloc`.