# Ciência dos Dados - 2020 / Primeiro Semestre

## Aula 01 - Atividade Exploratória para Manipular um DataFrame

## Índice

- [Introdução](#introducao)
    - [Abrindo um arquivo e visualizando seu conteúdo](#abrindo-arquivo)
    - [Começando a explorar os dados](#comecando-exploracao)
    - [Exercício 1](#ex1)
- [Filtrando ou criando novos DataFrame](#filtrando)
    - [Selecionando uma variável de um DataFrame](#select1)
    - [Selecionando linhas de um DataFrame](#selectlinhas)
    - [Selecionando linhas de um DataFrame usando mais de uma condição](#selectlinhas-combinando)
    - [Selecionando um subconjunto de um DataFrame](#selectmais)
    - [Exercício 2](#ex2)
- [Resumo dos comandos](#resumo-comandos)

<div id="introducao"></div>

___

## Introdução

A biblioteca **Pandas** é um conjunto de funções para o Python com intuito de trabalhar com Data Science. Essa biblioteca permite, além de abrir diversos tipos de arquivos, trabalhar também com o ferramental descritivo para responder perguntas sobre seus dados.

In [1]:
# Importando as bibliotecas necessárias para esta atividade
import pandas as pd

<div id="abrindo-arquivo"></div>

___

### Abrindo um arquivo e visualizando seu conteúdo:

Vamos começar abrindo um arquivo no formato Excel. Verifique ANTES se o arquivo `WorldBank.xlsx` está na mesma pasta que salvou este arquivo notebook (pasta de trabalho). O comando a seguir mostra a pasta de trabalho!

In [2]:
import os
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
C:\Users\Kelly\Dropbox\Insper Aulas\DataScience (1)\2020.1\aulas\aula01 - apresentação e pandas df\nb


...

Os dados contem informações sobre países disponíveis em um dos mais conhecidos databases da Internet: [World Bank](https://data.worldbank.org/).

Primeiramente, abra o arquivo e armazene em uma variável!

<div id="read_excel"></div>

In [3]:
dados = pd.read_excel('WorldBank.xlsx')

Vamos ver quais informações estão disponíveis neste arquivo:

In [4]:
dados

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
1,Algeria,36036159,2231.980246,2381740,africa_north,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0
5,Armenia,2963496,1326.710864,29740,europe_east,1
6,Australia,22162863,25190.839860,7741220,east_asia_pacific,0
7,Austria,8391986,26642.993858,83870,europe_west,1
8,Azerbaijan,9099893,2344.810935,86600,europe_east,1
9,Bahamas,360830,19395.152312,13880,america_north,0


...

Agora `dados` é uma variável do tipo `DataFrame`, o tipo padrão usado no pandas para representar uma tabela. Podemos ver em **negrito** à esquerda o índice de cada linha e acima os nomes das colunas. Depois de imprimir a tabela o pandas também mostra a quantidade de linhas (168) e colunas (6) disponíveis.

Antes de prosseguir, vamos garantir que sabemos o que cada uma das colunas significa:

- **Country**: nome do país;
- **Population**: população;
- **GDPcapita**: PIB per capita;
- **surface**: área total em km$^2$;
- **region**: região;
- **landlocked**: sem litoral (0=com litoral; 1=sem litoral).

Voltando ao nosso `DataFrame`, você notou que ele não imprimiu todas as linhas? Isso acontece porque o conjunto de dados pode ser **muito** grande. No nosso caso só queríamos ter uma ideia de quais dados estão disponíveis, então não precisávamos ver todas as linhas. Talvez seria interessante ver até menos do que isso.

Para ver somente as primeiras linhas podemos usar o comando `.head()`:

<div id="head"></div>

In [5]:
dados.head()

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
1,Algeria,36036159,2231.980246,2381740,africa_north,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0


Você pode especificar mais ou menos linhas passando um número como argumento:

In [6]:
dados.head(10)

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
1,Algeria,36036159,2231.980246,2381740,africa_north,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0
5,Armenia,2963496,1326.710864,29740,europe_east,1
6,Australia,22162863,25190.83986,7741220,east_asia_pacific,0
7,Austria,8391986,26642.993858,83870,europe_west,1
8,Azerbaijan,9099893,2344.810935,86600,europe_east,1
9,Bahamas,360830,19395.152312,13880,america_north,0


Se preferir, podemos ver as últimas linhas com o comando `.tail()`, que também pode receber a quantidade de linhas:

<div id="tail"></div>

In [7]:
dados.tail(3)

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
165,Vietnam,88357775,722.810053,331050,east_asia_pacific,0
166,Zambia,13917439,434.659804,752610,africa_sub_saharan,1
167,Zimbabwe,13973897,322.556928,390760,africa_sub_saharan,1


<div id="comecando-exploracao"></div>

### Começando a explorar os dados

A princípio as informações apresentadas nas últimas células não parecem muito úteis. São simplesmente as primeiras ou últimas linhas de uma tabela na qual as linhas estão em ordem alfabética do nome dos países. Mas esses comandos podem se tornar mais úteis se os combinarmos com outras operações.

Suponha que ao invés da ordem pelo nome dos países o `DataFrame` estivesse ordenado pelo tamanho da população. Nesse caso, as 5 primeiras linhas seriam os 5 países com menor população. Para obter esta informação vamos utilizar o comando `sort_values`.

<div id="sort_values"></div>

In [8]:
dados.sort_values()

TypeError: sort_values() missing 1 required positional argument: 'by'

A célula acima não funcionou, mas a mensagem de erro nos dá uma dica: está faltando um argumento para a função `sort_values`. Vamos refletir sobre o que queremos fazer. Queremos a tabela armazenada em `dados` ordenada, mas ordenada utilizando qual critério? É para isso que precisamos desse argumento adicional `by`. Devemos indicar qual coluna deve ser utilizada na ordenação:

In [9]:
dados.sort_values('Population')  # Equivalente a: dados.sort_values(by='Population')

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
155,Tuvalu,9827,1559.983698,30,east_asia_pacific,0
114,Palau,20470,5756.810516,460,east_asia_pacific,0
94,Marshall Islands,52428,2437.282445,180,east_asia_pacific,0
42,Dominica,71167,6529.529633,750,america_north,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
130,Seychelles,93081,8787.766431,460,africa_sub_saharan,0
79,Kiribati,102648,713.562496,810,east_asia_pacific,0
98,"Micronesia, Fed. Sts.",103619,2134.037162,700,east_asia_pacific,0
150,Tonga,103947,2069.226162,750,east_asia_pacific,0
59,Grenada,104677,6011.845618,340,america_north,0


**Importante:** a operação da célula anterior **não** modifica o `DataFrame` original. Para comprovar, vamos verificar que `dados` ainda está em ordem alfabética:

In [10]:
dados

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
1,Algeria,36036159,2231.980246,2381740,africa_north,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0
5,Armenia,2963496,1326.710864,29740,europe_east,1
6,Australia,22162863,25190.839860,7741220,east_asia_pacific,0
7,Austria,8391986,26642.993858,83870,europe_west,1
8,Azerbaijan,9099893,2344.810935,86600,europe_east,1
9,Bahamas,360830,19395.152312,13880,america_north,0


Mas então, o que aconteceu? Ao executar o `sort_values` um *novo* `DataFrame` é devolvido. Podemos então combinar os comandos para visualizar os 5 países menos populosos:

In [11]:
dados.sort_values(by='Population').head(5)

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
155,Tuvalu,9827,1559.983698,30,east_asia_pacific,0
114,Palau,20470,5756.810516,460,east_asia_pacific,0
94,Marshall Islands,52428,2437.282445,180,east_asia_pacific,0
42,Dominica,71167,6529.529633,750,america_north,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0


<div id="ex1"></div>

___

### EXERCÍCIO 1

Liste os 10 países mais ricos utilizando o PIB per capita. Dica: leia a documentação da função `sort_values` do pandas.

In [12]:
# Coloque seu código aqui...


<div id="filtrando"></div>

___

## Filtrando ou criando novos DataFrame



<div id="select1"></div>

### Selecionando uma variável de um DataFrame

Suponha que haja o interesse em trabalhar apenas com a variável `region`. Vamos ver como podemos extrair apenas essa variável do DataFrame `dados`:


In [14]:
# Maneira 1:
dados.region.head(5)

0           europe_east
1          africa_north
2    africa_sub_saharan
3         america_north
4         america_south
Name: region, dtype: object

In [15]:
# Maneira 2:
dados['region'].head(5)

0           europe_east
1          africa_north
2    africa_sub_saharan
3         america_north
4         america_south
Name: region, dtype: object

Ainda, é possível utilizar o comando `loc` cuja propriedade é acessar um subconjunto de linhas e/ou colunas considerando seus respectivos rótulos. Esse comando é semelhante ao fatiamento (*slicing*) de listas e strings que utilizávamos em Design de Software.

De **maneira geral**, funciona da seguinte maneira:

`DataFrame.loc[<rótulo linha(s)>,<rótulo coluna(s)>]`

Consulte mais detalhes [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html).

<div id="loc"></div>

In [16]:
# Maneira 3:
dados.loc[:,'region'].head(5)

0           europe_east
1          africa_north
2    africa_sub_saharan
3         america_north
4         america_south
Name: region, dtype: object

Se for utilizado o rótulo da coluna em formato de lista, o resultado se mantem como tipo `DataFrame`:

In [17]:
# Maneira 4:
dados.loc[:,['region']].head(5)

Unnamed: 0,region
0,europe_east
1,africa_north
2,africa_sub_saharan
3,america_north
4,america_south


Por fim, também é possível utilizar o comando `iloc` cuja propriedade é acessar um subconjunto de linhas e/ou colunas considerando números inteiros para indicar a posição. Lembrando que a posição começa em $0$ e termina em `length`$-1$.

De **maneira geral**, funciona da seguinte maneira:

`DataFrame.iloc[<posição linha(s)>,<posição coluna(s)>]`

Consulte mais detalhes [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html).

<div id="iloc"></div>

Antes, para saber a posição da coluna que procura:

In [18]:
list(dados).index('region')

4

Finalmente, mais uma maneira para selecionar apenas a coluna `region` que está na quinta coluna (ou seja, na posição 4), temos:

In [19]:
# Maneira 5:
dados.iloc[:,4].head(5)

0           europe_east
1          africa_north
2    africa_sub_saharan
3         america_north
4         america_south
Name: region, dtype: object

<div id="selectlinhas"></div>

### Selecionando linhas de um DataFrame

Suponha que você queira filtrar o `DataFrame`, deixando apenas os países da América do Sul. Em todos os exemplos até aqui usando tanto o `.loc` quanto o `.iloc` utilizamos dois pontos (`:`) no primeiro argumento. Isso é semelhante ao que fazíamos em Design de Software para fazer um fatiamento de uma lista que vai desde o começo até o fim, ou seja, que pega todas as linhas. Assim, utilizaremos esse primeiro argumento do `.loc` e `.iloc` para selecionar apenas algumas linhas específicas.

Uma facilidade oferecida pelo pandas é a possibilidade de comparar uma coluna inteira do `DataFrame` (ou seja, uma `Series`) com um valor. Por exemplo:


In [20]:
print('Regiões:')
print(dados['region'])
print("\n\nComparação das regiões com a string 'america_south':")
print(dados['region'] == 'america_south')

Regiões:
0             europe_east
1            africa_north
2      africa_sub_saharan
3           america_north
4           america_south
5             europe_east
6       east_asia_pacific
7             europe_west
8             europe_east
9           america_north
10              asia_west
11              asia_west
12            europe_east
13            europe_west
14          america_north
15     africa_sub_saharan
16              asia_west
17          america_south
18            europe_east
19     africa_sub_saharan
20          america_south
21      east_asia_pacific
22            europe_east
23     africa_sub_saharan
24     africa_sub_saharan
25      east_asia_pacific
26     africa_sub_saharan
27          america_north
28     africa_sub_saharan
29     africa_sub_saharan
              ...        
138             asia_west
139    africa_sub_saharan
140         america_south
141    africa_sub_saharan
142           europe_west
143           europe_west
144             asia_west
145

O resultado dessa operação foi uma coluna de valores booleanos, que indica para cada elemento da coluna original se ele era igual à string desejada. A vantagem disso é que podemos usar essa coluna de booleanos como filtro do `DataFrame`:

In [21]:
filtra_linhas = dados['region'] == 'america_south'
dados.loc[filtra_linhas, :]

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
4,Argentina,41222875,10749.319224,2780400,america_south,0
17,Bolivia,9918245,1232.688733,1098580,america_south,1
20,Brazil,198614208,4716.614125,8514880,america_south,0
30,Chile,17015048,6781.696484,756090,america_south,0
32,Colombia,45918101,3218.071704,1141750,america_south,0
43,Ecuador,14934692,1728.052156,256370,america_south,0
63,Guyana,753362,1210.569558,214970,america_south,0
117,Paraguay,6209877,1578.636338,406750,america_south,1
118,Peru,29373644,3180.374608,1285220,america_south,0
140,Suriname,518141,2737.334439,163820,america_south,0


Utilizamos diversos conceitos na célula anterior. Para facilitar a compreensão, explique para um colega o que está acontecendo no comando acima.

**Importante:** no exemplo acima utilizamos o comparador `==`, mas também podemos utilizar os outros comparadores que já conhecemos do Python (desde que faça sentido levando em conta o tipo dos dados da coluna): `<`, `<=`, `>`, `>=`, etc.

<div id="selectlinhas-combinando"></div>

### Selecionando linhas de um DataFrame usando mais de uma condição

É possível que queiramos combinar condições. Por exemplo, queremos todos os países da América do Sul que possuam população menor do que 10.000.000 pessoas. Para combinar condições em Design de Software, utilizávamos a palavras `and` e `or`. Para combinar condições de colunas, vamos utilizar `&` e `|`, que são análogos ao `and` e `or`, respectivamente.

In [22]:
na_america_do_sul = dados['region'] == 'america_south'
populacao_menor_que_10m = dados['Population'] < 10000000
dados.loc[na_america_do_sul & populacao_menor_que_10m, :]

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
17,Bolivia,9918245,1232.688733,1098580,america_south,1
63,Guyana,753362,1210.569558,214970,america_south,0
117,Paraguay,6209877,1578.636338,406750,america_south,1
140,Suriname,518141,2737.334439,163820,america_south,0
161,Uruguay,3374414,9096.794459,176220,america_south,0


<div id="selectmais"></div>

### Selecionando um subconjunto de um DataFrame

Selecione as colunas `Country` e `region` com todas as linhas.

Para selecionar apenas uma variável, a linha de comando `dados['region']` funciona, como já vimos anteriormente.

Mas usar a mesma ideia para duas colunas: `dados['Country','region']`, dá certo? Faça a tentativa.

In [23]:
#dados['Country','region']

Vimos que não funciona. 

Aqui vamos precisar ter os rótulos das colunas em uma lista `['Country','region']` para fazer a pesquisa.

In [24]:
# Maneira 1:
dados[['Country','region']].head(5)

Unnamed: 0,Country,region
0,Albania,europe_east
1,Algeria,africa_north
2,Angola,africa_sub_saharan
3,Antigua and Barbuda,america_north
4,Argentina,america_south


Outra maneira é usar `loc`. Aqui precisamos indicar que serão selecionadas todas as linhas com `:`.

In [25]:
#Maneira 2:
dados.loc[:,['Country','region']].head(5)

Unnamed: 0,Country,region
0,Albania,europe_east
1,Algeria,africa_north
2,Angola,africa_sub_saharan
3,Antigua and Barbuda,america_north
4,Argentina,america_south


Por fim, a terceira maneira é usar `iloc` indicando a posição das duas colunas também em lista.

Já sabemos que `region` está na pósição $4$. E `Country`?

In [26]:
list(dados).index('Country')

0

In [27]:
# Maneira 3
dados.iloc[:,[0,4]].head(5)

Unnamed: 0,Country,region
0,Albania,europe_east
1,Algeria,africa_north
2,Angola,africa_sub_saharan
3,Antigua and Barbuda,america_north
4,Argentina,america_south


<div id="ex2"></div>

___

### EXERCÍCIO 2

Selecione as colunas `Country` e `region` com países que possuem PIB per capita acima de $35$ mil.

In [28]:
# Coloque seu código aqui...


<div id="resumo-comandos"></div>

## Resumo dos Comandos

Aqui você encontra um resumo dos comandos apresentados neste notebook:

- [`read_excel`](#read_excel): abre um arquivo do tipo XLSX;
- [`head`](#head): mostra apenas as primeiras linhas do `DataFrame`;
- [`tail`](#tail): mostra apenas as últimas linhas do `DataFrame`;
- [`sort_values`](#sort_values): devolve um **novo** `DataFrame` com o conteúdo ordenado;
- [`loc`](#loc): acessa um subconjunto de linhas e/ou colunas considerando seus respectivos rótulos no DataFrame.
- [`iloc`](#iloc): acessa um subconjunto de linhas e/ou colunas considerando números inteiros para indicar a posição.


Consulte [aqui](https://medium.com/horadecodar/data-science-tips-02-como-usar-loc-e-iloc-no-pandas-fab58e214d87) estudar mais sobre `loc` e `iloc`.