___
# Atividade: <p> <center> Manipulação de um `DataFrame` com uso do **Pandas**
___

## Aula 01

**Objetivo da aula:** ao fim desta aula, o aluno será capaz de realizar algumas manipulações e filtros em um `DataFrame` com auxílio do **Pandas**.


<div id="indice"></div>

## Índice

1. [Introdução](#introducao)
    - [Glossário para base de dados: `WorldBank.xlsx`](#glossario)
    - [Uso do **Pandas para manipular uma base de dados](#manipulacao)
    - [Abrindo um arquivo de dados e visualizando seu conteúdo](#abrindo-arquivo)
    
 
2. [Começando a explorar um conjunto de dados](#comecando-exploracao)
    - [Exercício 1](#ex1)
    

3. [Filtrando ou criando novo `DataFrame`](#filtrando)
    - [Selecionando uma coluna (`Series`) de um `DataFrame`](#select1)
    - [Selecionando mais de uma coluna de um `DataFrame`](#selectmais)<p>   
    - [Uso do `loc[ , ]`](#loc)
        - [Exercício 2](#ex2)
    - [Uso do `iloc[ , ]`](#iloc)
        - [Exercício 3](#ex3)
    - [Um exemplo sobre a diferença entre `loc[ , ]` e `iloc[ , ]`](#diflociloc)
        - [Exercício 4](#ex4)   
    - [Selecionando linhas de um `DataFrame`](#selectlinhas)
    - [Selecionando linhas de um `DataFrame` usando mais de uma condição](#selectlinhas-combinando)
        - [Exercício 5](#ex5)   
        - [Exercício 6](#ex6)   

    
4. [Resumo dos comandos](#resumo-comandos)

___
<div id="introducao"></div>

## 1. Introdução


<div id="glossario"></div>

### Glossário para base de dados: `WorldBank.xlsx`

Nesta atividade, será utilizado o arquivo `WorldBank.xlsx`. <br>
A seguir, são apresentadas as variáveis e seus significados para identificar o que cada uma das colunas dessa base de dados significa:

- **Country**: nome do país;
- **Population**: tamanho populacional, ou seja, número total de indivíduos da população;
- **GDPcapita**: produto interno bruto (PIB) per capita;
- **surface**: área total do país, em km$^2$;
- **region**: nome da região que país faz parte, sendo categorizada em: `africa_north`, `africa_sub_saharan`, `america_north`, `america_south`, `asia_west`, `east_asia_pacific`, `europe_east` e `europe_west`; e
- **landlocked**: indica se país não tem fronteira com litoral, sendo categorizada em: `0`=com litoral; e `1`=sem litoral.

<div id="manipulacao"></div>

### Uso do **Pandas** para manipular uma base de dados

A biblioteca [**Pandas**](https://pandas.pydata.org/docs/user_guide/index.html) é um conjunto de funções para o Python com intuito de trabalhar com *Data Science*. <br>
Essa biblioteca permite, além de abrir diversos tipos de arquivos, trabalhar também com o ferramental de **Análise Exploratória** para responder perguntas sobre seus dados.

In [1]:
# Importando as bibliotecas necessárias para esta atividade
import pandas as pd

[Voltar ao Índice](#indice)

<div id="abrindo-arquivo"></div>

### Abrindo um arquivo de dados e visualizando seu conteúdo

Antes de executar um comando que abre um arquivo no formato Excel, é saudável verificar se o arquivo `WorldBank.xlsx` está salvo na mesma pasta do seu computador que contém este arquivo notebook. <p>
O comando a seguir importa a biblioteca [**os**](https://docs.python.org/pt-br/3/library/os.html) e mostra a pasta de trabalho!

In [2]:
# Importando biblioteca para Sistema Operacional
import os

In [3]:
print(f'Esperamos trabalhar no diretório: \n{os.getcwd()}\n')

Esperamos trabalhar no diretório: 
/home/vitorhpk/www/python/cdados/atividades



In [4]:
filename = 'WorldBank.xlsx'

if filename in os.listdir():
    print(f'Parece que o arquivo {filename} está na mesma pasta do notebook, yay!')
    
else:
    print(f'Não encontrei o arquivo {filename}.\n'
          f'Esse deve ser salvo na mesma pasta em que se encontrar este arquivo jupyter notebook')

Parece que o arquivo WorldBank.xlsx está na mesma pasta do notebook, yay!


**ATENÇÃO:** <br>
Prosseguir nesta atividade apenas se a mensagem `Parece que o arquivo WorldBank.xlsx está na mesma pasta do notebook, yay!'` aparecer após ter executado o código acima.<br>

...

A seguir, o arquivo `WorldBank.xlsx` será aberto com uso da biblioteca **Pandas** e seu conteúdo será armazenado em uma variável nomeada `dados`.

In [5]:
dados = pd.read_excel('WorldBank.xlsx')

# Se esse comando não funcionar, pode ser que você não tenha instalado a 
# biblioteca 'xlrd', leia a mensagem de erro até o fim.
# Nesse caso, remova o # da linha abaixo paa fazer a instalação
# !pip install xlrd

...<p>
Execute os comandos a seguir e reflita/discuta o que entendeu sobre essa nova variável `dados`:

In [6]:
type(dados)

pandas.core.frame.DataFrame

In [7]:
dados.shape

(168, 6)

In [8]:
dados.dtypes

Country        object
Population      int64
GDPcapita     float64
surface         int64
region         object
landlocked      int64
dtype: object

...<p>
Com os *outputs* acima, é possível notar que `dados` é um objeto do tipo `DataFrame`, o tipo padrão usado no pandas para representar uma base de dados. <br> 
É um *dataframe* com 168 linhas e 6 colunas. <br>
Por fim, é possível identificar qual é o tipo de informação armazenado em cada coluna (`Series`), como, por exemplo, `Population` é uma `Series` do tipo número inteiro, já `GDPcapita` armazena números com ponto flutuante (reais) com precisão simples, onde os dados de ponto flutuante são aproximados.

A seguir, vamos ver parte do que está contido em `dados`:

In [9]:
dados

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
1,Algeria,36036159,2231.980246,2381740,africa_north,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0
...,...,...,...,...,...,...
163,Vanuatu,236299,1522.384040,12190,east_asia_pacific,0
164,Venezuela,28995745,5528.363114,912050,america_south,0
165,Vietnam,88357775,722.810053,331050,east_asia_pacific,0
166,Zambia,13917439,434.659804,752610,africa_sub_saharan,1


[Voltar ao Índice](#indice)

___
<div id="comecando-exploracao"></div>

## 2. Começando a explorar um conjunto de dados

Suponha que, por alguma hipótese teórica, haja o interesse em ordenar as linhas do *dataframe* `dados` pelo tamanho da população ao invés de ser por ordem alfabética pelo nome dos países. <br>
Para obter um novo *dataframe* com as linhas ordenadas por tamanho populacional, uma alternativa é utilizando o comando `sort_values()`.

In [10]:
dados.sort_values()

TypeError: DataFrame.sort_values() missing 1 required positional argument: 'by'

A célula acima não funcionou, mas a mensagem de erro nos dá uma dica: está faltando atribuir um argumento, obrigatoriamente, na função `sort_values`. Consulte [`aqui`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) para mais detalhes sobre essa função.<br>

...<br>
Vamos refletir sobre o que queremos fazer: <br>
Queremos um nova ordenação nas linhas do *dataframe* `dados`, mas utilizando qual critério? É para isso que precisamos atribuir um argumento no parâmetro `by` dessa função. <br>
Devemos atribuir em `by` qual coluna deve ser utilizada como critério de ordenação:

In [None]:
dados.sort_values(['Population'])  # Equivalente a: dados.sort_values(by=['Population'])

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
155,Tuvalu,9827,1559.983698,30,east_asia_pacific,0
114,Palau,20470,5756.810516,460,east_asia_pacific,0
94,Marshall Islands,52428,2437.282445,180,east_asia_pacific,0
42,Dominica,71167,6529.529633,750,america_north,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
...,...,...,...,...,...,...
20,Brazil,198614208,4716.614125,8514880,america_south,0
70,Indonesia,241613126,1145.385435,1904570,east_asia_pacific,0
160,United States,309876170,37329.615914,9831510,america_north,0
69,India,1230984504,794.801256,3287260,asia_west,0


**ATENÇÃO:** a operação da célula anterior **não** modificou o conteúdo do *dataframe* original atribuído em `dados`. <p>
Para comprovar, a seguir, observe que o conteúdo do *dataframe* `dados` ainda está com as linhas em ordem alfabética de `Country`:

In [None]:
dados

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
1,Algeria,36036159,2231.980246,2381740,africa_north,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0
...,...,...,...,...,...,...
163,Vanuatu,236299,1522.384040,12190,east_asia_pacific,0
164,Venezuela,28995745,5528.363114,912050,america_south,0
165,Vietnam,88357775,722.810053,331050,east_asia_pacific,0
166,Zambia,13917439,434.659804,752610,africa_sub_saharan,1


<div id="ordena-populacao"></div>

...<br>
Mas então, o que aconteceu? <p>
Um *novo* `DataFrame` foi criado ao executar o comando `dados.sort_values(['Population'])`, porém seu conteúdo não foi atribuído em nenhuma variável. <br>
Para armazenar o resultado consequência da execução de um comando, deve utilizar um **comando de atribuição** que tem a seguinte forma geral:
    
```python
variável = expressão
```

<br> 
No comando a seguir, temos que:
 * `dados_ordenados_por_população` faz o papel da `variável`; e 
 * `dados.sort_values(by='Population')` faz a vez da `expressão`.

In [None]:
dados_ordenados_por_população = dados.sort_values(by='Population')

Para exibir o que foi armazenado na variável `dados_ordenados_por_população`, digite apenas o nome da variável na célula de código ou faça uso da função `print()`. Apenas note que este pode modificar a visualização do conteúdo armazenado. Em breve, será apresentada alternativa de como solucionar isso. 

In [None]:
dados_ordenados_por_população

In [None]:
print(dados_ordenados_por_população)

[Voltar ao Índice](#indice)

<div id="ex1"></div>

### EXERCÍCIO 1

Liste os seis países mais ricos utilizando o PIB per capita. <br>
*Dica:* leia a documentação da função `sort_values` do pandas e consulte a `Aula00_Atividade....ipynb`.

In [None]:
# Coloque seu código aqui...
paises_mais_ricos = dados.sort_values(by="GDPcapita", ascending=False)

In [None]:
paises_mais_ricos

[Voltar ao Índice](#indice)

<div id="filtrando"></div>

___

## 3. Filtrando ou criando novos `DataFrame`



<div id="select1"></div>

### Selecionando uma coluna (`Series`) de um `DataFrame`

Suponha que, por alguma hipótese teórica, haja o interesse em trabalhar apenas com a coluna `region` do *dataframe* `dados` - podemos estar interessados em *estatísticas* acerca desta variável ou talvez quiséssemos montar uma lista impressa das regiões.  <br>
Como separar apenas essa coluna do *dataframe* `dados`?

No **Pandas**, cada coluna de um `DataFrame` é chamada de `Series`. <br> 
O `DataFrame` é como uma coleção de `Series` que são indexadas pelo nome da coluna, como se fosse um *dicionário* do Python.<br>
Inclusive podemos extrair nossa `Series` de um `DataFrame` usando a notação de dicionário!

Há várias maneiras de escrever o código para extrair a coluna `region` do *dataframe*, aqui, chamado de `dados`.

Vejas algumas maneiras:

In [None]:
# Maneira 1:
dados['region']

Existe outra maneira de acessar uma coluna de um `DataFrame`.  <br>
O **Pandas** oferece também o acesso às colunas de um `DataFrame` como se fossem *atributos* do `DataFrame` (lembra de classes e atributos lá de Design de Software?):

In [None]:
# Maneira 2:
dados.region

Caso queira, é possível guardar as informações dessa coluna em uma variável, aqui, nomeado, por exemplo, de `serie_region`:

In [None]:
serie_region = dados['region'] # Maneira 1
# ou
serie_region = dados.region # Maneira 2

serie_region 

Note a informação impressa ao término da listagem dos primeiros elementos da série. <br>
Temos o nome da série e o `dtype`, que é o tipo de dados (*data type*) da série. <br>
Quando o tipo é `object`, geralmente trata-se de uma série de itens de texto puro. Já outras séries podem ter tipos diferentes como:

| Tipo | Significado |
|---|---|
| `int64` | Valores inteiros. |
| `float64` | Números reais representados em notação de ponto-flutuante |
| `bool` | Variáveis *booleanas* (só podem valer `True` ou `False`) |
| `categorical` | Variáveis *categóricas*, que representam elementos de um conjunto finito de categorias (por exemplo: escolhas em um formulário) |
| `datetime64` | Datas |
| `timedelta[ns]` | Diferenças entre instantes de tempo |

[Voltar ao Índice](#indice)

<div id="selectmais"></div>

### Selecionando mais de uma coluna de um `DataFrame`

Selecione as colunas `Country` e `region` mantendo todas as linhas do *dataframe* `dados`. <br>
Para selecionar apenas uma variável, a linha de comando `dados['region']` funciona, como já vimos anteriormente. <br>
Mas usar a mesma ideia para duas colunas: `dados['Country','region']`, dá certo? Faça a tentativa.

In [None]:
dados['Country','region']

Vimos acima que não funciona. 

Uma maneira de selecionar apenas as colunas `Country` e `region` mantendo todas as linhas do *dataframe* `dados` é colocar os nomes das colunas em uma lista `['Country','region']` para fazer a seleção desejada.

Veja a seguir:

In [None]:
dados[['Country','region']]

[Voltar ao Índice](#indice)

...<p>
E caso queira selecionar algumas colunas, mas não necessariamente todas as linhas de um `DataFrame`, como deve proceder?. <p>
Nesse caso, deverá recorrer ao uso dos métodos `loc[ , ]` ou `iloc[ , ]`, a depender do contexto.

[Voltar ao Índice](#indice)

<div id="loc"></div>

### Uso do `loc[ , ]`

É possível utilizar o comando `loc` para acessar um subconjunto de linhas e/ou de colunas considerando seus respectivos **rótulos**.  <br>
Esse comando é semelhante ao fatiamento (*slicing*) de listas e strings que utilizaram em Design de Software.

De **maneira geral**, funciona da seguinte maneira:

```python
DataFrame.loc[ <descrever filtro ou rótulos das linhas> , <descrever rótulos colunas> ]
```

Consulte mais detalhes [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html).


<div id="ex2"></div>

### EXERCÍCIO 2

Execute os comandos a seguir e discuta qual foi a seleção de linhas e colunas armazenadas nas variáveis `selecao1_loc` e `selecao2_loc`:

In [None]:
selecao1_loc = dados.loc[0:3,['Country','region']]
selecao2_loc = dados.loc[[0,3],['Country','region']]

In [None]:
# Coloque seu código aqui
selecao1_loc

In [None]:
selecao2_loc

[Voltar ao Índice](#indice)

<div id="iloc"></div>

### Uso do `iloc[ , ]`

É possível também utilizar o método `iloc`, cuja propriedade é acessar um subconjunto de linhas e/ou colunas considerando **números inteiros** que indicação a posição do que se deseja filtrar. <br>
**ATENÇÃO:** Vale lembrar que, no python, a posição começa em $0$ e termina em `length`$-1$.

De **maneira geral**, funciona da seguinte maneira:

```python
DataFrame.iloc[ <posições das linhas> , <posições das colunas> ]
```

Consulte mais detalhes [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html).


<div id="ex3"></div>

### EXERCÍCIO 3

Execute os comandos a seguir e discuta qual foi a seleção de linhas e colunas armazenadas nas variáveis `selecao1_iloc` e `selecao2_iloc`:

In [None]:
posicao_Country = list(dados).index('Country')
posicao_region = list(dados).index('region')
selecao1_iloc = dados.iloc[0:3,[posicao_Country, posicao_region]]
selecao2_iloc = dados.iloc[[0,3],[posicao_Country, posicao_region]]

In [None]:
# Coloque seu código aqui
selecao1_iloc

In [None]:
selecao2_iloc

[Voltar ao Índice](#indice)

<div id="diflociloc"></div>

### Um exemplo sobre a diferença entre `loc[ , ]` e `iloc[ , ]`

Lembram do *dataframe* `dados_ordenados_por_população` cujas linhas linhas foram ordenadas por ordem crescente da coluna `Population`? Revejam como foi feito isso [aqui](#ordena-populacao). <p>
Executando o comando a seguir, note que rótulo da linha manteve a ordenação do conjunto de dados original armazenado em `dados`.

In [None]:
dados_ordenados_por_população

<div id="ex4"></div>

### EXERCÍCIO 4

Execute os comandos a seguir e discuta qual foi a seleção de linhas e colunas armazenadas nas variáveis `selecao3_loc` e `selecao3_iloc`:

In [None]:
selecao3_loc = dados_ordenados_por_população.loc[0:2,:]
selecao3_iloc = dados_ordenados_por_população.iloc[0:2,:]

In [None]:
# Coloque seu código aqui
selecao3_loc

In [None]:
selecao3_iloc

[Voltar ao Índice](#indice)

<div id="selectlinhas"></div>

### Selecionando linhas de um `DataFrame`

Suponha que, por alguma hipótese teórica, haja o interesse em filtrar apenas os países da América do Sul do *dataframe* `dados`, porém mantendo todas as colunas.<p>
Em todos os exemplos até aqui usando tanto o `.loc` quanto o `.iloc` utilizamos dois pontos (`:`) no primeiro argumento. <br>
Isso é semelhante ao que fazíamos em Design de Software para fazer um fatiamento de uma lista que vai desde o começo até o fim, ou seja, que pega todas as linhas. Assim, utilizaremos esse primeiro argumento do `.loc` e `.iloc` para selecionar apenas algumas linhas específicas. <p>
Uma facilidade oferecida pelo **Pandas** é a possibilidade de comparar uma coluna inteira de um `DataFrame` com um valor (ou seja, comparar o conteúdo de uma `Series` com um valor). <br>
Por exemplo:

In [None]:
print('Regiões contidas em cada linha:')
print(dados['region'])

print("\n\nComparação das regiões contidas em cada linha iguais (True) ou não (False) à string `america_south`:")
print(dados['region'] == 'america_south')

O resultado dessa operação foi uma coluna de valores booleanos (`True` e `False`), que indica para cada elemento da *Series*  `region` se seu conteúdo é igual à string desejada, ou seja, igual a `america_south`. <br>
A vantagem disso é que podemos usar essa coluna de booleanos como filtro em um `DataFrame`.<p>
Por exemplo:

In [None]:
# Maneira 1
# Aqui coloca o filtro desejado diretamente no primeiro argumento de .loc
dados.loc[dados['region'] == 'america_south', :]

In [None]:
# Maneira 2
# Aqui cria a variável filtra_linhas contendo o filtro desejado
# Usa-se o nome dessa variável filtra_linhas no primeiro argumento de .loc
filtra_linhas = dados['region'] == 'america_south'
dados.loc[filtra_linhas, :]

In [None]:
# Maneira 3
# Aqui cria a variável america_do_sul contendo o filtro desejado
# Usa-se o nome dessa variável america_do_sul no primeiro argumento de .loc
# Aqui é apenas para deixar claro o nome da variável pode ser qualquer um, ou seja, "it´s up to you"!
america_do_sul = dados['region'] == 'america_south'
dados.loc[america_do_sul, :]

...<br>
Foram utilizados diversos conceitos nas células anteriores. <br>
Para facilitar a compreensão, explique para um colega o que está acontecendo nos comandos acima.

**ATENÇÃO:** no filtro acima, foi utilizado o operador lógico `==`, mas também podemos utilizar os outros comparadores que já conhecemos do Python (desde que faça sentido levando em conta o tipo dos dados da coluna): `<`, `<=`, `>`, `>=`, etc.



[Voltar ao Índice](#indice)

<div id="selectlinhas-combinando"></div>

### Selecionando linhas de um `DataFrame` usando mais de uma condição

É possível combinar condições ao definir um filtro de linhas de acordo com algum propósito em termos do problema. <br>
Por exemplo, suponha que haja o interesse em filtrar todos os países da América do Sul que possuam população inferior a 10 milhões de pessoas. <p>
Para combinar algumas condições em Design de Software, utilizávamos as palavras `and` e `or`. <br>
Entretanto, para combinar condições de colunas (ou seja, `Series`) de um `DataFrame`, vamos utilizar `&` e `|`, que são análogos ao `and` e `or`, respectivamente. <p>
Por exemplo:

In [None]:
# Maneira 1:
# Aqui coloca os filtros desejados diretamente no primeiro argumento de .loc
# Note que cada filtro foi separado por parênteses
# O uso de & deixa claro para uma linha ser True, ambos os filtros devem ser verdadeiros
dados.loc[(dados['region'] == 'america_south') & (dados['Population'] < 10000000), :]

In [None]:
# Maneira 2:
# Aqui cria as variáveis america_do_sul e populacao_menor_que_10m contendo o filtro desejado
# Usa-se os nomes dessas variáveis america_do_sul e populacao_menor_que_10m no primeiro argumento de .loc
# Aqui não foi necessário utilizar parênteses entre o &
america_do_sul = dados['region'] == 'america_south'
populacao_menor_que_10m = dados['Population'] < 10000000
dados.loc[america_do_sul & populacao_menor_que_10m, :]

...<br>
Foram utilizados diversos conceitos nas células anteriores. <br>
Para facilitar a compreensão, explique para um colega o que está acontecendo nos comandos acima.

[Voltar ao Índice](#indice)

<div id="ex5"></div>

### EXERCÍCIO 5

O que acontece ao trocar o símbolo `&` por `|` no filtro a seguir?
```python
dados.loc[(dados['region'] == 'america_south') & (dados['Population'] < 10000000), :]
```

Execute o comando com essa alteração e discuta o *output*.<br>
Faça um texto que represente quais países foram selecionados nesse novo filtro.

In [None]:
# Coloque seu código aqui...
dados.loc[(dados['region'] == 'america_south') | (dados['Population'] < 10_000_000), :]

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0
5,Armenia,2963496,1326.710864,29740,europe_east,1
7,Austria,8391986,26642.993858,83870,europe_west,1
...,...,...,...,...,...,...
155,Tuvalu,9827,1559.983698,30,east_asia_pacific,0
158,United Arab Emirates,8329453,21088.264381,83600,asia_west,0
161,Uruguay,3374414,9096.794459,176220,america_south,0
163,Vanuatu,236299,1522.384040,12190,east_asia_pacific,0


<div id="ex6"></div>

### EXERCÍCIO 6

Construa um novo `DataFrame` que contenha apenas as colunas `Country` e `region` e os países da américa do norte que possuam PIB per capita acima de $15$ mil.

In [None]:
novo_df = dados.loc[(dados['region'] == 'america_north') & (dados['GDPcapita'] > 15_000), ['Country', 'region']]

In [None]:
novo_df

Unnamed: 0,Country,region
9,Bahamas,america_north
27,Canada,america_north
160,United States,america_north


[Voltar ao Índice](#indice)

In [None]:
dados

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
1,Algeria,36036159,2231.980246,2381740,africa_north,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0
...,...,...,...,...,...,...
163,Vanuatu,236299,1522.384040,12190,east_asia_pacific,0
164,Venezuela,28995745,5528.363114,912050,america_south,0
165,Vietnam,88357775,722.810053,331050,east_asia_pacific,0
166,Zambia,13917439,434.659804,752610,africa_sub_saharan,1


<div id="resumo-comandos"></div>

## 4. Resumo dos Comandos

Faça um resumo das funções apresentadas nesta atividade:

- `.read_excel()`: Função que converte um arquivo de excel para um Data Frame;
- `.head()`: Função que mostra as primeiras linhas do Data Frame;
- `.tail()`: Função que mostra as ultimas linhas do Data Frame;
- `.sort_values()`: Função que ordena os valores do Data Frame;
- `.loc()`: Função utilizada para buscar as linhas de um Data Frame com base nas colunas.
- `.iloc()`: Função utilizada para buscar as linhas e colunas de um Data Frame com base nos indices delas.


Consulte [aqui](https://medium.com/horadecodar/data-science-tips-02-como-usar-loc-e-iloc-no-pandas-fab58e214d87) para estudar mais sobre `.loc` e `.iloc`.

[Voltar ao Índice](#indice)