___
# Atividade: Exploratória para Manipular um DataFrame
___

## Aula 01

<div id="indice"></div>

## Índice

1. [Introdução](#introducao)
    - [Abrindo um arquivo e visualizando seu conteúdo](#abrindo-arquivo)
    - [Visualizando primeiras linhas de uma base de dados](#head)
    - [Visualizando últimas linhas de uma base de dados](#tail)
    - [Hands on: Remover linhas ou colunas de uma base de dados](#drop)


<div id="introducao"></div>

___

## 1. Introdução

A biblioteca [**pandas**](https://pandas.pydata.org/docs/user_guide/index.html) é um conjunto de funções para o Python com intuito de trabalhar com Data Science. Essa biblioteca permite, além de abrir diversos tipos de arquivos, trabalhar também com o ferramental descritivo para responder perguntas sobre seus dados.

In [15]:
# Importando as bibliotecas necessárias para esta atividade
import pandas as pd

<div id="abrindo-arquivo"></div>

___

### Abrindo um arquivo e visualizando seu conteúdo:

Vamos começar abrindo um arquivo no formato Excel. 

Mas vamos verificar ANTES se o arquivo `WorldBank.xlsx` está na mesma pasta que salvou este arquivo notebook (pasta de trabalho). O comando a seguir importa a biblioteca [**os**](https://docs.python.org/pt-br/3/library/os.html) e mostra a pasta de trabalho!

In [16]:
# Importando biblioteca para Sistema Operacional
import os

In [17]:
print(f'Esperamos trabalhar no diretório: \n{os.getcwd()}\n')

Esperamos trabalhar no diretório: 
c:\Users\pedro\OneDrive\Documentos\GitHub\CD22-1\aula00



In [18]:
filename = 'WorldBank.xlsx'

if filename in os.listdir():
    print(f'Parece que o arquivo {filename} está na mesma pasta do notebook, yay!')
    
else:
    print(f'Não encontrei o arquivo {filename}')

Parece que o arquivo WorldBank.xlsx está na mesma pasta do notebook, yay!


...

Os dados contem informações sobre países disponíveis em um dos mais conhecidos databases da Internet: [World Bank](https://data.worldbank.org/).

Primeiramente, abra o arquivo e armazene em uma variável!

<div id="read_excel"></div>

In [19]:
dados = pd.read_excel('WorldBank.xlsx')

# Se esse comando não funcionar, pode ser que você não tenha instalado a 
# biblioteca 'xlrd', leia a mensagem de erro até o fim.

Vamos ver quais informações estão disponíveis neste arquivo:

In [20]:
type(dados)

pandas.core.frame.DataFrame

In [21]:
dados.shape

(168, 6)

In [22]:
dados.dtypes

Country        object
Population      int64
GDPcapita     float64
surface         int64
region         object
landlocked      int64
dtype: object

...

Agora `dados` é uma variável do tipo `DataFrame`, o tipo padrão usado no pandas para representar uma tabela. Podemos ver em **negrito** à esquerda o índice de cada linha e acima os nomes das colunas. Depois de imprimir a tabela o pandas também mostra a quantidade de linhas (168) e colunas (6) disponíveis.

Antes de prosseguir, vamos garantir que sabemos o que cada uma das colunas significa:

- **Country**: nome do país;
- **Population**: população;
- **GDPcapita**: PIB per capita;
- **surface**: área total em $km^2$;
- **region**: região;
- **landlocked**: sem litoral (0=com litoral; 1=sem litoral).

Voltando ao nosso `DataFrame`, você notou que ele não imprimiu todas as linhas? Isso acontece porque o conjunto de dados pode ser **muito** grande. No nosso caso só queríamos ter uma ideia de quais dados estão disponíveis, então não precisávamos ver todas as linhas. Talvez seria interessante ver até menos do que isso.

[Voltar ao Índice](#indice)

<div id="head"></div>

### Visualizando primeiras linhas de uma base de dados

Para ver somente as primeiras linhas podemos usar o comando `.head()`:

In [23]:
dados.head()

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
1,Algeria,36036159,2231.980246,2381740,africa_north,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0


Você pode especificar outra quantidade de linhas passando um número inteiro como argumento:

In [24]:
dados.head(10)

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
1,Algeria,36036159,2231.980246,2381740,africa_north,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
4,Argentina,41222875,10749.319224,2780400,america_south,0
5,Armenia,2963496,1326.710864,29740,europe_east,1
6,Australia,22162863,25190.83986,7741220,east_asia_pacific,0
7,Austria,8391986,26642.993858,83870,europe_west,1
8,Azerbaijan,9099893,2344.810935,86600,europe_east,1
9,Bahamas,360830,19395.152312,13880,america_north,0


[Voltar ao Índice](#indice)

<div id="tail"></div>

### Visualizando últimas linhas de uma base de dados

Se preferir, podemos ver as últimas linhas com o comando `.tail()`, que também pode receber a quantidade de linhas como argumento:



In [25]:
dados.tail(3)

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
165,Vietnam,88357775,722.810053,331050,east_asia_pacific,0
166,Zambia,13917439,434.659804,752610,africa_sub_saharan,1
167,Zimbabwe,13973897,322.556928,390760,africa_sub_saharan,1


[Voltar ao Índice](#indice)

<div id="drop"></div>

### Hands on: Remover linhas ou colunas de uma base de dados

Suponha os seguintes objetivos:
 * Construir uma nova base de dados sem as colunas `Country` e `surface` da base original `dados`.
 * Construir uma nova base de dados sem as linhas 1, 4 e 6 da base original `dados`.

Encontre como fazer isso.

In [26]:
# Coloque seu código aqui...
dados1 = dados.drop(columns=['Country', 'surface'])
dados1.head(3)

Unnamed: 0,Population,GDPcapita,region,landlocked
0,2901883,1915.424459,europe_east,0
1,36036159,2231.980246,africa_north,0
2,21219954,623.245275,africa_sub_saharan,0


In [27]:
dados2 = dados.drop([1, 4, 6])
dados2.head(5)

Unnamed: 0,Country,Population,GDPcapita,surface,region,landlocked
0,Albania,2901883,1915.424459,28750,europe_east,0
2,Angola,21219954,623.245275,1246700,africa_sub_saharan,0
3,Antigua and Barbuda,87233,10614.794315,440,america_north,0
5,Armenia,2963496,1326.710864,29740,europe_east,1
7,Austria,8391986,26642.993858,83870,europe_west,1
