# Exemplo Prático

Iremos utilizar o arquivo ```capitais.csv``` que é um arquivo que tem todas as capitais do Brasil, bem como a população e a área de cada capital (km2).

Vamos carregar esse arquivo na variável ```capitais```.

In [None]:
import pandas as pd

In [None]:
capitais = pd.read_csv('capitais.csv', sep=',')

In [None]:
# Imprime os 5 primeiros elementos do dataframe
capitais.head()

Note que o índice que foi gerado é o padrão e não o default. Para defirmos a coluna ```municipio``` como sendo o índice, precisamos passar o parâmetro 

In [None]:
capitais = pd.read_csv('capitais.csv', sep=',', index_col='municipio')

In [None]:
capitais.head()

Agora sim! Como podemos dimensionar o nosso conjunto de dados? Imprima a quantidade de linhas e colunas.

In [None]:
# Qual comando podemos utilizar para imprimir a quantidade de linhas e colunas?
capitais.shape

In [None]:
capitais.columns

Para acessar uma coluna, podemos acessar da mesma maneira como fizemos com dicionários, passando o rótulo.

In [None]:
capitais["populacao 2015"].head()

Caso especificarmos uma coluna que não está listado no DataFrame, o erro ```KeyError``` irá aparecer. Por exemplo:

```python
capitais["populacao 2015"]['sao Paulo']
```

A saída será:

```python
KeyError: 'sao Paulo'

During handling of the above exception, another exception occurred:

KeyError                                  Traceback (most recent call last)
<ipython-input-34-5258a20fa59e> in <module>()
----> 1 capitais["populacao 2015"]['sao Paulo']
```

Podemos tratar esse erro, utilizando o método ```.get```.

In [None]:
capitais["populacao 2015"].get('sao Paulo', 'Não encontrou')

In [None]:
capitais["populacao 2015"].get('São Paulo', 'Não encontrou') # Se encontrar a chave, ele devolve o valor.

Outra forma de acessar os atributos de uma DF é utilizar o operador ponto.

Vale lembra que essa forma só funciona se o índice do elemento é um identificador válido Python. Por exemplo:

```python
capitais["populacao 2015"]
```

Se a chave for ```populacao 2015``` não irá funcionar, pois não é um identificador válido, afinal existe um espaço entre as duas palavras, o que não é aceito.

In [None]:
capitais.area_km2.head()

In [None]:
capitais.populacao 2015

Um identificador válido dever basicamente começar com letra e não ter espaços em bracos e alguns caracteres especiais. Segue a referência: https://docs.python.org/3/reference/lexical_analysis.html#identifiers

Podemos resolver esse problema, renomeando essa coluna. Vamos utilizar o método ```rename``` que recebe por parâmetro ```columns``` ou ```index``` para trocar o nome das colunas ou das linhas.

Ambos retornam um novo dataframe, desta forma podemos salvar na mesma variável.

In [None]:
capitais = capitais.rename(columns={'populacao 2015' : 'populacao_2015'})

In [None]:
capitais.head()

In [None]:
capitais.populacao_2015.head()

## Exercícios

Utilizando o DataFrame ```capitais```, faça os exercícios abaixo.

**```Exercício 1 - Selecione todas as capitais que tenham área maior que 400 km2. Quantas foram?```**

In [None]:
qtde = len(capitais[capitais.area_km2 > 400])
print(qtde)

In [None]:
capitais[capitais.area_km2 > 400]

**```Exercício 2 - Selecione as capitais que tenham população maior que 2 milhões.```**

In [None]:
capitais[capitais.populacao_2015 > 2000000]

**```Exercício 3 - Selecione os itens que tenham população maior que 1 milhão e area menor que 500 km2```**

In [None]:
capitais[(capitais.populacao_2015 > 1000000) & (capitais.area_km2 < 500)]

**```Exercício 4 - Selecione os itens que tenham população maior que 5 milhões ou area maior que 5000 km2```**

In [None]:
capitais[(capitais.populacao_2015 > 5000000) | (capitais.area_km2 > 5000)]