# Exemplo Prático

Iremos utilizar o arquivo ```capitais.csv``` que é um arquivo que tem todas as capitais do Brasil, bem como a população e a área de cada capital (km2).

O Pandas disponibiliza diversos métodos para carregar diferentes tipos de dados, segue alguns deles:

* pd.read_csv('caminho-ate-arquivo.csv', sep=';')
* pd.read_excel('caminho-ate-arquivo.xlsx', 'Sheet1')
* pd.read_clipboard()
* sql.read_frame(query, connection) – Necessita do módulo pandas.io

Vamos carregar esse arquivo na variável ```capitais```.

In [1]:
import pandas as pd

In [2]:
capitais = pd.read_csv('capitais.csv', sep=',')

In [3]:
capitais.head() # Imprime os 5 primeiros elementos do dataframe

Unnamed: 0,municipio,populacao 2015,area_km2
0,Aracaju,632744.0,174.05
1,Belo Horizonte,2502557.0,313.55
2,Belém,1439561.0,1064.92
3,Boa Vista,320714.0,5687.06
4,Brasília,2914830.0,5801.94


Note que o índice que foi gerado é o padrão e não o default. Para defirmos a coluna ```municipio``` como sendo o índice, precisamos passar o parâmetro 

In [4]:
capitais = pd.read_csv('capitais.csv', sep=',', index_col='municipio')

In [5]:
capitais.head()

Unnamed: 0_level_0,populacao 2015,area_km2
municipio,Unnamed: 1_level_1,Unnamed: 2_level_1
Aracaju,632744.0,174.05
Belo Horizonte,2502557.0,313.55
Belém,1439561.0,1064.92
Boa Vista,320714.0,5687.06
Brasília,2914830.0,5801.94


Agora sim! Podemos verificar os índices da linha e das colunas do dataframe utilizando os seguintes comando.

In [6]:
len(capitais.index)
capitais.index

Index(['Aracaju', 'Belo Horizonte', 'Belém', 'Boa Vista', 'Brasília',
       'Campo Grande', 'Cuiabá', 'Curitiba', 'Florianópolis', 'Fortaleza',
       'Goiânia', 'João Pessoa', 'Macapá', 'Maceió', 'Manaus', 'Natal',
       'Palmas', 'Porto Alegre', 'Porto Velho', 'Recife', 'Rio Branco',
       'Rio de Janeiro', 'Salvador', 'São Luís', 'São Paulo', 'Teresina',
       'Vitória'],
      dtype='object', name='municipio')

In [7]:
capitais.columns

Index(['populacao 2015', 'area_km2'], dtype='object')

Para acessar uma coluna, podemos acessar da mesma maneira como fizemos com dicionários, passando o rótulo.

In [8]:
capitais["populacao 2015"].head()

municipio
Aracaju            632744.0
Belo Horizonte    2502557.0
Belém             1439561.0
Boa Vista          320714.0
Brasília          2914830.0
Name: populacao 2015, dtype: float64

Se a chave não existir

Caso especificarmos uma coluna que não está listado no DataFrame, o erro ```KeyError``` irá aparecer.

```python
capitais['sao Paulo']
```

A saída será:

```python
KeyError: 'sao Paulo'

During handling of the above exception, another exception occurred:

KeyError                                  Traceback (most recent call last)
<ipython-input-34-5258a20fa59e> in <module>()
----> 1 capitais['sao Paulo']
```

Podemos tratar esse erro, utilizando o método ```.get```.

In [10]:
capitais.get('sao Paulo', 'Não encontrou')

'Não encontrou'

Outra forma de acessar os atributos de uma DF é utilizar o operador ponto.

Vale lembra que essa forma só funciona se o índice do elemento é um identificador válido Python. Por exemplo:

```python
capitais["populacao 2015"]
```

Se a chave for ```populacao 2015``` não irá funcionar, pois não é um identificador válido, afinal existe um espaço entre as duas palavras, o que não é aceito.

In [11]:
capitais.area_km2.head()

municipio
Aracaju            174.05
Belo Horizonte     313.55
Belém             1064.92
Boa Vista         5687.06
Brasília          5801.94
Name: area_km2, dtype: float64

In [12]:
capitais.populacao 2015

SyntaxError: invalid syntax (<ipython-input-12-e3663575ae67>, line 1)

Um identificador válido dever basicamente começar com letra e não ter espaços em bracos e alguns caracteres especiais. Segue a referência: https://docs.python.org/3/reference/lexical_analysis.html#identifiers

Podemos resolver esse problema, renomeando essa coluna. Vamos utilizar o método ```rename``` que recebe por parâmetro ```columns``` ou ```index``` para trocar o nome das colunas ou das linhas.

Ambos retornam um novo dataframe, desta forma podemos salvar na mesma variável.

In [13]:
capitais = capitais.rename(columns={'populacao 2015' : 'populacao_2015'})

In [14]:
capitais.head()

Unnamed: 0_level_0,populacao_2015,area_km2
municipio,Unnamed: 1_level_1,Unnamed: 2_level_1
Aracaju,632744.0,174.05
Belo Horizonte,2502557.0,313.55
Belém,1439561.0,1064.92
Boa Vista,320714.0,5687.06
Brasília,2914830.0,5801.94


In [15]:
capitais.populacao_2015.head()

municipio
Aracaju            632744.0
Belo Horizonte    2502557.0
Belém             1439561.0
Boa Vista          320714.0
Brasília          2914830.0
Name: populacao_2015, dtype: float64

## Exercícios

Utilizando o DataFrame ```capitais```, faça os exercícios abaixo.

**```Exercício 1 - Selecione todas as capitais que tenham área maior que 400 km2. Quantas foram?```**

**```Exercício 2 - Selecione as capitais que tenham população maior que 2 milhões.```**

**```Exercício 3 - Crie uma função que retorne uma lista contendo somente as capitais que começam com uma determinada letra. A função deve receber dois parâmetros:```** 
    
    O primeiro parâmetro será uma lista com todas as capitais.
    O segundo será uma letra.
        
    def capitais_com_letra(todas_capitais, letra):

Para testar a função, selecione as capitais que começam com as letras B e Z. Lembre-se de tratar possíveis erros.

**```Exercício 4 - Utilizando a função criada no exercício 3, calcule o total da população para as capitais que começam com S. Por fim, imprima a seguinte frase:```**

    As capitais X, Y e Z tem W pessoas.