# <NEDUR/code> PY007 - Manipulação de dados com Pandas


Caso não tenha instalado o pacote pandas, utilize o seguinte comando: 

In [None]:
!pip install pandas

Para importar o pandas, use:

In [None]:
import pandas as pd

Crie a seguinte tabela de dados:

In [None]:
dados = pd.DataFrame(data={'REG' : ["A", "B", "C", "A", "B", "C"],
  'ANO' : [2020, 2020, 2020, 2021, 2021, 2021],
  'PIB' : [100, 200, 150, 130, 195, 155],
  'POP' : [10, 12, 9, 10.5, 12.3, 9]
})

Para visualizar os dados, utilize o nome da Data Frame criada: 

In [None]:
dados

## Exemplos de manipulação dos dados

Para criar uma nova coluna com o PIB per capita, basta informar o nome da coluna (PIBpc) e a operação desejada com as colunas existentes: 

In [None]:
dados["PIBpc"] = dados["PIB"]/dados["POP"]

In [None]:
dados

Para selecionar apenas uma parte dos dados, criando uma nova Data Frame com o nome dadospc, podemos utilizar: 

In [None]:
dadospc = dados[["REG","ANO","PIBpc"]]

In [None]:
dadospc

Agora vamos criar uma nova Data Frame, apenas com as informações referentes à 2020. Ou seja, vamos selecionar algumas linhas dos dados, com base em algum critério: 

In [None]:
dados2020 = dados[dados["ANO"] == 2020]

In [None]:
dados2020

Agora vamos calcular algumas **estatísticas**. 

Por exemplo, para obtermos a média do PIB per capita, podemos utilizar a função `mean()`:

In [None]:
dados_med = dados["PIBpc"].mean()

In [None]:
dados_med

De forma similar, você pode obter valores como o desvio padrão `std()`, máximo`max()` ou mínimo `min()` de uma coluna. Caso você não queira salvar essa informação (apenas visualizá-la), basta não atribuir um nome a variável:

In [None]:
dados["PIBpc"].std()

In [None]:
dados["PIBpc"].max()

In [None]:
dados["PIBpc"].min()

Podemos combinar qualquer uma dessas funções com a função `groupby()` para obter estatísticas por grupo: 

In [None]:
dados_med = dados.groupby(["REG"], as_index = False)["PIBpc"].mean()

Dúvidas sobre como utilizar a função `mean()`? Utilize o código abaixo para verificar todos os argumentos dessa função: 

In [None]:
?pd.DataFrame.mean

Ou: 

In [None]:
help(pd.DataFrame.mean)

In [None]:
dados_med

Observe que dentro da função, foi utilizado o argumento **as_index = False**. Se não utilizarmos esse argumento, o pandas vai entender que a coluna **REG** corresponde ao índice dos dados, e não irá criar a sequência de 0 a 2 observada na Data Frame acima. 

Para terminar as dicas de hoje, podemos usar usar a função `sort_values`, para ordenar os dados de acordo com alguma das colunas: 

In [None]:
dados.sort_values(by=['PIBpc'])

Observe que o padrão da função é a ordenação por ordem crescente, para ordenar na ordem inversa, basta incluir o argumento **ascending=False**, como abaixo:

In [None]:
dados.sort_values(by=['PIBpc'], ascending=False)