In [1]:
%%html
<style>
table {float:left}
</style>

# Tutorial de Pandas

Pandas é a biblioteca do Python mais utilizada para trabalhar com conjuntos de dados de diferentes fontes de dados. \
Neste tutorial aprenderemos a como utilizá-la para extrair, transformar e carregar diversos tipos de dados.

Seu [código](https://github.com/pandas-dev/pandas) é aberto está hospedado no GitHub.  \
Sua [documentação](https://pandas.pydata.org/docs/), apesar de estar disponível somente em inglês, é bem completa e oferece tutoriais e exemplos.

## Instalação

Caso você não tenha instalado o Pandas junto com os demais pacotes de Python (conforme explicado no [README.md](../README.md)), você pode instalá-lo usando o comando `pip`:

In [2]:
%pip install pandas  # NOTA: o símbolo de porcentagem no começo da linha permite você rodar comandos do terminal diretamente no notebook. 

Note: you may need to restart the kernel to use updated packages.


Para verificar se o Pandas foi instalado corretamente, tente importar ela e imprimir sua versão.

In [3]:
import pandas
pandas.__version__

'1.5.1'

Seguindo o padrão definido pelos desenvolvedores da biblioteca, utilizaremos as letras `pd` como pseudônimo para simplificar o nosso código. Assim, toda vez que quisermos utilizá-la não precisaremos escrever o nome dela completo (`pandas`), somente `pd`.

In [4]:
import pandas as pd
pd.__version__

'1.5.1'

## Introdução

>[Pandas](https://pandas.pydata.org/) é uma ferramenta de análise e manipulação de dados em código aberto rápida, poderosa, flexível e fácil de usar, 
construída sobre a linguagem de programação Python.


Essa biblioteca possui duas principais estruturas de dados: a coluna (_Series_) e a tabela (_DataFrame_).

### Series: declaração
Ao trabalhar com o Pandas, todas as colunas do seu conjunto de dados serão do tipo _Series_. Uma _Series_ também pode ser entendida como uma série ou sequência de dados. 
Você pode criar uma _Series_ na mão a partir de uma lista de Python. O exemplo abaixo mostra o número de mortes por Covid-19 a cada ano, de 2020 a 2023, de acordo com o 
[painel do Ministério da Saúde](https://infoms.saude.gov.br/extensions/covid-19_html/covid-19_html.html):

In [5]:
pd.Series([194950, 424110, 74800, 11320])

0    194950
1    424110
2     74800
3     11320
dtype: int64

No caso acima, declaramos de forma muito simples a nossa série de dados, mas mesmo assim o pandas adicionou os **índices** (0 a 3) e o **tipo de dados** (int64) da nossa coluna.
Algo interessante das _Series_ é que podemos criá-las definindo o seu nome, seus índices e qual será o seu tipo de dados:

In [6]:
covid_series = pd.Series([194950, 424110, 74800, 11320], 
    index=['Ano de 2020', 'Ano de 2021', 'Ano de 2022', 'Ano de 2023'], 
    name='obitos_por_covid', 
    dtype='int32'
)
covid_series

Ano de 2020    194950
Ano de 2021    424110
Ano de 2022     74800
Ano de 2023     11320
Name: obitos_por_covid, dtype: int32

No exemplo acima, optamos por índices que são strings. Nós poderíamos ter adotado índices inteiros, por exemplo: `[2020, 2021, 2022, 2023]`. 

O código abaixo mostra como obter essas propriedades das _Series_:

In [7]:
print('Índices: ', covid_series.index)
print('Nome: ', covid_series.name)
print('Tipo: ', covid_series.dtype)

Índices:  Index(['Ano de 2020', 'Ano de 2021', 'Ano de 2022', 'Ano de 2023'], dtype='object')
Nome:  obitos_por_covid
Tipo:  int32


In [8]:
covid_series.to_dict()

{'Ano de 2020': 194950,
 'Ano de 2021': 424110,
 'Ano de 2022': 74800,
 'Ano de 2023': 11320}

Também podemos criar _Series_ através de dicionários, assim as chaves e os valores do dicionário serão, respectivamente, os índices e os valores da coluna:

In [9]:
dict_series = pd.Series({'Ano de 2020': 194950, 'Ano de 2021': 424110, 'Ano de 2022': 74800, 'Ano de 2023': 11320})
dict_series

Ano de 2020    194950
Ano de 2021    424110
Ano de 2022     74800
Ano de 2023     11320
dtype: int64

In [10]:
# Dando um nome a uma Series já criada: 
dict_series.name = 'Mortes por covid'
dict_series

Ano de 2020    194950
Ano de 2021    424110
Ano de 2022     74800
Ano de 2023     11320
Name: Mortes por covid, dtype: int64

### Series: acessando elementos

A forma mais simples de acessar um elemento de uma _Series_ é informando seu índice:

In [18]:
# Pega um elemento da série:
n_obitos = covid_series['Ano de 2021']

# Mostra o tipo do elemento: 
print(type(n_obitos))

# Mostra o valor do elemento:
n_obitos

<class 'numpy.int32'>


424110

Você pode selecionar vários elementos passando uma lista de índices para a _Series_. Nesse caso, a _Series_ retorna uma **slice** (fatia), isto é, um pedaço da _Series_ original: 

In [25]:
covid_series[['Ano de 2023', 'Ano de 2021']]

Ano de 2023     11320
Ano de 2021    424110
Name: obitos_por_covid, dtype: int32

### Series: atributos
Além dos três atributos apresentados anteriormente, as Series possuem alguns outros que trazem ricas informações a respeito da coleção de dados.
Abaixo estão todos os atributos suportados por essa estrutura de dados.

|    | Atributos                          | Descrição                                                                                                                                                                          |
|---:|:-----------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0 | Series.index                       | O índice (rótulos do eixo) da Série.                                                                                                                                               |
  1 | Series.array                       | O ExtensionArray dos dados que suportam esta Série ou Índice.                                                                                                                      |
|  2 | Series.values                      | Retorna a Série como um ndarray ou algo semelhante a um ndarray, dependendo do dtype.                                                                                             |
|  3 | Series.dtype                       | Retorna o objeto dtype dos dados subjacentes.                                                                                                                                     
|  4 | Series.shape                       | Retorna uma tupla com a forma dos dados subjacentes.                                                                                                                             |
|  5 | Series.nbytes                      | Retorna o número de bytes nos dados subjacentes.                                                                                                                                 |
|  6 | Series.ndim                        | Número de dimensões dos dados subjacentes, por definição 1.                                                                                                                       |
|  7 | Series.size                        | Retorna o número de elementos nos dados subjacentes.                                                                                                                             |
|  8 | Series.T                           | Retorna a transposição, que é, por definição, a própria Série.                                                                                                                    |
|  9 | Series.memory_usage([index, deep]) | Retorna o uso de memória da Série.                                                                                                                                                |
| 10 | Series.hasnans                     | Retorna True se houver algum NaN (Not a Number).                                                                                                                                 |
| 11 | Series.empty                       | Indicador se a Série/DataFrame está vazia.                                                                                                                                       |
| 12 | Series.dtypes                      | Retorna o objeto dtype dos dados subjacentes.                                                                                                                                    |
| 13 | Series.name                        | Retorna o nome da Série.                                                                                                                                                         |
| 14 | Series.flags                       | Obtém as propriedades associadas a este objeto pandas.                                                                                                                           |
| 15 | Series.set_flags(*[, copy, ...])   | Retorna um novo objeto com as flags atualizadas.                                                                                                                                  |                  |

### Series: Métodos
O grande poder das Series estão em seus mais de 300 métodos