<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" width=300>

**Pandas** é uma biblioteca de código aberto, licenciada por BSD, que fornece estruturas de dados de alto desempenho e fácil de usar e ferramentas de análise de dados para a linguagem de programação Python.

Tópicos abordados:
- Computação Vetorizada


---

## ➜ Importação

In [1]:
import pandas as pd
import numpy as np

---

### ✅ Computação Vetorizada

#### ✔ Operações aritméticas

In [8]:
# Criando as Series
s1 = pd.Series([2, 4, 6])
s2 = pd.Series([1, 3, 5])
print(f's1:\n{s1}')
print('------')
print(f's2:\n{s2}')

s1:
0    2
1    4
2    6
dtype: int64
------
s2:
0    1
1    3
2    5
dtype: int64


In [11]:
# Multiplicação
print(s1 * 2)

0     4
1     8
2    12
dtype: int64


In [13]:
# Adição
print(s1 + s2)

0     3
1     7
2    11
dtype: int64


In [14]:
# Raiz quadrada com o Numpy
print(np.sqrt(s1))

0    1.414214
1    2.000000
2    2.449490
dtype: float64


**⚠ Observação:**

Uma Series é na verdade um array NumPy de dados associado a um array de rótulos. Por este motivo, normalmente é possível aplicar qualquer função matemática disponibilizada pela NumPy sobre os dados de uma Series

#### ✔ O valor NaN

*NaN* é o conceito utilizado pela pandas para marcar valores nulos/ausentes (missing) ou desconhecidos.

O resultado de qualquer operação aritmética envolvendo um número conhecido e um desconhecido resultará **sempre em desconhecido** (ou seja *NaN*).
- Por exemplo: 1 + desconhecido = desconhecido.

#### `isnull()`

Este método recebe como entrada uma Serie `s`, gerando como saída uma outra Series com dtype `bool`, que indica quais dos rótulos de `s` estão associados a valores (*NaN*). Existe também o método `notnull()` que faz o oposto, retornando False para todos os valores nulos.

---

### ✅ Índices Datetime

A estrutura Series foi originalmente projetada para lidar com **séries temporais**, um dos temas mais estudados no campo da Estatística.

Uma série temporal consiste em uma série de dados coletados em incrementos sucessivos de tempo ou algum outro tipo de indicador de sequência. Um exemplo é o código abaixo:

In [18]:
dias = [
    '10/02/2019',
    '11/02/2019',
    '12/02/2019',
    '13/02/2019',
    '14/02/2019',
    '15/02/2019'
]

temp_max = [31, 35, 34, 28, 27, 27]
serie_temporal = pd.Series(temp_max, index=dias)
serie_temporal

10/02/2019    31
11/02/2019    35
12/02/2019    34
13/02/2019    28
14/02/2019    27
15/02/2019    27
dtype: int64

Na Series acima cada rótulo representa um determinado dia do ano acompanhado da temperatura registrada no dia em questão (dado).

Podemos definir o dtype do nosso vetor de índices através do seguinte código:

In [19]:
serie_temporal.index = pd.to_datetime(
    serie_temporal.index,
    format='%d/%m/%Y'
)

serie_temporal

2019-02-10    31
2019-02-11    35
2019-02-12    34
2019-02-13    28
2019-02-14    27
2019-02-15    27
dtype: int64

O método `to_datetime()` recebe dois parâmetros:
- O vetor de índices a ser convertido

- format='%d/%m/%Y'. Esse parâmetro format é utilizado para que possamos informar a pandas o formato da data (data string). Para indicar este formato, foi preciso utilizar as máscaras %d (dia), %m (mês), %Y (ano com quatro dígitos) combinadas com o caractere '/'. No mundo Python, essas máscaras são chamadas de diretivas (directives).

---

### ✅ Indexação Hierárquica

A indexação hierárquica é um recurso oferecido pela pandas para permitir que você trabalhe com **mais de um nível de indexação**.

Desta vez, criaremos uma Series que guardará os nomes das moedas de cinco países e que poderá ser indexada de duas formas: a sigla do país e o nome de seu continente.

In [39]:
moedas = ['Peso', 'Real', 'Euro', 'Euro', 'Libra']
paises = [
    ['America', 'America', 'Europa', 'Europa', 'Europa'],
    ['AR', 'BR', 'FR', 'IT', 'UK']
]

paises = pd.Series(moedas, index=paises)
paises

America  AR     Peso
         BR     Real
Europa   FR     Euro
         IT     Euro
         UK    Libra
dtype: object

- Acessando os valores

In [40]:
paises['America']

AR    Peso
BR    Real
dtype: object

In [41]:
paises[:, 'IT']

Europa    Euro
dtype: object

In [42]:
paises['Europa', 'IT']

'Euro'

Neste programa, a Series paises foi criada com um vetor de rótulos indexado em dois níveis. No primeiro nível temos o nome do continente ('America' ou 'Europa') e, no segundo, a sigal do país ('AR', 'BR', 'FR', 'IT' e 'UK'). Com isso, torna-se possível indexar os dados de três formas: apenas pelo nível 1, apenas pelo nível 2 ou por ambos.

`paises['America']`: Indexação pelo nível 1. O resultado é uma Series contendo as siglas e moedas dos países da América

`paises[:, 'IT']`:  Indexação pelo nível 2. O resultado é uma Series com um único elemento, em que o rótulo é o nome do continente e o valor é o nome da moeda da Itália.

`paises['Europa', 'IT']` Indexação pelo nível 3. O resultado é o valor 'Euro', pois este é o valor do elemento cujo nível 1 do índice 'Europa' e o nível 2 'IT'.