<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" width=300>

**Pandas** é uma biblioteca de código aberto, licenciada por BSD, que fornece estruturas de dados de alto desempenho e fácil de usar e ferramentas de análise de dados para a linguagem de programação Python.

Tópicos abordados:
- Criação de Series
- Propriedades das Series
- Técnicas para consulta e modificação de dados

---

## ➜ Importação

In [1]:
import pandas as pd

---

## ➜ Series

Series é uma ED (Estrutura de Dados) composta por um vetor de dados e um vetor associado de rótulos, este último chamado de índice (index). Ou seja: **Series = vetor de dados + vetor de rótulos.**

### ✅ Criando Series

- Com os rótulos implícitos

In [2]:
notas = pd.Series([7.6, 5.0, 8.5, 9.5, 6.4])
notas

0    7.6
1    5.0
2    8.5
3    9.5
4    6.4
dtype: float64

Uma vez que não especificamos um índice para esta Series, a pandas utilizará inteiros de 0 a N-1 (onde N é o tamanho da lista, neste exemplo, N=5)

- Especificando seus rótulos

In [3]:
lst_matriculas = ['M02', 'M05', 'M13', 'M14', 'M19']
lst_nomes = ['Bob', 'Dayse', 'Bill', 'Cris', 'Jimi']
alunos = pd.Series(lst_nomes, index=lst_matriculas)
alunos

M02      Bob
M05    Dayse
M13     Bill
M14     Cris
M19     Jimi
dtype: object

Através do método **index** do construtor foi especificada a lista de rótulos da Series.

- A partir de um dicionário

In [4]:
dic_alunos = {
    'M02': 'Bob',
    'M05': 'Dayse',
    'M13': 'Bill',
    'M14': 'Cris',
    'M19': 'Jimi'
}
alunos = pd.Series(dic_alunos)
alunos

M02      Bob
M05    Dayse
M13     Bill
M14     Cris
M19     Jimi
dtype: object

Neste caso, as chaves do dicionário são automaticamente transformadas em rótulos.

#### ✔ Propriedades elementares das Series

#### dtype

Corresponde ao tipo dos elementos do vetor de dados. Vale a pena deixar claro que o vetor de dados de uma Series sempre conterá 
valores do **mesmo tipo**, ou seja, com o mesmo dtype.

dtype | Utilização | Tipo Python
:---: | :---: | :---:
int64 | números inteiros | int
float64 | números reais | float
bool | True/False | bool
object | texto | str
datetime64 | data/hora | datetime

Outras propriedades elementares além do dtype são:
- values: vetor de dados;
- index: vetor de rótulos;
- name: nome do vetor de dados;
- size: tamanho da Series (número de elementos);
- index.name: nome do vetor de rótulos;
- index.dtype: dtype do vetor de rótulos.

#### ✔  Utilizando as propriedades

Tendo em vista nossa Series `alunos`, vamos aplicar as propriedades que acabamos de ver.

In [5]:
alunos

M02      Bob
M05    Dayse
M13     Bill
M14     Cris
M19     Jimi
dtype: object

In [6]:
# atribuir nomes para os vetores de dados e rótulos
alunos.name = "alunos"
alunos.index.name = "matrículas"
alunos

matrículas
M02      Bob
M05    Dayse
M13     Bill
M14     Cris
M19     Jimi
Name: alunos, dtype: object

---

### ✅ Técnicas para consulta e modificação de dados

#### ✔ Indexação

Utilizamos colchetes [ ] para indexar (acessar e obter) elementos de uma Series. A pandas permite o emprego de três diferentes técnicas: indexação tradicional, fatiamento e indexação booleana.

#### Indexação tradicional

A mais simples de todas. Deve ser utilizada quando você quiser recuperar apenas **um elemento** da Series. Para isso, deve-se especificar um número inteiro ou rótulo (caso tenha) que corresponde ao índice do elemento que deseja acessar. Alguns exemplos de uso:

Exemplo | Resultado | Explicação
:--- | :--- | :---
`alunos[0]` | Bob | primeiro aluno
`alunos[1]` | Dayse | segundo aluno
`alunos['M14']` | Cris | aluno de matricula 'M14'
`alunos[alunos.size-1]` | Jimi | último aluno
`alunos[-1]` | Jimi | outra forma de pegar o último aluno


#### Fatiamento

Deve ser utilizada quando você quiser recuperar **mais de um elemento** da Series. Você pode fatiar de duas formas:
- Por intervalos (ranges) definidos por dois pontos : ;
- Por listas.

Alguns exemplos:

Exemplo | Resultado
:--- | :--- 
`alunos[0:2]` | {M02: Bob, M05: Dayse}
`alunos[2:4]` | {M13: Bill, M14: Cris}
`alunos[:2]` | {M02: Bob, M05: Dayse}
`alunos[2:]` | {M13: Bill, M14: Cris, M19: Jimi}
`alunos[-2:]` | {M14: Cris, M19: Jimi}
`alunos[1:5:2]` | {M05: Dayse, M14: Cris}
`alunos[[2, 0, 4]]` | {M13: Bill, M02: Bob, M19: Jimi}
`alunos[['M13', 'M02', 'M19']]` | {M13: Bill, M02: Bob, M19: Jimi}

**⚠ Observação**:

Uma importante diferença entre os operações de indexação e fatiamento diz respeito ao tipo do resultado retornado por cada uma das operações:
- A indexação tradicional sempre retorna um único elemento, cujo tipo será o tipo básico Python correspondente ao dtype do vetor de dados. Por exemplo, `alunos[0]` retorna uma string (tipo str) e `notas[0]`, um float.
- A operação de fatiamento sempre retorna uma Series, ou seja, um objeto do tipo `pandas.core.series.Series`.

#### Indexação Booleana

Neste modo de indexação, subconjuntos de dados são selecionados com base nos valores da Series (valores do vetor de dados) e não em seus rótulos/índices.

In [7]:
idx_aprovados = notas[notas >= 7].index
alunos[idx_aprovados]

matrículas
M02     Bob
M13    Bill
M14    Cris
Name: alunos, dtype: object

O comando `idx_aprovados = notas[notas >= 7].index` retorna para a variável `idx_aprovados` um **vetor de índices** (objeto do tipo `pandas.core.indexes.numeric.Int64Index`) que armazenará os índices de todos os elementos com valor igual ou superior a 7.0 na Series notas. Sendo assim, o comando retorna o vetor `[0, 2, 3]`.

Ao usarmos esse vetor em `alunos[idx_aprovados]` estamos realizando uma operação fatiamento, recuperando os elementos 0, 2 e 3 (Bob, Bill e Cris).

#### ✔ Busca

- Testa se um ou mais **rótulos** pertencem a uma Series

In [8]:
tem_M13 = 'M13' in alunos
tem_M19 = 'M19' in alunos

print(tem_M13)
print(tem_M19)

True
True


- Testa se um ou mais **valores** pertencem a uma Series (seu vetor de dados)

In [9]:
tem_Bob = alunos.isin(['Bob'])
tem_Bob

matrículas
M02     True
M05    False
M13    False
M14    False
M19    False
Name: alunos, dtype: bool

O método do pandas `isin()` recebe uma lista como parâmetro e retorna uma Series com `dtype bool` que terá o valor True para todos os rótulos associados aos valores passados como argumento na lista.

#### ✔ Modificação

Formas básicas de inserir, modificar e excluir elementos.

In [10]:
print('Relebrando o estado atual da Series alunos')
alunos

Relebrando o estado atual da Series alunos


matrículas
M02      Bob
M05    Dayse
M13     Bill
M14     Cris
M19     Jimi
Name: alunos, dtype: object

- Insere o aluno de matrícula M55, Rakesh

In [11]:
alunos['M55'] = 'Rakesh'

- Alterando os nomes Bill, Cris e Jimi para Billy, Cristy e Jimmy

In [12]:
alunos['M13'] = 'Billy'
alunos[['M14', 'M19']] = ['Cristy', 'Jimmy']

- Remove o aluno de matrícula M02 (Bob)

In [13]:
alunos = alunos.drop('M02')

Series alunos após as alterações:

In [14]:
alunos

matrículas
M05     Dayse
M13     Billy
M14    Cristy
M19     Jimmy
M55    Rakesh
Name: alunos, dtype: object

**⚠ Observação:**

Vale ressaltar que não apenas a modificação, mas também a inclusão e remoção suportam o uso de listas para que seja possível inserir ou remover muitos elementos de uma vez.

- Modificando Índices

`alunos.index = ['M91', 'M92', 'M93', 'M94', 'M95']`

O comando acima alterará os rótulos da Series alunos, o primeiro rótulo será alterado 'M91', o segundo, para 'M92', e assim sucessivamente.