# Pandas

---
## Series

Series é uma estrutura de dados composta por um vetor de dados e um vetor de rótulos (índices).

~~~
Series = dados + rótulos
~~~

In [1]:
# Importando a biblioteca pandas
import pandas as pd

In [2]:
# Criando uma Series simples
x = pd.Series([2.2,3.2,4.5,3.6])
x

0    2.2
1    3.2
2    4.5
3    3.6
dtype: float64

In [3]:
# Criando uma Series com valores e rótulos a partir de duas listas
a = [5.5,6.7,5.9,7.2]
b = ['mat','bio','qui','fis']
y = pd.Series(a, index=b)
y

mat    5.5
bio    6.7
qui    5.9
fis    7.2
dtype: float64

In [4]:
# Criando uma Series a partir de um dicionário
a = {'D01':5.2, 'D02': 6.3, 'D04': 6.5, 'D05': 7.2}
z = pd.Series(a)
z

D01    5.2
D02    6.3
D04    6.5
D05    7.2
dtype: float64

---
## Listas e Dicionários Python e Series Pandas

Existem duas diferenças entre as estruturas nativas da linguagem Python: listas 
e dicionários. A primeira diferença consiste no fato de que nas listas, os 
índices que determinam a posição das elementos são inteiros, que variam de 0 
até n-1, onde n é o número de elementos da lista, nos dicionários os índices 
podem ser outros tipos de dados, como strings. A segunda diferença reside no 
fato de que em um dicionário não existe o conceito de ordem.

Uma Series armazena ordenadamente uma lista de elementos, no entanto, atribui 
rótulos a cada um deles. Assim o acesso a um elemento de uma Series pode ser 
tanto por sua posição, tal qual o acesso a um elemento de uma lista Python, 
quanto por seu rótulo, de maneira semelhante ao acesso por meio de uma chave dos 
dicionários.


### Propriedades de uma Series

*   `dtype`: mostra o tipo Pandas dos valores da Series. Pode ser `int64`, `float64`, `bool`, `object` para strings e `datetime64`.

* `values`: vetor de dados.

* `index`: vetor de rótulos.

* `name`: nome do vetor de dados.

* `size`: tamanho da Series.

* `index.name`: nome do vetor de rótulos.

In [5]:
# Alterando os atributos de uma Series
x = pd.Series([5.2,6.5,4.8,6.9], index=['mat', 'bio', 'qui', 'fis'])
x.name = 'Notas'
x.index.name = 'Disciplinas'

# Mostrando os atributos da Series
x.name, x.values, x.dtypes, x.size, x.index.name

('Notas', array([5.2, 6.5, 4.8, 6.9]), dtype('float64'), 4, 'Disciplinas')

---
## Consulta e modificação de dados em uma Series

### Por indexação

In [6]:
# Indexação por posição: 3º elemento
# Assim como as listas python, as Series tem a indexação dos elementos iniciada por 0
x[2]

4.8

In [7]:
# Indexação por rótulos
x['qui']

4.8

### Por fatiamento

Usada quando se quer pegar mais de um elemento de uma Series, sua forma tradicional é 
~~~
Series[i:j]
~~~
Que pega os elemento da Series da posição `i` até a a posição `j-1`.

In [8]:
x

Disciplinas
mat    5.2
bio    6.5
qui    4.8
fis    6.9
Name: Notas, dtype: float64

In [9]:
# Pegando o segundo e o terceiro elemento da Series
x[1:3]

Disciplinas
bio    6.5
qui    4.8
Name: Notas, dtype: float64

In [10]:
# Series[i:] do elemento na posição i até o último
x[2:]

Disciplinas
qui    4.8
fis    6.9
Name: Notas, dtype: float64

In [11]:
# Series[:j] do primeiro elemento até o elemento j-1
x[:2]

Disciplinas
mat    5.2
bio    6.5
Name: Notas, dtype: float64

Além das formas citadas de fatiamento existem mais duas muito importantes:

* `Series[i,j,k]`: do elemento `i` até o `j-1` usando o passo `k`.
* `Series[[lista]]`: pega os elementos cuja posição esteja especificado na lista: podendo ser índices ou rótulos.

A diferença fundamental entre a indexação e o fatiamento em uma Series reside no tipo de retorno de cada um. A indexação retorna um único valor, cujo `dtype` é o mesmo do vetor de valores da Series. O fatiamento retorna uma Series, cujo elementos são também elementos da Series original.

### Por indexação booleana

Nesse tipo de indexação, os dados são selecionados com base em seus valores, e não em seus rótulos.

In [12]:
x

Disciplinas
mat    5.2
bio    6.5
qui    4.8
fis    6.9
Name: Notas, dtype: float64

In [13]:
# Parte da Series cujo valores das são maiores ou iguais a 6
x[x>=6]

Disciplinas
bio    6.5
fis    6.9
Name: Notas, dtype: float64

In [14]:
# Notas maiores ou iguais a 6
x[x>=6].values

array([6.5, 6.9])

In [15]:
# Disciplinas com notas maiores ou iguais a 6
x[x>=6].index 

Index(['bio', 'fis'], dtype='object', name='Disciplinas')

---

## Busca

### `in`

Para sabermos se um um rótulo específico faz parte da do vetor de rótulos de uma serie usamos o operador `in`, nativo de python.

In [16]:
x

Disciplinas
mat    5.2
bio    6.5
qui    4.8
fis    6.9
Name: Notas, dtype: float64

In [17]:
'qui' in x, 'geo' in x

(True, False)

### `isin()`

Para sabermos se algum dos elementos de uma lista de rótulos faz parte do vetor de rótulos de uma séries usamos o método `isin()` de pandas: 

In [18]:
x

Disciplinas
mat    5.2
bio    6.5
qui    4.8
fis    6.9
Name: Notas, dtype: float64

In [19]:
y = pd.Series(['mat', 'port', 'lit', 'bio'])

y.isin(x.index)

0     True
1    False
2    False
3     True
dtype: bool