# Apresentação do Pandas - Series


In [10]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

O pandas trabalha com o conceito de dataframes e series. 

Series é um vetor unidimensional rotulado capaz de armazenar qualquer tipo de dados (inteiros, strings, floats, objetos python, etc). Os rótulos (ou ids) são chamados em conjunto de índice. O modo simples de criar uma Serie é chamar:

In [11]:
s = pd.Series(['A', 'B', 'D', 'A', 'E', 'R'])
s

0    A
1    B
2    D
3    A
4    E
5    R
dtype: object

Podemos definir os índices de uma série para qualquer coisa. Vamos criar uma série de números aleatórios com índices de **a** a **e**

In [14]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a   -0.123511
b    0.349196
c   -0.105797
d   -0.378220
e   -0.397122
dtype: float64

As series também funcionam como as arrays do numpy, podendo ser segmentadas a partir de um valor

In [15]:
positives = s[s>0]
positives

b    0.349196
dtype: float64

Valores também podem ser coisas complexas como a própria média da serie

In [16]:
s[s>s.median()]

b    0.349196
c   -0.105797
dtype: float64

O acesso de uma serie funciona como um dicionário:

In [17]:
s['e']

-0.39712158392590141

In [18]:
s.get('f', np.nan)

nan

Podemos também dar um nome para a serie, fazendo com que ela possa ser referenciada por ele em outro momento

In [32]:
s = pd.Series(np.random.randn(5), name='numeros')
s

0   -2.130709
1   -1.021154
2   -0.226058
3   -0.700632
4    1.067935
Name: numeros, dtype: float64

# Como lidar com nans?

In [35]:
s = pd.Series([1, 2, 3, np.nan, 5, 6, 7, 8, np.nan, 9, 10])
s

0      1.0
1      2.0
2      3.0
3      NaN
4      5.0
5      6.0
6      7.0
7      8.0
8      NaN
9      9.0
10    10.0
dtype: float64

In [36]:
s.interpolate(method='linear')

0      1.0
1      2.0
2      3.0
3      4.0
4      5.0
5      6.0
6      7.0
7      8.0
8      8.5
9      9.0
10    10.0
dtype: float64