# Apresentação do Pandas - Series

O pandas trabalha com o conceito de dataframes e series. 

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Séries é um vetor unidimensional rotulado capaz de armazenar qualquer tipo de dados (inteiros, strings, floats, objetos python, etc). Os rótulos (ou ids) são chamados de índice. O modo simples de criar uma Série é chamar:

In [2]:
s = pd.Series(['A', 'B', 'D', 'A', 'E', 'R'])
s

0    A
1    B
2    D
3    A
4    E
5    R
dtype: object

Podemos definir os índices de uma série para qualquer coisa. Vamos criar uma série de números aleatórios com índices de **a** a **e**:

In [3]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a    0.610855
b   -0.328086
c   -1.762281
d   -2.154608
e    0.127399
dtype: float64

As séries também funcionam como os arrays do numpy, podendo ser segmentadas a partir de um valor, veja:

In [4]:
positives = s[s>0]
positives

a    0.610855
e    0.127399
dtype: float64

Valores também podem ser coisas complexas como a própria média da série:

In [5]:
s[s>s.median()]

a    0.610855
e    0.127399
dtype: float64

O acesso de uma série funciona como um dicionário:

In [6]:
s['e']

0.12739922486940955

In [7]:
s.get('f', np.nan)

nan

Podemos também dar um nome para a série, fazendo com que ela possa ser referenciada por ele em outro momento:

In [8]:
s = pd.Series(np.random.randn(5), name='numeros')
s

0    0.691533
1   -1.245737
2   -0.838546
3    0.808273
4    0.173413
Name: numeros, dtype: float64

## Como lidar com NaN's?

In [9]:
str(np.nan) * 10 + " Batman!"

'nannannannannannannannannannan Batman!'

In [10]:
s = pd.Series([1, 2, 3, np.nan, 5, 6, 7, 8, np.nan, 9, 10])
s

0      1.0
1      2.0
2      3.0
3      NaN
4      5.0
5      6.0
6      7.0
7      8.0
8      NaN
9      9.0
10    10.0
dtype: float64

In [11]:
s.interpolate(method='linear')

0      1.0
1      2.0
2      3.0
3      4.0
4      5.0
5      6.0
6      7.0
7      8.0
8      8.5
9      9.0
10    10.0
dtype: float64