In [1]:
import pandas as pd

## Funções essenciais

### Reindexação
Um método muito importante nos objetos do Pandas é o `reindex`, que cria um novo objeto conforme os dados passados para o índice. Por exemplo:

In [2]:
obj = pd.Series([1, 2, 4, 8, 16, 32], index=['0', '2', '1', '3', '4', '5'])
obj

0     1
2     2
1     4
3     8
4    16
5    32
dtype: int64

In [3]:
obj2 = obj.reindex(['0', '1', '2', '3', '4', '5', '6'])
obj2

0     1.0
1     4.0
2     2.0
3     8.0
4    16.0
5    32.0
6     NaN
dtype: float64

Chamando o método `reindex` reorganizamos os valores existentes conforme o parâmetro e os índices que não possuem valores atribuidos recebem NaN. Para substituir a troca do NaN podemos passar um parâmetro chamado **fill_value**.

In [4]:
obj3 = obj.reindex(['0', '1', '2', '3', '4', '5', '6'], fill_value=0)
obj3

0     1
1     4
2     2
3     8
4    16
5    32
6     0
dtype: int64

Para dados ordenados, como séries temporais, pode ser desejável fazer alguma interpolação ou preenchimento de valores ao reindexar. A opção de método nos permite fazer isso, usando esse método como preenchimento que encaminha preenche os valores:

In [5]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [6]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [7]:
obj3.reindex(range(6), method='bfill')

0      blue
1    purple
2    purple
3    yellow
4    yellow
5       NaN
dtype: object

Com o DataFrame, a reindexação pode alterar o índice (linha), colunas ou ambos. Quando passado apenas uma sequência, as linhas são reindexadas no resultado:

In [8]:
import numpy as np
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), 
                  index=['a', 'c', 'd'], 
                  columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [9]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


Podemos utilizar o reindex para reindexar as colunas passando elas como parâmetro.

In [10]:
estados = ['Texas', 'Utah', 'California']
frame.reindex(columns=estados)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


###  Removendo entradas de um eixo
Dropar uma ou mais entradas de um eixo é fácil se você tiver uma matriz ou lista de índices sem essas entradas. Como isso pode exigir um pouco de munging e lógica, o método retornará um novo objeto com o valor ou valores indicados excluídos de um eixo:

In [11]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [12]:
new_obj = obj.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [13]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

Com o DataFrame, os valores do índice podem ser excluídos de qualquer um dos eixos:

In [14]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [15]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [16]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [17]:
data.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### Indexação, seleção e filtragem
A indexação de série `(obj)[...]` funciona de forma análoga à indexação de array NumPy, exceto que você pode
usar os valores de índice da série em vez de apenas números inteiros. Aqui estão alguns exemplos:

In [18]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [19]:
obj['b']

1.0

In [20]:
obj[1]

1.0

In [21]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [22]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [23]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [24]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

O *Slicing* com labels se comporta de maneira diferente do *slicing* normal do Python, pois o ponto final
é incluido:

In [25]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [26]:
obj['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

Como você viu acima, a indexação em um DataFrame é para recuperar uma ou mais colunas com um único valor ou sequência:

In [27]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), 
                 index=['Ohio', 'Colorado', 'Utah', 'New York'], 
                 columns=['one', 'two', 'three', 'four'])
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [28]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [29]:
 data[['one', 'two']]

Unnamed: 0,one,two
Ohio,0,1
Colorado,4,5
Utah,8,9
New York,12,13


In [30]:
data[:2] 

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [31]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


**Tipos de Indexação no DataFrame**
<table width="100%">
    <thead>
        <tr>
            <th>Tipo</th>
            <th colspan=3>Descrição</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>obj[val]</td>
            <td colspan=3>Seleciona uma coluna ou sequência de colunas de um DataFrame. Casos especiais: arrays booleanos; *slice*; boolean DataFrame. </td>
        </tr>
        <tr>
            <td>obj.ix[val]</td>
            <td colspan=3>Seleciona uma única linha do subconjunto de linhas do DataFrame.</td>
        </tr>
        <tr>
            <td>obj.ix[:, val]</td>
            <td colspan=3>Seleciona uma única coluna do subconjunto de colunas.</td>
        </tr>
        <tr>
            <td>obj.ix[val1, val2]</td>
            <td colspan=3>Seleciona linhas e colunas.</td>
        </tr>
        <tr>
            <td>reindex</td>
            <td colspan=3>Conformar um ou mais eixos para novos índices.</td>
        </tr>
        <tr>
            <td>xs</td>
            <td colspan=3>Seleciona uma única linha ou coluna como uma Série por label.</td>
        </tr>
        <tr>
            <td>icol, irow</td>
            <td colspan=3>Seleciona uma coluna ou linha única, respectivamente, como uma Série usando inteiros.</td>
        </tr>
        <tr>
            <td>get_value, set_value</td>
            <td colspan=3>Seleciona um valor único por label de linha e coluna.</td>
        </tr>
    </tbody>
</table>

* ix está depreciado, utilizar loc ou iloc no lugar.

### Aritmética e alinhamento de dados
Uma das características mais importantes dos pandas é o comportamento da aritmética entre objetos com diferentes índices. Ao adicionar objetos juntos, se algum par de índices não estiver da mesma forma, o respectivo índice no resultado será a união dos pares de índices. Vamos ver um exemplo simples:

In [32]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [33]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [34]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

Os índices que não existem em algum dos arrays acabam por gerar NaN em suas somas. Neste caso o `d` que não existe na segunda série temporal e os índices `f` e `g` que não existem na primeira. Vale lembrar que na aritmética os NaN sempre são propagados.  
  
No caso dos DataFrames, o alinhamento dos dados são perfomados em linhas e colunas:

In [35]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), 
                   columns=list('bcd'), 
                   index=['Ohio', 'Texas', 'Colorado'])
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [36]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), 
                columns=list('bde'), 
                index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [37]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


Podemos executar as operações aritméticas através de funções internas do DataFrame, neste caso podemos atribuir valores para serem inseridos no lugar do `NaN` (**fill_value**).

In [38]:
df1.add(df2, fill_value=0)

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


Vale lembrar que a propagação dos valores NaN ainda ocorrem em casos onde há colunas diferentes para linhas existentes em somente um DataFrame. Podemos utilizar as funções **add**, **div**, **sub**, **mul**.

#### Operações entre DataFrames e Series
Assim como nas matrizes NumPy, a aritmética entre DataFrame e Series é bem definida. Primeiro, como um exemplo motivador, considere a diferença entre uma matriz 2D e uma de suas linhas:

In [39]:
import numpy as np
arr = np.arange(12.).reshape((3, 4))
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [40]:
arr[0]

array([0., 1., 2., 3.])

In [41]:
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

Isso é conhecido também como *broadcasting*. Operações entre DataFrames e Series são similares.

In [42]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)), 
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [43]:
series = frame.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [44]:
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


### Aplicando funções e mapeamento
As ``ufuncs`` NumPy (métodos de array baseados em elementos) funcionam com objetos pandas:

In [45]:
frame = pd.DataFrame(np.random.randn(4, 3), 
                  columns=list('bde'), 
                  index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.589176,0.406457,-0.338246
Ohio,1.492435,-0.944158,0.752868
Texas,2.410496,0.181791,-0.012946
Oregon,0.739065,0.116298,-0.207289


In [46]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.589176,0.406457,0.338246
Ohio,1.492435,0.944158,0.752868
Texas,2.410496,0.181791,0.012946
Oregon,0.739065,0.116298,0.207289


Outra operação frequente é a aplicação de uma função em matrizes 1D a cada coluna ou linha. O método `apply` do DataFrame faz exatamente isso:

In [47]:
f = lambda x: x.max() - x.min()
frame.apply(f)

b    1.821320
d    1.350614
e    1.091114
dtype: float64

In [48]:
frame.apply(f, axis=1)

Utah      0.927422
Ohio      2.436592
Texas     2.423442
Oregon    0.946354
dtype: float64

Muitas das funções estatísticas mais comuns do array (como **sum** e **mean**) são métodos do DataFrame, portanto, usar **apply** não é necessário.

A função passada para o **apply** não precisa retornar um valor escalar, também pode retornar uma Serie com vários valores:

In [49]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [50]:
frame.apply(f)

Unnamed: 0,b,d,e
min,0.589176,-0.944158,-0.338246
max,2.410496,0.406457,0.752868


### Métodos de ordenação e *ranking*
A classificação de um conjunto de dados por algum critério é outra operação interna importante. Ordenar lexicograficamente pelo índice de linha ou coluna, use o método `sort_index`, que retorna um novo objeto classificado:

In [51]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [52]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

Com um DataFrame pode-se ordernar por qualquer um dos eixos.

In [53]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), 
                     index=['three', 'one'], 
                     columns=['d', 'a', 'b', 'c'])
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [54]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [55]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


Também podemos ordernar de forma descendente:

In [56]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


Para ordernar uma Serie basta utilizar o método `sort_values`:

In [57]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

Qualquer valor NaN será alocado ao fim da ordem.

No DataFrame, convém classificar pelos valores em uma ou mais colunas. Para fazer isso, passe um ou mais nomes de coluna para a opção `by`:

In [58]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [59]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [60]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


A classificação (*ranking*) está próxima da ordenação. Para isso podemos utilizar o método `rank`.

In [61]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [62]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [63]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [64]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [65]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [66]:
frame.rank(axis=1)

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


### índices de eixos com valores duplicados
Enquanto muitas funções de pandas (como reindex) exigem que os rótulos sejam exclusivos, não é obrigatório. Vamos considerar uma pequena série com índices duplicados:

In [67]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

A propriedade is_unique do índice pode informar se seus valores são únicos ou não:

In [68]:
obj.index.is_unique

False

A seleção de dados é uma das principais coisas que se comporta de maneira diferente com duplicatas. A indexação de um valor com várias entradas retorna uma Série, enquanto as entradas únicas retornam um escalar:

In [69]:
obj['a']

a    0
a    1
dtype: int64

In [70]:
obj['c']

4

A mesma lógica se aplica para os DataFrames:

In [71]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

Unnamed: 0,0,1,2
a,-0.448945,-0.447674,1.15779
a,-0.603706,0.04458,1.313366
b,0.688075,1.194936,-0.495789
b,-1.792036,-0.916379,0.569912


In [72]:
df.loc['b']

Unnamed: 0,0,1,2
b,0.688075,1.194936,-0.495789
b,-1.792036,-0.916379,0.569912
