## <font color=green> Aplicação de funções e mapeamento

In [1]:
import pandas as pd
import numpy as np

- Uma operação frequente consiste em aplicar uma função em arrays unidimensionais para cada coluna ou linha. O método apply faz exatamente isso.

In [2]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)), 
                        index=['a','c','d'], 
                        columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


- Nesse caso, a função f, que calcula a diferença entre o máximo e o mínimo de uma Series, é chamada uma vez em cada coluna de frame. O resultado é uma Series com as colunas de frame como seu índice.

In [3]:
f = lambda x: x.max() - x.min()
frame.apply(f)

Ohio          6
Texas         6
California    6
dtype: int64

- Se você passar axis='columns' para apply, a função será chamada uma vez por linha

In [4]:
frame.apply(f, axis='columns')

a    2
c    2
d    2
dtype: int64

- Podemos atribuir uma nova coluna que recebe o valor do processamento do apply

In [5]:
frame['total'] = frame.apply(lambda x: x.sum(), axis='columns')
frame

Unnamed: 0,Ohio,Texas,California,total
a,0,1,2,3
c,3,4,5,12
d,6,7,8,21


In [6]:
frame['category'] = frame['total'].apply(lambda x: 'impar' if x%2 else 'par')
frame

Unnamed: 0,Ohio,Texas,California,total,category
a,0,1,2,3,impar
c,3,4,5,12,par
d,6,7,8,21,impar


- A função passada para apply não precisa devolver um valor escalar. Ela também pode devolver uma Series com múltiplos valores

In [7]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

frame.apply(f)

Unnamed: 0,Ohio,Texas,California,total,category
min,0,1,2,3,impar
max,6,7,8,21,par


- Suponha que você quisesse calcular uma string formatada para cada valor de ponto flutuante em frame. Isso poderia ser feito com applymap
- O motivo para o nome applymap está no fato de Series ter um método map para aplicar uma função em todos os elementos

In [8]:
numbers = pd.DataFrame(np.random.randn(4,3), columns=list('abc'), index=['c1', 'c2', 'c3', 'c4'])
numbers

Unnamed: 0,a,b,c
c1,-0.444078,-0.39668,-2.002603
c2,-1.124629,1.776553,2.090585
c3,-0.80203,-0.063596,0.039953
c4,0.395012,1.004101,0.757878


In [9]:
format = lambda x: '%.2f' % x
numbers.applymap(format)

Unnamed: 0,a,b,c
c1,-0.44,-0.4,-2.0
c2,-1.12,1.78,2.09
c3,-0.8,-0.06,0.04
c4,0.4,1.0,0.76


In [10]:
numbers['c'].map(format)

c1    -2.00
c2     2.09
c3     0.04
c4     0.76
Name: c, dtype: object

## <font color=green> Ordenação e classificação

- Para ordenar de modo lexicográfico pelo índice da linha ou da coluna, utilize o método sort_index, que devolve um novo objeto ordenado

In [11]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj

d    0
a    1
b    2
c    3
dtype: int64

In [12]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

- Com um DataFrame, você pode ordenar pelo índice em qualquer eixo

In [13]:
frame = pd.DataFrame(np.arange(8).reshape((2,4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])

In [14]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [15]:
frame.sort_index(axis='columns')

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


- Os dados são ordenados em ordem crescente por padrão, mas podem ser ordenados também em ordem decrescente

In [16]:
frame.sort_index(axis='columns', ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


- Para ordenar uma Series de acordo com seus valores, utiliza o seu método sort_values

In [17]:
obj = pd.Series([4,7,-3,2])
obj

0    4
1    7
2   -3
3    2
dtype: int64

In [18]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

- Qualquer valor indicativo de ausência será ordenado no final da Series, por padrão

In [19]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj

0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64

In [20]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

- Quando ordenar um DataFrame, você poderá usar os dados de uma ou mais colunas como chaves de ordenação. Para isso, passe um ou mais nomes de coluna para a opção by de sort_values

In [21]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [22]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


- Para ordenar de acordo com várias colunas, passe uma lista de nomes

In [23]:
frame.sort_values(by=['a','b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1
