## Transformações com apply

A função apply aplica um função sobre algum dos eixos.

Quando utilizamos em uma coluna específica, estamos chamando a função apply do Series e não do DataFrame. Elas funcionam um pouquinho diferente. Vamos focar primeiro na da Series, pois é mais fácil.

No exemplo abaixo queremos remover "Iris-" dos valores da coluna "species".

In [1]:
import numpy as np
import pandas as pd

file_path = "../dados/iris-dataset.csv"

df = pd.read_csv(file_path, 
                 header=None,
                 names=['sepal_length', 
                        'sepal_width', 
                        'petal_length', 
                        'petal_width', 
                        'species'])

df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


## Apply em Series

In [2]:
def format_species_name(val, delimiter):
    # remova Iris- do nome
    val = val.split(delimiter)[-1]
    # Deixe a primeira letra mfaaiúscula
    val = val.title()
    return val

# "aplicando" uma função sobre 
# todos os elementos de um pd.Series
df.species.apply(format_species_name, args=('-'))

0         Setosa
1         Setosa
2         Setosa
3         Setosa
4         Setosa
5         Setosa
6         Setosa
7         Setosa
8         Setosa
9         Setosa
10        Setosa
11        Setosa
12        Setosa
13        Setosa
14        Setosa
15        Setosa
16        Setosa
17        Setosa
18        Setosa
19        Setosa
20        Setosa
21        Setosa
22        Setosa
23        Setosa
24        Setosa
25        Setosa
26        Setosa
27        Setosa
28        Setosa
29        Setosa
         ...    
120    Virginica
121    Virginica
122    Virginica
123    Virginica
124    Virginica
125    Virginica
126    Virginica
127    Virginica
128    Virginica
129    Virginica
130    Virginica
131    Virginica
132    Virginica
133    Virginica
134    Virginica
135    Virginica
136    Virginica
137    Virginica
138    Virginica
139    Virginica
140    Virginica
141    Virginica
142    Virginica
143    Virginica
144    Virginica
145    Virginica
146    Virginica
147    Virgini

Similarmente a função ```map``` do python, a apply aplica a cada elemento da pd.Series uma função e retorna uma nova pd.Series como os valores alterados de acordo com a função.

Note que apesar de ter feito isso, eu não alterei meu DataFrame.

In [3]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


Para isso, precisamos atribuir a alteração. LEMBRE-SE, no pandas nada é feito *inplace*, ou seja, nada é de fato altera o DataFrame, ao menos que seja explicitado.

In [4]:
df.species = df.species.apply(format_species_name, args=('-'))
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


Para coluna do tipo string, podemos aplicar as funções da string utilizando o atributo str. Vejamos o exemplo a seguir.

In [5]:
df = pd.read_csv(file_path, 
                 header=None,
                 names=['sepal_length', 
                        'sepal_width', 
                        'petal_length', 
                        'petal_width', 
                        'species'])

df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [6]:
df.species.str.replace("Iris-", "").str.title()

0         Setosa
1         Setosa
2         Setosa
3         Setosa
4         Setosa
5         Setosa
6         Setosa
7         Setosa
8         Setosa
9         Setosa
10        Setosa
11        Setosa
12        Setosa
13        Setosa
14        Setosa
15        Setosa
16        Setosa
17        Setosa
18        Setosa
19        Setosa
20        Setosa
21        Setosa
22        Setosa
23        Setosa
24        Setosa
25        Setosa
26        Setosa
27        Setosa
28        Setosa
29        Setosa
         ...    
120    Virginica
121    Virginica
122    Virginica
123    Virginica
124    Virginica
125    Virginica
126    Virginica
127    Virginica
128    Virginica
129    Virginica
130    Virginica
131    Virginica
132    Virginica
133    Virginica
134    Virginica
135    Virginica
136    Virginica
137    Virginica
138    Virginica
139    Virginica
140    Virginica
141    Virginica
142    Virginica
143    Virginica
144    Virginica
145    Virginica
146    Virginica
147    Virgini

## Apply nos Eixos do DataFrame

A função apply no DataFrame é similar, porém podemos definir em qual eixo (linhas ou colunas) queremos aplicar a transformação.

### Manipulando eixos (axis)

Antes de proceguirmos com método `apply` para os DataFrame, vamos entender melhor como manipular os eixos no pandas.

#### Axis 0 ou index

É o eixo das linhas, quando assinalamos `axis=0` nos métodos que tenham essa opção, nós estamos dizendo que as operações devem ser executadas no sentido das linhas. Vejamos o exemplo com a função `mean` para ficar mais claro.

In [7]:
df.mean(axis=0)
# df.mean(axis='index')

sepal_length    5.843333
sepal_width     3.054000
petal_length    3.758667
petal_width     1.198667
dtype: float64

In [8]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [9]:
df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']].\
    apply(lambda x: x.mean(), axis=0)

sepal_length    5.843333
sepal_width     3.054000
petal_length    3.758667
petal_width     1.198667
dtype: float64

#### Axis 1 ou Axis columns

É o eixo das colunas, quando assinalamos `axis=1` métodos que tenham essa opção, nós estamos dizendo que as operações devem ser executadas coluna-a-coluna. Vejamos o exemplo com a função `mean` para ficar mais claro.

In [10]:
df.mean(axis=1).head()
# df.mean(axis='columns').head()

0    2.550
1    2.375
2    2.350
3    2.350
4    2.550
dtype: float64

In [11]:
df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']].\
    apply(lambda x: x.mean(), axis=1).head()

0    2.550
1    2.375
2    2.350
3    2.350
4    2.550
dtype: float64

É claro que o método `apply` nos permite fazer operações muito mais complexas que o apply. 
Por exemplo, muitas vezes queremos deixar os valores de nossas colunas numa mesma escala, para facilitar a comparação entre os valores. Vamos dizer que queremos deixar todos os valores entre 0 e 1.

Para isso vamos fazer o seguinte:

$x_i^{scale} = \frac{x_i}{\max(X)}$

In [12]:
df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']].\
    apply(lambda x: (x) / (x.max()) ,  axis=1).\
    head()  # o head é só para não mostrar todo dataframe

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,1.0,0.686275,0.27451,0.039216
1,1.0,0.612245,0.285714,0.040816
2,1.0,0.680851,0.276596,0.042553
3,1.0,0.673913,0.326087,0.043478
4,1.0,0.72,0.28,0.04


In [13]:
df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']].\
    apply(lambda x: (x) / (x.max()) ,  axis=0).\
    head() # o head é só para não mostrar todo dataframe

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,0.64557,0.795455,0.202899,0.08
1,0.620253,0.681818,0.202899,0.08
2,0.594937,0.727273,0.188406,0.08
3,0.582278,0.704545,0.217391,0.08
4,0.632911,0.818182,0.202899,0.08
