# Executando Funções no DataFrame/Series

In [5]:
import pandas as pd

Uma alternativa ao `for-loop` que vimos anteriormente e que é _lento_, é usarmos _funções próprias do pandas_ que **aplicam/mapeiam uma dada função a todos os elementos de um DataFrame ou Series**, retornando novos elementos "transformados".

<img src='images/apply_map_applymap.png' width="300"/>

In [6]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])
df

Unnamed: 0,A,B,C
Linha 1,1,10,100
Linha 2,2,20,200
Linha 3,3,30,300
Linha 4,4,40,400


`apply()`: usado para aplicar uma função ao longo de um eixo de um DataFrame ou em valores de uma Series.

<img src='images/pandas_axis.jpg' width="500"/>

In [7]:
def nossa_soma(series):
    return series.sum()  # retorna a soma de todos os valores de uma series

In [8]:
# aplica a função soma para cada linha do dataframe
df['SOMA(A, B, C)'] = df.apply(nossa_soma, axis=1)
df

Unnamed: 0,A,B,C,"SOMA(A, B, C)"
Linha 1,1,10,100,111
Linha 2,2,20,200,222
Linha 3,3,30,300,333
Linha 4,4,40,400,444


<img src='images/apply_axis_1.png' width="250"/>

In [9]:
# aplica a função soma para cada coluna do dataframe
df.loc['Linha 5'] = df.apply(nossa_soma, axis=0)
df

Unnamed: 0,A,B,C,"SOMA(A, B, C)"
Linha 1,1,10,100,111
Linha 2,2,20,200,222
Linha 3,3,30,300,333
Linha 4,4,40,400,444
Linha 5,10,100,1000,1110


<img src='images/apply_axis_0.png' width="250"/>

##### Usando `lambda` functions

In [10]:
df['MEDIA(A, B, C)'] = df[['A', 'B', 'C']].apply(lambda series: series.mean(), axis=1)
df

Unnamed: 0,A,B,C,"SOMA(A, B, C)","MEDIA(A, B, C)"
Linha 1,1,10,100,111,37.0
Linha 2,2,20,200,222,74.0
Linha 3,3,30,300,333,111.0
Linha 4,4,40,400,444,148.0
Linha 5,10,100,1000,1110,370.0


<img src='images/apply_axis_1_mean.png' width="350"/>

In [11]:
# plica a lambda function abaixo para cada elemento da coluna
df['C * 2'] = df['C'].apply(lambda x: x * 2)
df

Unnamed: 0,A,B,C,"SOMA(A, B, C)","MEDIA(A, B, C)",C * 2
Linha 1,1,10,100,111,37.0,200
Linha 2,2,20,200,222,74.0,400
Linha 3,3,30,300,333,111.0,600
Linha 4,4,40,400,444,148.0,800
Linha 5,10,100,1000,1110,370.0,2000


In [12]:
df['A * 2'] = df['A'] * 2
df

Unnamed: 0,A,B,C,"SOMA(A, B, C)","MEDIA(A, B, C)",C * 2,A * 2
Linha 1,1,10,100,111,37.0,200,2
Linha 2,2,20,200,222,74.0,400,4
Linha 3,3,30,300,333,111.0,600,6
Linha 4,4,40,400,444,148.0,800,8
Linha 5,10,100,1000,1110,370.0,2000,20


<br/>

`applymap()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de um DataFrame.

In [13]:
df = pd.DataFrame({ 'A': [1, 2, 3, 4], 
                    'B': [10, 20, 30, 40],
                    'C': [100, 200, 300, 400]}, 
                     index=['Linha 1', 'Linha 2', 'Linha 3', 'Linha 4'])
df

Unnamed: 0,A,B,C
Linha 1,1,10,100
Linha 2,2,20,200
Linha 3,3,30,300
Linha 4,4,40,400


In [14]:
# retorna um novo dataframe com todos os elementos ao quadrado.
# poderíamos usar uma função ao invés de uma lambda function
df.applymap(lambda x: x ** 2)

Unnamed: 0,A,B,C
Linha 1,1,100,10000
Linha 2,4,400,40000
Linha 3,9,900,90000
Linha 4,16,1600,160000


In [15]:
df

Unnamed: 0,A,B,C
Linha 1,1,10,100
Linha 2,2,20,200
Linha 3,3,30,300
Linha 4,4,40,400


<br/>

`map()`: usado para aplicar uma função para **cada elemento** (_element-wise_) de uma _Series_.

In [16]:
nomes = pd.Series(['João', 'Maria', 'Alice', 'Pedro'])
nomes

0     João
1    Maria
2    Alice
3    Pedro
dtype: object

In [17]:
# retorna uma nova Series com todos os nomes com letras maiuscúlas.
# poderíamos usar uma função ao invés de uma lambda function
nomes.map(lambda x: x.upper())

0     JOÃO
1    MARIA
2    ALICE
3    PEDRO
dtype: object

In [18]:
nomes

0     João
1    Maria
2    Alice
3    Pedro
dtype: object

In [19]:
# O Pandas já fornece uma série de métodos para manipulação de strings.
# Assim, poderíamos usar o código abaixo para obter o mesmo resultado.
nomes.str.upper()

0     JOÃO
1    MARIA
2    ALICE
3    PEDRO
dtype: object