In [1]:
import re
import numpy as np
import pandas as pd

# Programação Funcional - Funções Anônimas

O aspecto mais fundamental do paradigma de programação funcional é a definição de funções. Funções são capazes de receber entradas (**argumentos**), executar um bloco de código sobre esses argumentos, e **retornar valores**.

Vamos relembrar a sintaxe básica para definirmos uma função:

* Primeiro declaramos a função através da palavra chave **def**
```python
def nome_da_funcao(argumento_obrigatorio, argumento_opcional = 10):
```
* Adicionamos um bloco identado de código, com as instruções do corpo da função e sua documentação:
```python
def nome_da_funcao(argumento_obrigatorio, argumento_opcional = 10):
    '''
    Esta função retorna a soma do argumento_obrigatorio ao argumento_opcional.
    Argumentos:
        argumento_obrigatorio Float
        argumento_opcional Float
    Returns:
        Float
    '''
    soma = argumento_obrigatorio + argumento_opcional
```

* Ao fim, usamos a palavra-chave **return** para especificar o que a função retornará:

```python
def nome_da_funcao(argumento_obrigatorio, argumento_opcional = 10):
    '''
    Esta função retorna a soma do argumento_obrigatorio ao argumento_opcional.
    Argumentos:
        argumento_obrigatorio Float
        argumento_opcional Float
    Returns:
        Float
    '''
    soma = argumento_obrigatorio + argumento_opcional
    return soma
```

In [3]:
def nome_da_funcao(argumento_obrigatorio, argumento_opcional = 10):
    '''
    Esta função retorna a soma do argumento_obrigatorio ao argumento_opcional.
    Argumentos:
        argumento_obrigatorio Float
        argumento_opcional Float
    Returns:
        Float
    '''
    soma = argumento_obrigatorio + argumento_opcional
    return soma

In [4]:
print(nome_da_funcao(5))

15


In [5]:
dois_cinco = nome_da_funcao(2, 5)
print(dois_cinco)

7


In [6]:
nome_da_funcao

<function __main__.nome_da_funcao(argumento_obrigatorio, argumento_opcional=10)>

# Funções Anônimas

No Python podemos utilizar outra forma de declarar funções: as funções lambda. Funções lambda são **funções**, ou seja, fazem todas as mesmas coisas que funções criadas através da palavra-chave `def`.

https://realpython.com/python-lambda/

* Herdam o nome do  `cálculo lambda`.
* São chamadas de funções anônimas pois não são 'guardadas' em uma variável.

## Como definir funções lambda?

Vamos criar uma função normal e ver como podemos criar uma função lambda com as mesmas capacidades.


In [7]:
def div_2(x):
    return x/2

In [8]:
div_2(4)

2.0

Agora vamos criar uma função anônima equivalente

In [9]:
lambda x: x/2

<function __main__.<lambda>(x)>

In [11]:
a = 5
a()

TypeError: 'int' object is not callable

## Invocando funções Lambda

A definição acima não nos ajuda muito: como as funções anônimas nâo estão associadas à uma variável (como a variável *div_2* quando criamos a função utilizando o `def`).

Vamos ver algumas formas de invocar as funções lambda

### Invocação direta

Podemos invocar uma função anônima imediatamente após sua declaração:

In [14]:
o = (lambda x: x+10) (10)

20

### Invocação através de uma Variável

Podemos *guardar* uma função lambda em uma variável: dessa forma nossa função não será mais anônima!

In [16]:
soma_10 = lambda x: x + 10

In [17]:
soma_10

<function __main__.<lambda>(x)>

In [18]:
soma_10(5)

15

### Utilizando `.map()`

Podemos utilizar funções lambda para simplificar a sintaxe quando utilizamos o método `.map()` dos DataFrames

In [19]:
tb_sleep = pd.read_csv('http://www.statsci.org/data/general/sleep.txt', sep='\t')
tb_sleep = tb_sleep.dropna()

In [20]:
tb_sleep.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 42 entries, 1 to 60
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Species      42 non-null     object 
 1   BodyWt       42 non-null     float64
 2   BrainWt      42 non-null     float64
 3   NonDreaming  42 non-null     float64
 4   Dreaming     42 non-null     float64
 5   TotalSleep   42 non-null     float64
 6   LifeSpan     42 non-null     float64
 7   Gestation    42 non-null     float64
 8   Predation    42 non-null     int64  
 9   Exposure     42 non-null     int64  
 10  Danger       42 non-null     int64  
dtypes: float64(7), int64(3), object(1)
memory usage: 3.9+ KB


In [26]:
primate_pattern = r'monk|ape|man|gorilla|baboon|chimpanzee'

In [31]:
'Pedro'.lower()

'pedro'

In [29]:
tb_sleep['Species'].map(lambda x: re.findall(primate_pattern, x.lower()))

1               []
4               []
5         [baboon]
6               []
7               []
8               []
9     [chimpanzee]
10              []
11              []
14              []
15              []
16              []
17              []
21              []
22              []
24              []
26              []
27              []
28              []
31              []
32              []
33           [man]
36              []
37              []
38              []
39              []
41          [monk]
42          [monk]
43              []
44              []
45              []
47              []
48              []
49          [monk]
50              []
51              []
53              []
56              []
57              []
58              []
59              []
60              []
Name: Species, dtype: object

In [30]:
tb_sleep['primate_list'] = tb_sleep['Species'].map(lambda x: re.findall(primate_pattern, x.lower()))
tb_sleep['primate_list'].head(10)

1               []
4               []
5         [baboon]
6               []
7               []
8               []
9     [chimpanzee]
10              []
11              []
14              []
Name: primate_list, dtype: object

## Funções Lambda com Múltiplos Argumentos

Assim como as funções normais, funções anônimas podem receber mais do que um argumento.

In [32]:
(lambda x, y: x + y) (10, 5)

15

In [33]:
soma_lambda = lambda x, y: x + y
print(soma_lambda(10, 5))

15


## Funções Lambda com Condicionais

Como a sintaxe de uma função lambda não admite as estruturas de controle tradicionais (`for`, `while`, `if`...), para utilizar condicionais dentro de funções lambda precisamos aprender uma nova forma sintática. Essa forma é muito semelhante às condicionais em `list comprehensions`.

In [36]:
lista_num = [-2, 0, 1, 4, 5, 6, 10, 14, 15]

In [37]:
lista_par = [x for x in lista_num if x % 2 == 0]
print(lista_par)

[-2, 0, 4, 6, 10, 14]


In [44]:
e_par = lambda x: 1 if x % 2 == 0 else 'Não é Par!!!'

In [45]:
e_par(1)

'Não é Par!!!'

In [48]:
lista_div = [10/x for x in lista_num if x != 0]
print(lista_div)

[-5.0, 10.0, 2.5, 2.0, 1.6666666666666667, 1.0, 0.7142857142857143, 0.6666666666666666]


In [55]:
div_segura = lambda x: 1/x if x != 0 else np.Inf

In [56]:
div_segura(0)

inf

## Aplicações

Até agora as funções anônimas parecem ser variantes mais pobres das funções nomeadas - de fato, é isso que são! Mas temos que nos atentar a diferença de aplicações:

1. Funções nomeadas são utilizadas para **refatorar** código, ou seja, para tornar nosso código mais **compartimentado** e mais fácil de se manter
1. Já as funções anônimas são utilizadas como as list comprehensions: para simplificar a sintáxe. Quando não vamos utilizar um função mais que uma vez em nosso código e essa função é simples, não devemos utilizar uma função nomeada mas sim uma função lambda!

### O método `.map()`

Já vimos que podemos utilizar o método `.map()` para aplicar uma função aos elementos de uma coluna. As funções lambda nos permitem utilizar um `.map()`

In [57]:
names = ['Pedro', 'Gabi', 'Adriano', 'Maria']
telefone = ["+5511983722311", "+1113123314", "+5511953122316", "+111564316"]
tb_telefones = pd.DataFrame({"nome" : names, "telefone" : telefone})
tb_telefones

Unnamed: 0,nome,telefone
0,Pedro,5511983722311
1,Gabi,1113123314
2,Adriano,5511953122316
3,Maria,111564316


In [61]:
def tel_br(telefone):
    if telefone.find('+55') >= 0:
        return True
    else:
        return False

In [63]:
tb_telefones['telefone'].map(lambda x: True if x.find('+55') >= 0 else False)

0     True
1    False
2     True
3    False
Name: telefone, dtype: bool

In [64]:
mask_br = tb_telefones['telefone'].map(lambda x: True if x.find('+55') >= 0 else False)

In [65]:
tb_telefones[mask_br]

Unnamed: 0,nome,telefone
0,Pedro,5511983722311
2,Adriano,5511953122316


### O método `.groupby()`

O método `.groupby()` nos permite passar funções arbitrarias para realizar a agregação de dados. Muitas vezes utilizamos os métodos `.mean()` ou `.sum()` para realizar essa agregação mas, através do método `.agg()`, podemos passar um função que nós mesmos definimos!

Vamos ver como podemos reconstruir o método `.mean()` primeiro usando uma função nomeada e depois uma função anônima.

In [89]:
tb_sleep.loc[tb_sleep['Danger']==1, 'TotalSleep']

6     19.7
8     14.5
9      9.7
14     8.4
24     6.2
32    19.9
33     8.0
38    19.4
39    17.4
48     9.8
60    19.4
Name: TotalSleep, dtype: float64

In [95]:
tb_sleep.groupby('Danger')['TotalSleep'].mean()

Danger
1    13.854545
2    12.040000
3    10.300000
4     8.811111
5     4.560000
Name: TotalSleep, dtype: float64

In [100]:
mean_do_pedro(tb_sleep.loc[tb_sleep['Danger']==1, 'TotalSleep'])

0.09090909090909091

In [101]:
def mean_do_pedro(vetor):
    return np.std(vetor)/np.mean(vetor)

tb_sleep.groupby('Danger')['TotalSleep'].agg(mean_do_pedro)

Danger
1    0.377898
2    0.262153
3    0.342942
4    0.274709
5    0.428525
Name: TotalSleep, dtype: float64

In [102]:
tb_sleep.groupby('Danger')['TotalSleep'].agg(lambda vetor: np.std(vetor)/np.mean(vetor))

Danger
1    0.377898
2    0.262153
3    0.342942
4    0.274709
5    0.428525
Name: TotalSleep, dtype: float64

In [103]:
tb_sleep.groupby('Danger')['TotalSleep'].agg(lambda vetor: np.mean(vetor) - np.median(vetor))

Danger
1   -0.645455
2    0.040000
3   -2.500000
4   -0.288889
5    0.760000
Name: TotalSleep, dtype: float64

As vezes queremos agregar nossos dados através de funções que não estão disponíveis como métodos. Se esta função for simples o melhor caminho será utilizando o método `.agg()` + uma função anônima.

Vamos calcular o IQR (Inter-Quartile Range), uma medida de dispersão (semelhante ao desvio padrão), definida como a diferença entre o 3o e 1o quartis.

In [107]:
q75 = np.quantile(tb_sleep.loc[tb_sleep['Danger']==2, 'TotalSleep'], 0.75)
q25 = np.quantile(tb_sleep.loc[tb_sleep['Danger']==2, 'TotalSleep'], 0.25)
print(q75, q25)

14.225 9.875


In [108]:
q75 - q25

4.35

In [106]:
tb_sleep.groupby('Danger')['TotalSleep'].agg(lambda x: np.quantile(x, 0.75) - np.quantile(x, 0.25))

Danger
1    10.35
2     4.35
3     6.35
4     2.10
5     0.10
Name: TotalSleep, dtype: float64

In [109]:
tb_sleep.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 42 entries, 1 to 60
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Species       42 non-null     object 
 1   BodyWt        42 non-null     float64
 2   BrainWt       42 non-null     float64
 3   NonDreaming   42 non-null     float64
 4   Dreaming      42 non-null     float64
 5   TotalSleep    42 non-null     float64
 6   LifeSpan      42 non-null     float64
 7   Gestation     42 non-null     float64
 8   Predation     42 non-null     int64  
 9   Exposure      42 non-null     int64  
 10  Danger        42 non-null     int64  
 11  primate_list  42 non-null     object 
dtypes: float64(7), int64(3), object(2)
memory usage: 4.3+ KB


In [112]:
# agrupar por exposure
# agrupar variável NonDreaming
# calcular: (quantil 95 - quantil 05)/(quantil 75 - quantil 25)

In [116]:
tb_sleep.groupby('Exposure')['NonDreaming'].agg(lambda x: (np.quantile(x, 0.95) - np.quantile(x, 0.05))/(np.quantile(x, 0.75) - np.quantile(x, 0.25)))

Exposure
1    2.059596
2    2.134884
3    2.200000
4    2.200000
5    2.943750
Name: NonDreaming, dtype: float64

# Voltamos 21h15

### O método `.transform()`

Além do `.agg()`, podemos utilizar outro método extremamente importante após um `.groupby()`: o método `.transform()`. Este método realiza uma agregação - de forma semelhante ao método `.agg()`, mas ao invés de retornar um DataFrame onde cada linha é uma chave do nosso `.groupby()` ele retorna uma série, do tamanho da tabela original, com o resultado da agregação pelo grupo para cada observação daquele grupo.

Vamos começar com a mesma agregação que fizemos acima, mas dessa vez utilizando o método `.transform()`.

In [120]:
tb_sleep.groupby('Danger')['TotalSleep'].agg("mean")

Danger
1    13.854545
2    12.040000
3    10.300000
4     8.811111
5     4.560000
Name: TotalSleep, dtype: float64

In [119]:
tb_sleep.head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,primate_list
1,Africangiantpouchedrat,1.0,6.6,6.3,2.0,8.3,4.5,42.0,3,1,3,[]
4,Asianelephant,2547.0,4603.0,2.1,1.8,3.9,69.0,624.0,3,5,4,[]
5,Baboon,10.55,179.5,9.1,0.7,9.8,27.0,180.0,4,4,4,[baboon]
6,Bigbrownbat,0.023,0.3,15.8,3.9,19.7,19.0,35.0,1,1,1,[]
7,Braziliantapir,160.0,169.0,5.2,1.0,6.2,30.4,392.0,4,5,4,[]


In [118]:
tb_sleep.groupby('Danger')['TotalSleep'].transform("mean")

1     10.300000
4      8.811111
5      8.811111
6     13.854545
7      8.811111
8     13.854545
9     13.854545
10     8.811111
11     4.560000
14    13.854545
15    12.040000
16    12.040000
17    12.040000
21     4.560000
22    12.040000
24    13.854545
26    10.300000
27     8.811111
28     4.560000
31     8.811111
32    13.854545
33    13.854545
36    10.300000
37    10.300000
38    13.854545
39    13.854545
41    12.040000
42     8.811111
43    12.040000
44     8.811111
45     4.560000
47    10.300000
48    13.854545
49    12.040000
50    12.040000
51    10.300000
53     4.560000
56    12.040000
57    10.300000
58    12.040000
59     8.811111
60    13.854545
Name: TotalSleep, dtype: float64

In [121]:
tb_sleep['media_totalsleep_danger'] = tb_sleep.groupby('Danger')['TotalSleep'].transform("mean")
tb_sleep.head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,primate_list,media_totalsleep_danger
1,Africangiantpouchedrat,1.0,6.6,6.3,2.0,8.3,4.5,42.0,3,1,3,[],10.3
4,Asianelephant,2547.0,4603.0,2.1,1.8,3.9,69.0,624.0,3,5,4,[],8.811111
5,Baboon,10.55,179.5,9.1,0.7,9.8,27.0,180.0,4,4,4,[baboon],8.811111
6,Bigbrownbat,0.023,0.3,15.8,3.9,19.7,19.0,35.0,1,1,1,[],13.854545
7,Braziliantapir,160.0,169.0,5.2,1.0,6.2,30.4,392.0,4,5,4,[],8.811111


In [122]:
tb_sleep.groupby('Danger')['TotalSleep'].agg("mean")

Danger
1    13.854545
2    12.040000
3    10.300000
4     8.811111
5     4.560000
Name: TotalSleep, dtype: float64

Um uso comum desse método é calcular como cada observação se comporta em relação ao seu grupo: por exemplo, podemos encontrar dentro de cada faixa de `Danger`, quais animais dormem mais ou menos:

In [123]:
tb_sleep['norm_totalsleep_danger'] = tb_sleep['TotalSleep']/tb_sleep['media_totalsleep_danger']
tb_sleep.sort_values('norm_totalsleep_danger', ascending=False).head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,primate_list,media_totalsleep_danger,norm_totalsleep_danger
45,Rabbit,2.5,12.1,7.5,0.9,8.4,18.0,31.0,5,5,5,[],4.56,1.842105
32,Littlebrownbat,0.01,0.25,17.9,2.0,19.9,24.0,50.0,1,1,1,[],13.854545,1.436352
6,Bigbrownbat,0.023,0.3,15.8,3.9,19.7,19.0,35.0,1,1,1,[],13.854545,1.421916
10,Chinchilla,0.425,6.4,11.0,1.5,12.5,7.0,112.0,5,4,4,[],8.811111,1.418663
41,Owlmonkey,0.48,15.5,15.2,1.8,17.0,12.0,140.0,2,2,2,[monk],12.04,1.41196


Uma forma comum de se fazer isso é através do Z-Score: para cada observação, subtraimos a média do grupo e dividimos pelo desvio padrão do grupo. Vamos usar uma função lambda para calcular isto:

In [137]:
serie = tb_sleep.loc[tb_sleep['Danger'] == 2, 'TotalSleep']

In [138]:
serie

15     8.6
16    10.7
17    10.7
22    14.4
41    17.0
43    13.7
49     9.6
50     6.6
56    13.3
58    15.8
Name: TotalSleep, dtype: float64

In [139]:
(serie - np.mean(serie))/np.std(serie)

15   -1.089874
16   -0.424544
17   -0.424544
22    0.747705
41    1.571447
43    0.525928
49   -0.773050
50   -1.723522
56    0.399198
58    1.191258
Name: TotalSleep, dtype: float64

In [None]:
lambda x: (x - np.mean(x))/np.std(x)

In [133]:
tb_sleep['zs_totalsleep_danger'] = tb_sleep.groupby('Danger')['TotalSleep'].transform(lambda x: (x - np.mean(x))
tb_sleep.sort_values('zs_totalsleep_danger', ascending=False).head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,primate_list,media_totalsleep_danger,norm_totalsleep_danger,zs_totalsleep_danger
32,Littlebrownbat,0.01,0.25,17.9,2.0,19.9,24.0,50.0,1,1,1,[],13.854545,1.436352,6.045455
6,Bigbrownbat,0.023,0.3,15.8,3.9,19.7,19.0,35.0,1,1,1,[],13.854545,1.421916,5.845455
60,Wateropossum,3.5,3.9,12.8,6.6,19.4,3.0,14.0,2,1,1,[],13.854545,1.400262,5.545455
38,NAmericanopossum,1.7,6.3,13.8,5.6,19.4,5.0,12.0,2,1,1,[],13.854545,1.400262,5.545455
41,Owlmonkey,0.48,15.5,15.2,1.8,17.0,12.0,140.0,2,2,2,[monk],12.04,1.41196,4.96


In [136]:
(tb_sleep['TotalSleep']  - np.mean(tb_sleep['TotalSleep']))/np.std(tb_sleep['TotalSleep'])

1    -0.503514
4    -1.449137
5    -0.181142
6     1.946511
7    -0.954834
8     0.828956
9    -0.202634
10    0.399127
11   -1.449137
14   -0.482022
15   -0.439039
16    0.012281
17    0.012281
21   -1.470629
22    0.807464
24   -0.954834
26    0.678516
27   -0.525005
28   -1.664052
31   -0.331582
32    1.989494
33   -0.567988
36    0.549567
37    0.463601
38    1.882036
39    1.452208
41    1.366242
42    0.055264
43    0.657024
44   -0.482022
45   -0.482022
47    0.549567
48   -0.181142
49   -0.224125
50   -0.868868
51   -1.126766
53   -1.470629
56    0.571058
57   -1.126766
58    1.108344
59   -0.073685
60    1.882036
Name: TotalSleep, dtype: float64