In [1]:
import re
import numpy as np
import pandas as pd


# Programação Funcional - Funções Anônimas

O aspecto mais fundamental do paradigma de programação funcional é a definição de funções. Funções são capazes de receber entradas (**argumentos**), executar um bloco de código sobre esses argumentos, e **retornar valores**.

Vamos relembrar a sintaxe básica para definirmos uma função:

* Primeiro declaramos a função através da palavra chave **def**
```python
def nome_da_funcao(argumento_obrigatorio, argumento_opcional = 10):
```
* Adicionamos um bloco identado de código, com as instruções do corpo da função e sua documentação:
```python
def nome_da_funcao(argumento_obrigatorio, argumento_opcional = 10):
    '''
    Esta função retorna a soma do argumento_obrigatorio ao argumento_opcional.
    Argumentos:
        argumento_obrigatorio Float
        argumento_opcional Float
    Returns:
        Float
    '''
    soma = argumento_obrigatorio + argumento_opcional
```

* Ao fim, usamos a palavra-chave **return** para especificar o que a função retornará:

```python
def nome_da_funcao(argumento_obrigatorio, argumento_opcional = 10):
    '''
    Esta função retorna a soma do argumento_obrigatorio ao argumento_opcional.
    Argumentos:
        argumento_obrigatorio Float
        argumento_opcional Float
    Returns:
        Float
    '''
    soma = argumento_obrigatorio + argumento_opcional
    return soma
```

In [10]:
soma = 'Ola'

In [2]:
def nome_da_funcao(argumento_obrigatorio, argumento_opcional = 10):
    '''
    Esta função retorna a soma do argumento_obrigatorio ao argumento_opcional.
    Argumentos:
        argumento_obrigatorio Float
        argumento_opcional Float
    Returns:
        Float
    '''
    soma = argumento_obrigatorio + argumento_opcional
    return soma

In [11]:
nome_da_funcao(5, 25)

30

In [12]:
soma

'Ola'

In [9]:
argumento_obrigatorio

NameError: name 'argumento_obrigatorio' is not defined

In [6]:
print(nome_da_funcao(5))

15


In [7]:
dois_cinco = nome_da_funcao(2, 5)
print(dois_cinco)

7


# Funções Anônimas

No Python podemos utilizar outra forma de declarar funções: as funções lambda. Funções lambda são **funções**, ou seja, fazem todas as mesmas coisas que funções criadas através da palavra-chave `def`.

https://realpython.com/python-lambda/

* Herdam o nome do  `cálculo lambda`.
* São chamadas de funções anônimas pois não são 'guardadas' em uma variável.

## Como definir funções lambda?

Vamos criar uma função normal e ver como podemos criar uma função lambda com as mesmas capacidades.


In [13]:
def div_2(x):
    return x/2

In [15]:
div_2(5)

2.5

Agora vamos criar uma função anônima equivalente

In [16]:
lambda x: x/2

<function __main__.<lambda>(x)>

## Invocando funções Lambda

A definição acima não nos ajuda muito: como as funções anônimas nâo estão associadas à uma variável (como a variável *div_2* quando criamos a função utilizando o `def`).

Vamos ver algumas formas de invocar as funções lambda

### Invocação direta

Podemos invocar uma função anônima imediatamente após sua declaração:

In [17]:
(lambda x: x+10) (10)

20

In [18]:
10 + 10

20

### Invocação através de uma Variável

Podemos *guardar* uma função lambda em uma variável: dessa forma nossa função não será mais anônima!

In [None]:
soma_10 = lambda x: x + 10

def soma_10(x):
    return x + 10

def soma_10(x):
    soma = x + 10
    return soma

In [20]:
soma_10

<function __main__.<lambda>(x)>

In [23]:
soma_10()

TypeError: <lambda>() missing 1 required positional argument: 'x'

### Utilizando `.map()`

Podemos utilizar funções lambda para simplificar a sintaxe quando utilizamos o método `.map()` dos DataFrames

In [24]:
tb_sleep = pd.read_csv('http://www.statsci.org/data/general/sleep.txt', sep='\t')
tb_sleep = tb_sleep.dropna()

In [25]:
tb_sleep.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 42 entries, 1 to 60
Data columns (total 11 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Species      42 non-null     object 
 1   BodyWt       42 non-null     float64
 2   BrainWt      42 non-null     float64
 3   NonDreaming  42 non-null     float64
 4   Dreaming     42 non-null     float64
 5   TotalSleep   42 non-null     float64
 6   LifeSpan     42 non-null     float64
 7   Gestation    42 non-null     float64
 8   Predation    42 non-null     int64  
 9   Exposure     42 non-null     int64  
 10  Danger       42 non-null     int64  
dtypes: float64(7), int64(3), object(1)
memory usage: 3.9+ KB


In [26]:
def e_primata(nome):
    pattern = r'monk|ape|man|gorilla|baboon|chimpanzee'
    resultado = re.findall(pattern, nome)
    return resultado

tb_sleep['Species'].map(e_primata)

1         []
4         []
5         []
6         []
7         []
8         []
9         []
10        []
11        []
14        []
15        []
16        []
17        []
21        []
22        []
24        []
26        []
27        []
28        []
31        []
32        []
33        []
36        []
37        []
38        []
39        []
41    [monk]
42    [monk]
43        []
44        []
45        []
47        []
48        []
49    [monk]
50        []
51        []
53        []
56        []
57        []
58        []
59        []
60        []
Name: Species, dtype: object

In [31]:
tb_sleep['primata'] = tb_sleep['Species'].map(e_primata)

In [32]:
tb_sleep.head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,primata
1,Africangiantpouchedrat,1.0,6.6,6.3,2.0,8.3,4.5,42.0,3,1,3,[]
4,Asianelephant,2547.0,4603.0,2.1,1.8,3.9,69.0,624.0,3,5,4,[]
5,Baboon,10.55,179.5,9.1,0.7,9.8,27.0,180.0,4,4,4,[]
6,Bigbrownbat,0.023,0.3,15.8,3.9,19.7,19.0,35.0,1,1,1,[]
7,Braziliantapir,160.0,169.0,5.2,1.0,6.2,30.4,392.0,4,5,4,[]


In [34]:
def e_primata(nome):
    pattern = r'monk|ape|man|gorilla|baboon|chimpanzee'
    resultado = re.findall(pattern, nome.lower())
    return resultado

In [35]:
lambda nome: re.findall(primate_pattern, nome.lower())

<function __main__.<lambda>(nome)>

In [36]:
primate_pattern = r'monk|ape|man|gorilla|baboon|chimpanzee'
tb_sleep['primate_list'] = (
    tb_sleep['Species']
    .map(lambda nome: re.findall(primate_pattern, nome.lower()))
)
tb_sleep['primate_list'].head(10)

1               []
4               []
5         [baboon]
6               []
7               []
8               []
9     [chimpanzee]
10              []
11              []
14              []
Name: primate_list, dtype: object

In [37]:
(lambda nome: re.sub(primate_pattern, '', nome))('monkey')

'ey'

In [39]:
# lambda nome: re.sub(primate_pattern, '', nome)
tb_sleep['Species'].map(lambda nome: re.sub(primate_pattern, '', nome.lower()))

1      africangiantpouchedrat
4               asianelephant
5                            
6                 bigbrownbat
7              braziliantapir
8                         cat
9                            
10                 chinchilla
11                        cow
14        easternamericanmole
15                    echidna
16           europeanhedgehog
17                     galago
21                       goat
22              goldenhamster
24                   grayseal
26             groundsquirrel
27                  guineapig
28                      horse
31    lessershort-tailedshrew
32             littlebrownbat
33                           
36                      mouse
37                  muskshrew
38           namericanopossum
39       nine-bandedarmadillo
41                      owley
42                    patasey
43                 phanlanger
44                        pig
45                     rabbit
47                        rat
48                     redfox
49        

## Funções Lambda com Múltiplos Argumentos

Assim como as funções normais, funções anônimas podem receber mais do que um argumento.

In [40]:
(lambda x, y: x + y) (10, 5)

15

In [41]:
soma_lambda = lambda x, y: x + y
print(soma_lambda(10, 5))

15


In [43]:
tb_sleep['Danger'].map(lambda x: x/10)

1     0.3
4     0.4
5     0.4
6     0.1
7     0.4
8     0.1
9     0.1
10    0.4
11    0.5
14    0.1
15    0.2
16    0.2
17    0.2
21    0.5
22    0.2
24    0.1
26    0.3
27    0.4
28    0.5
31    0.4
32    0.1
33    0.1
36    0.3
37    0.3
38    0.1
39    0.1
41    0.2
42    0.4
43    0.2
44    0.4
45    0.5
47    0.3
48    0.1
49    0.2
50    0.2
51    0.3
53    0.5
56    0.2
57    0.3
58    0.2
59    0.4
60    0.1
Name: Danger, dtype: float64

In [None]:
def soma_10(x):
    return x + 10

tb_sleep['Danger'].map(soma_10)

## Funções Lambda com Condicionais

Como a sintaxe de uma função lambda não admite as estruturas de controle tradicionais (`for`, `while`, `if`...), para utilizar condicionais dentro de funções lambda precisamos aprender uma nova forma sintática. Essa forma é muito semelhante às condicionais em `list comprehensions`.

In [44]:
lista_num = [0, 1, 4, 5, 6, 10, 14, 15]

In [46]:
lista_par = [x for x in lista_num if x % 2 == 0]
print(lista_par)

[0, 4, 6, 10, 14]


In [54]:
e_par = lambda x: x/2 if x % 2 == 0 else x/3

In [55]:
e_par(4)

2.0

In [56]:
[10/x for x in lista_num]

ZeroDivisionError: division by zero

In [57]:
lista_div = [10/x for x in lista_num if x != 0]
print(lista_div)

[10.0, 2.5, 2.0, 1.6666666666666667, 1.0, 0.7142857142857143, 0.6666666666666666]


In [58]:
div_segura = lambda x: 1/x if x != 0 else None

In [61]:
div_segura(0)

In [65]:
[(lambda y: 1/y if y != 0 else None)(x) for x in lista_num]

[None,
 1.0,
 0.25,
 0.2,
 0.16666666666666666,
 0.1,
 0.07142857142857142,
 0.06666666666666667]

## Aplicações

Até agora as funções anônimas parecem ser variantes mais pobres das funções nomeadas - de fato, é isso que são! Mas temos que nos atentar a diferença de aplicações:

1. Funções nomeadas são utilizadas para **refatorar** código, ou seja, para tornar nosso código mais **compartimentado** e mais fácil de se manter
1. Já as funções anônimas são utilizadas como as list comprehensions: para simplificar a sintáxe. Quando não vamos utilizar um função mais que uma vez em nosso código e essa função é simples, não devemos utilizar uma função nomeada mas sim uma função lambda!

### O método `.map()`

Já vimos que podemos utilizar o método `.map()` para aplicar uma função aos elementos de uma coluna. As funções lambda nos permitem utilizar um `.map()`

In [66]:
names = ['Pedro', 'Gabi', 'Adriano', 'Maria']
telefone = ["+5511983722311", "+1113123314", "+5511953122316", "+111564316"]
tb_telefones = pd.DataFrame({"nome" : names, "telefone" : telefone})
tb_telefones

Unnamed: 0,nome,telefone
0,Pedro,5511983722311
1,Gabi,1113123314
2,Adriano,5511953122316
3,Maria,111564316


In [68]:
'Pedro'.find('Gu')

-1

In [70]:
(lambda x: True if x.find('+55') >= 0 else False)('+511983722311')

False

In [71]:
tb_telefones['telefone'].map(lambda x: x.find('+55') >= 0)

0     True
1    False
2     True
3    False
Name: telefone, dtype: bool

In [79]:
'11983722311'.find('+55')

-1

In [72]:
mask_br = tb_telefones['telefone'].map(lambda x: True if x.find('+55') >= 0 else False)

In [73]:
tb_telefones[mask_br]

Unnamed: 0,nome,telefone
0,Pedro,5511983722311
2,Adriano,5511953122316


In [80]:
tb_telefones['telefone'].map(lambda x: x.startswith('+55'))
tb_telefones['telefone'].map(lambda x:  '+55' in x)

0     True
1    False
2     True
3    False
Name: telefone, dtype: bool

In [None]:
tb_sleep['Danger'].map(lambda x: x/10 > 2)

### O método `.groupby()`

O método `.groupby()` nos permite passar funções arbitrarias para realizar a agregação de dados. Muitas vezes utilizamos os métodos `.mean()` ou `.sum()` para realizar essa agregação mas, através do método `.agg()`, podemos passar um função que nós mesmos definimos!

Vamos ver como podemos reconstruir o método `.mean()` primeiro usando uma função nomeada e depois uma função anônima.

In [81]:
tb_sleep.groupby('Danger')['TotalSleep'].mean()

Danger
1    13.854545
2    12.040000
3    10.300000
4     8.811111
5     4.560000
Name: TotalSleep, dtype: float64

In [82]:
np.mean(tb_sleep['TotalSleep'])

10.642857142857142

In [84]:
np.mean(tb_sleep.loc[tb_sleep['Danger'] == 2, 'TotalSleep'])

12.04

In [86]:
def minha_media(vetor):
    return np.mean(vetor)

tb_sleep.groupby('Danger')['TotalSleep'].agg(minha_media)

Danger
1    13.854545
2    12.040000
3    10.300000
4     8.811111
5     4.560000
Name: TotalSleep, dtype: float64

In [87]:
tb_sleep.groupby('Danger')['TotalSleep'].agg(lambda x: np.mean(x))

Danger
1    13.854545
2    12.040000
3    10.300000
4     8.811111
5     4.560000
Name: TotalSleep, dtype: float64

As vezes queremos agregar nossos dados através de funções que não estão disponíveis como métodos. Se esta função for simples o melhor caminho será utilizando o método `.agg()` + uma função anônima.

Vamos calcular o IQR (Inter-Quartile Range), uma medida de dispersão (semelhante ao desvio padrão), definida como a diferença entre o 3o e 1o quartis.

In [88]:
np.quantile(tb_sleep['TotalSleep'], [0.25, 0.5, 0.75])

array([ 8.05,  9.8 , 13.6 ])

In [89]:
tb_sleep.groupby('Danger')['TotalSleep'].agg(lambda x: np.quantile(x, 0.75) - np.quantile(x, 0.25))

Danger
1    10.35
2     4.35
3     6.35
4     2.10
5     0.10
Name: TotalSleep, dtype: float64

In [92]:
tb_sleep.groupby('Danger')['TotalSleep'].agg(lambda x: np.quantile(x, 0.95)) #.median()

Danger
1    19.80
2    16.46
3    13.62
4    11.86
5     7.50
Name: TotalSleep, dtype: float64

### O método `.transform()`

Além do `.agg()`, podemos utilizar outro método extremamente importante após um `.groupby()`: o método `.transform()`. Este método realiza uma agregação - de forma semelhante ao método `.agg()`, mas ao invés de retornar um DataFrame onde cada linha é uma chave do nosso `.groupby()` ele retorna uma série, do tamanho da tabela original, com o resultado da agregação pelo grupo para cada observação daquele grupo.

Vamos começar com a mesma agregação que fizemos acima, mas dessa vez utilizando o método `.transform()`.

In [95]:
tb_sleep.groupby('Danger')['TotalSleep'].agg('mean')

Danger
1    13.854545
2    12.040000
3    10.300000
4     8.811111
5     4.560000
Name: TotalSleep, dtype: float64

In [96]:
tb_sleep['media_sleep_danger'] = tb_sleep.groupby('Danger')['TotalSleep'].transform("mean")

In [100]:
tb_sleep[['Species', 'TotalSleep', 'Danger', 'media_sleep_danger']]

Unnamed: 0,Species,TotalSleep,Danger,media_sleep_danger
1,Africangiantpouchedrat,8.3,3,10.3
4,Asianelephant,3.9,4,8.811111
5,Baboon,9.8,4,8.811111
6,Bigbrownbat,19.7,1,13.854545
7,Braziliantapir,6.2,4,8.811111
8,Cat,14.5,1,13.854545
9,Chimpanzee,9.7,1,13.854545
10,Chinchilla,12.5,4,8.811111
11,Cow,3.9,5,4.56
14,EasternAmericanmole,8.4,1,13.854545


In [101]:
tb_sleep['TotalSleep']/tb_sleep['media_sleep_danger']

1     0.805825
4     0.442623
5     1.112232
6     1.421916
7     0.703657
8     1.046588
9     0.700131
10    1.418663
11    0.855263
14    0.606299
15    0.714286
16    0.888704
17    0.888704
21    0.833333
22    1.196013
24    0.447507
26    1.339806
27    0.930643
28    0.635965
31    1.032787
32    1.436352
33    0.577428
36    1.281553
37    1.242718
38    1.400262
39    1.255906
41    1.411960
42    1.237074
43    1.137874
44    0.953342
45    1.842105
47    1.281553
48    0.707349
49    0.797342
50    0.548173
51    0.524272
53    0.833333
56    1.104651
57    0.524272
58    1.312292
59    1.168979
60    1.400262
dtype: float64

In [102]:
tb_sleep.groupby('Danger')['TotalSleep'].mean()

Danger
1    13.854545
2    12.040000
3    10.300000
4     8.811111
5     4.560000
Name: TotalSleep, dtype: float64

In [103]:
tb_sleep['media_totalsleep_danger'] = tb_sleep.groupby('Danger')['TotalSleep'].transform("mean")
tb_sleep.head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,primata,primate_list,media_sleep_danger,media_totalsleep_danger
1,Africangiantpouchedrat,1.0,6.6,6.3,2.0,8.3,4.5,42.0,3,1,3,[],[],10.3,10.3
4,Asianelephant,2547.0,4603.0,2.1,1.8,3.9,69.0,624.0,3,5,4,[],[],8.811111,8.811111
5,Baboon,10.55,179.5,9.1,0.7,9.8,27.0,180.0,4,4,4,[],[baboon],8.811111,8.811111
6,Bigbrownbat,0.023,0.3,15.8,3.9,19.7,19.0,35.0,1,1,1,[],[],13.854545,13.854545
7,Braziliantapir,160.0,169.0,5.2,1.0,6.2,30.4,392.0,4,5,4,[],[],8.811111,8.811111


Um uso comum desse método é calcular como cada observação se comporta em relação ao seu grupo: por exemplo, podemos encontrar dentro de cada faixa de `Danger`, quais animais dormem mais ou menos:

In [104]:
tb_sleep['norm_totalsleep_danger'] = tb_sleep['TotalSleep']/tb_sleep['media_totalsleep_danger']
tb_sleep.sort_values('norm_totalsleep_danger', ascending=False).head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,primata,primate_list,media_sleep_danger,media_totalsleep_danger,norm_totalsleep_danger
45,Rabbit,2.5,12.1,7.5,0.9,8.4,18.0,31.0,5,5,5,[],[],4.56,4.56,1.842105
32,Littlebrownbat,0.01,0.25,17.9,2.0,19.9,24.0,50.0,1,1,1,[],[],13.854545,13.854545,1.436352
6,Bigbrownbat,0.023,0.3,15.8,3.9,19.7,19.0,35.0,1,1,1,[],[],13.854545,13.854545,1.421916
10,Chinchilla,0.425,6.4,11.0,1.5,12.5,7.0,112.0,5,4,4,[],[],8.811111,8.811111,1.418663
41,Owlmonkey,0.48,15.5,15.2,1.8,17.0,12.0,140.0,2,2,2,[monk],[monk],12.04,12.04,1.41196


Uma forma comum de se fazer isso é através do Z-Score: para cada observação, subtraimos a média do grupo e dividimos pelo desvio padrão do grupo. Vamos usar uma função lambda para calcular isto:

In [105]:
tb_sleep.loc[tb_sleep['Danger'] == 1, 'TotalSleep']

6     19.7
8     14.5
9      9.7
14     8.4
24     6.2
32    19.9
33     8.0
38    19.4
39    17.4
48     9.8
60    19.4
Name: TotalSleep, dtype: float64

In [107]:
np.std(tb_sleep.loc[tb_sleep['Danger'] == 1, 'TotalSleep'])

5.235606005796642

In [108]:
(tb_sleep.loc[tb_sleep['Danger'] == 1, 'TotalSleep'] - np.mean(tb_sleep.loc[tb_sleep['Danger'] == 1, 'TotalSleep']))/np.std(tb_sleep.loc[tb_sleep['Danger'] == 1, 'TotalSleep'])

6     1.116481
8     0.123282
9    -0.793518
14   -1.041817
24   -1.462017
32    1.154681
33   -1.118217
38    1.059181
39    0.677181
48   -0.774418
60    1.059181
Name: TotalSleep, dtype: float64

In [111]:
media = np.mean(tb_sleep.loc[tb_sleep['Danger'] == 1, 'TotalSleep'])
desv_pad = np.std(tb_sleep.loc[tb_sleep['Danger'] == 1, 'TotalSleep'])
resultado = (tb_sleep.loc[tb_sleep['Danger'] == 1, 'TotalSleep'] - media)/desv_pad
resultado

6     1.116481
8     0.123282
9    -0.793518
14   -1.041817
24   -1.462017
32    1.154681
33   -1.118217
38    1.059181
39    0.677181
48   -0.774418
60    1.059181
Name: TotalSleep, dtype: float64

In [None]:
lambda x: (x - np.mean(x))/np.std(x)

In [112]:
tb_sleep['zs_totalsleep_danger'] = tb_sleep.groupby('Danger')['TotalSleep'].transform(lambda x: (x - np.mean(x))/np.std(x))
tb_sleep.sort_values('zs_totalsleep_danger', ascending=False).head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,primata,primate_list,media_sleep_danger,media_totalsleep_danger,norm_totalsleep_danger,zs_totalsleep_danger
45,Rabbit,2.5,12.1,7.5,0.9,8.4,18.0,31.0,5,5,5,[],[],4.56,4.56,1.842105,1.965127
41,Owlmonkey,0.48,15.5,15.2,1.8,17.0,12.0,140.0,2,2,2,[monk],[monk],12.04,12.04,1.41196,1.571447
10,Chinchilla,0.425,6.4,11.0,1.5,12.5,7.0,112.0,5,4,4,[],[],8.811111,8.811111,1.418663,1.524027
58,Treeshrew,0.104,2.5,13.2,2.6,15.8,2.3,46.0,3,2,2,[],[],12.04,12.04,1.312292,1.191258
32,Littlebrownbat,0.01,0.25,17.9,2.0,19.9,24.0,50.0,1,1,1,[],[],13.854545,13.854545,1.436352,1.154681


In [113]:
tb_sleep.sort_values('zs_totalsleep_danger', ascending=True).head()

Unnamed: 0,Species,BodyWt,BrainWt,NonDreaming,Dreaming,TotalSleep,LifeSpan,Gestation,Predation,Exposure,Danger,primata,primate_list,media_sleep_danger,media_totalsleep_danger,norm_totalsleep_danger,zs_totalsleep_danger
4,Asianelephant,2547.0,4603.0,2.1,1.8,3.9,69.0,624.0,3,5,4,[],[],8.811111,8.811111,0.442623,-2.028975
50,Rockhyrax(Heterob),0.75,12.3,5.7,0.9,6.6,7.0,225.0,2,2,2,[],[],12.04,12.04,0.548173,-1.723522
24,Grayseal,85.0,325.0,4.7,1.5,6.2,41.0,310.0,1,3,1,[],[],13.854545,13.854545,0.447507,-1.462017
57,Treehyrax,2.0,12.3,4.9,0.5,5.4,7.5,200.0,3,1,3,[],[],10.3,10.3,0.524272,-1.387198
51,Rockhyrax(Procaviahab),3.6,21.0,4.9,0.5,5.4,6.0,225.0,3,2,3,[],[],10.3,10.3,0.524272,-1.387198


# Voltamos 21h16