# Capítulo 9 - Apply

## Seção 9.1 - Introdução

A ideia da função apply é aplicar uma função em toda uma série simultaneamente.

## Seção 9.2 - Funções

Para iniciar os testes, vamos definir três funções: quadrado de um número, potência de um número e média de dois números:

In [1]:
def quadrado(x):
    return x**2

def potencia(x, n):
    return x**n

def media(x, y):
    return (x+y)/2

## Seção 9.3 - apply (básico)

Podemos aplicar apply a uma série diretamente bastando chamar a função apply e passando como parâmetro uma função que será aplicada a cada elemento da série:

In [2]:
import pandas as pd

df = pd.DataFrame(
    {
        'a': [10, 20, 30],
        'b': [20, 30, 40]
    }
)

print(df)

    a   b
0  10  20
1  20  30
2  30  40


In [3]:
quadrado_a = df['a'].apply(quadrado)

print('Aplicando apply a uma função que só recebe um parâmetro')
print(quadrado_a)

Aplicando apply a uma função que só recebe um parâmetro
0    100
1    400
2    900
Name: a, dtype: int64


Se a função receber um parâmetro, podemos passar para apply a lista nomeada de parâmetros que deverá ser repassada para a função:

In [4]:
cubo_a = df['a'].apply(potencia, n=3)

print('Aplicando apply a uma função que recebe mais de um argumento. É necessário nomear os argumentos aqui')
print(cubo_a)

Aplicando apply a uma função que recebe mais de um argumento. É necessário nomear os argumentos aqui
0     1000
1     8000
2    27000
Name: a, dtype: int64


Apply pode ser aplicada também a um dataframe. Nesse caso, o que será passado para a função não são os elementos do dataframe, e sim toda uma coluna ou linha do dataframe (depende do eixo, axis=0 para coluna e axis=1 para linha).

Isso é interessante para sumarizar alguns dados. Por exemplo, vamos calcular a soma dos elementos das linhas e colunas de df:

In [5]:
print(df)
print('-----------------------')
print('Aplicando a cada coluna (axis=0), temos a soma de cada coluna:')
print(df.apply(sum, axis=0))
print('-----------------------')
print('Aplicando a cada linha (axis=1), temos a soma de cada linha:')
print(df.apply(sum, axis=1))


    a   b
0  10  20
1  20  30
2  30  40
-----------------------
Aplicando a cada coluna (axis=0), temos a soma de cada coluna:
a    60
b    90
dtype: int64
-----------------------
Aplicando a cada linha (axis=1), temos a soma de cada linha:
0    30
1    50
2    70
dtype: int64


## Seção 9.4 - apply (mais avançado)

Nessa seção vamos usar o banco de dados 'titanic' da biblioteca seaborn. Essa base de dados informa se um indivíduo sobreviveu ao naufrágio do Titanic.

In [6]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.6+ KB


Agora vamos escrever algumas funções para usar apply para calcular a quantidade de valores ausentes no dataframe e a proporção de valores ausentes e completos.

In [7]:
import numpy as np

def count_missing(vec):
    return np.sum(pd.isnull(vec))

def prop_missing(vec):
    return count_missing(vec)/vec.size

def prop_complete(vec):
    return 1 - prop_missing(vec)

E agora vamos aplicar essas funções em cada coluna da base. Ou seja, saberemos, por coluna, quantos resultados tem faltante (NaN) e qual a proporção de NaN na coluna:

In [8]:
cmis_col = titanic.apply(count_missing)
pmis_col = titanic.apply(prop_missing)
pcom_col = titanic.apply(prop_complete)

print('--------------------------------------')
print('Quantidade de NaN por coluna')
print('--------------------------------------')
print(cmis_col)

print('--------------------------------------')
print('Proporção de NaN por coluna')
print('--------------------------------------')
print(pmis_col)

print('--------------------------------------')
print('Proporção de registros completos por coluna')
print('--------------------------------------')
print(pcom_col)

--------------------------------------
Quantidade de NaN por coluna
--------------------------------------
survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64
--------------------------------------
Proporção de NaN por coluna
--------------------------------------
survived       0.000000
pclass         0.000000
sex            0.000000
age            0.198653
sibsp          0.000000
parch          0.000000
fare           0.000000
embarked       0.002245
class          0.000000
who            0.000000
adult_male     0.000000
deck           0.772166
embark_town    0.002245
alive          0.000000
alone          0.000000
dtype: float64
--------------------------------------
Proporção de registros completos por coluna
-------------------------------

## Seção 9.6 - Funções lambda

Se a função for simples demais, podemos simplesmente passar uma função lambda como entrada pra apply em vez de definir uma função:

In [9]:
print('............................')
print('df["a"]')
print('............................')
print(df['a'])

# Função que subtrai 10
a_menos_10 = df['a'].apply(lambda x: x-10)
print('............................')
print('df["a"] - 10')
print('............................')
print(a_menos_10)

............................
df["a"]
............................
0    10
1    20
2    30
Name: a, dtype: int64
............................
df["a"] - 10
............................
0     0
1    10
2    20
Name: a, dtype: int64
