Dans la vidéo introductive sur les CASE WHEN, <br /> 
je passe un peu vite sur les lambda functions et les méthodes .apply() et .assign()

J'ai décidé de vous faire ce petit notebook pour expliquer leurs fonctionnements

In [1]:
import pandas as pd

## Data

On réutilise la table des salaires du notebook précédent

In [11]:
data = {
    'name': ['Toufik', 'Jean-Nicolas', 'Daniel', 'Kaouter', 'Sylvie', 
             'Sebastien', 'Diane', 'Romain', 'François', 'Anna',
             'Zeinaba', 'Gregory', 'Karima', 'Arthur', 'Benjamin'],
    'wage': [60000, 75000, 55000, 80000, 70000, 
             90000, 65000, 72000, 68000, 85000, 
             100000, 120000, 95000, 83000, 110000],
    'department': ['IT', 'HR', 'SALES', 'IT', 'IT', 
                   'HR', 'SALES', 'IT', 'HR', 'SALES', 
                   'IT', 'IT', 'HR', 'SALES', 'CEO']
}

wages = pd.DataFrame(data)

## Apply

La méthode apply permet d'appliquer une fonction à toute une colonne au sein d'une dataframe

Exemple:

In [4]:
def ma_super_fonction(x):
    if x[0] == "Z":
        return "Z comme Zorro"
    else:
        return x

In [9]:
display(ma_super_fonction("Zeinaba"))
display(ma_super_fonction("Gregory"))

'Z comme Zorro'

'Gregory'

Ma super fonction a un comportement particulier <br />
Pour les chaînes de caractères <br />
qui commencent par un "Z" <br />

Ca tombe bien, on a un exemple dans les 5 dernières lignes de la df:

In [12]:
wages.tail()  # .tail(n) affiche les n dernières lignes d'une df (par défaut, 5)

Unnamed: 0,name,wage,department
10,Zeinaba,100000,IT
11,Gregory,120000,IT
12,Karima,95000,HR
13,Arthur,83000,SALES
14,Benjamin,110000,CEO


Ici, le premier prenom commence par Z, <br />
Donc ma_super_fonction le remplace

In [14]:
wages.tail()["name"].apply(ma_super_fonction) 

10    Z comme Zorro
11          Gregory
12           Karima
13           Arthur
14         Benjamin
Name: name, dtype: object

Notez qu'on a passé ma_super_fonction sans mettre de parenthèses.

Avec les parenthèses, ça ne marche plus:

In [15]:
wages.tail()["name"].apply(ma_super_fonction()) 

TypeError: ma_super_fonction() missing 1 required positional argument: 'x'

## Lambda functions


En Python, si vous n'avez pas envie de déclarer une fonction <br />
pour un traitement dont vous savez que vous ne l'utiliserez qu'une fois, <br />
vous pouvez utiliser une fonction lambda:

In [17]:
ma_func = lambda x: x**2

In [19]:
def square(x):
    return x ** 2

In [18]:
ma_func(2)

4

In [20]:
square(2)

4

Par conséquent, on peut passer une lambda function dans apply():

In [21]:
wages.tail()["wage"]

10    100000
11    120000
12     95000
13     83000
14    110000
Name: wage, dtype: int64

On pourrait par exemple augmenter tout le monde de 2 000€ :

In [22]:
wages.tail()["wage"].apply(lambda x: x + 2000)

10    102000
11    122000
12     97000
13     85000
14    112000
Name: wage, dtype: int64

On peut même mettre des IF / ELSE dans les lambdas ! <br />
Ici, on instaure un revenu minimum de 90 000 € <br />
Toute personne sous ce revenu passe directement à 90k:

In [23]:
wages.tail()["wage"].apply(lambda x: 90000 if x < 90000 else x)

10    100000
11    120000
12     95000
13     90000
14    110000
Name: wage, dtype: int64

Note: si vous devez commencer à faire un "elif" ou des if imbriqués, <br />
je vous conseille de créer une vraie fonction, <br />
votre code sera plus lisible

## Apply on whole DF

Apply passe chaque colonne à la lambda:

In [44]:
wages.apply(lambda x: type(x))

name          <class 'pandas.core.series.Series'>
wage          <class 'pandas.core.series.Series'>
department    <class 'pandas.core.series.Series'>
dtype: object

Du coup, on peut utiliser toutes les méthodes habituelles des pd.Series:

In [43]:
wages.apply(lambda x: x.unique())

name          [Toufik, Jean-Nicolas, Daniel, Kaouter, Sylvie...
wage          [60000, 75000, 55000, 80000, 70000, 90000, 650...
department                                 [IT, HR, SALES, CEO]
dtype: object

In [46]:
wages.apply(lambda x: x.nunique())

name          15
wage          15
department     4
dtype: int64

Personnellement, j'utilise bien plus souvent le apply() sur une colonne en particulier que sur l'ensemble de la DataFrame

Si vous avez des questions / incompréhensions, n'hésitez pas à laisser un commentaire en bas de la page des vidéos, j'ajouterai peut-être du contenu à ce notebook en conséquence ;) 