# apply() & map

# apply()

Les itérations sur les variables peuvent se faire via une boucle, ou via l'utilisation de fonctions callback appelée à l'aide d'une fonction .apply().

Cette fonction va vous permettre de modifier chaque ligne de votre series comme bon vous semble.

In [1]:
import pandas as pd
import numpy as np

In [15]:
s = pd.Series(np.random.rand(30))
s


0     0.867201
1     0.336588
2     0.374088
3     0.969636
4     0.898388
5     0.223300
6     0.710432
7     0.429674
8     0.786315
9     0.325956
10    0.798657
11    0.366471
12    0.654326
13    0.289967
14    0.458358
15    0.544836
16    0.597531
17    0.821719
18    0.598378
19    0.997741
20    0.217540
21    0.226611
22    0.714697
23    0.094486
24    0.469416
25    0.628777
26    0.560615
27    0.888787
28    0.158440
29    0.517619
dtype: float64

Imaginons que l'on désire multiplier par 10 l'ensemble des valeurs. On peut faire une boucle et mettre à jour chaque éléments

In [16]:
for i, v in s.items():
    s[i]=s[i]*10
    print(s[i])

8.672014862228307
3.365881158491868
3.7408809438783672
9.696362897288948
8.983876151198475
2.2329978119839646
7.104316807999899
4.296738420074179
7.863147460570296
3.2595602869173934
7.986569645666308
3.664705089304412
6.543261386368239
2.8996724719176017
4.58358223794499
5.448356769946903
5.975313149558657
8.217187909947516
5.983783246419422
9.977414504660127
2.1754006321044104
2.2661099712135213
7.14696599437516
0.9448610106904631
4.694163156751413
6.287767308227917
5.606146860446549
8.887867926413271
1.5844029632127354
5.1761906858486375


pandas nous permet de faire la même chose mais de manière plus élégante.

In [28]:
#Réinitialisation notre série
s = pd.Series([0.2,20.,0.3])

In [18]:
v = lambda x : x * 10

In [19]:
v(2)

20

In [22]:
s.apply(lambda x : x * 10)

0    100
1    200
2    300
dtype: int64

Vous pouvez remarquer qu'il n'y a pas de commande inPlace. Donc la serie s n'est pas modifiée directement.

Par contre, elle retourne une nouvelle serie.

On peut également s'en servir de filtre pour retourner des booleens.

On veut savoir si la valeur est supérieure à 0.5

In [31]:
val = lambda x : True if x>0.5 else False
val(1)

True

In [33]:
s.apply(lambda x : True if x>0.5 else False)

0    False
1     True
2    False
dtype: bool

Mais comment faire si notre condition demande plusierus lignes de codes.

Nous allons devoir dans ce cas créer une fonction qui sera appellée dans apply.

In [34]:
def affectation(valeur):
    if valeur<0.3:
        return "Classe 1"
    elif valeur>=0.3 and valeur <=0.8:
        return "Classe 2"
    else:
        return "Classe 3"


In [40]:
affectation(0.2)

'Classe 1'

In [35]:
s.apply(affectation)

0    Classe 1
1    Classe 3
2    Classe 2
dtype: object

Maintenant, nous voulons pouvoir passer des paramètres à notre fonction

In [41]:
def affectation(valeur, minVal, maxVal):
    if valeur<minVal:
        return "Classe 1"
    elif valeur>=minVal and valeur <=maxVal:
        return "Classe 2"
    else:
        return "Classe 3"

In [42]:
s.apply(affectation, args=(0.3,0.8))

0    Classe 1
1    Classe 3
2    Classe 2
dtype: object

In [43]:
# Autre forme d'écriture
s.apply(affectation, minVal=0.3, maxVal=0.8)

0    Classe 1
1    Classe 3
2    Classe 2
dtype: object

C'est bien gentil tout ça mais que faire quand j'ai du texte ?

In [44]:
s1=pd.read_csv('chien.csv', header=None, squeeze=True)

In [45]:
s1.apply(lambda x : x.upper())

0                           BEAGLE-HARRIER
1                          AKITA AMÉRICAIN
2                                CA DE BOU
3                            CAIRN TERRIER
4                               CANAAN DOG
5                           ALANGU MASTIFF
6                         ABERDEEN TERRIER
7                        AIREDALE TERRIER 
8                           BEARDED COLLIE
9               ALAPAHA BLUE BLOOD BULLDOG
10                              CANE CORSO
11    CANE DA PASTORE MAREMMANO-ABRUZZESE 
12                        ALASKAN KLEE KAI
13                      BEDLINGTON TERRIER
14                        ALASKAN MALAMUTE
15              ALPENDÄNDISCHE DACHSBRACKE
16                        BERGER ALLEMAND 
17                         AMERICAN AKITA 
18                        AMERICAN BULLDOG
19             AFFENPINSCHER AFGHAN HOUND 
20                BERGER ANGLAIS ANCESTRAL
21                 AMERICAN COCKER SPANIEL
22              CANE DE PASTORE BERGAMASCO
23         

La méthode apply couplée avec une fonction vous permet virtuellement de modifiertout ce que vous voulez. Cela sera très pratique dans la partie mise en forme de vos données avant de commencer une analyse.

# map

In [47]:
import pandas as pd
import numpy as np

In [48]:
def ajout1(x):
    return x+1

In [None]:
ajout1(5)

In [49]:
maseries=pd.Series([100,200,300,400,500,600,700,800,900,np.nan])
maseries

0    100.0
1    200.0
2    300.0
3    400.0
4    500.0
5    600.0
6    700.0
7    800.0
8    900.0
9      NaN
dtype: float64

In [50]:
maseries.map(ajout1)

0    101.0
1    201.0
2    301.0
3    401.0
4    501.0
5    601.0
6    701.0
7    801.0
8    901.0
9      NaN
dtype: float64

In [53]:
maseries.map(lambda x: 'La valeur est {}'.format(x) )

0    La valeur est 100.0
1    La valeur est 200.0
2    La valeur est 300.0
3    La valeur est 400.0
4    La valeur est 500.0
5    La valeur est 600.0
6    La valeur est 700.0
7    La valeur est 800.0
8    La valeur est 900.0
9      La valeur est nan
dtype: object

In [54]:
maseries.map(lambda x: 'La valeur est {}'.format(x), na_action='ignore' )

0    La valeur est 100.0
1    La valeur est 200.0
2    La valeur est 300.0
3    La valeur est 400.0
4    La valeur est 500.0
5    La valeur est 600.0
6    La valeur est 700.0
7    La valeur est 800.0
8    La valeur est 900.0
9                    NaN
dtype: object

In [55]:
mesinfos=pd.Series(["H","F","F","H","F","H","H","F","F","H"])
mesinfos


0    H
1    F
2    F
3    H
4    F
5    H
6    H
7    F
8    F
9    H
dtype: object

Utilisation d'un dictionnaire

In [56]:
mesinfos.map({'H':0,"F":1})

0    0
1    1
2    1
3    0
4    1
5    0
6    0
7    1
8    1
9    0
dtype: int64

Exemple pour fusionner deux series

In [57]:
x = pd.Series([1,2,3], index=['one', 'two', 'three'])
x

one      1
two      2
three    3
dtype: int64

In [58]:
y = pd.Series(['foo', 'bar', 'baz'], index=[1,2,3])
y

1    foo
2    bar
3    baz
dtype: object

In [59]:
x.map(y)

one      foo
two      bar
three    baz
dtype: object