# Les outils de base sur les chaînes de caractères (`str`)

### Lire la documentation

Même après des années de pratique, il est difficile de se souvenir de toutes les méthodes travaillant sur les chaînes de caractères. Aussi il est toujours utile de recourir à la documentation embarquée

In [None]:
help(str)

Nous allons tenter ici de citer les méthodes les plus utilisées. Nous n'avons le temps que de les utiliser de manière très simple, mais bien souvent il est possible de passer en argument des options permettant de ne travailler que sur une sous-chaîne, ou sur la première ou dernière occurrence d'une sous-chaîne. Nous vous renvoyons à la documentation pour obtenir toutes les précisions utiles.

### Découpage - assemblage : `split` et `join`

Les méthodes `split` et `join` permettent de découper une chaîne selon un séparateur pour obtenir une liste, et à l'inverse de reconstruire une chaîne à partir d'une liste.

`split` permet donc de découper :

In [2]:
'abc=:=def=:=ghi=:=jkl'.split('=:=')

['abc', 'def', 'ghi', 'jkl']

Et à l'inverse :

In [3]:
"=:=".join(['abc', 'def', 'ghi', 'jkl'])

'abc=:=def=:=ghi=:=jkl'

Attention toutefois si le séparateur est un terminateur, la liste résultat contient alors une dernière chaîne vide. En pratique, on utilisera la méthode `strip`, que nous allons voir ci-dessous, avant la méthode `split` pour éviter ce problème.

In [4]:
'abc;def;ghi;jkl;'.split(';')

['abc', 'def', 'ghi', 'jkl', '']

Qui s'inverse correctement cependant :

In [5]:
";".join(['abc', 'def', 'ghi', 'jkl', ''])

'abc;def;ghi;jkl;'

### Remplacement : `replace`

`replace` est très pratique pour remplacer une sous-chaîne par une autre, avec une limite éventuelle sur le nombre de remplacements :

In [6]:
"abcdefabcdefabcdef".replace("abc", "zoo")

'zoodefzoodefzoodef'

In [7]:
"abcdefabcdefabcdef".replace("abc", "zoo", 2)

'zoodefzoodefabcdef'

Plusieurs appels à `replace` peuvent être chaînés comme ceci :

In [8]:
"les [x] qui disent [y]".replace("[x]", "chevaliers").replace("[y]", "Ni")

'les chevaliers qui disent Ni'

### Nettoyage : `strip`

On pourrait par exemple utiliser `replace` pour enlever les espaces dans une chaîne, ce qui peut être utile pour "nettoyer" comme ceci :

In [9]:
" abc:def:ghi ".replace(" ", "")

'abc:def:ghi'

Toutefois bien souvent on préfère utiliser `strip` qui ne s'occupe que du début et de la fin de la chaîne, et gère aussi les tabulations et autres retour à la ligne :

In [10]:
" \tune chaîne avec des trucs qui dépassent \n".strip()

'une chaîne avec des trucs qui dépassent'

On peut appliquer `strip` avant `split` pour éviter le problème du dernier élément vide :

In [11]:
'abc;def;ghi;jkl;'.strip(';').split(';')

['abc', 'def', 'ghi', 'jkl']

### Rechercher une sous-chaîne

Plusieurs outils permettent de chercher une sous-chaîne. Il existe `find` qui renvoie le plus petit index où on trouve la sous-chaîne :

In [12]:
# l'indice du début de la première occurrence
"abcdefcdefghefghijk".find("def")

3

In [13]:
# ou -1 si la chaîne n'est pas présente
"abcdefcdefghefghijk".find("zoo")

-1

`rfind` fonctionne comme `find` mais en partant de la fin de la chaîne :

In [14]:
# en partant de la fin
"abcdefcdefghefghijk".rfind("fgh")

13

In [15]:
# notez que le résultat correspond
# tout de même toujours au début de la chaîne

# NB: en python les indices commencent à zéro
# donc la notation ma_chaine[n] 
# permet d'accèder au n+1 ème caractère de la chaine
"abcdefcdefghefghijk"[13]

'f'

La méthode `index` se comporte comme `find`, mais en cas d'absence elle lève une **exception** (nous verrons ce concept plus tard) plutôt que de renvoyer `-1` :

In [16]:
"abcdefcdefghefghijk".index("def")

3

In [17]:
try:
    "abcdefcdefghefghijk".index("zoo")
except Exception as e:
    print("OOPS", type(e), e)

OOPS <class 'ValueError'> substring not found


Mais le plus simple pour chercher si une sous-chaîne est dans une autre chaîne est d'utiliser l'instruction `in` sur laquelle nous reviendrons lorsque nous parlerons des séquences :

In [18]:
"def" in "abcdefcdefghefghijk"

True

La méthode `count` compte le nombre d'occurrences d'une sous-chaîne :

In [19]:
"abcdefcdefghefghijk".count("ef")

3

Signalons enfin les méthodes de commodité suivantes :

In [20]:
"abcdefcdefghefghijk".startswith("abcd")

True

In [21]:
"abcdefcdefghefghijk".endswith("ghijk")

True

S'agissant des deux dernières, remarquons que :

`chaine.startswith(sous_chaine)` $\Longleftrightarrow$ `chaine.find(sous_chaine) == 0`

`chaine.endswith(sous_chaine)` $\Longleftrightarrow$ `chaine.rfind(sous_chaine) == (len(chaine) - len(sous_chaine))`

On remarque ici la supériorité en terme d'expressivité des méthodes pythoniques `startswith` et `endswith`.

### Changement de casse

Voici pour conclure quelques méthodes utiles qui parlent d'elles-mêmes :

In [22]:
"monty PYTHON".upper()

'MONTY PYTHON'

In [23]:
"monty PYTHON".lower()

'monty python'

In [24]:
"monty PYTHON".swapcase()

'MONTY python'

In [25]:
"monty PYTHON".capitalize()

'Monty python'

In [26]:
"monty PYTHON".title()

'Monty Python'

### Pour en savoir plus

Tous ces outils sont [documentés en détail ici (en anglais)](https://docs.python.org/3/library/stdtypes.html#string-methods).