<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">Thierry Parmentelat &amp; Arnaud Legout,<img src="media/inria-25.png" style="display:inline"></span><br/>

# Les outils de base sur les strings

## Complément - niveau intermédiaire

### Lire la documentation

Même après des années de pratique, il est difficile de se souvenir de toutes les méthodes travaillant sur les chaînes de caractères. Aussi il est toujours utile de recourir à la documentation embarquée:

In [1]:
help(str)

Help on class str in module __builtin__:

class str(basestring)
 |  str(object='') -> string
 |  
 |  Return a nice string representation of the object.
 |  If the argument is a string, the return value is the same object.
 |  
 |  Method resolution order:
 |      str
 |      basestring
 |      object
 |  
 |  Methods defined here:
 |  
 |  __add__(...)
 |      x.__add__(y) <==> x+y
 |  
 |  __contains__(...)
 |      x.__contains__(y) <==> y in x
 |  
 |  __eq__(...)
 |      x.__eq__(y) <==> x==y
 |  
 |  __format__(...)
 |      S.__format__(format_spec) -> string
 |      
 |      Return a formatted version of S as described by format_spec.
 |  
 |  __ge__(...)
 |      x.__ge__(y) <==> x>=y
 |  
 |  __getattribute__(...)
 |      x.__getattribute__('name') <==> x.name
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __getnewargs__(...)
 |  
 |  __getslice__(...)
 |      x.__getslice__(i, j) <==> x[i:j]
 |      
 |      Use of negative indices is not supported.
 |  


Nous allons tenter ici de citer les méthodes les plus utilisées; nous n'avons le temps que de les utiliser de manière très simple, mais bien souvent il est possible de passer en paramètre des options permettant de ne travailler que sur une sous-chaîne, ou sur la première ou dernière occurrence d'une sous-chaîne; nous vous renvoyons à la documentation pour obtenir toutes les précisions utiles.

### Découpage - assemblage : `split` et `join`

On l'a vu dans la vidéo, la paire `split` et `join` permet de découper une chaine selon un séparateur pour obtenir une liste, et à l'inverse de reconstruire une chaîne à partir d'une liste.

`split` permet donc de découper:

In [2]:
'abc=:=def=:=ghi=:=jkl'.split('=:=')

['abc', 'def', 'ghi', 'jkl']

Et à l'inverse

In [None]:
"=:=".join(['abc', 'def', 'ghi', 'jkl'])

Attention toutefois si le séparateur est un terminateur, la liste résultat contient alors une dernière chaîne vide.

In [None]:
'abc;def;ghi;jkl;'.split(';')

Qui s'inverse correctement cependant

In [None]:
";".join(['abc', 'def', 'ghi', 'jkl', ''])

### Remplacements : `replace`

`replace` est très pratique pour remplacer une sous-chaîne par une autre, avec une limite éventuelle sur le nombre de remplacements

In [None]:
"abcdefabcdefabcdef".replace("abc", "zoo")

In [None]:
"abcdefabcdefabcdef".replace("abc", "zoo", 2)

Plusieurs appels à `replace` peuvent être chaînés comme ceci

In [None]:
"les [x] qui disent [y]".replace("[x]", "chevaliers").replace("[y]", "Ni")

### Nettoyage : `strip`

On pourrait par exemple utiliser `replace` pour enlever les espaces dans une chaîne, ce qui peut être utile pour "nettoyer" comme ceci

In [None]:
" abc:def:ghi ".replace(" ", "")

Toutefois bien souvent on préfère utiliser `strip` qui ne s'occupe que du début et de la fin de la chaîne, et gère aussi les tabulations et autres retour à la ligne

In [None]:
" une chaine avec des truc qui depassent \n".strip()

### Rechercher une sous-chaîne

Plusieurs outils permettent de chercher une sous-chaîne. Le plus simple est `find` qui renvoie le plus petit index où on trouve la sous-chaîne

In [None]:
"abcdefcdefghefghijk".find("def")

In [None]:
"abcdefcdefghefghijk".find("zoo")

`rfind` fonctionne comme `find` mais en partant de la fin de la chaîne

In [None]:
"abcdefcdefghefghijk".rfind("fg")

La méthode `index` se comporte comme `find` mais en cas d'absence elle lève une exception (nous verrons ce concept plus tard) plutôt que de renvoyer -1

In [None]:
"abcdefcdefghefghijk".index("def")

La méthode `count` compte le nombre d'occurrences d'une sous-chaîne

In [None]:
"abcdefcdefghefghijk".count("ef")

Signalons enfin les méthodes de commodité suivantes

In [None]:
"abcdefcdefghefghijk".startswith("abcd")

In [None]:
"abcdefcdefghefghijk".endswith("ghijk")

S'agissant des deux dernières, remarquons que 

chaine.startswith (sous_chaine) $\Longleftrightarrow$ chaine.find(sous_chaine) == 0

chaine.endswith (sous_chaine) $\Longleftrightarrow$ chaine.rfind(sous_chaine) == (len(chaine)-len(sous_chaine))

### Capitalisation

Voici pour conclure quelques méthodes utiles qui parlent d'elles-mêmes

In [None]:
"monty PYTHON".upper()

In [None]:
"monty PYTHON".lower()

In [None]:
"monty PYTHON".swapcase()

In [None]:
"monty PYTHON".capitalize()

In [None]:
"monty PYTHON".title()

### Pour en savoir plus

Tous ces outils sont [documentés en détail ici (en anglais)](https://docs.python.org/2/library/stdtypes.html#string-methods)

### Expressions régulières

Signalons enfin que python propose également un module d'expressions régulières, qui permettent de faire des calculs beaucoup plus élaborés. Cette technique bien connue a été rendue populaire historiquement au travers notamment du langage Perl.

Cette technique est très puissante, et permet d'aborder des cas qui vont bien au-delà de ce qui est présenté ici, pour reconnaître les chaînes qui obéissent à des règles lexicales précises. Étant d'une utilisation très spécifique, nous avons choisi d'aborder ce sujet en dernière semaine lors de la session consacrée aux sujets avancés.