# Les chaînes de caractères

Les méthodes fondamentales listées ci-dessous ne sont pas exclusives. Reportez-vous à la documentation pour davantage d’explications (`help(str)`).

Les chaînes de caractères sont des objets de type `str`. Elles sont instanciées par des *quotes* simples ou doubles. Il est préférable d’utiliser des *quotes* doubles pour prévenir l’échappement des apostrophes :

In [None]:
print('We’re open 7 days a week.')
print('We\'re open 7 days a week.')
print("We're open 7 days a week.")

Une autre caractéristique essentielle des chaînes de caractère est leur immutabilité, c’est-à-dire qu’elles ne peuvent pas être altérées après leur création :

In [None]:
a = "A lannister always pays his debts."
a[2] = 'L'

Dans ce cas, la réaffectation est la solution privilégiée :

In [None]:
a = "A lannister always pays his debts."
a = "A Lannister always pays his debts."
print(a)

## Découper une chaîne formatée

La méthode `split()` découpe une chaîne de caractères selon une règle transmise en paramètre et renvoie un objet de type `list`. Si aucun argument n’est passé, l’espace est considérée comme le séparateur par défaut.

In [None]:
a = "A Lannister always pays his debts."
b = "A;Lannister;always;pays;his;debts."
print(a.split())
print(b.split(';'))

### Formater une chaîne à partir d’une liste

À l’inverse, la méthode `join()` permet de transformer une liste en chaîne de caractères :

In [None]:
words = ['A', 'Lannister', 'always', 'pays', 'his', 'debts.']
print(' '.join(words))

## Remplacer des caractères

Plus souple que le *slicing* la méthode `replace()` est efficace pour remplacer des caractères :

In [None]:
sent = "You know nothing Jon Rock."
print(sent.replace('Rock', 'Snow'))

Un troisième argument permet de limiter strictement le nombre de remplacements à effectuer :

In [None]:
sent = "spam, spam, spam, egg, ham, spam, spam, ham."
print(sent.replace('ham', 'spam', 1))

Il est possible d’effectuer plusieurs remplacements en une seule fois :

In [None]:
sent = "spam, spam, spam, egg, ham, spam, spam, ham."
print(sent.replace('spam', 'egg', 1).replace('egg', 'ham', 2).replace('ham', 'spam', 2))

## Nettoyer des chaînes

Lorsque l’on récupère des données à partir d’un fichier, par exemple au format CSV, les champs sont parfois mal formatés. La méthode `strip()` permet d’éliminer les espaces, les tabulations ainsi que les retours à la ligne qui se trouveraient en début ou en fin de chaîne.

In [None]:
sent = " A;Lannister;always;pays;his;debts. \n"
sent.strip()

## Rechercher une sous-chaîne

Ci-dessous quelques méthodes pour effectuer des recherches de motifs.

La première se nomme `find()` et renvoie l’index du premier motif rencontré. Pour partir de la fin de la chaîne, il existe la méthode `rfind()`. Remarquez que, si aucun motif n’est présent dans la chaîne, le résultat sera un indice `-1`. Pour lever une exception, il faut alors utiliser la méthode `index()`.

In [None]:
sent = "A Lannister always pays his debts."
print(sent.find("a"))
print(sent.rfind("a"))
print(sent.find("Bolton"))
print(sent.index("Bolton"))

Une autre méthode : `count()`, qui renvoie le nombre d’occurrences du motif.

In [None]:
sent.count("a")

Pour terminer, deux méthodes qui testent le début et la fin d’une chaîne. Elles renvoient toutes deux un booléen :

In [None]:
print(sent.startswith("Lannister"))
print(sent.endswith("."))

## Techniques de formatage du texte

Par formatage du texte, on n’entend pas l’application de styles comme dans un traitement de textes (*LibreOffice Writer* par exemple), mais la manière de créer un gabarit propre à manipuler des données.

Partons de trois variables de types différents que l’on souhaite associer afin de former la phrase : *We're open 7 days a week.*

In [None]:
d = 7
text = "a week."

### La concaténation

L’opérateur de concaténation de chaîne de caractères `+` permet simplement d’assembler différents objets l’un à la suite de l’autre. Attention toutefois au type de données à manipuler !

In [None]:
print("We're open" + " " + str(d) + " days " + text)

### Un opérateur de formatage

L’opérateur `%` permet d’associer un symbole de formatage au type de données que l’on souhaite insérer dans un gabarit :

In [None]:
print("We're open %d days %s" % (d, text))

### Une méthode spécifique pour le formatage

Par extension de la manipulation précédente, une méthode `format()` est définie afin d’effectuer des substitutions de variable dans un texte.

In [None]:
"We're open {} days {}".format(d, text)

### Les *f-Strings*

Version moderne et améliorée des techniques précédentes, la syntaxe des *f-Strings* est la seule à retenir. Non seulement elle effectue une conversion dynamique des variables, mais elle permet en plus d’évaluer des expressions directement à l’intérieur de l’appel aux variables.

In [None]:
f"We're open {d - 2} days {text}"

## Capitalisation

Pour terminer, quelques méthodes qui jouent avec la casse des caractères.

In [None]:
sent = "A Lannister always pays his debts."

Transformer en capitales :

In [None]:
sent.upper()

Passer en minuscules :

In [None]:
sent.lower()

Convertir les majuscules en minuscules et vice versa :

In [None]:
sent.swapcase()

Élever la première lettre en majuscule :

In [None]:
sent.capitalize()

Converitr chaque initiale de mot en majuscule :

In [None]:
sent.title()