# Plus sur les chaînes de caractères

## Chaînes de caractères et listes

Les chaînes de caractères peuvent être considérées comme des listes (de caractères) un peu particulières.

In [27]:
ingredients = "farine oeufs lait"
ingredients

'farine oeufs lait'

In [3]:
len(ingredients)

17

In [4]:
ingredients[2]

'r'

**Remarque :** il est donc possible d'utiliser certaines propriétés des listes, par exemple, les tranches.

In [28]:
ingredients = "farine oeufs lait"
ingredients[0:6]

'farine'

In [11]:
ingredients[13:]

'lait'

In [9]:
ingredients[:-5]

'farine oeufs'

**Remarque :** à la différence des listes, les chaînes de caractères sont des **listes non modifiables**.

In [19]:
ingredients = "farine oeufs lait"
ingredients[7]

'o'

In [14]:
ingredients[7] = "O"

TypeError: 'str' object does not support item assignment

## Caractères spéciaux

Il existe certains caractères spéciaux comme :
- `\n` pour le retour à la ligne,
- `\t` pour une tabulation,
- si vous voulez écrire des guillemets simples ou doubles et que ceux-ci ne soient pas confondus avec les guillemets de déclaration de la chaîne de caractères, vous pouvez utiliser `\'` ou `\"`.

In [29]:
print("Liste des ingrédients :\n- lait\n- farine\n- oeufs")

Liste des ingrédients :
- lait
- farine
- oeufs


In [21]:
print("Element1\tElement 2\tElement 3")

Element1	Element 2	Element 3


In [31]:
print('Je m\'appelle Sandra')

Je m'appelle Sandra


Les guillemets triples `"""` permettent d'écrire un texte sur plusieurs lignes et de conserver le formatage (notamment les retours à la ligne).

In [26]:
ingredients = """- farine
- oeufs
- lait"""
ingredients

'- farine\n- oeufs\n- lait'

## Méthodes associées aux chaînes de caractères

Les méthodes `.lower()` et `.upper()` renvoient respectivement un texte en minuscule et en majuscule.

**Remarque :** l'utilisation de ces méthodes n'altère pas la chaîne de caractères de départ mais renvoie une chaîne de caractères transformée.

In [32]:
ingredient = "farine"
ingredient.upper()

'FARINE'

In [33]:
ingredient

'farine'

Pour mettre en majuscule la première lettre seulement, deux possibilités :

In [34]:
ingredient[0].upper() + ingredient[1:]

'Farine'

In [35]:
ingredient.capitalize()

'Farine'

La méthode `.split()` découpe une chaîne de caractères en plusieurs éléments appelés champs, en utilisant comme séparateur n'importe quelle combinaison « d'espace(s) blanc(s) ». Les espaces blancs les plus classiques sont l'**espace**, la **tabulation** et le **retour à la ligne**.

In [37]:
ingredients = "farine oeufs lait sucre"
ingredients.split()

['farine', 'oeufs', 'lait', 'sucre']

In [38]:
for ingredient in ingredients.split():
    print(ingredient)

farine
oeufs
lait
sucre


Il est possible de préciser le **séparateur**.

In [41]:
ingredients = "farine;oeufs;lait;sucre"
ingredients.split(";")

['farine', 'oeufs', 'lait', 'sucre']

Il est également possible d'indiquer à `.split()` le nombre de fois que l'on souhaite découper la chaîne de caractères avec l'argument `maxsplit`.

In [42]:
ingredients = "farine;oeufs;lait;sucre"
ingredients.split(";", maxsplit=1)

['farine', 'oeufs;lait;sucre']

In [43]:
ingredients.split(";", maxsplit=2)

['farine', 'oeufs', 'lait;sucre']

La méthode `.find()` recherche une chaîne de caractères passée en argument.

Si l'élément recherché :
- est **trouvé**, alors l'**indice du début de l'élément** dans la chaîne de caractères est renvoyé
- n'est **pas trouvé**, alors la valeur **-1** est renvoyée
- est **trouvé plusieurs fois**, seul l'**indice de la première occurrence** est renvoyé

In [44]:
ingredients = "farine lait"
ingredients.find("f")

0

In [48]:
ingredients.find("x")

-1

In [51]:
ingredients.find("a")

1

La méthode `.replace()` substitue une chaîne de caractères par une autre.

In [52]:
ingredients = "farine lait huile"
ingredients.replace("huile", "beurre")

'farine lait beurre'

La méthode `.count()` compte le nombre d’occurrences d'une chaîne de caractères passée en argument.

In [55]:
ingredients = "farine lait huile"
ingredients.count("a")

2

La méthode `.startswith()` vérifie si une chaîne de caractères commence par une autre chaîne de caractères.

In [56]:
ingredients = "farine lait huile"
ingredients.startswith("far")

True

La méthode `.strip()` permet de « nettoyer les bords » d'une chaîne de caractères. Elle enlève n'importe quel combinaison « d'espace(s) blanc(s) » sur les bords.

In [57]:
phrase = "     Debut milieu Fin    "
phrase

'     Debut milieu Fin    '

In [58]:
phrase.strip()

'Debut milieu Fin'

In [61]:
phrase = "\tTabulation\tMilieu\tFin\n"
phrase

'\tTabulation\tMilieu\tFin\n'

In [62]:
phrase.strip()

'Tabulation\tMilieu\tFin'

## Extraction de valeurs numériques d'une chaîne de caractères

Il peut arriver de lire une chaîne de caractères (provenant par exemple d'un fichier), d'extraire des valeurs de cette chaîne de caractères puis ensuite de les manipuler.

In [64]:
data_file = "3.14 8.2 gene"
values = data_file.split(" ")
values

['3.14', '8.2', 'gene']

In [65]:
float(values[0]) + float(values[1])

11.34

## Conversion d'une liste de chaînes de caractères en une chaîne de caractères

La conversion d'une liste de chaînes de caractères en une chaîne de caractères fait appel à la méthode `.join()`.

In [66]:
sequence = ["A", "T", "G", "T", "T", "C"]
sequence

['A', 'T', 'G', 'T', 'T', 'C']

In [67]:
"".join(sequence)

'ATGTTC'

In [68]:
"*".join(sequence)

'A*T*G*T*T*C'

**Remarque :** les éléments de la liste initiale sont concaténés les uns à la suite des autres et intercalés par un séparateur qui peut être n'importe quelle chaîne de caractères.