# <center> Cours 4 : Les chaînes de caractères

## Rappel

On appelle *chaîne de caractères* des fragments de texte utilisés par un programme.  Il n'est pas nécessaire que le texte ait un sens pour un humain : il suffit qu'il soit composé d'une suite de caractères (les caractères ne sont pas uniquement les lettres de l'alphabet :`` 'A','9', ' '`` et ``'.' ``sont des caractères).

La chaîne de caractères (string) est un type de base pour beaucoup de langages  de programmation et il existe de nombreuses bibliothèques de fonctions pour les manipuler.
Comprendre et savoir traiter les chaînes de caractères est indispensable pour un informaticien tant elles sont omniprésentes dans tous les domaines de l'informatique :

- pour le Web : les pages HTML, les scripts PHP par exemple,
- les bases de données : SGBDR,
- les réseaux : dans la constitution des trames ethernet,
- les systèmes d'exploitation : écriture de scripts sous Linux,
- programmation : sources de programmes, fichiers texte, *etc*.

Le but de ce chapitre est de concevoir des algorithmes de traitements de chaînes de caractères.

**Définition** : Une chaîne de caractères est une suite ordonnée de caractères. Cette suite est délimitée par des guillemets `""` ou, plus rarement, par deux apostrophes `''` (en Python les deux sont possibles). Une chaîne de caractères n'est pas modifiable.

**Exemples de chaînes littérales :**

* ``"bonjour"`` est une chaînes de caractères contenant 7 caractères.
* ``""`` est la chaîne de caractères vide contenant 0 caractère.

**On peut initialiser une variable** avec une chaîne de caractères littérale,  cette variable sera de type chaîne de caractères. On peut affecter une variable à partir d'une autre variable de type chaîne de caractères.


In [1]:
message = "Hello. I'm John Doe!"
messageBis = message
message = "Salut, moi c'est Sam !"
print(message)
print(messageBis)

Salut, moi c'est Sam !
Hello. I'm John Doe!


## Caractère d'échappement 

Le caractère `\` est un caractère d'échappement car il permet de modifier le sens du caractère qui le suit. 

Par exemple, il permet que le caractère `'` (ou `"`) ne soit pas considéré comme le délimiteur de fin de chaîne lorsque celle-ci est délimitée des apostrophes (ou guillemets).

In [None]:
message='L\'hiver approche, vite vite, il faut se couvrir des morsures du froid.'
print(message)

**Remarque:** Pour éviter l'utilisation de caractères d'échappement on peut utiliser les guillemets ``"`` pour délimiter la chaîne de caractères.

In [None]:
message="L'hiver approche, vite vite, il faut se couvrir des morsures du froid."
print(message)

Le caractère `\` devant le caractère `n` correspond à un retour à la ligne. 

In [2]:
message = "Run!\nRun!!\nRun!!!"
print(message)

Run!
Run!!
Run!!!


**Remarque :** Si l'on souhaite définir une chaîne de caractères littérales avec des retours à la ligne, on peut également écrire cette valeur sur plusieurs lignes en délimitant la chaîne par `"""` ou `'''`.

In [3]:
message = """Run!
Run!!
Run!!!"""
print(message)

Run!
Run!!
Run!!!


## Concaténation de chaînes de caractères

L'opérateur ``+`` permet de concaténer des chaînes de caractères.

In [4]:
message="L'hiver approche, vite vite, il faut se couvrir des morsures du froid."
messageBis=" Couvrons nous!"
messageTierce=" Oui, couvrons nos oreilles!"
superMessage = message + messageBis + '\n'+ messageTierce
print(superMessage)

L'hiver approche, vite vite, il faut se couvrir des morsures du froid. Couvrons nous!
 Oui, couvrons nos oreilles!


## Chaînes de caractères versus tableaux

Les chaînes de caractères sont analogues aux tableaux de caractères, à ceci près qu'elles ne sont plus modifiables après leur initialisation : seule la lecture des caractères de la chaîne de caractères est autorisée.

**Important :** même si les chaînes de caractères peuvent être soumises à une partie des opérations prévues pour les tableaux, elle ne sont pas de **"type"** tableau, c'est-à-dire que ``"abc"`` est différent de ``['a', 'b', 'c']`` : le second est modifiable, pas le premier. 

In [5]:
message="L'hiver approche, vite vite, il faut se couvrir des morsures du froid."
print(message[4]) # affichage : v
print(message[3] + message[6]) # affichage : ir
message[1] = 'c'

v
ir


TypeError: 'str' object does not support item assignment

 Il faut alors bien distinguer les opérations qui **recopient** la chaîne  de  celles qui la **modifient**. 
 Par exemple :

In [6]:
mot="abc"
mot=mot + 'd'  # correct parce que + crée une nouvelle chaîne
print(mot)

abcd


## Longueur d'une chaîne de caractères

On peut déterminer la longueur (c'est-à-dire le nombre de caractères) d'une chaîne, en faisant appel à la fonction `len()`.

In [7]:
print(len(message))

70


- Sur ce thème : **Exercice 1, TD 4**

## Les chaînes sont comparables

* La fonction `ord(car)` permet de connaître la valeur de l'unicode représentant le caractère `car`. 
* La fonction `chr(n)`permet de connaître le caractère représenté par l'unicode `n`.

In [9]:
# codes d'entiers 
print(ord('5'))
print(ord('0'))
print(ord('5')- ord('0'))

# codes de lettres 
print(ord('A'))
print(ord('B'))

print(ord('a'))
print(ord('b'))

# code de caractères spéciaux S
print(ord('$'))
print(ord('\n'))

# du code au caractère
print(chr(97))

53
48
5
65
66
97
98
36
10
a


Les chaînes peuvent être comparées alphabétiquement selon l'ordre de leur unicode. Tous les opérateurs de comparaison ``(>, <, ==)`` fonctionnent avec les chaînes de caractères. Cela est très utile pour trier des mots selon l'ordre alphabétique usuel s'ils sont écrits en majuscules ou en minuscules :

In [None]:
mot = input("Entrez un mot quelconque : ")
if mot < "chat":
    place = "est avant"
elif mot > "chat":
    place = "est après"
else:
    place = "se confond avec"
print ("Le mot", mot, place, "le mot 'chat' dans l'ordre alphabétique")

**Remarque :** Comme la comparaison se fait selon l'unicode des caractères, les majuscules sont avant les minuscules qui sont avant les caractères accentués.

In [10]:
print("aaa" < "ZZZ")
print("école" < "ecole")

False
False


## Quelques fonctions sur les chaînes de caractères

### Recherche

`find(mot)` : renvoie la position du début de la sous-chaîne `mot`
 dans la chaîne, en partant du début de la chaîne et `-1` si `mot`est absent de la chaîne.

In [11]:
ch = "je suis étudiant à Paris 13"
mot = "suis"
print(ch.find(mot))
mot2 = "non"
print(ch.find(mot2))

3
-1


### Nombre d'occurences

`count(mot)` : renvoie le nombre d'occurrences de la sous-chaîne `mot` qui apparaissent sans chevauchement dans la chaîne.

In [None]:
ch = "Le héron au long bec et au long cou"
mot = 'long'
print (ch.count(mot))

### Minuscules et majuscules

`ch.lower()` : retourne  une chaîne obtenue à partir de la chaîne `ch` en remplaçant les majuscules par des minuscules.<br>
`ch.upper()` : retourne une chaîne obtenue à partir de la chaîne `ch` en remplaçant les minuscules par majuscules.

In [12]:
phrase1 = "Merci beaucoup"
print (phrase1.upper())

phrase2 ="ATTENTION : Danger !"
print (phrase2.lower())

MERCI BEAUCOUP
attention : danger !


### Suppression des espaces en début et fin de chaîne

`ch.strip()` : retourne la chaîne obtenue après avoir enlevé les espaces et `\n` éventuels au début et à la fin de la chaîne `ch`.

In [13]:
phrase = "   Monty Python   "
print(phrase.strip())

Monty Python


### Remplacement de caractères

`ch.replace(old, new)` : retoune la chaîne obtenue après avoir remplacé tous les caractères `old` par des caractères `new` dans la chaîne `ch`.

In [14]:
phrase = "Je suis étudiant en Informatique"
print(phrase.replace(" ","_"))

Je_suis_étudiant_en_Informatique


**Remarque :** `old` et `new` peuvent contenir plusieurs caractères.

### Découpage d'une chaîne

`ch.split()` renvoie un tableau contenant les différents mots de la chaîne `ch`.

**Remarque :** On peut préciser le séparateur (chaîne de caractères) de mots.

In [15]:
phrase = "Je suis étudiant en Informatique"
print(phrase.split())

date = "21/05/2025"
print(date.split("/"))

['Je', 'suis', 'étudiant', 'en', 'Informatique']
['21', '05', '2025']


- Sur ce thème : **Exercices 2 à 4, TD 4**