# CHAINES DE CARACTERE

Nous avons vu dans les cours précédents que les chaînes de caractères étaient en fait des suites ordonnés de caractère : ce sont en quelque sorte des listes de caractères. La manipulation de texte ou de chaîne de caractère est quelque chose de courant en programmation et Python dispose d'un large éventail de méthodes pour traiter ce type d'objet.

## Rappel des index

Chaque caractère alphanumérique dispose d'un index dans une string. On peut y accéder en entrant l'index, qui est toujours un nombre entier et part toujours de 0, ainsi :

| H | e | l | l | o |   | W | o | r | l | d  |    | !  | !  | !  |
|---|---|---|---|---|---|---|---|---|---|----|----|----|----|----|
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |

In [None]:
ma_chaine = "Hello World !!!"
ma_chaine[0]

C'est pour cela que l'on peut itérer sur un objet comme les strings.

In [None]:
ma_chaine = "Hello World !!!"

for i in ma_chaine:
    print(i)

## Sélection d'index

On peut tout à fait sélectionner différents index à la fois en leur indiquant un début et une fin. Pour cela on les sépare par un ``:`` pour créer une plage, un _range_, c'est-à-dire que l'on indique un début et une fin. On appelle aussi cela des _slice_, c'est-à-dire des sous-chaînes de caractères (aussi appellées "sous-strings" ou *substrings*) c'est donc un morceau, un extrait de la chaîne de caractère.

```python
ma_chaine[x,y]
```

Attention car Python utilise des intervalles semi-ouverts, c'est-à-dire que **x est inclusif**, et **y est exclusif** : la fonction de _slice_ prend en compte l'élément x mais s'arrête lorsqu'il rencontre l'élément y, et donc ne le prend pas en compte.

Ce fonctionnement permet d'écrire des lignes de code très élégantes. Par exemple si une string doit être divisée est divisée en trois groupes séparées par deux indices i et j, alors: 

```python
a = a[:i] + a[i:j] + a[j:]
```
Une autre manière de voir cela : si i = 3 et est utilisé comme borne supérieur, c'est un peu comme si il valait ```2.999999...``` avec une infinité de décimales.
(Voir la section "Pour aller plus loin" de la fin de ce chapitre)

Et n'oubliez pas que Python commence à compter par 0 ! Par exemple :

In [None]:
ma_chaine = "Hello World !!!"

print(ma_chaine[0:1])
print(ma_chaine[0:4])
print(ma_chaine[4:6])
print(ma_chaine[12:15])

On peut aussi le remplacer par des nombres négatifs. Dans ce cas là le calcul de l'index se fait en partant de la fin :

| H   | e   | l   | l   | o   |     | W  | o  | r  | l  | d  |    | !  | !  | !  |
|-----|-----|-----|-----|-----|-----|----|----|----|----|----|----|----|----|----|
| -15 | -14 | -13 | -12 | -11 | -10 | -9 | -8 | -7 | -6 | -5 | -4 | -3 | -2 | -1 |

In [None]:
ma_chaine = "Hello World !!!"

print(ma_chaine[-2:-1])
print(ma_chaine[-9:-4])
print(ma_chaine[-15:-11])

Si on laisse x ou y vide, cela signifie qu'on souhaite sélectionner les éléments jusqu'à la fin. Ex:

In [None]:
ma_chaine = "Hello World !!!"

print(ma_chaine[3:])
print(ma_chaine[:-4])

# La concaténation

C'est le fait d'assembler, de coller, des chaînes de caractères ou des caractères entre eux. Sous Python c'est facile, nous l'avons déjà vu, il suffit d'utiliser l'opérateur ``+`` comme si c'était des nombres.

In [None]:
chaine1 = "Hello "
chaine2 = "World !!!"

print(chaine1 + chaine2)

## Exercice (facile)

Écrivez un programme à l'aide d'une boucle ``for`` qui recompose correctement la liste des jours en ajoutant **"di"** quand il le faut.

**ASTUCES:**

- Attention, il y a une exception pour dimanche, utilisez un ``if`` dans votre boucle pour régler le problème !

In [None]:
jours_tronques = ["lun", "mar", "mercre", "jeu", "vendre", "same", "manche"]

# Tapez votre code ici :

In [None]:
# Solution

jours_tronques = ["lun", "mar", "mer", "jeu", "vendre", "same", "manche"]

for jour in jours_tronques:
    if jour == "manche": print("di" + jour)
    else: print(jour + "di")

# Autres fonctions utiles

## Le mot-clé ``in``

Cette instruction python signifie tout simplement "dans" ou plus exactement "contenu dans". On l'a souvent vu en conjonction avec ``for``, mais il peut aussi s'utiliser seul. Dans ce cas là il renvoie ``True`` si l'élément que l'on cherche est dans l'objet que l'on cherche ou ``False`` dans le cas contraire.

Par exemple :

In [None]:
lettres = ["a", "b", "c", "d"]

print("a" in ma_liste_de_courses)
print("e" in ma_liste_de_courses)

## Exercice (facile)

Si le mot "spaghettis" est contenu dans la liste de course : affichez le texte "Miam !".

Puis si le mot "chocolat" est présent : affichez le texte "Miam !", sinon affichez le texte "Pas de chocolat :(".

**Astuce**:

- Utilisez des ``if`` et des ``else``.

In [None]:
ma_liste_de_courses = ["poireaux", "dentifrice", "spaghettis", "riz"]

# tapez votre code ici

In [None]:
# Solution

ma_liste_de_courses = ["poireaux", "dentifrice", "spaghettis", "riz brun"]

if "spaghettis" in ma_liste_de_courses: print("Miam !")

if "chocolat" in ma_liste_de_courses:
    print("Miam !")
else: print("Pas de chocolat... :(")

Remarquez que si vous voulez avoir le comportement inverse, il suffit d'ajouter un ``not`` avant le ``in``. Par exemple :

```python
if "fruits" not in ma_liste_de_courses:
```

## Majuscules et minuscules

Les méthodes ``.upper()`` et ``.lower()`` permettent de mettre en majuscule ou en minuscule une chaîne de caractères. Exemple : 

In [None]:
cri = "INUTILE DE CRIER !"
chuchotement = "peux-tu parler plus fort ?"

print(cri.lower())
print(chuchotement.upper())

## Exercice (facile)

Affichez tous les mots de la liste suivante en minuscule.

**Astuces**:

- Utilisez une boucle ``for``.

In [None]:
l = ['NooB', 'HaCKerZ', 'NeWBiE']
# tapez votre code ici


In [None]:
# Solution

l = ['NooB', 'HaCKerZ', 'NeWBiE']
for mot in l: print(mot.lower())

## Exercice (moyen)

La lettre "e" est la plus répandue dans la langue française mais combien de fois est-elle présente dans ces deux extraits de textes écrits, respectivement, par Baudelaire et Perec ?

**ASTUCES**:

- Ici on va itérer sur chaque caractère de la string.
- Comme nous voulons compter tous les "e", quelque soit son accent, il va falloir utiliser la "liste_e" avec un ``if``... ``in`` pour vérifier si un élément d'une liste est présent dans une string.
- Attention avec les majuscules et les minuscules ! Il va falloir gérer cela en utilisant ``.upper()`` ou ``.lower()``.
- Les trois guillemets ``"""`` permettent de faire comprendre à Python que tout ce qui va suivre est du texte, jusqu'à ce que l'on ferme les triple guillemets.

In [None]:
baudelaire = """
Pour l'enfant, amoureux de cartes et d'estampes,
L'univers est égal à son vaste appétit.
Ah ! que le monde est grand à la clarté des lampes !
Aux yeux du souvenir que le monde est petit !

Un matin nous partons, le cerveau plein de flamme,
Le coeur gros de rancune et de désirs amers,
Et nous allons, suivant le rythme de la lame,
Berçant notre infini sur le fini des mers.
"""

perec = """
Il ouvrit son frigo mural, il prit du lait froid, il but un grand bol.
Il s'apaisait. Il s'assit sur son cosy, il prit un journal qu'il parcourut d'un air distrait.
Il alluma un cigarillo qu'il fuma jusqu'au bout quoiqu'il trouvât son parfum irritant. Il toussa.
"""

liste_e = ['e', 'é', 'è', 'ê', 'ë']

# Tapez votre code ici:

In [None]:
# Solution

baudelaire = """
Pour l'enfant, amoureux de cartes et d'estampes,
L'univers est égal à son vaste appétit.
Ah ! que le monde est grand à la clarté des lampes !
Aux yeux du souvenir que le monde est petit !

Un matin nous partons, le cerveau plein de flamme,
Le coeur gros de rancune et de désirs amers,
Et nous allons, suivant le rythme de la lame,
Berçant notre infini sur le fini des mers.
"""

perec = """
Il ouvrit son frigo mural, il prit du lait froid, il but un grand bol.
Il s'apaisait. Il s'assit sur son cosy, il prit un journal qu'il parcourut d'un air distrait.
Il alluma un cigarillo qu'il fuma jusqu'au bout quoiqu'il trouvât son parfum irritant. Il toussa.
"""

liste_e = ['e', 'é', 'è', 'ê', 'ë']

# Tapez votre code ici:

for texte in [baudelaire, perec]:
    nbr_de_e = 0
    for car in texte:
        if car.lower() in liste_e: nbr_de_e += 1

    print(f"Il y a {nbr_de_e} 'e' dans ce texte")

## Fonction .split()

Cette fonction permet de transformer une string en une liste grâce à un séparateur. Par défaut celui-ci est l'espace " ". Exemple :

In [None]:
encore_une_string = "Bonjour, je suis une phrase. Donc je suis composé de plusieurs mots, logique, non ?"
encore_une_string.split()

Mais on pourrait choisir comme séparateur la virgule par exemple :

In [None]:
encore_une_string = "bonjour, je suis une phrase. Donc je suis composé de plusieurs mots, logique, non ?"
encore_une_string.split(",")

## Exercice (moyen)

A partir de la phrase stockée dans la variable "texte", affichez chacun des mots mais modifiez-les pour qu'ils commencent tous par une majuscule.

**ASTUCES**:

- N'oubliez pas les principes de la concaténation, des _slices_ et de ``.split()`` !
- Pour rappel : la méthode pour mettre des caractères en majuscule est ``.upper()``.

In [None]:
texte = """
Python est un langage qui peut s'utiliser dans de nombreux contextes
et s'adapter à tout type d'utilisation grâce à des bibliothèques spécialisées.
"""

# Tapez votre code ici :

In [None]:
# Solution

texte = """
Python est un langage qui peut s'utiliser dans de nombreux contextes
et s'adapter à tout type d'utilisation grâce à des bibliothèques spécialisées.
"""

for mot in texte.split(): print(mot[0].upper() + mot[1:])

## La méthode .replace()

Si l'on veut remplacer un ou plusieurs caractères dans une string (*substring*), on peut utiliser une méthode très pratique : ```.replace()```

```python
string.replace(old, new, count)
```

Où :
- **old** : ancienne substring que vous voulez remplacer.
- **new** : nouvelle substring que vous voulez substituer à l'ancienne.
- **count** : le nombre de fois que vous voulez remplacer l'ancienne substring avec la nouvelle (optionel).

Par exemple :

In [None]:
texte = "S@lut, ç@ va ?"
print("Le texte avant :", texte)

texte = texte.replace('@', 'a')
print("Le texte après :", texte)

## Exercice (facile/moyen)

On veut modifier la liste suivante afin de visualiser clairement les prénoms, noms et les fournisseurs de messagerie électronique sous la forme suivante :

```python
"prénom nom - Messagerie : name.ext"
```
Par exemple pour l'adresse :
```python
"jeanne.chose@no-log.org"
```
on veut le résultat suivant :
```python
"jeanne chose - Messagerie : no-log.org"
```

**ASTUCES:**

- Attention ! On ne veut supprimer **que le premier point, pas le deuxième !**
- On peut appliquer une méthode à la suite d'une autre méthode, par exemple une succession de ``.replace()`` sur une string.

In [None]:
emails = ["jean.truc@aol.com", "herve.bidule@wanadoo.fr", "emilie.machin@caramail.com"]

# Taper le code ici :


In [None]:
# Solution

emails = ["jean.truc@aol.com", "herve.bidule@wanadoo.fr", "emilie.machin@caramail.com"]

# With a comprehensive list
[el.replace('.', ' ', 1).replace('@',' - Messagerie : ') for el in emails]

# With a for loop
l = []
for el in emails:
    l.append(el.replace('.', ' ', 1).replace('@',' - Messagerie : '))

print(l)


# Pour aller plus loin

## Utilisation de ``step`` dans un slice

On peut également ajouter, tout comme la fonction ``range()``, la notion de ``step``, de pas ou d'incrément. Par exemple en ajoutant un 2 à la fin, on signifie à python qu'on ne veut sélectionner qu'un caractère sur deux.

In [None]:
ma_chaine = "Hello World !!!"

print(ma_chaine[0:-1:1])
print(ma_chaine[::2])

## La méthode ``.count()``

Pour ne pas faire une boucle, on peut utiliser la méthode ``.count()`` afin de compter le nombre d'occurences d'un caractère dans une string. Notez que la **casse**, le fait que les mots commencent par une majuscule ou une minuscule, est importante. En effet en programmation un "H" n'est pas égal à un "h".

Par exemple :

In [None]:
ma_chaine = "Hello World ! Hello, dear old world."

print("Nombre de 'Hello':", ma_chaine.count("Hello"))
print("Nombre de 'hello':", ma_chaine.count("hello"))
print("Nombre de 'World':", ma_chaine.count("World"))
print("Nombre de 'world':", ma_chaine.count("world"))

## L'ASCII

Si vous vous souvenez de l'introduction, vous savez que tout caractère est rattaché à un nombre qui le définit. Pour le trouver on peut utiliser la fonction ``ord()``. Pour faire le chemin inverse et afficher le caractère correspondant à un chiffre, on peut utiliser la fonction ``chr()``.

In [None]:
print("Code ASCII de 'h':", ord('h'))
print("Code ASCII de 'H':", ord('H'))
print("Code ASCII de ' ':", ord(' '))
print("Code ASCII de '@':", ord('@'))

**NOTE**: Les puristes pourront trouver le nombre en hexadécimal avec la fonction ``hex()``

In [None]:
print("Code ASCII en hexadécimal de 'h':", hex((ord('h'))))
print("Code ASCII en hexadécimal de 'H':", hex((ord('H'))))

## Au sujet des intervalles "semi-ouverts"

Voici une citation attribuée à Guido Van Rossum :

>[...] I was swayed by the elegance of half-open intervals. Especially the invariant that when two slices are adjacent, the first slice's end index is the second slice's start index is just too beautiful to ignore. For example, suppose you split a string into three parts at indices i and j -- the parts would be a[:i], a[i:j], and a[j:].

>[...] J'étais attiré par l'élégance des intervalles semi-ouverts. Surtout par le fait que quand deux *slices* sont adjacentes, la fin du l'index du premier *slice* est aussi le début de l'index du second ; difficile d'ignorer quelque chose d'aussi beau. Par exemple, si vous divisez une chaîne de caractères en trois parties en partant des indices i et j, les trois parties s'écriront ainsi : a[:i], a[i:j], et a[j:].

(Traduction de votre serviteur)

Source : un commentaire utilisé sur google+, qui n'existe désormais plus, mais qu'on peut retrouver sur ce post sur [stackoverflow](https://stackoverflow.com/questions/21481585/python-range-slicing-and-indexing-behavior)