# CHAINES DE CARACTERE

Nous avons vu dans les cours précédents que les chaînes de caractères étaient en fait des suites ordonnés de caractère : ce sont en quelque sorte des listes de caractères. La manipulation de texte ou de chaîne de caractère est quelque chose de courant en programmation et Python dispose d'un large éventail de méthodes pour traiter ce type d'objet.

## Rappel des index

Chaque caractère alphanumérique dispose d'un index dans une string. On peut y accéder en entrant l'index, qui est toujours un nombre entier et part toujours de 0, ainsi :

| H | e | l | l | o |   | W | o | r | l | d  |    | !  | !  | !  |
|---|---|---|---|---|---|---|---|---|---|----|----|----|----|----|
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |

# STRINGS

We have previously seen that strings are in fact ordered sequences of characters. String manipulation is common in programming and Python has a wide range of methods to handle this type of object.

## Index

Each alphanumeric character has an index in a string. It can be accessed by entering the index, which is always an integer and always starts from 0, so :

| H | e | l | l | o |   | W | o | r | l | d  |    | !  | !  | !  |
|---|---|---|---|---|---|---|---|---|---|----|----|----|----|----|
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 |

In [None]:
my_string = "Hello World !!!"
my_string[0]

En Python, une string est un itérable, donc on peut utiliser une boucle `for`.

In Python a string is an iterable obect, so we can use a `for` loop.

In [None]:
my_string = "Hello World !!!"

for i in my_string:
    print(i)

## Sélection d'index

On peut tout à fait sélectionner différents index à la fois en leur indiquant un début et une fin. Pour cela on les sépare par un `:` pour créer une plage, un _range_, c'est-à-dire que l'on indique un début et une fin. On appelle aussi cela des _slice_, c'est-à-dire des sous-chaînes de caractères (aussi appellées "sous-strings" ou *substrings*) c'est donc un morceau, un extrait de la chaîne de caractère.

```python
ma_chaine[x,y]
```

Attention car Python utilise des intervalles semi-ouverts, c'est-à-dire que **x est inclusif**, et **y est exclusif** : la fonction de _slice_ prend en compte l'élément x mais s'arrête lorsqu'il rencontre l'élément y, et donc ne le prend pas en compte.

Ce fonctionnement permet d'écrire des lignes de code très élégantes. Par exemple si une string doit être divisée est divisée en trois groupes séparées par deux indices i et j, alors: 

```python
a = a[:i] + a[i:j] + a[j:]
```
Une autre manière de voir cela : si i = 3 et est utilisé comme borne supérieur, c'est un peu comme si il valait `2.999999...` avec une infinité de décimales.
(Voir la section "Pour aller plus loin" de la fin de ce chapitre)

Si on laisse x ou y vide, cela signifie qu'on souhaite sélectionner les éléments jusqu'à la fin. Ex:

## Selecting indexes


Several characters can be accessed using a numerical index in square brackets. This is done by separating the start index and the stop index with a `:`. This is also called *slicing*, which is a substring.

```python
my_string[x,y]
```

Python uses semi-open ranges, so the x is inclusive and the y is exclusive. The function of *slice* takes the x element into account but stops when it encounters the y element, and thus does not take it into account.

This makes it possible to write very elegant lines of code. For example, if we want a string to be split into three groups separated by two indices i and j, then: 

```python
a = a[:i] + a[i:j] + a[j:]
```
Another way of looking at it: if i = 3 and is used as an upper bound, it's a bit like having a value of `2.999999...` with infinite decimal places.

Leaving the lower bound or the upper bound empty means we want to select all the indexes from the start or until the end.

In [None]:
my_string = "Hello World !!!"

print(my_string[0:1])
print(my_string[:1])
print(my_string[0:4])
print(my_string[4:6])
print(my_string[12:15])
print(my_string[12:])

### Index negatif

On peut aussi le remplacer par des nombres négatifs. Dans ce cas là le calcul de l'index se fait en partant de la fin :

| H   | e   | l   | l   | o   |     | W  | o  | r  | l  | d  |    | !  | !  | !  |
|-----|-----|-----|-----|-----|-----|----|----|----|----|----|----|----|----|----|
| -15 | -14 | -13 | -12 | -11 | -10 | -9 | -8 | -7 | -6 | -5 | -4 | -3 | -2 | -1 |

### Negative indexing

We can also use negative indexing. In that case the last character is -1.

| H   | e   | l   | l   | o   |     | W  | o  | r  | l  | d  |    | !  | !  | !  |
|-----|-----|-----|-----|-----|-----|----|----|----|----|----|----|----|----|----|
| -15 | -14 | -13 | -12 | -11 | -10 | -9 | -8 | -7 | -6 | -5 | -4 | -3 | -2 | -1 |

In [None]:
my_string = "Hello World !!!"

print(my_string[-2:-1])
print(my_string[-9:-4])
print(my_string[-15:-11])
print(my_string[:-4])
print(my_string[-9:])

### Exercice (facile)

Utilisez la variable suivante ainsi que des *slices* et des `print()` pour afficher:

- "Bonjour" (en utilisant des index positifs)
- "programmeur" (en utilisant des index négatifs)

### Exercise (easy)

Use the following variable along with *slices* and `print()` to display:

- "Hello" (using positive indexes)
- "programmers" (using negative indexes)

In [None]:
s = "Bonjour à tous les programmeurs."

# Code here!


In [None]:
s = "Hello to all programmers."

# Code here!


In [None]:
# Solution

s = "Bonjour à tous les programmeurs."

print(s[:7])
print(s[-13:-1])

In [None]:
# Solution

s = "Hello to all programmers."

print(s[:5])
print(s[-12:-1])

# La concaténation

C'est le fait d'assembler, de coller, des chaînes de caractères ou des caractères entre eux. Sous Python c'est facile, nous l'avons déjà vu, il suffit d'utiliser l'opérateur `+` comme si c'était des nombres.

# Concatenation

This is the act of joining strings or characters together. In Python it's easy, as we've already seen, just use the `+` operator as if they were numbers.

In [None]:
s1 = "Hello "
s2 = "World !!!"

print(s1 + s2)

## Exercice (facile)

Utilisez une boucle `for` pour rectifer l'orthographe de chaque élément de la liste suivante en ajoutant les caractères **"di"** quand il le faut.

**ASTUCES:**

- Attention, il y a une exception pour dimanche, utilisez un `if` dans votre boucle pour régler le problème !

## Exercise (easy)

Use a `for` loop to correct the spelling of each item in the following list by adding the **"di"** characters when necessary.

**TIPS:**

- Beware, there is an exception for "dimanche", use an `if` in your loop to fix the problem!

In [None]:
jours_tronques = ["lun", "mar", "mercre", "jeu", "vendre", "same", "manche"]

# Tapez votre code ici :


In [None]:
# Solution

jours_tronques = ["lun", "mar", "mer", "jeu", "vendre", "same", "manche"]

for jour in jours_tronques:
    if jour == "manche": print("di" + jour)
    else: print(jour + "di")

# Autres fonctions utiles

## Le mot-clé `in`

Cette instruction python signifie tout simplement "dans" ou plus exactement "contenu dans". Pour l'instant nous l'avons toujours vu avec `for`, mais il peut aussi s'utiliser pour vérifier qu'un objet contient un certain élément. Dans ce cas là il renvoie `True si l'élément que l'on cherche est dans contenu dans l'objet ou `False dans le cas contraire.

Par exemple :

# Other useful functions

## The `in` keyword

This python statement simply means "in" or more accurately "contained in". So far we've always seen it with `for`, but it can also be used to check that an object contains a certain element. In this case it returns `True` if the element we're looking for is contained in the object or `False` otherwise.

For example:

In [None]:
seq = ["a", "b", "c", "d"]

print("a" in seq)
print("e" in seq)

### L'opérateur `not`

Remarquez que si vous voulez avoir le comportement inverse, il suffit d'ajouter un `not` avant le `in`. Par exemple :

### The `not` operator
If you need the opposite behaviour, just add a `not` before the `in`. For example:

In [None]:
seq = ["a", "b", "c", "d"]

print("z" not in seq)

## Exercice (facile)

Si la lettre "x" est contenue dans la liste nommée "symbols", affichez le texte "x est présent". Sinon affichez "x n'est pas présent".

Puis si "pi" n'est pas présent dans le texte, affichez "pi n'est pas présent", autrement affichez "pi est présent".

**Astuce**:

- Utilisez des `if`, des `else`, des `in` et des `not`.

## Exercise (easy)

If the letter "x" is contained in the list named "symbols", display the text "x is present". Otherwise display "x is not present".

Then if "pi" is not present in the text, display "pi is not present", otherwise display "pi is present".

**Tip**:

- Use `if`, `else`, `in` and `not`.

In [None]:
symbols = ["fi", "x", "lambda", "epsilon", "y"]

# code here!

In [None]:
# Solution

symbols = ["fi", "x", "lambda", "epsilon", "y"]

if "x" in symbols: print("x est présent !")
else: print("x n'est pas présent !")

if "pi" in symbols: print("pi est présent !")
else: print("pi n'est pas présent !")

In [None]:
# Solution

symbols = ["fi", "x", "lambda", "epsilon", "y"]

if "x" in symbols: print("x is present!")
else: print("x isn't present!")

if "pi" in symbols: print("pi is present!")
else: print("pi isn't present!")

## Majuscules et minuscules

Les méthodes `.upper()` et `.lower()` permettent de mettre en majuscule ou en minuscule une chaîne de caractères. Exemple : 

## Upper and lower case

The `.upper()` and `.lower()` methods convert all of the characters to uppercase or to lowercase. Example: 

In [None]:
cri = "INUTILE DE CRIER !"
chuchotement = "peux-tu parler plus fort ?"

print(cri.lower())
print(chuchotement.upper())

In [None]:
loud = "UPPERCASE!!!"
soft = "lowercase..."

print(loud.lower())
print(soft.upper())

## Exercice (facile)

Affichez tous les mots de la liste suivante en minuscule.

**Astuces**:

- Utilisez une boucle `for`.

## Exercise (easy)

Show all the words in the following list in lower case.

**Tips**:

- Use a `for` loop.

In [None]:
l = ['NooB', 'HaCKerZ', 'NeWBiE']
# tapez votre code ici


In [None]:
# Solution

l = ['NooB', 'HaCKerZ', 'NeWBiE']
for word in l: print(word.lower())

## Exercice (moyen)

La lettre "e" est la plus répandue dans la langue française mais combien de fois est-elle présente dans ces deux extraits de textes écrits, respectivement, par Baudelaire et Perec ?

**ASTUCES**:

- Ici on va itérer sur chaque caractère de la string.
- Comme nous voulons compter tous les "e", quelque soit son accent, il va falloir utiliser la "liste_e" avec un `if`... `in` pour vérifier si un élément d'une liste est présent dans une string.
- Attention avec les majuscules et les minuscules ! Il va falloir gérer cela en utilisant `.upper()` ou `.lower()`.
- Les trois guillemets `"""` permettent de faire comprendre à Python que tout ce qui va suivre est du texte, jusqu'à ce que l'on ferme les triple guillemets.

## Exercise (medium)

The letter "e" is the most common in the English language, but how many times is it present in these two extracts from texts written, respectively, by Poe and Wright?

**ASTUCES**:

- Here we will iterate on each character of the string.
- Be careful with upper and lower case! You'll have to handle this using `.upper()` or `.lower()`.
- The three double quotes `"""` let Python know that everything that follows is text, until you close the triple double quotes.

In [None]:
baudelaire = """
Pour l'enfant, amoureux de cartes et d'estampes,
L'univers est égal à son vaste appétit.
Ah ! que le monde est grand à la clarté des lampes !
Aux yeux du souvenir que le monde est petit !

Un matin nous partons, le cerveau plein de flamme,
Le coeur gros de rancune et de désirs amers,
Et nous allons, suivant le rythme de la lame,
Berçant notre infini sur le fini des mers.
"""

perec = """
Il ouvrit son frigo mural, il prit du lait froid, il but un grand bol.
Il s'apaisait. Il s'assit sur son cosy, il prit un journal qu'il parcourut d'un air distrait.
Il alluma un cigarillo qu'il fuma jusqu'au bout quoiqu'il trouvât son parfum irritant. Il toussa.
"""

liste_e = ['e', 'é', 'è', 'ê', 'ë']

# Code here!



In [None]:
poe = """
Once upon a midnight dreary, while I pondered, weak and weary,
Over many a quaint and curious volume of forgotten lore—
    While I nodded, nearly napping, suddenly there came a tapping,
As of some one gently rapping, rapping at my chamber door.
“’Tis some visitor,” I muttered, “tapping at my chamber door—
            Only this and nothing more.”

Ah, distinctly I remember it was in the bleak December;
And each separate dying ember wrought its ghost upon the floor.
    Eagerly I wished the morrow;—vainly I had sought to borrow
    From my books surcease of sorrow—sorrow for the lost Lenore—
For the rare and radiant maiden whom the angels name Lenore—
            Nameless here for evermore.
"""

wright = """
If Youth, throughout all history, had had a champion to stand up for it;
to show a doubting world that a child can think; and, possibly, do it practically;
you wouldn't constantly run across folks today who claim that "a child don't know anything."
A child's brain starts functioning at birth; and has, amongst its many infant convolutions,
thousands of dormant atoms, into which God has put a mystic possibility for noticing an adult's act,
and figuring out its purport.
"""

# code here!



In [None]:
# Solution

baudelaire = """
Pour l'enfant, amoureux de cartes et d'estampes,
L'univers est égal à son vaste appétit.
Ah ! que le monde est grand à la clarté des lampes !
Aux yeux du souvenir que le monde est petit !

Un matin nous partons, le cerveau plein de flamme,
Le coeur gros de rancune et de désirs amers,
Et nous allons, suivant le rythme de la lame,
Berçant notre infini sur le fini des mers.
"""

perec = """
Il ouvrit son frigo mural, il prit du lait froid, il but un grand bol.
Il s'apaisait. Il s'assit sur son cosy, il prit un journal qu'il parcourut d'un air distrait.
Il alluma un cigarillo qu'il fuma jusqu'au bout quoiqu'il trouvât son parfum irritant. Il toussa.
"""

liste_e = ['e', 'é', 'è', 'ê', 'ë']

# Tapez votre code ici:

for texte in [baudelaire, perec]:
    nombre_de_e = 0
    for car in texte:
        if car.lower() in liste_e: nombre_de_e += 1

    print(f"Il y a {nombre_de_e} 'e' dans ce texte.")

In [None]:
# Solution

poe = """
Once upon a midnight dreary, while I pondered, weak and weary,
Over many a quaint and curious volume of forgotten lore—
    While I nodded, nearly napping, suddenly there came a tapping,
As of some one gently rapping, rapping at my chamber door.
“’Tis some visitor,” I muttered, “tapping at my chamber door—
            Only this and nothing more.”

Ah, distinctly I remember it was in the bleak December;
And each separate dying ember wrought its ghost upon the floor.
    Eagerly I wished the morrow;—vainly I had sought to borrow
    From my books surcease of sorrow—sorrow for the lost Lenore—
For the rare and radiant maiden whom the angels name Lenore—
            Nameless here for evermore.
"""

wright = """
If Youth, throughout all history, had had a champion to stand up for it;
to show a doubting world that a child can think; and, possibly, do it practically;
you wouldn't constantly run across folks today who claim that "a child don't know anything."
A child's brain starts functioning at birth; and has, amongst its many infant convolutions,
thousands of dormant atoms, into which God has put a mystic possibility for noticing an adult's act,
and figuring out its purport.
"""

# code here!

for text in [poe, wright]:
    number_of_e = 0
    for char in text:
        if char.lower() == "e": number_of_e += 1

    print(f"There are {number_of_e} 'e' in this text")

## Fonction `.split()`

Cette fonction permet de transformer une string en une liste grâce à un séparateur. Par défaut celui-ci est l'espace " ". Exemple :

## Function `.split()`

This function splits a string into a list at the specified separator and returns a list of substrings. By default, the separator is the space " ". Example :

In [None]:
encore_une_string = "Bonjour, je suis une phrase. Donc je suis composé de plusieurs mots, logique, non ?"
encore_une_string.split()

In [None]:
a_string = "Hello, I am a sentence. So I'm made up of several words, logical, right?"
a_string.split()

Mais on pourrait choisir comme séparateur la virgule par exemple :

But we could use the comma as separator:

In [None]:
encore_une_string = "bonjour, je suis une phrase. Donc je suis composé de plusieurs mots, logique, non ?"
encore_une_string.split(",")

In [None]:
a_string = "Hello, I am a sentence. So I'm made up of several words, logical, right?"
a_string.split(",")

## Exercice (moyen)

A partir de la phrase stockée dans la variable "texte", affichez chacun des mots mais modifiez-les pour qu'ils commencent tous par une majuscule.

**ASTUCES**:

- N'oubliez pas les principes de la concaténation, des *slices* et de `.split()` !
- Pour rappel : la méthode pour mettre des caractères en majuscule est `.upper()`.

## Exercise (medium)

From the sentence stored in the "text" variable, display each of the words but change them so that they all start with a capital letter.

**TIPS**:

- Don't forget the principles of concatenation, *slices* and `.split()`!
- As a reminder: the method for capitalizing characters is `.upper()`.

In [None]:
texte = """
Python est un langage qui peut s'utiliser dans de nombreux contextes
et s'adapter à tout type d'utilisation grâce à des bibliothèques spécialisées.
"""

# Tapez votre code ici :

In [None]:
text = """
Python is a language that can be used in many contexts
and can be adapted to any type of use thanks to specialised libraries.
"""

# Code here!

In [None]:
# Solution

texte = """
Python est un langage qui peut s'utiliser dans de nombreux contextes
et s'adapter à tout type d'utilisation grâce à des bibliothèques spécialisées.
"""

for mot in texte.split(): print(mot[0].upper() + mot[1:])

# for mot in texte.split(): print(mot.capitalize())

In [None]:
# Solution

text = """
Python is a language that can be used in many contexts
and can be adapted to any type of use thanks to specialised libraries.
"""

for word in text.split(): print(word[0].upper() + word[1:])

# for word in text.split(): print(word.capitalize())

## La méthode `.replace()`

Si l'on veut remplacer un ou plusieurs caractères dans une string, on peut utiliser une méthode très pratique : `.replace()`

```python
string.replace(old, new, count)
```

Où :
- **old** : ancienne substring que vous voulez remplacer.
- **new** : nouvelle substring que vous voulez substituer à l'ancienne.
- **count** : le nombre de fois que vous voulez remplacer l'ancienne substring avec la nouvelle (optionnel).

Par exemple :

## The `.replace()` method

If you want to replace one or more characters in a string (*substring*), you can use a very handy method: `.replace()`.

```python
string.replace(original, new, count)
```

Where:
- **old**: the original substring you want to replace.
- **new** : the new substring.
- **count** : the number of times you want to replace the original substring with the new one (optional).

For example :

In [None]:
texte = "S@lut, ç@ va ?"
print("Le texte avant :", texte)

texte = texte.replace('@', 'a')
print("Le texte après :", texte)

In [None]:
text = "Hell@, h@w you d@ing?"
print(f"Text before: {text}")

text = text.replace('@', 'o')
print(f"Text after: {text}")

## Exercice (facile/moyen)

On veut modifier la liste suivante afin de visualiser clairement les prénoms, noms et les fournisseurs de messagerie électronique sous la forme suivante :

```python
"prénom nom - Messagerie : name.ext"
```
Par exemple pour l'adresse :
```python
"jeanne.chose@no-log.org"
```
on veut le résultat suivant :
```python
"jeanne chose - Messagerie : no-log.org"
```

**ASTUCES:**

- Attention ! On ne veut supprimer **que le premier point, pas le deuxième !**
- On peut appliquer une méthode à la suite d'une autre méthode, par exemple une succession de `.replace()` sur une string.

## Exercise (easy/medium)

We want to modify the following list to clearly display the first names, surnames and email providers in the following form:

```python
"firstname lastname - Mailbox provider: name.ext"
```
For example for the address:
```python
"jeanne.chose@no-log.org"
```
we want the following result:
```python
"jeanne chose - Mailbox provider: no-log.org"
```

**TIPS:**

- Be careful! You only want to delete **the first point, not the second!**
- You can apply a method after another method, for example a succession of `.replace()` on a string.

In [None]:
emails = ["jean.truc@aol.com", "herve.bidule@wanadoo.fr", "emilie.machin@caramail.com"]

# Code here!


In [None]:
# Solution

emails = ["jean.truc@aol.com", "herve.bidule@wanadoo.fr", "emilie.machin@caramail.com"]

# With a comprehensive list
[el.replace('.', ' ', 1).replace('@',' - Messagerie : ') for el in emails]

# With a for loop
l = []
for el in emails:
    l.append(el.replace('.', ' ', 1).replace('@',' - Messagerie : '))

print(l)

# Pour aller plus loin

## Utilisation de `step` dans un slice

On peut également ajouter, tout comme la fonction `range()`, la notion de `step`, de pas ou d'incrément. Par exemple en ajoutant un 2 à la fin, on signifie à python qu'on ne veut sélectionner qu'un caractère sur deux.

In [None]:
ma_chaine = "Hello World !!!"

print(ma_chaine[0:-1:1])
print(ma_chaine[::2])

## La méthode `.count()`

Pour ne pas faire une boucle, on peut utiliser la méthode `.count()` afin de compter le nombre d'occurences d'un caractère dans une string. Notez que la **casse**, le fait que les mots commencent par une majuscule ou une minuscule, est importante. En effet en programmation un "H" n'est pas égal à un "h".

Par exemple :

In [None]:
ma_chaine = "Hello World ! Hello, dear old world."

print("Nombre de 'Hello':", ma_chaine.count("Hello"))
print("Nombre de 'hello':", ma_chaine.count("hello"))
print("Nombre de 'World':", ma_chaine.count("World"))
print("Nombre de 'world':", ma_chaine.count("world"))

## L'ASCII

Si vous vous souvenez de l'introduction, vous savez que tout caractère est rattaché à un nombre qui le définit. Pour le trouver on peut utiliser la fonction `ord()`. Pour faire le chemin inverse et afficher le caractère correspondant à un chiffre, on peut utiliser la fonction `chr()`.

In [None]:
print("Code ASCII de 'h':", ord('h'))
print("Code ASCII de 'H':", ord('H'))
print("Code ASCII de ' ':", ord(' '))
print("Code ASCII de '@':", ord('@'))

**NOTE**: Les puristes pourront trouver le nombre en hexadécimal avec la fonction `hex()`

In [None]:
print("Code ASCII en hexadécimal de 'h':", hex((ord('h'))))
print("Code ASCII en hexadécimal de 'H':", hex((ord('H'))))

## Au sujet des intervalles "semi-ouverts"

Voici une citation attribuée à Guido Van Rossum :

>[...] I was swayed by the elegance of half-open intervals. Especially the invariant that when two slices are adjacent, the first slice's end index is the second slice's start index is just too beautiful to ignore. For example, suppose you split a string into three parts at indices i and j -- the parts would be a[:i], a[i:j], and a[j:].

>[...] J'étais attiré par l'élégance des intervalles semi-ouverts. Surtout par le fait que quand deux *slices* sont adjacentes, la fin du l'index du premier *slice* est aussi le début de l'index du second ; difficile d'ignorer quelque chose d'aussi beau. Par exemple, si vous divisez une chaîne de caractères en trois parties en partant des indices i et j, les trois parties s'écriront ainsi : a[:i], a[i:j], et a[j:].

(Traduction de votre serviteur)

Source : un commentaire utilisé sur google+, qui n'existe désormais plus, mais qu'on peut retrouver sur ce post sur [stackoverflow](https://stackoverflow.com/questions/21481585/python-range-slicing-and-indexing-behavior)