Chaînes de caractères
=====================

Introduction
------------

Une chaîne de caractères peut être considérée comme un **conteneur** de caractère.

Chaque *caractère* ayant **deux indices** (un positif et un négatif).

Cet objet est indispensable, car il permet de manipuler le signifiant. Aussi, il dispose de méthodes particulières pour le manipuler.

Considérations syntaxiques
--

Une chaîne de caractère est délimitée par un **"** ou un **'**.

In [None]:
print('Ceci est une nouvelle chaîne de caractère')

Elle peut tenir sur plusieurs lignes si la ligne se termine par **\\** (qui ne fait pas de changement de ligne).

In [None]:
print("Chaine de caractère\nNouvelle ligne. \
Ceci n'est pas une nouvelle ligne")

Elle peut également être écrite sur plusieurs lignes ainsi :

In [None]:
print("Chaine de caractère\nNouvelle ligne. "
      "Ceci n'est pas une nouvelle ligne")

In [None]:
c = "a" "b"
print(c)

 ou si l'on utilise trois **"** ou trois **'''**.

In [None]:
print("""Ceci est
une chaîne de caractères
sur plusieurs lignes""")

Méthodes de manipulation
------------------------

In [None]:
dir("")

Voici les méthodes présentes :

On distingue des méthodes permettant de travailler sur les chaînes de caractères :

* les méthodes **count** et **index** sont similaires à celles des conteneurs ;
* l'opérateur **+** permet la concaténation et l'opérateur **(*)** permet la répétition ;

In [None]:
"xXx" + "O"

In [None]:
"xXx" * 8

* la méthode **startswith** permet de savoir si la chaîne *commence* par une sous-chaîne ;
* la méthode **endswith** permet de savoir si la chaîne *termine* par une sous-chaîne ;

In [None]:
"Ceci est une phrase".startswith("Ceci est")

In [None]:
"Ceci est une phrase".endswith("un mot")

* la méthode **split** permet de découper une chaîne de caractère en utilisant un séparateur ;
* la méthode **join** permet l'inverse, elle est appelée sur la chaîne glue.

In [None]:
"Voici des mots".split(" ")

In [None]:
"_".join(["a", "b", "c"])

* la méthode **lower** permet de mettre la chaîne en minuscule ;
* la méthode **upper** permet de mettre la chaîne en majuscule ;
* la méthode **swapcase** permet d'inverser minuscules et majuscules ;
* la méthode **title** permet de mettre toutes les premières lettres de chaque mot en majuscule et les autres en minuscule ;
* la méthode **capitalize** permet de mettre la première lettre de la chaîne en majuscule et les autres en minuscule ;

In [None]:
'tEsT 42 tESt'.lower()

In [None]:
'tEsT 42 tESt'.upper()

In [None]:
'tEsT 42 tESt'.swapcase()

In [None]:
'tEsT 42 tESt'.title()

In [None]:
'tEsT 42 tESt'.capitalize()

Méthodes de formatage
---------------------

Voici un pêle-mêle des méthodes existantes :

In [None]:
'test'.center(30)

In [None]:
'test'.rjust(30)

In [None]:
"42".zfill(4)

In [None]:
'  -*- test -*- test -*-  '.strip()

In [None]:
import string
string.whitespace

In [None]:
'  -*- test -*- test -*-  '.strip(' -*')

In [None]:
'  -*- test -*- test -*-  '.replace('*', '').replace('-', '').strip().replace("  ", " ")

In [None]:
import string
print(dir(string))

In [None]:
string.whitespace

In [None]:
'  \t\x0b test -*- test\n'.strip(string.whitespace)

In [None]:
print(string.printable)

Formattage des chaînes de caractères
--

### Utilité

In [None]:
def afficher_resultat(resultat):
    print("Le résulat de l'opération est %s." % resultat)

In [None]:
afficher_resultat(42)

Cela permet de créer des chaînes de caractères dynamiques.

### Utilisation de l'opérateur modulo

Voici le détail de la syntaxe de l'opérateur modulo :

In [None]:
'%s' % 'test'

In [None]:
'%s' % 42

In [None]:
"j'ai le %s et le %s !!" % (4, 2)

In [None]:
"%(decimal)s%(unite)s = %(decimal)s * 10 + %(unite)s" % {"decimal": 4, "unite": 2}

In [None]:
"%d" % 42.94

In [None]:
"%f" % 42

In [None]:
"%6.2f" % 42

In [None]:
"%06.2f" % 42

In [None]:
"%-6.2f" % 42

In [None]:
"%+6.2f" % 42

In [None]:
"%6.2f" % 4264263.123456

A noter que la fonction modulo fonctionne comme celle de **sprintf** pour le C, modulo quelques ajouts fonctionnels et qu'il existe également la méthode format qui est similaire à celle permettant de formatter les chaînes de caractères en C++.

### Méthode `format`

In [None]:
"ceci est le {} du {}".format(4, 2)

In [None]:
"{1} {0}".format(4, 2)

In [None]:
"{1} {0} ({1})".format(4, 2)

In [None]:
"{a} {b}".format(a=4, b=2)

In [None]:
"{0:.2f}".format(42.345)

In [None]:
l = [1, 2, 3]
"{l[0]}".format(l=l)

In [None]:
"{l.append}".format(l=l)

In [None]:
d = {"a": 1, "b": 2}
"{d[a]}".format(d=d)

In [None]:
d = {"a": 1, "b": 2}
"{0[a]}".format(d)

In [None]:
name = 'Fred'
age = 42
f'He said his name is {name} and he is {age} years old.'

---

Manipulation de caractères
--

In [None]:
s = "Chaîne DE Caractères"

In [None]:
s.lower()

In [None]:
print(s)

In [None]:
s = s.lower()

```mermaid
flowchart LR

S -.->|Ancien Pointeur| M1[Zone mémoire de 'Chaîne DE Caractères']
S -->|Nouveau pointeur| M2[Zone mémoire de 'chaîne de caractères']
```

La chaîne de caractère est un objet **non mutable**. C'est à dire que sa zone mémoire n'est pas modifiable.

Modifier une chaîne de caractère est en réalité en créer une nouvelle, dans une autre zone mémoire.

Il est donc nécessaire pour modifier une chaîne de caractère et en garder la trace d'utiliser la réaffectation, ce qu'il ne faut surtout pas faire avec les objet **mutables**.

Cas d'utilisations et notion de performances
--

In [None]:
def count_words1(sentence):
    return len(sentence.split())

In [None]:
def count_words2(sentence):
    return sentence.count(" ") + 1

In [None]:
count_words1("Ceci est une phrase avec sept mots")

In [None]:
count_words2("Ceci est une phrase avec sept mots")

In [None]:
# from timeit import timeit
%timeit count_words1("Ceci est une phrase avec sept mots")

In [None]:
%timeit count_words2("Ceci est une phrase avec sept mots")

In [None]:
def trunc_sentence1(sentence):
    return " ".join(sentence.split()[1:-1])

In [None]:
trunc_sentence1("Ceci est une phrase avec sept mots")

In [None]:
def trunc_sentence2(sentence):
    nb_espaces = sentence.count(" ")
    m = M = sentence.index(" ")
    for i in range(nb_espaces - 1):
        M = sentence.index(" ", M + 1)
    return sentence[m+1:M]

In [None]:
trunc_sentence2("Ceci est une phrase avec sept mots")

In [None]:
%timeit trunc_sentence1("Ceci est une phrase avec sept mots")

In [None]:
%timeit trunc_sentence2("Ceci est une phrase avec sept mots")