Chaînes de caractères
=====================

Introduction
------------

Une chaîne de caractères peut être considérée comme un **conteneur** de caractère.

Chaque *caractère* ayant **deux indices** (un positif et un négatif).

Cet objet est indispensable, car il permet de manipuler le signifiant. Aussi, il dispose de méthodes particulières pour le manipuler.

Considérations syntaxiques
--

Une chaîne de caractère est délimitée par un **"** ou un **'**.

In [1]:
print('Ceci est une nouvelle chaîne de caractère')

Ceci est une nouvelle chaîne de caractère


Elle peut tenir sur plusieurs lignes si la ligne se termine par **\\** (qui ne fait pas de changement de ligne).

In [2]:
print("Chaine de caractère\nNouvelle ligne. \
Ceci n'est pas une nouvelle ligne")

Chaine de caractère
Nouvelle ligne. Ceci n'est pas une nouvelle ligne


Elle peut également être écrite sur plusieurs lignes ainsi :

In [3]:
print("Chaine de caractère\nNouvelle ligne. "
      "Ceci n'est pas une nouvelle ligne")

Chaine de caractère
Nouvelle ligne. Ceci n'est pas une nouvelle ligne


 ou si l'on utilise trois **"** ou trois **'''**.

In [4]:
print("""Ceci est
une chaîne de caractères
sur plusieurs lignes""")

Ceci est
une chaîne de caractères
sur plusieurs lignes


Méthodes de manipulation
------------------------

In [5]:
dir("")

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'stri

Voici les méthodes présentes :

On distingue des méthodes permettant de travailler sur les chaînes de caractères :

* les méthodes **count** et **index** sont similaires à celles des conteneurs ;
* l'opérateur **+** permet la concaténation et l'opérateur **(*)** permet la répétition ;

In [6]:
"xXx" + "O"

'xXxO'

In [7]:
"xXx" * 4

'xXxxXxxXxxXx'

* la méthode **startswith** permet de savoir si la chaîne *commence* par une sous-chaîne ;
* la méthode **endswith** permet de savoir si la chaîne *termine* par une sous-chaîne ;

In [8]:
"Ceci est une phrase".startswith("Ceci est")

True

In [9]:
"Ceci est une phrase".endswith("un mot")

False

* la méthode **split** permet de découper une chaîne de caractère en utilisant un séparateur ;
* la méthode **join** permet l'inverse, elle est appelée sur la chaîne glue.

In [10]:
"Voici des mots".split(" ")

['Voici', 'des', 'mots']

In [11]:
"_".join(["a", "b", "c"])

'a_b_c'

* la méthode **lower** permet de mettre la chaîne en minuscule ;
* la méthode **upper** permet de mettre la chaîne en majuscule ;
* la méthode **swapcase** permet d'inverser minuscules et majuscules ;
* la méthode **title** permet de mettre toutes les premières lettres de chaque mot en majuscule et les autres en minuscule ;
* la méthode **capitalize** permet de mettre la première lettre de la chaîne en majuscule et les autres en minuscule ;

In [12]:
'tEsT 42 tESt'.lower()

'test 42 test'

In [13]:
'tEsT 42 tESt'.upper()

'TEST 42 TEST'

In [14]:
'tEsT 42 tESt'.swapcase()

'TeSt 42 TesT'

In [15]:
'tEsT 42 tESt'.title()

'Test 42 Test'

In [16]:
'tEsT 42 tESt'.capitalize()

'Test 42 test'

Méthodes de formatage
---------------------

Voici un pêle-mêle des méthodes existantes :

In [17]:
'test'.center(30)

'             test             '

In [18]:
'test'.rjust(30)

'                          test'

In [19]:
"42".zfill(4)

'0042'

In [20]:
'  -*- test -*-  '.strip()

'-*- test -*-'

In [21]:
'  -*- test -*- test -*-  '.strip(' -*')

'test -*- test'

In [22]:
import string
print(dir(string))

['Formatter', 'Template', '_ChainMap', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', '_re', '_sentinel_dict', '_string', 'ascii_letters', 'ascii_lowercase', 'ascii_uppercase', 'capwords', 'digits', 'hexdigits', 'octdigits', 'printable', 'punctuation', 'whitespace']


In [23]:
string.whitespace

' \t\n\r\x0b\x0c'

In [24]:
'  \t\x0b test -*- test\n'.strip(string.whitespace)

'test -*- test'

In [25]:
print(string.printable)

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



Formattage des chaînes de caractères
--

### Utilité

In [26]:
def afficher_resultat(resultat):
    print("Le résulat de l'opération est %s." % resultat)

In [27]:
afficher_resultat(42)

Le résulat de l'opération est 42.


Cela permet de créer des chaînes de caractères dynamiques.

### Utilisation de l'opérateur modulo

Voici le détail de la syntaxe de l'opérateur modulo :

In [28]:
'%s' % 'test'

'test'

In [29]:
'%s' % 42

'42'

In [30]:
"j'ai le %s et le %s !!" % (4, 2)

"j'ai le 4 et le 2 !!"

In [31]:
"%(decimal)s%(unite)s = %(decimal)s * 10 + %(unite)s" % {"decimal": 4, "unite": 2}

'42 = 4 * 10 + 2'

In [32]:
"%d" % 42.94

'42'

In [33]:
"%f" % 42

'42.000000'

In [34]:
"%6.2f" % 42

' 42.00'

In [35]:
"%06.2f" % 42

'042.00'

In [36]:
"%-6.2f" % 42

'42.00 '

In [37]:
"%+6.2f" % 42

'+42.00'

In [38]:
"%6.2f" % 4264263.123456

'4264263.12'

A noter que la fonction modulo fonctionne comme celle de **sprintf** pour le C, modulo quelques ajouts fonctionnels et qu'il existe également la méthode format qui est similaire à celle permettant de formatter les chaînes de caractères en C++.

### Méthode `format`

In [39]:
"{} {}".format(4, 2)

'4 2'

In [40]:
"{1} {0}".format(4, 2)

'2 4'

In [41]:
"{a} {b}".format(a=4, b=2)

'4 2'

In [42]:
"{0:.2f}".format(42.345)

'42.34'

In [43]:
l = [1, 2, 3]
"{l[0]}".format(l=l)

'1'

In [44]:
"{l.append}".format(l=l)

'<built-in method append of list object at 0x7f525b7245c0>'

In [45]:
d = {"a": 1, "b": 2}
"{d[a]}".format(d=d)

'1'

In [46]:
d = {"a": 1, "b": 2}
"{0[a]}".format(d)

'1'

In [47]:
name = 'Fred'
age = 42
f'He said his name is {name} and he is {age} years old.'

'He said his name is Fred and he is 42 years old.'

---

Manipulation de caractères
--

In [48]:
s = "Chaîne DE Caractères"

In [49]:
s.lower()

'chaîne de caractères'

In [50]:
print(s)

Chaîne DE Caractères


In [51]:
s = s.lower()

```mermaid
flowchart LR

S -.->|Ancien Pointeur| M1[Zone mémoire de 'Chaîne DE Caractères']
S -->|Nouveau pointeur| M2[Zone mémoire de 'chaîne de caractères']
```

La chaîne de caractère est un objet **non mutable**. C'est à dire que sa zone mémoire n'est pas modifiable.

Modifier une chaîne de caractère est en réalité en créer une nouvelle, dans une autre zone mémoire.

Il est donc nécessaire pour modifier une chaîne de caractère et en garder la trace d'utiliser la réaffectation, ce qu'il ne faut surtout pas faire avec les objet **mutables**.

Cas d'utilisations et notion de performances
--

In [52]:
def count_words1(sentence):
    return len(sentence.split())

In [53]:
def count_words2(sentence):
    return sentence.count(" ") + 1

In [54]:
count_words1("Ceci est une phrase avec sept mots")

7

In [55]:
count_words2("Ceci est une phrase avec sept mots")

7

In [56]:
# from timeit import timeit
%timeit count_words1("Ceci est une phrase avec sept mots")

323 ns ± 5.03 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [57]:
%timeit count_words2("Ceci est une phrase avec sept mots")

175 ns ± 0.87 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


In [58]:
def trunc_sentence1(sentence):
    return " ".join(sentence.split()[1:-1])

In [59]:
trunc_sentence1("Ceci est une phrase avec sept mots")

'est une phrase avec sept'

In [60]:
def trunc_sentence2(sentence):
    nb_espaces = sentence.count(" ")
    m = M = sentence.index(" ")
    for i in range(nb_espaces - 1):
        M = sentence.index(" ", M + 1)
    return sentence[m+1:M]

In [61]:
trunc_sentence2("Ceci est une phrase avec sept mots")

'est une phrase avec sept'

In [62]:
%timeit trunc_sentence1("Ceci est une phrase avec sept mots")

558 ns ± 16.3 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [63]:
%timeit trunc_sentence2("Ceci est une phrase avec sept mots")

1.37 μs ± 18.9 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)
