# Les chaînes de caractères : comment coder du texte

Avant de s'attaquer aux nombres réels, nous allons nous reposer un peu avec un type de base beaucoup plus simple: le type `str`.

## Codage d'un caractère
Un ordinateur ne connait que le binaire. Nous avons compris comment coder des nombres en binaire, mais une lettre n'est pas un nombre. Alors comment code-t-on une lettre ? Et de manière générale, comment code-t-on un caractère ?

Nous avons déjà évoqué le système hexadécimal dans lequel les lettres de A à F sont utilisées pour compléter les symboles représentant des chiffres de manière à avoir 16 symboles. On peut ainsi dire que le symbole A est associé au nombre décimal 10. B est associé au nombre décimal 11, etc...

Ainsi, on peut associer n'importe quel symbole au nombre que l'on veut. L'idée est là. On peut décider d'associer n'importe quelle lettre à n'importe quel nombre. C'est seulement une question de convention. L'ordinateur continue de ne manipuler que des nombres. Seulement, il dispose d'une police de caractères, c'est-à-dire d'informations lui expliquant comment afficher à l'écran le caractère codé par un certain nombre.

Une convention d'association entre nombres et caractères est appelée un *jeu de caractères* en français, ou *character set* en anglais. On parle souvent de *charset* (qui est une contraction de character set).

Evidemment, si n'importe qui invente son charset, cela ne facilite pas les choses pour se comprendre. Il faut donc se mettre d'accord sur la correspondance à utiliser en définissant un standard.

### ASCII : l'ancêtre
Un premier standard a vu le jour aux Etats-Unis dans les années 60. C'est [l'*American Standard Code for Information Interchange* ou *ASCII*](https://www.asciitable.com/).

Ce standard provenant de la télégraphie, les 32 premières valeurs sont des codes de contôle du télégraphe. De nos jours, assez peu de ces codes sont encore nécessaires. Le saut à la ligne a bien entendu toujours un sens. On peut remarquer que selon le système d'exploitation, il est géré différemment : Windows utilise CR suivi de LF alors que Linux utilise seulement LF et MacOS utilise seulement CR. Cela complique les échanges de fichier texte d'un système à l'autre.

Ce standard permet de coder les lettres minuscules et majuscules (a et A doivent bien être désignés par des nombres différents pour qu'on puisse les distinguer), les signes de ponctuations, le symbole espace. Les chiffres doivent être aussi représentés.

Ce standard étant d'origine américaine, il ne prévoit pas les caractères accentués ni certains symboles de ponctuation. Il ne nécessite que des valeurs codées sur 7 bits, soit de 0 à 127.

### L'ASCII étendu
Pour permettre à d'autres pays occidentaux d'utiliser des caractères plus spécifiques, l'ASCII étendu exploite les valeurs de 128 à 255. On en trouve différentes variantes.

Le nombre de caractères utilisables est encore trop limité pour gérer des alphabets autres que l'alphabet latin.

### UTF-8 : le standard actuel
Ce charset a pour objectif d'être universel. Bien entendu, afin d'intégrer les différents alphabets connus, il faut un éventail de valeurs plus large que 0 à 255. Le codage des caractères sur un octet n'est donc plus suffisant. L'UTF-8 reprend l'ASCII d'origine et n'utilise qu'un octet par caractère pour tous les caractères de 0 à 127. Ensuite, si le bit de poids fort est à 1, on utilise 2, 3 ou 4 octets.

## Deux fonctions utiles : chr et ord
Vous souhaitez savoir quelle est la valeur associée à un caractère ? C'est simple, il existe la fonction `ord` pour cela. Elle prend en argument une chaîne d'un seul caractère et renvoi le nombre correspondant.

In [25]:
ord("A")

65

La fonction `chr` fait l'inverse : elle prend un nombre en argument et donne le caractère correspondant. La notion de caractère n'existant pas en Python, on obtient une chaîne de caractères (type `str`) d'un seul caractère.

In [2]:
chr(65)

'A'

En guise d'exercice, faites afficher les caractères pour toutes les valeurs de 0 à 255. On veut afficher le résultat sous la forme `65 : A`.

Pour éviter d'aller à la ligne après chaque print, on peut utiliser l'argument `end` :

In [None]:
print("Comportement habituel de print:")
print("A")
print("B")

print("Avec la valeur \"\" pour l'argument end")
print("A", end = "")
print("B")

print("Avec la valeur \"\\t\" pour l'argument end")
print("A", end = "\t")
print("B")

Essayez d'obtenir un résultat comme ci-dessous:

![](images/CharsetPython.png)

In [26]:
for i in range(256):
    print(str(i) + " : " + chr(i), end = "\t\t")
    if (i + 1) % 8 == 0:
        print()

0 :  		1 : 		2 : 		3 : 		4 : 		5 : 		6 : 		7 : 		
8 : 		9 : 			10 : 
		11 : 		12 : 		13 : 		14 : 		15 : 		
16 : 		17 : 		18 : 		19 : 		20 : 		21 : 		22 : 		23 : 		
24 : 		25 : 		26 : 		27 : 		28 : 		29 : 		30 : 		31 : 		
32 :  		33 : !		34 : "		35 : #		36 : $		37 : %		38 : &		39 : '		
40 : (		41 : )		42 : *		43 : +		44 : ,		45 : -		46 : .		47 : /		
48 : 0		49 : 1		50 : 2		51 : 3		52 : 4		53 : 5		54 : 6		55 : 7		
56 : 8		57 : 9		58 : :		59 : ;		60 : <		61 : =		62 : >		63 : ?		
64 : @		65 : A		66 : B		67 : C		68 : D		69 : E		70 : F		71 : G		
72 : H		73 : I		74 : J		75 : K		76 : L		77 : M		78 : N		79 : O		
80 : P		81 : Q		82 : R		83 : S		84 : T		85 : U		86 : V		87 : W		
88 : X		89 : Y		90 : Z		91 : [		92 : \		93 : ]		94 : ^		95 : _		
96 : `		97 : a		98 : b		99 : c		100 : d		101 : e		102 : f		103 : g		
104 : h		105 : i		106 : j		107 : k		108 : l		109 : m		110 : n		111 : o		
112 : p		113 : q		114 : r		115 : s		116 : t		117 : u		118 : v		119 : w		
120 : x		121 : 

On peut remarquer que Python exploite les caractères obsolètes dans les valeurs de 0 à 31.

Avez-vous remarqué ce que fait le caractère n°13 (CR) ?

## Les chaînes de caractères (type str)
Un texte est une suite de caractères. On met donc l'une derrière l'autre les valeurs qui codent chaque caractère. Chaque caractère a un numéro. Le premier caractère de la chaîne porte le numéro 0.

On peut obtenir un caractère de la chaîne en écrivant son numéro entre crochets :

In [27]:
texte = "Bonjour"
# numéro 0123456
print(texte)     # affiche toute la chaîne
print(texte[2])  # affiche le caractère n°2 de la chaîne (n)
print(texte[-1]) # un numéro négatif permet de partir de la fin de la chaîne
print(texte[7])  # Erreur: cette position n'existe pas


Bonjour
n
r


IndexError: string index out of range

On peut aussi obtenir un portion de la chaîne en indiquant le numéro du premier caractère de la portion et le numéro du caractère juste après cette portion en les séparant par `:`.

In [28]:
print(texte[2:4])

nj


Si le premier numéro est plus grand que le second, on obtient une chaîne vide.

On peut aussi omettre un des numéros (mais en mettant quand même les deux points, sinon on n'obtient qu'un caractère). Si on omet le premier numéro, la portion de chaîne commencera au début de la chaîne initiale. Si on omet le deuxième numéro, on ira jusqu'à la fin de la chaîne initiale.

Il n'y a pas d'erreur si un numéro n'existe pas.

In [29]:
print(texte[4:2])
print(texte[:3])
print(texte[3:])
print(texte[:])
print(texte[-1:2])
print(texte[-3:6])
print(texte[5:10])
print(texte[8:10])


Bon
jour
Bonjour

ou
ur



Maintenant que la manipulation des chaînes de caractères n'a plus de secret pour vous, écrivez un programme qui épèle une chaîne. On veut que chaque caractère soit affiché sur une nouvelle ligne.

In [1]:
texte = "Bonjour"
print('1er méthode')
for i in range(len(texte)):
    print(texte[i])

print('2e methode')
for lettre in texte:
    print(lettre)

1er méthode
B
o
n
j
o
u
r
2e methode
B
o
n
j
o
u
r


### HEIN ? QU'EST-CE QUE TU DIS ?
Pour ceux qui ne le savent pas, on considère sur Internet qu'écrire en majuscule, c'est crier. Cette excellente blague (comme toujours) vient introduire l'exercice suivant.

On veut maintenant créer une fonction qui prend un texte et réécrit toutes les lettres en majuscules.

> Bah ça existe déjà !

In [None]:
print(texte.upper())

Oui, mais on veut faire un EXERCICE. Donc on va écrire notre version.

La fonction `majuscule` va donc prendre en argument une chaîne de caractères et construire une nouvelle chaîne correspondant à la première mais avec toutes les lettres en majuscules.

Le principe est simple : on lit la chaîne initiale caractère par caractère (comme quand on épelait le texte, sauf que là, on n'affiche pas le caractère). On construit la chaîne résultat en partant d'une chaîne vide à laquelle on ajoute progressivement les caractères de la chaîne initiale par concaténation.

Attention : il ne faut toucher qu'aux lettres en minuscule. Les autres caractères doivent rester inchangés.

Pour savoir si un caractère est une lettre minuscule, il faut savoir si le nombre qui représente ce caractère est entre celui qui représente `a` et celui qui représente `z`. Puis, pour le mettre en majuscule, il faut modifier cette valeur pour qu'elle corresponde à la même lettre en majuscule.

In [23]:
def majuscule(texte):
    resultat = ""
    # votre code ici
    for i in range(len(texte)):
        caractere = texte[i]
        if (ord(caractere) >= ord("a")) and (ord(caractere) <= ord("z")): #si on détecte une minuscule
            #caractere = "*"
            valeur_lettre = ord(caractere)
            valeur_lettre -= 32 #equivalent en maj
            caractere = chr(valeur_lettre) #transfo valeur de la lettre en lettre
        resultat += caractere
    
    return resultat

# Appel à la fonction pour vérifier qu'on obtient le résultat recherché:
print(majuscule("Hein ? Qu'est-ce que tu dis ?"))

HEIN ? QU'EST-CE QUE TU DIS ?


### Compte-mots
On continue avec un nouvel exercice. On va créer un programme qui compte le nombre de mots dans un texte.

On considère comme un mot tout caractère ou groupe de caractère entouré par un espace. Est considéré comme espace un espace normal`" "`, une tabulation`"\t"`, un retour à la ligne `"\n"`, le début et la fin de la chaîne.

La fonction nbMots doit prendre en argument une chaîne de caractères et renvoyer le nombre de mots qu'elle contient.

In [26]:
def nbMots(texte):
    resultat = 0
    # C'est à vous
    for i in range(len(texte)):
        caractere = texte[i]
        if caractere == " " or caractere == "\t" or caractere == "\n":
            resultat += 1
    return resultat
print(nbMots("Hein ? Qu'est-ce que tu dis ?"))

6
