# Python

**INF8212 - Introduction aux systèmes informatiques**

[Mathieu Lemieux](mailto:lemieux.mathieu@courrier.uqam.ca) @ Université du Québec à Montréal (Automne 2020)

# Travailler avec des chaînes de caractères

Pour une **liste des méthodes** sur les chaînes de caractères, voir la [documentation officielle](https://docs.python.org/3/library/stdtypes.html#string-methods).

### Partie I

1. [Créer une chaîne](#Créer-une-chaîne)
2. [Connaître la longeur d'une chaîne avec la fonction *Len()*](#Connaître-la-longeur-d'une-chaîne-avec-la-fonction-Len())
3. [Accéder à un caractère de la chaîne par son index](#Accéder-à-un-caractère-par-son-index)
4. [Accéder à des tranches de caractères (Slicing)](#Accéder-à-des-tranches-de-caractères-(Slicing))
5. [Concaténation](#Concaténation)

### Partie II

6. [Modifier les caractères d'une chaîne?](#Modifier-les-caractères-d'une-chaîne?)
7. [Recherche de motifs](#Recherche-de-motifs)
8. [Formattage & Interpolation](#Formattage-&-Interpolation)
9. [Itération sur une chaîne de caractères]()

### Partie III

10. [Conversions](#Conversions)
11. [Caractères spéciaux](#Caractères-spéciaux)
12. [Encodage]()

## Créer une chaîne

In [None]:
# Les 4 façons suivantes permettent d'assigner une chaîne de caractères à une variable.
chaine1 = 'abcde'
chaine2 = "fghij"
chaine3 = '''klmno'''
chaine4 = """pqrst"""
print(chaine1);print(chaine2);print(chaine3);print(chaine4)

# Une chaîne de caractère peut aussi être vide.
chaine5 = ''
print('Chaine vide:', chaine5)

In [None]:
# Il est aussi possible d'utiliser le constructeur str()...
# La fonction native str() convertie en chaine de caractères l'argument passé en paramètre
# On parlera davantage de la fonction str() dans la section 'Conversion'
chaine6 = str(123)
print(chaine6)

## Connaître la longeur d'une chaîne avec la fonction *Len()*

In [None]:
# La fonction len() prend une chaîne de caractère comme argument et retourne un entier.
chaine = 'abcde'
lng    = len(chaine)
print(lng)

## Accéder à un caractère par son index

In [None]:
# On indique la position du caractère désiré à l'aide de son index entre crochets '[]'
# Attention, l'index commence à 0 en Python (Contrairement à 'R' par exemple où il commence à 1...)
chaine = 'abcde'
caract = chaine[0]
print(caract)

In [None]:
# Il existe aussi un index négatif, partant de la droite.
# Cet index commence à -1 et se poursuit -2, -3, ...
chaine = 'abcde'
caract = chaine[-1]
print(caract)

In [None]:
# Attention, si l'index spécifié n'existe pas on obtient une erreur!
chaine = 'abcde'
caract = chaine[5]
print(caract)

## Accéder à des tranches de caractères (*Slicing*)

In [None]:
# On indique la tranche désiré à l'aide des index de début et fin, entre crochets '[]', séparés par un double-point ':'
# Attention, le caractère correspondant à l'index de début va être inculs dans la tranche mais pas celui de l'index de fin!
chaine  = 'abcde'
tranche = chaine[2:4]
print(tranche)

# On peut spécifier un pas en l'ajoutant après un second double-points
tranche = chaine[1:4:2]
print(tranche)

# Une tranche avec un index de fin égal à l'index de début retourne une chaine vide
tranche = chaine[2:2]
print(tranche)

# Idem si l'index de fin égal est inférieur à l'index de début, sauf si le pas est négatif...
# ...dans ce cas, la tranche est effectuée à partir de l'autre sens!
tranche = chaine[4:2:-1]
print(tranche)

In [None]:
# Contrairement à ce qui se passe lorsque l'on tente d'accéder à un caractère unique,
# accéder à une tranche à l'aide d'un index erronné ne génère pas d'erreur mais une chaine vide. Cool!
chaine  = 'abcde'
tranche = chaine[7:9]
print(tranche)

In [None]:
# Si l'index de début est ommis, la tranche commence à 0
chaine  = 'abcde'
tranche = chaine[:3]
print(tranche)

# Si l'index de fin est ommis, la tranche se rend jusqu'au dernier caractère inclusivement
chaine  = 'abcde'
tranche = chaine[3:]
print(tranche)

# Une tranche sans index retourne la chaine en entier
chaine  = 'abcde'
tranche = chaine[:]
print(tranche)

# Ici aussi on peut spécifier un pas...
chaine  = 'abcde'
tranche = chaine[::2]
print(tranche)

In [None]:
# Les tranches fonctionnent aussi avec les index négatifs...
# Attention, il faut débuter la tranche par l'index le plus à gauche (i.e. le plus petit; ici -4 < -2)...
# ...si le pas est positif (ici +1 implicitement)
chaine  = 'abcde'
tranche = chaine[-4:-2]
print(tranche)

# On peut aussi combiner index négatif et index positif...
chaine  = 'abcde'
tranche = chaine[2:-1]
print(tranche)

In [None]:
# Puisqu'une tranche est aussi une chaine de caractère, on peux y sélectionner un caractère via l'index
# ...ou y appliquer une autre tranche, et ainsi de suite.
chaine  = 'abcdefghij'
tranche = chaine[2:8]
print(tranche)
print(tranche[0])
print(tranche[1:3])

## Concaténation

### Surcharge des opérateurs + et *

In [None]:
# On dit qu'il y a surcharge (overloading) de ces opérateurs puisqu'il servent également à des opérations arithmétiques.

# L'opérateur '+' permet de concaténer 2 chaînes ensembles.
# Pour construire une phrase, on doit insérer ses propres espaces au besoin...
prenom     = 'John'
nom        = 'Doe'
nomComplet = prenom + ' ' + nom
print(nomComplet)


# L'opérateur '*' permet de concaténer une chaine avec elle-même un nombre de fois donné.
print(prenom*3)

### Méthode *join()*

In [None]:
# Lorsque les chaines que l'on veut concaténer ensemble se retrouvent dans une liste ou un tuple,
# on peut utiliser la méthode join() pour les joindre ensemble et les retourner sous la forme d'une chaine unique.

lst = ('a', 'b', 'c')

# On spécifie d'abord un séparateur, puis on lui applique la méthode join().
# La méthode join() prend un argument de type liste ou tuple
# Attention à la syntaxe particulière...
msg = '-'.join(lst)
print(msg)

# Évidemment, le séparateur peut être une chaîne vide.
msg = ''.join(lst)
print(msg)

### Fonction *print()*

In [None]:
# La fonction print() peut être utilisée pour concaténer des chaines au moment de l'affichage.
# Comme vu précédemment, la fonction print() accepte un nombre indéfni d'arguments...

# Par défaut, un espace est inséré entre chaque chaînes
print('Ceci', 'est', 'une', 'concaténation')

# le paramètre 'sep' permet de spécifier le séparasteur. D'autres paramètres existent aussi...
print('Hors', 'piste', sep='-', end='!')

## Modifier les caractères d'une chaîne?

### Immutabilité & réaffectation

En python, **les chaînes de caractères sont immuables**, i.e. on ne peut directement les modifier. Cependant, il est possible de créer une nouvelle chaîne à partir d'une chaîne existante (ou plusieurs) et d'affecter celle-ci à la variable initiale (ou une nouvelle). Les différentes méthodes et fonctions qui semblent modifier une chaîne existante créent en fait une nouvelle chaîne. On verra plus tard les diverses implications que cela peut avoir pour votre code.

In [None]:
# D'abord, un contre-exemple avec une liste
liste  = ['a', 'b', 'c']

print(liste)
liste[1] = 'z'
print(liste)

In [None]:
# Contrairement aux listes, on ne peut modifier un élément d'une chaîne par son index.
# ATTENTION, le code suivant génère une erreur!
chaine = 'abc'

print(chaine)
chaine[1] = 'z'
print(chaine)

In [None]:
# On peut cependant réaffecter une nouvelle valeur à une variable 
chaine = 'abc'

print(chaine)
chaine = chaine[0] + 'z' + chaine[2]
print(chaine)

### Méthodes *upper()*, *lower()* et *capitalize()*

In [None]:
chaine = 'bioINFORMATIQUE'

# Quelques méthodes de base pour formatter les chaînes de caractères...
print(chaine.upper())
print(chaine.lower())
print(chaine.capitalize())

### Méthodes *strip()*, *lstrip()* et *rstrip()*

In [None]:
# Les méthodes strip(), lstrip() et rstrip() retourne une chaîne sans les caractères d'espacement...

chaine = "    Eureka! Eureka!   "

print('***', chaine.strip() , '***', sep='') # ...Au début et à la fin
print('***', chaine.lstrip(), '***', sep='') # ...Au début seulement (left)
print('***', chaine.rstrip(), '***', sep='') # ...À la fin seulement (right)

# Pour enlever tous les espaces, utiliser plutôt la méthode replace() qu'on va voir à la prochaine section...
print('***', chaine.replace(' ', '') , '***', sep='') # ...Au début, à la fin et au milieu!

## Recherche de motifs

### Méthodes *index()*, *find()*, *count()* et *replace()*

In [None]:
# Les méthodes find(), index() et count() recherche toutes un motif dans la chaîne.
# Elles diffèrent cependant par la valeur qu'elles retournent.
# Les paramètres de début et de fin sont facultatifs.


chaine1 = "Quand le chat est parti, les souris dansent!"
motif1  = "le"
debut   = 15
fin     = 30

# 1. La méthode index() retourne la position (index) du 1er caractère de la 1ère occurence trouvée.
# Retourne une erreur si rien n'est trouvé.
result = chaine1.index(motif1, debut, fin)
print(result)


chaine2 = "ACGT"
motif2  = "N"

# 2. La méthode find() fonctionne comme la méthode index(), mais retourne '-1' si rien n'est trouvé
result = chaine2.find(motif2)
print(result)

# 3. La méthode count() retourne le nombre d'occurences trouvées.
result = chaine2.count(motif2)
print(result)

# 4. La méthode replace() retourne une nouvelle chaîne, avec remplacement des motifs recherchés...
# Le premier argument correspond au motif recherché, le second au motif à insérer à sa place
chaine1 = chaine1.replace('a', 'A')
print(chaine1)

### Expressions régulières (*regex*)

Les expressions régulières permettent de rechercher un motif complexe dans une chaîne; ce sont des outils très puissants! Pour utiliser des expressions régulières, il est nécessaire d'importer d'abord le module standard ***re***. Vous trouverez plus d'informations dans la documentation officielle [ici](https://docs.python.org/3/howto/regex.html). Les expressions régulières sont un sujet avancé, on y reviendra peut-être plus tard dans la session. Voici seulement un court exemple...

In [None]:
# Expression régulière

import re

chaine = "Le ciel bleu"
motif  = "^Le.*bleu$"

if re.search(motif, chaine): print("Trouvé!")

## Formattage & Interpolation

### Méthode *format()*

Plus d'exemples dans [cet article](https://pyformat.info/).

In [None]:
# En conjonction avec la méthode format(),
# on utilise les accolades {} pour l'interpolation de variables ou d'expressions dans une chaîne.


prenom = 'Ava'
nom    = 'Lovelace'
emploi = 'programmeuse'


# 1. L'ordre d'insertion suit implicitement l'ordre des arguments passés à la méthode format()
# Dans ce cas, le nombre d'arguments doit être égal ou supérieur au nombre de paires d'accolades dans la chaîne
# Dans l'exemple suivant, l'expression 'nom.upper()' est évaluée avant d'être insérée
msg = 'Mon nom est {} {}, je suis {}'.format(a, nom.upper(), emploi)
print('1.', msg)


# 2. En utilisant explicitement les indexes, on peut changer l'ordre et/ou réutiliser une variable
msg = 'Mon nom est {1} {0}, je suis {2}. Appelez-moi {0}!'.format(prenom, nom.upper(), emploi)
print('2.', msg)

# 3. Si l'on veut utiliser des noms de variable au lieu des index, on doit faire explicitement les affectations
msg = 'Mon nom est {prenom} {nom}, je suis {emploi}'.format(prenom=prenom, nom=nom.upper(), emploi=emploi)
print('3.', msg)


# TECHNIQUES AVANCÉES...
# 4. Déballer une liste ou un tuple à l'aide de '*'
personne = ('Guido', 'van Rossum', 'éleveur de serpent')
msg      = 'Mon nom est {} {}, je suis {}'.format(*personne)
print('4.', msg)

# 5. Déballer un dictionnaire avec '**'
# Notez l'utilisation des clés comme noms de variables!
personne = {'prenom':'Guido', 'nom':'van Rossum', 'emploi':'éleveur de serpent'}
msg      = 'Mon nom est {prenom} {nom}, je suis {emploi}'.format(**personne)
print('5.', msg)


# FORMULATION DÉPRÉCIÉE...
# 6. Pour info, voici la vieille formulation avant la méthode format(), dépréciée...
msg = 'Mon nom est %s %s, je suis %s' % ('John', 'Doe', 'mistérieux')
print('6.', msg)

### Expressions formatées littérales (*formated string, aka f-string*)
Les expressions formatées littérales prennent la forme suivante: un ***f*** ou ***F*** devant la chaîne et des ***{ }*** à l'intérieur de la chaîne pour l'interpolation de variables ou d'expressions. Les expressions formatées littérales sont très utiles; elles sont **disponible à partir de la version 3.6 de Python**.

In [None]:
# Avec les Expressions formatées littérales (Formated string), on peut utiliser directement les noms de variables disponibles.

prenom = 'Ava'
nom    = 'Lovelace'
emploi = 'programmeuse'

msg = f"Mon nom est {prenom} {nom.upper()}, je suis {emploi}. J'ai écrit mon 1er programme il y a {2020-1842} ans."

print(msg)

## Itération sur une chaîne de caractères

Vous pouz passer cette section et y revenir plus tard si vous n'avez pas déjà vu les boucles en classe.

In [None]:
chaine = 'abcd'

# Pour itérer sur les caractères d'une chaîne, il est d'usage d'utiliser une bouble 'for'

# Retourne chacun des caractères
for v in chaine: print(v)

### Fonction *enumerate()*

In [None]:
chaine = 'abcd'

# Techniques plus avancées...

# Pour itérer sur l'index (puis accéder à la valeur au besoin), on utilise les fonctions range() et len()...
# ...mais pas très 'Pythonic'
for i in range(len(chaine)): print(i, chaine[i])

# On préfère plutôt utiliser la fonction enumerate()
# La fonction enumerate() permet d'accéder simultanément à l'index et à la valeur.
# Retourne chacun des index et son caractère associé
for index, value in enumerate(chaine): print(index, value)

## Conversions

### Conversion en chaîne de caractères avec la fonction *str()*

In [None]:
# Un premier exemple avec un entier
nombre = 123
chaine = str(nombre)

print(nombre); print(type(nombre))
print(chaine); print(type(chaine))


print('-'*50)

# Le même principe s'applique aussi aux réels...
nombre = 3.1416
chaine = str(nombre)

print(nombre); print(type(nombre))
print(chaine); print(type(chaine))


print('-'*50)

# Pour les booléens, seule la chaine vide est convertie à 'False', tout le reste à 'True'
chaine1, chaine2, chaine3, chaine4 = '', '0', 'False', 'abc'
print(bool(chaine1)); print(bool(chaine2));print(bool(chaine3));print(bool(chaine4))

In [None]:
# Pour les structures composées...
lst = [1, 2, 3]
tpl = (1, 2, 3)
st  = {1, 2, 3}
dic = {'un':1, 'deux':2, 'trois':3}

# La fonction str() retourne une chaîne de caractères,
# même si visuellement ce n'est pas facile à distinguer
print(str(lst), end=' -> '); print(type(str(lst)))
print(str(tpl), end=' -> '); print(type(str(tpl)))
print(str(st) , end=' -> '); print(type(str(st)))
print(str(dic), end=' -> '); print(type(str(dic)))

# Notez comment les caractères ont étés intégrés...
print(str(lst)[0])

### Conversions à partir d'une chaîne de caractères

In [None]:
# Les conversiosn se font à l'aide des constructeurs respectifs des structures de données en question.
# Attention, toutes les chaînes ne sont pas convertibles vers tous les types de données!


# Quelques exemples...

# 1. bool() accepte une chaîne 'True', 'False', '1', '0'
chaine = 'True'
print(bool(chaine))

# 2. int() n'accepte que des représentations d'entiers en caractères
chaine = '-123'
print(int(chaine))

# 3. même logique pour float(), mais avec les réels...
chaine = '123.0'
print(float(chaine))

# 4. Chanque caractère de la chaîne est un élément de liste distinc avec list()
chaine = 'abc'
print(list(chaine))

# 5. Même logique avec tuple()
chaine = 'abc'
print(tuple(chaine))

# 6. Ainsi qu'avec set()
chaine = 'abcccc'
print(set(chaine))

# 7. Pour les dictionnaire, c'est plus compliqué puisqu'il faut fournir une clé et une valeur pour chaque item
# On utilise la fonction zip() pour itérer sur 2+ collections simultanément.
# Nous allons voir un peu plus tard la fonction zip(). Pour l'instant, c'est juste pour votre information.
keys   = 'abc'
values = 'xyz'
print(dict(zip(keys, values)))

## Caractères spéciaux

In [None]:
# EN CONSTRUCTION!

# Saut de ligne ('enter'); \n


### Échappement des caractères spéciaux

In [None]:
# D'abord, un contre-exemple.
# La chaine suivante est affectée à une variable à l'aide de doubles guilemets pour éviter les conflits avec les appostrophes.
chaine = "J'aime l'hiver!"
print(chaine)

# La barre oblique inversée (backslash) '\' permet à certains caractères spéciaux
# 'd'échapper' à leur sens spécial en programmation et de revenir à leur sens littéral.
# La barre n'apparait pas dans le résultat final.
chaine = 'J\'aime l\'hiver!'
print(chaine)
chaine = "J'ai entendu un grand \"Boom!\" et puis plus rien."
print(chaine)

### Chaînes brutes (*raw string, aka a-string*)

In [None]:
# Un problème avec l'utilisation de la barre oblique inversée pour l'échappement des caractères...
chaine = 'C:\Windows\fichier.txt'
print(chaine)

# On remédie au problème en 'échappant' la barre oblique inversée elle-même...
# ...mais pas très élégant et difficile à implémenter.
chaine = 'C:\Windows\\fichier.txt'
print(chaine)

# Solution plus élégante: les chaines brutes (raw). Elle inhibent le pouvoir d'échappement des barres obliques inversées...
# Pour ...chaîne brute, on ajoute un 'r' devant la chaîne.
chaine = r'C:\Windows\fichier.txt'
print(chaine)

## Encodage

In [None]:
# En construction...