## <p style="text-align: center;">NSI - Éléments de programmation</p>
## <p style="text-align: center;">Intervalles, chaı̂nes de caractères et itérations</p>
## <p style="text-align: center;">Lycée Beaussier - F. Lagrave</p>

[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/Fklag/NSI_iere/master?filepath=7_Elements_programmation_diapo.ipynb)

# Supports de cours

<div id="top">Revoir les notions de <a href="http://lycee.lagrave.free.fr/nsi/programmation/4_Elements_programmation_diapo.pdf" target="_blank">séquences, variables et alternatives</a> et de <a href="http://lycee.lagrave.free.fr/nsi/programmation/5_Elements_programmation_diapo.pdf" target="_blank">Répétitions et boucles $\texttt{while}$</a>
    
• La notion d'<b>expression</b> (arithmétique)  
• La définition de <b>fonctions</b>  
• L'<b>affectation</b> de variables  
• Les <b>séquences</b>    
• Les <b>alternatives</b>  
• Les <b>boucles</b>  

→ On peut (presque) tout faire.  
• Reste les <b>structures de données</b>  

- les <b>séquences</b>  
  • les <b>intervalles</b> : séquences d'entiers  
  • les <b>chaı̂nes de caractères</b> : séquences de caractères  
  • les <b>listes</b> : séquences génériques

- les <b>ensembles</b>  
- les <b>dictionnaires</b>  
</div>

### Intervalles et Chaı̂nes



Les éléments contenus dans la donnée sont arrangées de façon séquentielle, l'intérêt principal de cette classification est que certaines opérations, en particulier le **principe d'itération**, s'appliquent de la même façon aux différents types de séquence.  

• Données organisées en **séquences**.
  - **implémentation**: facilité d’accès à l’élément suivant dans la mémoire.  

• Séquences de nombres (entiers): **intervalles** de type $\texttt{range}$  
• Séquences de caractères (lettres): **chaı̂nes** de type $\texttt{str}$  
• Séquences d'éléments (de tous types): **listes** (<a href="http://lycee.lagrave.free.fr/nsi/numerisation/8_Elements_programmation_diapo.pdf" target="_blank">cours 8 Elts programmation</a>)  

• **Itération** : s'applique sur les séquences:  
  - répéter une **même** tâche pour **chaque** élément d'une séquence (**fixée**), dans l'**ordre**.

### Intervalles d’entiers  

- Le type de séquence le plus simple est l'**intervalle d'entiers**, qui possède le $\texttt{type range}$ (c'est un $\texttt{type atomique}$) en $\texttt{Python}$.  
- En $\texttt{Python}$, un intervalle d'entiers est une **séquence** d'entiers consécutifs, les manipulations sur les intervalles concernent principalement :
  - la construction d'intervalle ;
  - l'itération sur un intervalle.

En $\texttt{Python}$, la syntaxe : $\texttt{range(m,n)}$ construit l'intervalle des entiers allant de $m$ (inclus) à $n$ (exclu). La notation mathématique usuelle pour cet intervalle est : $\left[m~;~n\right[$

Remarques :
- le nombre d'éléments dans l'intervalle est égal à $n - m$.  
- une notation équivalente est $\left[m~;~n-1\right]$.


Donc $\texttt{range(0,3)}$ construit l'intervalle d'entiers $\left[0~;~3\right[$, c'est à dire l'intervalle
contenant $0$, $1$ et $2$.

In [1]:
range(7,10),type(range(7,10)),range(-4,3)

(range(7, 10), range, range(-4, 3))

### Itération  
**Questions :**  

• On pouvait déjà manipuler les intervalles avec un $\texttt{while} non ?  

• Qu'a-t-on gagné avec cette syntaxe ?  

Réponse : la possibilité d'exprimer l'itération avec une boucle $\texttt{for}$ !  

La syntaxe de cette opération est la suivante :  
$\texttt{for} <var> \texttt{in} <sequence> \texttt{:}$  
$\phantom{.} \quad <corps>$

### Syntaxe du $\texttt{for}$  

$\texttt{for} <var> \texttt{in} <seq> \texttt{:}$  
$\phantom{.} \quad <instruction\, 1>$  
$\phantom{.} \quad <instruction\, 2>$  
$\phantom{.} \quad \ldots$  
$\phantom{.} \quad <instruction\, n>$

où  
• $< instruction\, 1 >, \ldots, < instruction\, n >$ : sont les instructions qui sont répétées à chaque étape, appelées **corps de la boucle** .  
C'est l'**indentation** qui délimite le corps de la boucle !!

$\texttt{for}$ répète le $\texttt{corps}$ de la boucle pour chaque élément dans la séquence $\texttt{seq}$. 
L'élément $\text{var}$ de $\texttt{seq}$ peut être utilisé dans $\texttt{corps}$ avec le nom $\text{var}$.


### Principe d'interpretation du $\texttt{for}$   
Le principe d'interprétation de la boucle $\texttt{for}$ est le suivant :  
- le $\texttt{<corps>}$ de la boucle est une suite d"instructions qui est exécutée une fois pour chaque élément de la $\texttt{<sequence>}$, selon l'ordre séquentiel de ses éléments.  
    
- dans le $\texttt{<corps>}$, la variable $\texttt{<var>}$ est liée à l'élément courant : premier élément au premier tour, deuxième élément au deuxième tour $\ldots$ jusqu'au dernier tour de boucle avec le dernier élément de la séquence.  
    
- la variable $\texttt{<var>}$ n'est plus utilisable après le dernier tour de boucle.  
    
Traduit pour un intervalle $\texttt{for}$ , ce principe devient :  
- le $\texttt{<corps>}$ de la boucle est une suite d'instructions qui est exécutée une fois pour chaque entier $m$, $m+1$,$\ldots$ , jusqu'à $n-1$ .  
    
- dans le $\texttt{<corps>}$, la variable $\texttt{<var>}$ est liée à l'entier courant : $m$ au premier tour, $m+1$ au deuxième tour $\ldots$ jusqu'au dernier tour de boucle avec $n-1$.  
    
- la variable $\texttt{<var>}$ n'est plus utilisable après le dernier tour de boucle.

### Somme des premiers entiers  
On peut dès lors reformuler la solution au problème du calcul des $n$ premiers entiers. Pour rappel, on avait donné :

In [2]:
def somme_entiers(n):
    """int −> int
    hypothese : n >= 1
    retourne la somme des n premiers entiers naturels ."""
    # s : int
    s = 0 # la somme cumulee
    # i : int
    i = 1 # prochain entier a ajouter
    while i <= n:
        s = s + i
        i = i + 1
    return s

Avec un $\texttt{for}$ :

In [4]:
def somme_entiers(n):
    """int −> int
    hypothese : n >= 1
    retourne la somme des n premiers entiers naturels ."""
    # s : int
    s = 0 # la somme cumulee
    # i : int ( variable de boucle )
    for i in range(1,n+1) :
        s = s + i
    return s

somme_entiers(10)

55

N'oublions pas le jeu de tests.

In [5]:
# jeu de tests
assert somme_entiers(0) == 0
assert somme_entiers(3) == 6
assert somme_entiers(4) == 10
assert somme_entiers(5) == 15
assert somme_entiers(10) == 55

### Remarques
• Importance des $\texttt{:}$  
• Indentation avant les instructions du $\texttt{corps}$ de boucle  
• Déclaration de la variable de boucle juste avant le $\texttt{for}$  
• ! Attention au $n+1$

### Simulation de boucle $\texttt{for}$  
Comme avec un $\texttt{while}$, on peut faire une simulation de boucle :

Simulation de boucle pour $\texttt{somme\_entiers(5)}$ 

| tour de boucle | variable $i$ | variable $s$ |
|:--------:|:---:|:---:|
| entrée  | $-$ | $0$|
| $1$  | $1$ | $1$|
| $2$  | $2$ | $3$|
| $3$  | $3$ | $6$|
| $4$  | $4$ | $10$|
| $5$  | $5$ | $15$|
| sortie  | $-$ | $15$|

### Quelques différences avec le $\texttt{while}$   
• on connait la taille du tableau à l'avance : **plus de problème de terminaison !**  
• la variable de boucle n’a pas de valeur avant le 1er tour ni après le
dernier (car elle n’existe pas)


### Chaı̂nes de caractères  
Les chaînes de caractères sont très courantes en informatique puisqu'on les utilise pour représenter
des données textuelles de nature très variée : noms, adresses, titres de livres, définitions de 
dictionnaire, séquences d'$\texttt{ADN}$, etc.  


**Chaı̂nes de caractères**  
En $\texttt{Python}$, une chaı̂ne de caractères (*string* en anglais) est une **séquence** de caractères, un caractère étant :    
• une lettre minuscule $a$, $b$ $\ldots$ $z$ ou majuscule $A$, $B$, $\ldots$ $Z$  
• des lettres d'alphabets autres que latins : $\alpha$, $\beta$, etc.
• des chiffres $0$, $\ldots$, $9$  
• des symboles affichables $\$$, $\%$, $\&$, etc.  

La norme <a href="http://lycee.lagrave.free.fr/nsi/numerisation/3_Representation_caracteres_diapo.pdf" target="_blank">$\texttt{Unicode}$</a> prévoit des milliers de caractères différents couvrant à peu près tous les
besoins des langues vivantes sur la planète, et même de certaines langues mortes (sumérien, hiéroglyphes, etc.). Les **manipulations courantes** sur les chaînes de caractères peuvent être catégorisées de la façon suivante :

-  les opérations de base : construction, déconstruction et comparaisons  
-  les problèmes de réduction  
-  les problèmes de transformation et de filtrage  
-  les autres problèmes, en général plus complexes, qui ne rentrent pas dans les catégories précédentes.

### Comment créer une chaîne de caractères ?  
On peut distinguer  
- les *constructions simples* par des expressions atomiques de chaînes, correspondant à une suite de caractères encadrée par des guillemets simples $\text{'}\ldots\text{'}$ ou doubles $"\ldots"$  
- les *constructions complexes* par des expressions de **concaténation**. $\texttt{+}$

Remarquons au passage que le $\texttt{type}$ d'une chaîne est bien $\texttt{str}$.

In [8]:
'Ceci est une chaine',"Ceci est une chaine",type('Ceci est une chaine'),"l'apostrophe m'interpelle",'l\'apostrophe m\'interpelle','a',type('a'),'123',type('123')

('Ceci est une chaine',
 'Ceci est une chaine',
 str,
 "l'apostrophe m'interpelle",
 "l'apostrophe m'interpelle",
 'a',
 str,
 '123',
 str)

Il existe aussi la chaîne vide qui n'est composée d'aucun caractère :

In [9]:
''

''

Nous allons voir notamment que l'opérateur + possède une signification bien différente dans le cas des chaînes que celle des  autres types comme $\texttt{int}$ ou $\texttt{float}$

In [10]:
2 + 3,'2' + '3'

(5, '23')

### Construction par concaténation  
Pour construire des chaînes «complexes» à partir de chaînes «plus simples», on utilise le plus souvent l'opérateur $+$ qui réalise la concaténation de deux ou plusieurs chaînes de caractères.  

**Problème** : donner une fonction $\texttt{pluriel}$ qui ajoute un $\texttt{'s'}$ à une chaı̂ne de caractères donnée en argument.

In [13]:
def pluriel(c) :
    """str −> str
    renvoie la chaine c a laquelle on a ajoute le caractere 's' a la fin"""

### Opérateur de concaténation  
L'opérateur $+$ permet de concaténer deux chaı̂nes de caractères  
La **signature** de cette opérateur est la suivante :  $\texttt{str*str -> str}$  


Comparaison avec l'opérateur d'addition $+$ entre entiers :  
• la concaténation est associative : $\left(c_1 + c_2\right) + c_3 = c_1 + \left(c_2 + c_3\right)$  
• la concaténation **n'est pas commutative !** : $c_1 + c_2 \neq c_2 + c_1$  
• l'élément neutre de la concaténation est la **chaı̂ne vide** : $c + "" = c$  
  Autrement dit, pour toute chaîne $\, c \,$ on a les égalités suivantes : $c == (c +"") == (""+ c)$

Exemples :

In [12]:
'alu' + 'minium','1' + '2','ainsi parlait ' + 'Zara' + 'thoustra','bon' + 'jour','jour' + 'bon','' + 'droite','gauche' + ''

('aluminium',
 '12',
 'ainsi parlait Zarathoustra',
 'bonjour',
 'jourbon',
 'droite',
 'gauche')

### Fonction $\texttt{pluriel}$  
On peut résoudre le problème précédent :

In [16]:
def pluriel(c) :
    """str −> str
    renvoie la chaine c a laquelle on a ajoute le caractere 's' a la fin"""
    return c + 's'

pluriel('chat'),pluriel('animal')

('chats', 'animals')

### Répétition  
**Problème** : donner la définition d'une fonction $\texttt{repetition}$ qui, étant donnés une chaı̂ne de caractères $c$ et un entier $n$, renvoie la chaı̂ne composée de $n$ répétitions de $c$. Par exemple :

In [18]:
def repetition(c,n) :
    """str ∗ int −> str
    Hypothese : n >= 1
    renvoie la chaine composee de n repetitions de c"""
    # r : str
    r = '' # on initialise avec la chaine vide - element neutre
    # i : int
    i = 1 # compte le nombre de repetitions
    while i <= n :
        r = r + c
        i = i + 1
    return r

repetition('bla',3),repetition('zut ! ',5)

('blablabla', 'zut ! zut ! zut ! zut ! zut ! ')

Ou, avec ce qu'on a vu aujourd'hui :

In [20]:
def repetition(c,n) :
    """str ∗ int −> str
    Hypothese : n >= 1
    renvoie la chaine composee de n repetitions de c"""
    # r : str
    r = '' # on initialise avec la chaine vide - element neutre
    # i : int (pour compter le nombre de repetitions)
    for i in range(1, n + 1):
        r = r + c
    return r

#jeu de tests
assert repetition('bla',3) == 'blablabla'
assert repetition('zut ! ',5) == 'zut ! zut ! zut ! zut ! zut ! '

### Simulation de $\texttt{repetition}$  

Simulation $\texttt{repetition}(\text{'bla'},3)$  

| tour de boucle | variable $i$ | variable $r$ |
|:--------:|:---:|:---:|
| entrée  | $-$ | '' |
| $1$  | $1$ | 'bla' |
| $2$  | $2$ | 'blabla'|
| $3$  | $3$ | 'blablabla'|
| sortie  | $-$ | 'blablabla'|  

### Déconstruction  
Maintenant que nous savons comment construire des chaînes, de façon directe ou grâce à une fonction comme $\texttt{repetition}$, découvrons le procédé inverse qui consiste à déconstruire (ou décomposer) une chaîne en sous-chaînes ou en caractères (sous-chaînes de $1$ caractère).

Les structures de données : **aggrègent** (regroupent) de l'information.  
→ nécéssité de pouvoir faire l'opération inverse.  
Pour les chaı̂nes de caractères, il existe plusieurs manières :  
1. l'**accès direct** à un caractère
2. l'accès à une **sous-chaı̂ne** de caractères (*slicing*)

### Accès direct  
**Accès direct à un caractère** Soit $c$ une chaı̂ne de caractère.  
L'opération $c[i]$ renvoie le ième caractère de $c$ .


Remarque : comme c'est souvent le cas en informatique, les indices sont comptés à partir de zéro, ainsi :  
• le 1er caractère correspond à l'indice $0$  
• erreur si indice plus grand ou égal au nombre de caractères de la chaı̂ne

Exemple avec la chaı̂ne $c = \text{'Salut toi !'}$ : 

| Caractère | 'S' | 'a' | 'l' | 'u' | 't' | '' | 't' | 'o' |'i' | '' | '!' |
|:--------:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| indice | $0$ | $1$  | $2$ | $3$ | $4$ | $5$ | $6$ | $7$ | $8$ | $9$ | $10$ |




In [22]:
c = 'Salut toi !'
c[0],c[1],c[2],c[5],c[10]

('S', 'a', 'l', ' ', '!')

In [24]:
c[11]

IndexError: string index out of range

### Complément  
Les indices négatifs sont autorisés !

| Caractère | 'S' | 'a' | 'l' | 'u' | 't' | '' | 't' | 'o' |'i' | '' | '!' |
|:--------:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| indice | $0$ | $1$  | $2$ | $3$ | $4$ | $5$ | $6$ | $7$ | $8$ | $9$ | $10$ |
| indice (inverse) | $-11$ | $-10$ | $-9$ | $-8$ | $-7$ | $-6$ | $-5$ | $-4$ | $-3$ | $-2$ | $-1$ |

In [25]:
c[-1],c[-7],c[-11]

('!', 't', 'S')

In [26]:
c[-12]

IndexError: string index out of range

### Découpages  
**Découpage en sous-chaı̂ne de caractères** Soit $c$ une chaı̂ne de caractère.  
L'opération $c[i:j]$ renvoie la sous-chaı̂ne de $c$ située entre les indices $i$ inclus et $j$ exclus.

Remarques :
• le 1er caractère correspond à l'indice $0$   
• indice $j$ exclus : comme le $\texttt{range}$ .  
• **pas d'erreur** si indice trop grand $\ldots$ (<a href="http://lycee.lagrave.free.fr/nsi/numerisation/8_Elements_programmation_diapo.pdf" target="_blank">cours 8 Elts programmation</a>)  
• **pas d'erreur** si $i$ supérieur à $j$ $\ldots$ 

In [27]:
c[0:3],c[4:8],c[4:11]

('Sal', 't to', 't toi !')

### Opérateurs de comparaison  
Les séquences comme les chaînes de caractères (ou même les intervalles même si cela représente peu d'intérêt en pratique) peuvent être comparées entre elles, en particulier pour l'égalité et l'inégalité.  
Les opérateurs sont **les mêmes que pour les autres types de données** :  
**égalité** : $==$  
**inégalité** : $!=$  
**supériorité** : $<$ et les dérivés : $>$, $<=$, $\ldots$

In [28]:
'Ceci est une chaine' == 'Ceci est une autre chaine','Ceci est une chaine' != 'Ceci est une autre chaine'

(False, True)

Remarques :  
• minuscules != majuscules  
• l'ordre $<$ est un ordre lexicographique (celui du dictionnaire)

In [29]:
'Ceci' == 'ceci','a' < 'b','ab' < 'b'

(False, True, True)

### Classification des problèmes  
Nous allons commencer à voir des problèmes plus complexes.

Recherche de ressemblance entre différents problèmes  
→ idée de la bonne solution  
Sur les chaı̂nes de caractères (plus généralement les séquences) on retrouve :  
• les problèmes de **réduction**  
• les problèmes de **transformation**  
• les problèmes de **filtrage**  
Bien entendu tous les problèmes n’appartiennent pas à ces trois classes,$\ldots$

### Réductions  
Le principe de **réduction d'une structure de données**, comme une séquence, consiste à synthétiser une information «plus simple» en parcourant les éléments contenus dans la structure.  
Pour les chaînes de caractères, les problèmes de réduction consistent donc à produire une information «simple» - le plus fréquemment de $\texttt{type bool}$ ou $\texttt{int}$ - synthétisée à partir du parcours (complet ou non)  des éléments de la chaîne.  

$\texttt{Séquence → valeur simple}$  

Par exemple pour les chaı̂nes :  
• $\texttt{str −> int}$  : compte quelque chose dans la chaı̂ne  
• $\texttt{str −> bool}$  : décide la valeur de vérité d'une propriété sur la chaı̂ne  
et plus généralement :  
• $\texttt{str} * \ldots -> \texttt{T}$ : réduction d'une chaîne vers le $\texttt{type T}$ (avec éventuellement des paramètres supplémentaires).

Pour répondre à ces problèmes, deux techniques :  
• parcours des **indices** de la chaı̂ne (boucle $\texttt{while}$)  $\quad \quad \quad \, \,  \,$ **- réduction par parcours des indices de la chaîne -**  
• parcours des **éléments** (caractères) de la chaı̂ne (boucle $\texttt{for}$) **- réduction par itération des éléments de la chaîne -**

Exemple : la **longueur d'une chaîne** est le nombre de caractères qui la composent, la **réduction longueur de chaîne** est tellement primordiale qu'elle est en fait prédéfinie en $\texttt{Python}$. Il s'agit de la fonction $\texttt{len}$ qui est utilisable sur n'importe quelle séquence.

In [30]:
len('Ceci est une chaîne'),len('vingt-quatre'),len(''),len('a')

(19, 12, 0, 1)

### Réduction par itération  
Comme les intervalles et tous les autres types de séquences, on peut parcourir les caractères d'une chaîne par itération avec la boucle $\texttt{for}$.  
La syntaxe pour les chaînes se déduit du principe plus général sur les séquences décrit précédemment :  
$\texttt{for} <var> \texttt{in} <chaîne> \texttt{:}$  
$\phantom{.} \quad <corps>$

Avec le principe d'interprétation correspondant :
- le $<corps>$ de la boucle est une suite d'instructions qui est exécutée une fois pour chaque caractère de la $<chaîne>$, selon leur ordre d'indice.  
- dans le $<corps>$, la variable $<var>$ est liée au caractère courant : premier caractère (indice $0$) au premier tour, deuxième caractère (indice $1$) au deuxième tour $\ldots$ jusqu'au dernier tour de boucle avec le dernier caractère de la séquence (indice *longueur* $-1$).  
- la variable $<var>$ n'est plus disponible après le dernier tour de boucle.

### Exemple : nombre d'occurrences  
**Problème** : donner la définition de $\texttt{occurrences}$ qui, étant donné un caractère $c$ et une chaı̂ne $s$, renvoie le nombre d'occurrences de $c$ dans $s$.  

Par exemple, la fonction $\texttt{occurrences}$ peut être définie de la façon suivante :

In [38]:
def occurrences(c,s):
    """str * str -> int
    Hypothèse : len(c) == 1
    retourne le nombre d'occurrences du caractère c dans la chaine s"""
    # nb : int
    nb = 0 # nombre occurrences du caractere
    # cc : str (caractere courant)
    for cc in s :
        if cc == c :
            nb = nb + 1
    return nb

# jeu de tests
assert occurrences('e','les revenantes') == 4
assert occurrences('t','les revenantes') == 1
assert occurrences('e','la disparition') == 0
assert occurrences('z','') == 0

### Exemple : $\texttt{presence}$  
Un sous-problème très classique du comptage d'occurrences est le test de la **présence d'un caractère dans une chaîne**.  
Il s'agit d'une **réduction vers le $\texttt{type bool}$**.  

**Problème** : donner la définition de $\texttt{presence}$ qui, étant donné un caractère $c$ et une chaı̂ne $s$, renvoie $\texttt{True}$ si $c$ appartient à $s$ et $\texttt{False}$ sinon. 

Par exemple, on peut déduire une solution simple en considérant la propriété suivante :  
"Un caractère est présent dans une chaîne si son nombre d'occurrence est strictement positif. :"

In [34]:
def presence(c,s):
    """str * str -> bool
    Hypothèse : len(c) == 1
    retourne True si le caractere c est present dans la chaine s, ou False sinon"""
    return occurrences(c,s) > 0

# Jeu de tests
assert presence('e', 'les revenantes') == True
assert presence('e', 'la disparition') == False

### Que pensez-vous de cette implémentation ?  
Cette solution fonctionne mais ne peut satisfaire l'informaticien toujours féru d'**efficacité**.  
Considérons en effet l'exemple ci-dessous :

In [36]:
presence('a','abcdefghijklmnopqrstuvwxyz')

True

La réponse est bien sûr $\texttt{True}$ mais pour l'obtenir, la fonction $\texttt{occurrences}$ (appelée par $\texttt{presence}$) a parcouru l'ensemble de la chaîne $\text{'}abcdefghijklmnopqrstuvwxyz\text{'}$ pour compter les occurrences de $\text{'}a\text{'}$, soit $26$ comparaisons.  

On aimerait ici une solution «directe» au problème de présence qui s'arrête dès que le caractère cherché est rencontré. Dans le pire des cas, si le caractère recherché n’est pas présent, alors on effectuera autant de comparaisons que dans la version qui compte les occurrences, mais dans les autres cas on peut gagner de précieuses nanosecondes de temps de calcul !  
Pour arrêter le test de présence dès que l'on a trouvé notre caractère, nous allons effectuer une **sortie anticipée** de la fonction avec $\texttt{return}$.

In [40]:
def presence(c,s):
    """str * str -> bool
    Hypothèse : len(c) == 1
    Retourne True si le caractère c est présent dans la chaine s, ou False sinon"""
    # cc : str (caractere courant)
    for cc in s :
        if cc == c :
            return True # on sort de la fonction (et donc de la boucle).
    return False # ici on a parcouru toute la chaine s, on sait que c est absent.

# jeu de tests
assert presence('e','les revenantes') == True
assert presence('e','la disparition') == False
assert presence ('z','') == False

### Simulation de $\texttt{presence}$  

Effectuons une simulation de boucle $\texttt{presence}(\text{'e'},\text{'les revenantes'})$  

| tour de boucle | variable $cc$ |
|:--------:|:---:|
| entrée  | $-$ |
| $1$  | $l$ |
| $2$  | $e$ |
| sortie anticipée | $-$ |


### Fonctions partielles  

Dans certains cas, le parcours des chaînes par itération sur les caractères qui la composent ne permet pas de résoudre simplement le problème posé. On peut alors utiliser un parcours basé sur les indices des caractères dans les chaînes.  
Le problème sans doute le plus simple dans cette catégorie est une variante du test de présence.

**Définition** : une **fonction partielle** est une fonction qui ne renvoie pas toujours de résultat.

**Problème** : donner la définition de $\texttt{recherche}$ qui, étant donné un caractère $c$ et une chaı̂ne $s$ , renvoie le premier indice d'occurrences de $c$ dans $s$.   
Si le caractère est absent, alors la fonction retourne la valeur $\texttt{None}$. Cette caractéristique particulière fait de la fonction $\texttt{recherche}$ une **fonction partielle**.

La fonction $\texttt{recherche}$ :  
• renvoie un entier (l'indice) si le caractère est présent  
• ne renvoie rien ( $\texttt{None}$ ) sinon  
• signature : $\texttt{str ∗ str −> int + NoneType}$  

Exemple : $\texttt{recherche}$  (avec $\texttt{for}$ ou avec $\texttt{while}$)

In [42]:
def recherche(c,s):
    """str * str -> int + NoneType
    Hypothèse: len(c) == 1
    retourne l'indice de la première occurrence du caractère c dans s, ou None si le caractère est absent"""
    # i : int
    i = 0 # indice courant, en commençant par le premier caractère
    while i < len(s) : # on "regarde" les indices de 0 a len(s)-1 (dernier caractère)
        if s[i] == c :
            return i # c est présent, on retourne directement indice courant
        else :
            i = i + 1 # sinon on passe indice suivant
    return None # ici on a parcouru tous les indices, c est absent, on retourne "pas de resultat".

# Jeu de tests
assert recherche('e', 'les revenantes') == 1
assert recherche('n', 'les revenantes') == 8
assert recherche('e', 'la disparition') == None

def recherche(c,s):
    """str * str -> int + NoneType
    Hypothèse: len(c) == 1
    retourne l'indice de la première occurrence du caractère c dans s, ou None si le caractère est absent"""
    # i : int
    for i in range(0,len(s)) :
        if s[i] == c :
            return i
    return None

# Jeu de tests
assert recherche('e', 'les revenantes') == 1
assert recherche('n', 'les revenantes') == 8
assert recherche('e', 'la disparition') == None

### Transformation  
De nombreux problèmes sur les chaînes de caractères consistent à analyser une chaîne en entrée
pour produire une autre chaîne en sortie.  
Les grands classiques de ce type d'analyse sont :  
- les **transformations** qui consistent à «modifier» les caractères d'une chaîne individuellement  
- les **filtrages** qui synthétisent une sous-chaîne à partir d'une chaîne, selon un prédicat donné  
- des combinaisons plus ou moins complexes des deux précédents.

$\texttt{Séquence → Séquence de même longueur}$  

Par exemple pour les chaı̂nes :  
• $\texttt{str −> str}$  : modifie les caractères de la chaı̂ne  
• On applique la même transformation à tous les caractères

Une **transformation** de chaîne consiste à appliquer une même opération à chacun des éléments d'une chaîne de caractères. Le résultat produit est donc une chaîne de même longueur que la chaîne initiale.  
Prenons l'exemple de la substitution de caractère, permettant notamment la création de codages simples.

**Problème** : donner la définition de $\texttt{substitution}$ qui, étant donné deux caractères $c\_1$ et $c\_2$ et une chaı̂ne $s$, renvoie une chaı̂ne corresondant à $s$ dans laquelle toutes les occurrences de $c\_1$ ont été remplacées par $c\_2$.

In [43]:
def substitution(c1,c2,s) :
    """str * str * str -> str
    Hypothèse: (len(c) == 1) and (len(d) == 1)
    retourne la chaine résultant de la substitution de c1 par c2 dans la chaine s."""
    # r : str
    r = '' # chaine resultat
    # cc : str (caractere courant)
    for cc in s :
        if cc == c1 :
            r = r + c2 # on substitue le caractere cc par c2
        else :
            r = r + cc # on garde le caractere cc
    return r

# jeu de tests
assert substitution('e', 'z', 'ceci est un code tres secret') \
== 'czci zst un codz trzs szcrzt'
assert substitution('z', 'e', "ceci n'est pas un tres bon code secret") \
== "ceci n'est pas un tres bon code secret"

# Remarque : anti-slash \ permet de continuer sur la ligne suivante.

### Filtrage  
Le **filtrage** d'une chaîne consiste à reproduire une chaîne en supprimant certains de ses caractères.  
La **condition de filtrage** qui décide si un caractère doit être retenu - on dit que le caractère
passe le filtre - ou au contraire supprimé - on dit que le caractère ne passe pas le filtre - peut
être arbitrairement complexe.  

$\texttt{Séquence → sous-séquence}$  

Par exemple pour les chaı̂nes :  
• $\texttt{str −> str}$  : renvoie une chaı̂ne plus petite contenant seulement certains des éléments mais dans le même ordre
• C'est le même critère qui est utilisé pour tous les caractères de la chaı̂ne

La condition de filtrage la plus simple est sans doute l'égalité avec un caractère donné, ce qui entraîne la suppression de toutes les occurrences de ce caractère dans la chaîne initiale pour produire la **chaîne filtrée**.  

**Problème** : donner la définition de $\texttt{suppression}$ qui, étant donné un caractère $c$ et une chaı̂ne $s$, renvoie une chaı̂ne correspondant à $s$ dans laquelle toutes les occurrences de $c$ ont été supprimées.

In [45]:
def suppression(c,s) :
    """str * str -> str
    Hypothèse: len(c) == 1
    retourne la sous-chaîne de s dans laquelle toutes les occurrences du caractère c sont supprimees."""
    # r : str
    r = '' # chaine resultat
    # cc : str (caractere courant)
    for cc in s :
        if cc != c :
            r = r + cc # ne pas supprimer, donc ajouter 
                      # sinon ne rien faire (supprimer) car occurrence de c
    return r

# Jeu de tests
assert suppression('e', 'les revenantes') == 'ls rvnants'
assert suppression('e', 'la disparition') == 'la disparition'
assert suppression('z', '') == ''

### Boucle vs. Itération  
• Toute itération peut-être représentée par une boucle $\texttt{while}$ :

In [47]:
## Itération sur les éléments.
def suppression (c,s) :
    """str ∗ str −> str
    Hypothese : len(c) == 1"""
    # r : str
    r = '' # chaine resultat
    # cc : str (caractere courant)
    for cc in s :
        if cc != c :
            r = r + cc # ne pas supprimer, donc ajouter 
                      # sinon ne rien faire (supprimer) car occurrence de c
    return r

## Itération sur les indices.
def suppression (c,s) :
    """str * str -> int + NoneType
    Hypothèse: len(c) == 1"""
    # i : int
    for i in range(0,len(s)) :
        if s[i] != c :
            r = r + s[i]
    return r

## Boucle while.
def suppression (c,s) :
    """str * str -> int + NoneType
    Hypothèse: len(c) == 1"""
    # i : int
    i = 0
    while i < len(s) :
        if s[i] != c :
            r = r + s[i]
            i = i + 1
    return r

### Boucle vs. Itération (II)
• L'inverse n’est pas vraie.  

In [48]:
def pgcd(a,b) :
    """ ... """
    q = a
    r = b
    temp = 0
    while r != 0 :
        temp = q % r
        q = r
        r = temp
    return q

• Comment trouver une itération correspondante ?  
• Différence: **borne fixe** (itération), **condition d'arrêt** (boucle).

### Itération vs. Boucle (III)  
• On préfère une **itération** quand c'est possible (**élégance**).

In [49]:
def factorielle(n) :
    """int −> int
    hypothese : n > 0"""
    # k : int
    k = 1   # on demarre au rang 1
    # f : int
    f = 1   # factorielle au rang 1
    while k <= n :
        f = f * k
        k = k + 1
    return f

def factorielle(n) :
    """int −> int
    hypothese : n > 0"""
    # k : int
    # f : int
    f = 1   # factorielle au rang 1
    for k in range(1,n+1) :
        f = f * k
    return f
    

### Inclassable : inversion  
Pour terminer, intéressons-nous aux problèmes qui sortent du cadre de notre classification. Cette dernière est utile car de nombreux problèmes correspondent soit à des constructions, des réductions, des transformations ou des filtrages. Mais il existe bien sûr d'autres problèmes qui «résistent» à cette classification. Ces problèmes sont en général de nature plus complexe.  

**Problème** : donner une définition de $\texttt{inversion}$ qui, étant donné une chaı̂ne $s$, renvoie la chaı̂ne $s$ inversée.

les indices des caractères de la chaîne inversée sont simplement inversés :
- le premier caractère de la chaîne initiale devient le dernier caractère de la chaîne inversée  
- le deuxième caractère $\ldots$ devient l'avant-dernier $\ldots$  
- $\ldots$ etc $\ldots$  
- l'avant-dernier caractère $\ldots$ devient le deuxième caractère $\ldots$  
- le dernier caractère de la chaîne initiale devient le premier caractère de la chaîne inversée  

Remarquons que même si la fonction inversion possède une **signature $\texttt{str -> str}$** elle ne
réalise pas directement une transformation ou un filtrage.


In [50]:
def inversion(s) :
    """str -> str
    retourne la chaîne s inversee."""
    # r : str
    r = '' # la chaine resultat
    # c : str (caractere courant)
    for cc in s :
        r = cc + r # cc au debut de la nouvelle chaine en construction
    return r

# Jeu de tests
assert inversion('abcd') == 'dcba'
assert inversion('A man, a plan, a canal : Panama') \
== 'amanaP : lanac a ,nalp a ,nam A'
assert inversion('') == ''

### Simulation  

Pour comprendre le principe d'inversion, effectuons la simulation de l'exemple $\texttt{inversion}(\text{'}abcd\text{'})$  donc pour $s=\text{'}abcd\text{'}$ : 

| tour de boucle | variable $cc$ | variable $r$ |
|:--------:|:---:|:---:|
| entrée  | $-$ | $\text{''}$ |
| 1er  | $a$ | $a$ |
| 2e  | $b$ | $ba$ |
| 3e  | $c$ | $cba$ |
| 4e  | $d$ | $dcba$ |
| sortie | $-$ | $dcba$ |




### Exemple : entrelacement  
Le deuxième problème qui nous intéresse concerne l'entrelacement de deux chaînes de caractères.  
**Problème** : donner une définition de $\texttt{entrelacement}$ qui, étant donné deux chaı̂nes de caractères $s\_1$ et $s\_2$, renvoie une chaı̂ne correspondant à l'entrelacement de $s\_1$ et $s\_2$.  

Le résultat est une nouvelle chaîne composée de la façon suivante :  
- son premier caractère est le premier caractère de la première chaîne de départ,  
- son second caractère est le premier caractère de la seconde chaîne,  
- son troisième caractère est le second caractère de la première chaîne,  
- son quatrième caractère est le second caractère de la seconde chaîne,  
etc.

Lorsque tous les caractères d'une des deux chaînes ont été reconstruits, on recopie directement les caractères restant dans l'autre chaîne.  
La **signature** de cette fonction est donc la suivante : $\texttt{str * str -> str}$, elle ne
réalise pas directement une transformation ou un filtrage car pour construire la chaîne résultat, nous devons analyser deux chaînes fournies en paramètres et non une seule.  

De ce fait, la boucle $\texttt{for}$ n'est pas très adaptée puisqu'elle ne permet d'itérer qu'une seule chaîne
et non deux simultanément. Nous allons donc utiliser un **parcours des chaînes par les indices** de caractères, avec un compteur et une boucle $\texttt{while}$.


In [51]:
def entrelacement(s1,s2) :
    """str * str -> str
    renvoie la chaîne constituée par entrelacement des caracteres des chaines s1 et s2."""
    # i : int
    i = 0 # indice pour parcourir les deux chaines
    # r : str
    r = '' # chaine resultat    
    while (i < len(s1)) and (i < len(s2)):
        r = r + s1[i] + s2[i]
        i = i + 1
    if i < len(s1) :
        r = r + s1[i:len(s1)]
    elif i < len(s2) :
        r = r + s2[i:len(s2)]
    return r

# Jeu de tests
assert entrelacement('ace', 'bdf') == 'abcdef'
assert entrelacement('aceghi', 'bdf') == 'abcdefghi'
assert entrelacement('ace', 'bdfghi') == 'abcdefghi'
assert entrelacement('abc', '') == 'abc'
assert entrelacement('', 'abc') == 'abc'
assert entrelacement('', '') == ''

### Simulation  
Pour bien comprendre le fonctionnement de cette fonction non-triviale, regardons la simulation
de $\texttt{entrelacement}(\text{'}ace\text{'},\text{'}bdfghi\text{'})$ donc pour $s\_1=\text{'}ace\text{'}$ et $s\_2=\text{'}bdfghi\text{'}$.  
Pour la boucle, la simulation est la suivante :



| tour de boucle | variable $r$ | variable $i$ |
|:--------:|:---:|:---:|
| entrée  | $\text{''}$ | $0$ |
| 1er  | $ab$ | $1$ |
| 2e  | $abcd$ | $2$ |
| 3e  | $abcdef$ | $3$ |
| sortie | $abcdef$ | $3$ |

Après le 3ème tour de boucle la variable $i$ vaut $3$ donc la condition $i < \texttt{len}(s\_1)$ est fausse
puisque $\texttt{len}(s\_1) == 3$ donc la condition de boucle est fausse et on sort de la boucle. En revanche, puisque $\texttt{len}(s\_2) == 6$ on exécute la branche $\texttt{elif}$. Comme $s2[3:6] == \text{'}ghi\text{'}$ la valeur de la variable $r$ après cette étape est la suivante : $r == \text{'}abcdefghi\text{'}$. C'est finalement la valeur retournée par la fonction.

## Conclusion  
Ce qu'il faut savoir faire à l'issue de cette partie :  
* Notion d'intervalle comme séquence d'entiers   
    * construction : $\texttt{range}$
    * itération sur les intervalles :  $\texttt{for}$
* Notion de chaı̂ne de caractères comme séquence de caractères 
    * construction atomique : " " ou $\text{''}$
    * construction par concaténation : $+$
    * déconstruction par accès direct : $c[i]$
    * déconstruction par découpage : $c[i:j]$
    * comparaison : $==$, $<$, $!=$, $\ldots$
* Savoir reconnaı̂tre la catégorie d'un problème sur les chaı̂nes : 
    * réduction
    * transformation
    * filtrage