# Le BN pour encoder et traiter des textes en machine

Un paquet de données transmit entre deux machines via internet que ce soit du texte, des images ou du son, tout comme un fichier informatique quelqu'il soit, ne sont finalement qu'une suite de 0 et de 1 que l'on peut regrouper par lots de 8 formant ainsi une séquence d'octects.

Utiliser un encodage plutôt qu'un autre revient à interpréter la même séquence d'octets de deux façons différentes au risque de commettre des erreurs...

## L'ASCII :

Pour interpréter correctement un message textuel échangé entre ordinateurs, le choix d'une convention de codage commune et standardisée s'est imposé dès le début des années 1960. C'est la norme **ASCII** pour American Standard Code for Information Interchange qui a été retenu pour le codage des caractères.

C'est une table de 128 caractère numérotés de 0 à 127 (sur 7 bits) :

<img alt="ASCII-Table" src="https://upload.wikimedia.org/wikipedia/commons/d/dd/ASCII-Table.svg">

Ce jeu de symboles est suffisant pour rédiger un programme informatique ou un texte en Anglais. Mais il ne permet pas d'écrire dans d'autres langues qui utiliseraient des accents par exemple...

><h2 class='fa fa-graduation-cap' style="color: purple"> Exercice d'application :</h2>
>
> Peut-on transformer l'image précédemment étudiée en un message textuel codé en ASCCI ?
> 
><img src="https://ericecmorlaix.github.io/img/NSI-ASCII-2D_Code.png" alt="ExerciceCodageASCII.png">
>

## Python et l'ASCII :

La fonction `ord()` renvoie le nombre entier décimal du code ASCII correspondant au caractère passé en argument.

Inversement, `chr()` renvoie le caractère correspondant dans la table ASCII à l'entier passé à cette fonction.



In [None]:
chr(0b01000001)

In [None]:
chr(0x41)

In [None]:
ord('A')

In [None]:
bin(65)

In [None]:
hex(ord('A'))

><h2 class='fa fa-code' style="color: purple"> A coder vous même :</h2>
>
> **Ecrire** un script qui affiche dans un tableau l'ensemble des caractères imprimables et leur code ASCII respectif

In [None]:
for i in range (127):
    print(f'chr({hex(i)}) = '+ chr(i), end='  |  ')

## L'art ASCII :

***
> De [l’art ASCII](https://fr.wikipedia.org/wiki/Art_ASCII) (prononcé [aski:]) consiste à créer des images uniquement à l'aide des lettres et caractères spéciaux contenus dans l'American Standard Code for Information Interchange [ASCII](https://fr.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange) 
>
> C'est l'ancêtre des [émoticônes](https://fr.wikipedia.org/wiki/Émoticône)...  ;-)

<img src="https://ericecmorlaix.github.io/img/aSki.jpg" alt="dessin skieur" width=40%>
<center>Art ASCII ou art à ski ?</center>

***

Les caractères peuvent être saisis directement par leur code ASCII en utilisant la notation ``\xhh`` où ``hh`` est le code hexadécimal du caractère.

In [None]:
print('\x20' * 6 + '\x5c' + '\x7c' * 3 + '\x2f')
print('\x20' * 6 + '(0 0)')
print('\x2e\x7e\x6f\x6f\x4f\x7e\x7e(\x5f)' + '\x7e' * 6 + '\x2e')

for i in range (0,3):
    if i == 1 :
        print('\x7c  L\'art ASCII  \x7c')
    else :
        print('\x7c' + '\x20' * 15 + '\x7c')
    
print("\x27" + '\x7e' * 11 + "\x6f\x6f\x4f\x7e\x27")

print('\x20' * 5 + '\x7c' + '\x5f' * 2 + '\x7c' + '\x5f' * 2 + '\x7c')
print('\x20' * 6 + '\x7c' * 2 + '\x20' + '\x7c' * 2)
print('\x20' * 5 + '\x6f' * 2 + '\x4f\x20\x4f' + '\x6f'*2)

><h2 class='fa fa-code' style="color: purple"> A coder vous même :</h2>
>
> **Développer** votre avatar en Art ASCII pour signer les docstrings de vos fonctions...

## Chaine de caractères

In [None]:
une_chaine = "Joyeux Anniversaire"

### Quel est le type de cette variable ? - fonction type ()

In [None]:
type (une_chaine)

### Quelle est la longueur de cette chaîne de caractères ?

In [None]:
len (une_chaine)

<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;border-color:#aabcfe;}
.tg td{font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:#aabcfe;color:#669;background-color:#e8edff;}
.tg th{font-family:Arial, sans-serif;font-size:14px;font-weight:normal;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:#aabcfe;color:#039;background-color:#b9c9fe;}
.tg .tg-htl6{font-size:14px;font-family:"Comic Sans MS", cursive, sans-serif !important;;border-color:inherit;text-align:center;vertical-align:middle}
.tg .tg-yaja{font-size:14px;font-family:"Comic Sans MS", cursive, sans-serif !important;;border-color:inherit;text-align:center;vertical-align:top}
.tg .tg-l3hy{background-color:#D2E4FC;font-size:14px;font-family:"Comic Sans MS", cursive, sans-serif !important;;border-color:inherit;text-align:center;vertical-align:middle}
.tg .tg-adyi{background-color:#D2E4FC;font-size:14px;font-family:"Comic Sans MS", cursive, sans-serif !important;;border-color:inherit;text-align:center;vertical-align:top}
</style>
<table class="tg">
  <tr>
    <th class="tg-htl6">J</th>
    <th class="tg-htl6">o</th>
    <th class="tg-htl6">y</th>
    <th class="tg-htl6">e</th>
    <th class="tg-htl6">u</th>
    <th class="tg-yaja">x</th>
    <th class="tg-yaja"></th>
    <th class="tg-yaja">A</th>
    <th class="tg-yaja">n</th>
    <th class="tg-yaja">n</th>
    <th class="tg-yaja">i</th>
    <th class="tg-yaja">v</th>
    <th class="tg-yaja">e</th>
    <th class="tg-yaja">r</th>
    <th class="tg-yaja">s</th>
    <th class="tg-yaja">a</th>
    <th class="tg-yaja">i</th>
    <th class="tg-yaja">r</th>
    <th class="tg-yaja">e</th>
  </tr>
  <tr>
    <td class="tg-htl6">0</td>
    <td class="tg-l3hy">1</td>
    <td class="tg-htl6">2</td>
    <td class="tg-l3hy">3</td>
    <td class="tg-htl6">4</td>
    <td class="tg-adyi">5</td>
    <td class="tg-yaja">6</td>
    <td class="tg-adyi">7</td>
    <td class="tg-yaja">8</td>
    <td class="tg-adyi">9</td>
    <td class="tg-yaja">10</td>
    <td class="tg-adyi">11</td>
    <td class="tg-yaja">12</td>
    <td class="tg-adyi">13</td>
    <td class="tg-yaja">14</td>
    <td class="tg-adyi">15</td>
    <td class="tg-yaja">16</td>
    <td class="tg-adyi">17</td>
    <td class="tg-yaja">18</td>
  </tr>
  <tr>
    <td class="tg-htl6">-19</td>
    <td class="tg-l3hy">-18</td>
    <td class="tg-htl6">-17</td>
    <td class="tg-l3hy">-16</td>
    <td class="tg-htl6">-15</td>
    <td class="tg-adyi">-14</td>
    <td class="tg-yaja">-13</td>
    <td class="tg-adyi">-12</td>
    <td class="tg-yaja">-11</td>
    <td class="tg-adyi">-10</td>
    <td class="tg-yaja">-9</td>
    <td class="tg-adyi">-8</td>
    <td class="tg-yaja">-7</td>
    <td class="tg-adyi">-6</td>
    <td class="tg-yaja">-5</td>
    <td class="tg-adyi">-4</td>
    <td class="tg-yaja">-3</td>
    <td class="tg-adyi">-2</td>
    <td class="tg-yaja">-1</td>
  </tr>
</table>

### Les indices dans la chaîne de caractères

In [None]:
une_chaine[0]

In [None]:
une_chaine[7]

***!!! On commence à compter à l'indice 0 !!!***

In [None]:
une_chaine.index("J") # donne l'indice du premier J majuscule rencontré dans la chaîne

In [None]:
une_chaine.index("e") # donne l'indice du premier e minuscule rencontré dans la chaîne

In [None]:
une_chaine[-1] # la première valeur en commençant par la fin

In [None]:
une_chaine[-19] # == une_chaine[1]

In [None]:
une_chaine [-len(une_chaine)] # Vous avez compris ?

# Le slicing

Le **_slicing_** est une méthode applicable à tous les objets de type liste ordonnée (liste ou chaîne de caractère mais pas aux dictionnaires). ll s'agit d'un "découpage en tranches" des éléments d'une liste de manière à récupérer des objets respectant cette découpe.

Pour cela, nous devrons spécifier l'indice de l'élément de départ, l'indice de l'élément d'arrivée (qui ne sera pas compris dans la plage) et le pas de déplacement. Pour une variable v donnée, l'écriture se fera en utilisant la notation entre crochets et en séparant chacun des paramètres par le caractère deux-points: **_v[début:fin:pas]_**. Cette écriture peut se traduire par : les caractères de la variable **_v_** depuis l'indice **_début_** jusqu'à l'indice **_fin_** non compris avec un déplacement de **_pas_** caractère(s).  

Pour bien comprendre le fonctionnement du slicing, nous commencerons par l'appliquer aux chaînes de caractères avant de voir les listes et les tuples.

In [None]:
une_chaine [1:5] # de l'indice 1 inclus à l'indice 5 exclus

In [None]:
une_chaine [2:] # de l'indice 2 inclus jusqu'à la fin

In [None]:
une_chaine [:-1] # du début à l'indice -1 exclus

In [None]:
une_chaine [::-1] # en partant de la fin et à l'envers vers le début

In [None]:
une_chaine [::2] # afficher tout par pas de 2

### Les indices en pratique avec une boucle while

In [None]:
une_chaine = "Joyeux Anniversaire"
i = 0
while i < len (une_chaine):
    print ("A l'indice", i, "se trouve la lettre ", une_chaine[i])
    i = i + 1

### Parcours de chaîne avec la boucle for  

In [None]:
une_chaine = "Joyeux Anniversaire"
i = 0
for lettre in une_chaine :
    print ("A l'indice", i, "se trouve la lettre ", lettre)
    i = i + 1

### Script permettant de distinguer les voyelles, les consonnes et les espaces

In [None]:
une_chaine = "Joyeux Anniversaire"
for lettre in une_chaine :
    if lettre in "aeiouyAEIOUY":
        print (lettre, "est une voyelle")
    elif lettre == " ":
        print (lettre, "est un espace")
    else :
        print (lettre, "est une consonne")

### Script permettant de compter les voyelles, les consonnes et les espaces

In [None]:
une_chaine = "Joyeux Anniversaire"
compteur_voyelles = 0
compteur_consonnes = 0
compteur_espaces = 0
for lettre in une_chaine :
    if lettre in "aeiouyAEIOUY":
        print (lettre, "est une voyelle")
        compteur_voyelles = compteur_voyelles + 1
    elif lettre == " ":
        print (lettre, "est un espace")
        compteur_espaces = compteur_espaces + 1
    else :
        print (lettre, "est une consonne")
        compteur_consonnes = compteur_consonnes + 1
print ("Il y a, dans cette phrase,",compteur_voyelles,"voyelle(s),"\
       ,compteur_consonnes,"consonne(s),",compteur_espaces,"espace(s)")

### Les méthodes de la classe str

In [None]:
help ("str")

In [None]:
ma_chaine = "HELLO"
print (ma_chaine)

In [None]:
ma_chaine.lower ()

In [None]:
ma_chaine_2 = "hello"
print (ma_chaine_2)

In [None]:
ma_chaine_2.upper ()

In [None]:
ma_chaine_2.capitalize ()

In [None]:
ma_chaine_3 = "   HELLO   "
print (ma_chaine_3)

In [None]:
ma_chaine_3.strip ()

In [None]:
ma_chaine_3.strip ().center (40)

Il existe de nombreuse méthode pour les chaînes de caratères.
tapez alors juste ***ma_chaine. (n'oubliez pas le point) puis appuyez sur la tabulation***, vous devez voir toutes les méthodes.

|a | b | c | d |
| :-----------: | :----------:|:-----------:|:-----------:|
|x.capitalize | x.isalnum      |    x.join      |    x.rsplit |
|x.casefold   |   x.isalpha     |  x.ljust        | x.rstrip |
|x.center     |   x.isdecimal   |  x.lower       |  x.split|
|x.count      |   x.isdigit     |  x.lstrip      |  x.splitlines |
|x.encode     |   x.isidentifier |  x.maketrans   |  x.startswith |
|x.endswith   |   x.islower     |  x.partition   |  x.strip |
|x.expandtabs |   x.isnumeric   |  x.replace     |  x.swapcase|
|x.find       |   x.isprintable |  x.rfind       |  x.title|
|x.format     |   x.isspace     |  x.rindex      |  x.translate|
|x.format_map |   x.istitle     |  x.rjust       |  x.upper|
|x.index      |   x.isupper     |  x.rpartition  |  x.zfill|

In [None]:
ma_chaine.

In [None]:
print(ma_chaine.count('e'))  #on indique le nombre de fois où le caractère e apparaît dans la chaîne
print(ma_chaine.find('n'))   #on cherche l'indice de la première occurence du caractère v

On peut choisir un caractère au hasard dans la chaîne, avec le module **random** et la fonction **choice()** :

In [None]:
from random import choice  #on importe seulement la fonction choice !
choice(ma_chaine)

### Une chaîne de caractères est immutable (non modifiable) !!!!

In [None]:
une_chaine = ("paris")

In [None]:
une_chaine[0]

In [None]:
une_chaine[0] = "m" # ne fonctionne évidemment pas ! 

In [None]:
une_chaine_2 = "m" + une_chaine [1:]

In [None]:
une_chaine_2

><h2 class='fa fa-code' style="color: purple"> A coder vous même :</h2>
>
> **Ecrire** un script qui recopie une chaîne (dans une nouvelle variable), en insérant des `§` entre les caractères.


****
## Références aux programmes :

<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;}
.tg td{font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;}
.tg th{font-family:Arial, sans-serif;font-size:14px;font-weight:normal;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;border-color:black;}
.tg .tg-cv16{font-weight:bold;background-color:#dae8fc;border-color:inherit;text-align:center}
.tg .tg-xldj{border-color:inherit;text-align:left}
</style>
<table class="tg">
  <tr>
    <th class="tg-cv16">Compétences développées</th>
    <th class="tg-cv16">Capacités attendues</th>
    <th class="tg-cv16">Commentaires</th>
  </tr>
  <tr>
    <td class="tg-xldj">Représentation d’un texte en machine.<br><br>Exemples des encodages ASCII, ISO-8859-1, Unicode</td>
    <td class="tg-xldj">Identifier l’intérêt des différents systèmes d’encodage.<br><br>Convertir un fichier texte dans différents formats d’encodage.</td>
    <td class="tg-xldj">Aucune connaissance précise des normes d’encodage n’est exigible.</td>
  </tr>
</table>

****
## A retenir :
- **Codage** : Opération consistant à représenter des informations à l'aide d'un code.
- **Codage binaire** : Le code binaire utilise exclusivement les symboles 0 et 1 (systèmes logiques).
- **Bit** : C'est le chiffre élémentaire de la numérotation binaire.
- **Mot** : Groupe de "n" bits; un mot de 4 bits s'appelle un quartet, 8 bits s'appelle un octet...



- *A vous de compléter ce mémo*...
- ... 

***

## Prolongement :





<a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Licence Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br />Ce document est mis à disposition selon les termes de la <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">Licence Creative Commons Attribution -  Partage dans les Mêmes Conditions 4.0 International</a>.

Pour toute question, suggestion ou commentaire : <a href="mailto:eric.madec@ecmorlaix.fr">eric.madec@ecmorlaix.fr</a>