<div class="licence">
<span>Licence CC BY-NC-ND</span>
<span>Thierry Parmentelat &amp; Arnaud Legout</span>
</div>

In [None]:
from plan import plan; plan("types", "séquences")

### les séquences

* suite finie et ordonnée d'objets
* du coup indexable `seq[n]`
* indices **commencent à 0**
* peuvent contenir des duplications

* mutable
  * `list`, `bytearray`
* immutable
  * `str`, `bytes`, `tuple`, `range`

# fonctions sur (toutes) les séquences

* `S[i]`
  * retourne l’élément d'indice i
* `len(S)` 
  * donne la taille en nombre d’éléments

### Fonctions sur les séquences

* `S + T`
 * retourne une nouvelle séquence qui est la concaténation de S et T
* `S*n` ou `n*S`
  * retourne une nouvelle séquence qui est la concaténation de n *shallow* copies de S
* `min(S)` (resp. `max(S)`)
  * retourne le plus petit (resp. le plus grand) élément de S  

### fonctions sur les séquences

* `x in S`; selon les types:
 * `True` si un élément de S est égal à x (e.g. `list`)
 * `True` si S contient x (e.g. `str`)
* `S.index(a)`
  * retourne l’indice de la première occurrence de a dans S
* `S.count(a)`
  * retourne le nombre d’occurrences de a dans S

### fonctions sur les séquences

#### *slicing*

* `S[i:j]` retourne 
  * une nouvelle séquence de même type
  * contenant tous les éléments de l’indice i à l’indice j-1
* `S[i:j:k]` retourne
  * une nouvelle séquence de même type
  * prenant tous les éléments de l’indice i à l’indice j-1, par sauts de k éléments

<img src="pictures/egg-bacon.png"/>

### *slicing*

* on peut compter du début ou de la fin
* on peut omettre les bornes

In [None]:
s = "egg, bacon"
s[0:3]

In [None]:
# si on omet une borne 
# ce sera le début ..
s[:3]

In [None]:
# ... ou la fin:
s[5:]

In [None]:
# les indices peuvent être négatifs
s[-3:10]

In [None]:
# tout entier: une shallow-copy
s[:]

<img src="pictures/egg-bacon-bornes.png" text-align="center">

### les bornes

La convention est choisie pour pouvoir facilement encastrer les slices:

In [None]:
s[0:3]

In [None]:
s[3:6]

In [None]:
s[6:]

In [None]:
s[0:3] + s[3:6] + s[6:] == s

<img src="pictures/egg-bacon.png" text-align="center">

### le pas

* on peut préciser un pas
* peut aussi être négatif
* ou omis (défaut 1)

In [None]:
s[0:10:2]

In [None]:
s[::2]

In [None]:
s[:8:3]

In [None]:
s[-2::-3]

<img src="pictures/egg-bacon.png" text-align="center">

### pas d'exception

les slices ont un comportement plus permissif que l'indexation

In [None]:
# Si j'essaie d'utiliser un index inexistant
try: s[100]
except Exception as e: print("OOPS", e)

In [None]:
# par contre avec un slice, pas de souci
s[5:100]

In [None]:
# vraiment..
s[100:200]

<img src="pictures/egg-bacon.png" text-align="center">

In [None]:
s[-1]

In [None]:
s[-3:-1]

In [None]:
s[:-3]

In [None]:
s[::-1]

In [None]:
s[2:0:-1]

In [None]:
s[2::-1]

# formes idiomatiques

In [None]:
s = [1, 2, 3]

In [None]:
# une copie simple
s[:]

In [None]:
# copie renversée
s[::-1]

# `str` et `bytes`

* deux cas particuliers de **séquences**
  * `str` pour manipuler **du texte**
  * `bytes` pour manipuler **de la donnée brute**
  
* **ATTENTION**
  * un caractère ce **n'est pas** un octet

# chaînes de caractères `str` 

* un cas particulier de séquence
* une chaîne de caractères est définie de manière équivalente par des simples ou doubles guillemets (`'` ou `"`)
* on peut ainsi facilement inclure un guillemet

In [None]:
# une chaine entre double quotes
# pas de souci pour les accents 
print("c'est l'été")

In [None]:
# entre simple quotes
print('on se dit "pourquoi pas"')

### chaînes de caractères `str` 

* pour écrire une chaîne sur plusieurs lignes on utilise `"""` ou `'''`

In [None]:
print("""et pour entrer plusieurs 
lignes avec des " et/ou des ' 
c'est facile""")

### chaînes de caractères `str`

* lorsque vous voulez entrer une chaine un peu longue
* vous pouvez **simplement accoler** deux chaines dans votre source:

In [None]:
s = "le début" " et la fin"
print(s)

In [None]:
s = ("une chaine trop longue"
     " pour tenir sur une ligne")
print(s)

dans ce deuxième exemple, notez les parenthèses (sinon c'est une erreur de syntaxe)

### chaînes de caractères `str`

* on écrit un retour chariot avec un `\n`
* autres caractères utilisant un backslash
  * `\\`  `\'` `\"` `\t`
  * `\x` `\u` `\U` 
  …

### chaînes de caractères `str`

In [None]:
s = "l'hôtel"
print(s)

In [None]:
s = 'une "bonne" idée'
print(s)

In [None]:
s = """une très longue phrase
avec saut de ligne"""
print(s)

In [None]:
s = '  un backslash \\ un quote \' ' 
print(s)

### chaînes de caractères `str`

Voici un problème commun, surtout sous Windows:

In [None]:
s = 'C:\Temp\test.txt'
print(s)

* `\T` n’existe pas, Python interprète correctement `\T`
* mais `\t` est compris comme une tabulation !!

* 1$^{ère}$solution : utiliser `\\`
* mais pas très élegant

In [None]:
s = 'C:\\Temp\\test1.bin'
print(s)

### chaînes de caractères `str`

* la bonne solution : "raw string" 
* chaîne de caractères dans laquelle les backslash ne sont *pas interprétés*

In [None]:
# pour créer une raw-string, simplement faire précéder le string d'un 'r'
s = r'C:\Temp\test1.bin'
print(s)

### chaînes de caractères `str`

* les triples guillemets sont souvent utilisé pour les *docstrings*  
  (aides des fonctions)

In [None]:
def double(n):
    """
    Returns the double of its input parameter
    
    The help message usually spans several lines
    """
    return 2*n

In [None]:
help(double)

# opérations sur les `str`

* toutes les opérations des séquences

In [None]:
s1 = 'abcdéfg'
s2 = 'bob'
len(s1)

In [None]:
# concaténation
s1 + s2
'abcdefbob'

In [None]:
s1[-1::-2]

In [None]:
'=' * 30

### opérations sur les `str` 

In [None]:
s1

In [None]:
'x' in s1

In [None]:
'cdé' in s1

In [None]:
s1.index('cdé')

### opérations sur les `str`

* par contre **ATTENTION** un `str` n'est **pas mutable**

In [None]:
try: 
    s1[2] = 'x'
except TypeError as e:
    print("OOPS", e, type(e))    

# formatage des chaînes : f-strings

* depuis Python-3.6
* utilisez les ***f-strings***
* qui évitent les répétitions fastidieuses

* entre `{` et `}` : **du code** 
* embarqué directement dans le format
* n'importe quelle expression

In [None]:
import math

In [None]:
nom, age = "Pierre", 42

In [None]:
f"{nom} a {age} ans"

In [None]:
f"360° = {2*math.pi} radians"

### formatage des chaînes de caractères

![](pictures/f-string.png)

In [None]:
print(f"ᴨ arrondi à deux décimales = {math.pi:.2f}")

### formatage des chaînes de caractères

* le format peut à son tour contenir des expressions

In [None]:
from decimal import Decimal
value = Decimal('12.34567')

In [None]:
# ici la précision de 4 
# signifie 4 chiffres
# significatifs en tout
f"value = >{value:10.4}<"

In [None]:
# ça aurait pu être 
# un paramètre
width = 10
precision = 4
f"value = >{value:{width}.{precision}}<"

### formats - scientifiques

formats scientifiques usuels: `e` `f` et `g`, cf. `printf`

In [None]:
x = 23451.23423536563
f'{x:e} | {x:f} | {x:g} | {x:010.1f} | {x:.2f}'

In [None]:
y = 769876.11434
f'{x:e} | {y:f} | {x:g} | {y:010.2f} | {x:.2f}'

Voir aussi pour plus de détails:  
https://mkaz.blog/code/python-string-format-cookbook/

### formats pour f-string : justification

justification: formats `<` `ˆ` et `>`

In [None]:
f"|{nom:<12}|{nom:^12}|{nom:>12}|"

In [None]:
# on peut aussi préciser avec quel caractère remplir
num = 123
f"|{num:<12}|{num:-^12}|{num:0>12}|"

# formatage : anciennes méthodes

* avant Python-3.6, il y a eu deux autres méthodes pour formatter
* `str.format()`
* l'opérateur `%`

* il est **recommandé** d'utiliser les f-strings
* mais les deux autres formes existent encore
* a minima savoir les lire

### formatage avec `str.format()` (*old-school*)

In [None]:
# anonyme (dans l'ordre)
print('We are the {} who say "{}!"'.format('knights', 'Ni'))

In [None]:
# par index
print('{1} and {0} {0}'.format('spam', 'eggs'))

In [None]:
# par nom
print('This {food} is {adjective}'
      .format(food='spam', adjective='absolutely horrible'))

### formatage avec `%` (*very old-school*)

* encore plus ancienne méthode

In [None]:
nom = "Alice"
"%s dit bonjour" % nom

In [None]:
d = 3
"%i + %i = %i" % (d, d, d + d)

In [None]:
"%(food)s is %(adjective)s" % {'food' : 'bacon',
                               'adjective' : 'delicious' }

* on peut être parfois tenté d’utiliser la concaténation `+`

In [None]:
'abc' + 'def' 

* par contre **attention**, on ne peut concaténer que des `str`, il faut convertir explicitement avec `str()`

In [None]:
age = 35
try: 'alice a ' + age + ' ans'
except Exception as e: print ("OOPS", e)

In [None]:
'alice a ' + str(age) + ' ans'

# méthodes sur les `str`

* de nombreuses méthodes disponibles

In [None]:
s = "une petite phrase"
s.replace('petite', 'grande')

In [None]:
s.find('hra')

In [None]:
liste = s.split()
liste

### méthodes sur les `str`

In [None]:
liste

In [None]:
"".join(liste)

In [None]:
" ".join(liste)

In [None]:
"_".join(liste)

In [None]:
s2 = "_".join(liste)
s2

In [None]:
s2.split('_')

### un peu d'introspection

disons qu'on voudrait savoir combien de méthodes sont disponibles sur les chaines.

In [None]:
type("abc")

In [None]:
str

In [None]:
# 'str' est une variable prédéfinie, qui référence 
# le type (la classe) de toutes les chaines
type("abc") is str

In [None]:
# du coup son type, c'est .. le type <type>
type(str)

### un peu d'introspection

In [None]:
# peu importe... quoi qu'il en soit, dir(str) retourne la liste
# des noms de méthodes connues sur cette classe; 
# regardons par exemple les premiers et les derniers
dir(str)[:2], dir(str)[-2:]

In [None]:
# avec len() je peux savoir combien il y en a
len(dir(str))

In [None]:
# mais en fait, pour un décompte significatif
# on enlève celles dont le nom contient `__`
len([method for method in dir(str) if '__' not in method])

# `str` *vs* `bytes`

* le type `bytes` correspond, comme son nom l'indique,  
  à une suite d'**octets**

  * signification (décodage) à la charge du programmeur

* ce qui **n'est pas du tout** le cas du type `str`
  * décodage fait par Python
  * le programmeur choisit un encodage (défaut UTF-8)

# `str` *vs* `bytes`

![](pictures/str-bytes.png)

# le type `bytes`

* le type `bytes` est un autre exemple de séquence
* sauf qu'il s'agit de modéliser des **octets** 
* c'est également un type **non mutable**

In [None]:
b = bytes([65, 66, 67])
b

In [None]:
try: 
    b[1] = 68
except Exception as exc:
    print(f"OOPS - {type(exc)}\n{exc}")

### le type `bytes`

pour construire un `bytes` on peut soit

* utiliser le constructeur `bytes()` - comme slide précédent
* lire un fichier ouvert en mode binaire - vu plus tard
* mettre un `b` devant une chaîne de caractères

In [None]:
# caractère -> code ASCII
b = b'ABC'
b

In [None]:
# sinon en hexa
b'\x45\xff'

### le type `bytes`

* comme on le voit dans `b'ABC'` , les octets d'un `bytes`  
  sont parfois **représentés par des caractères ASCII**

  * c'est un usage répandu
  * mais ça peut être **source de confusion**

In [None]:
# oui
b'ete'

* par exemple ceci ne **marcherait pas**
```
>>> b'été'
         ^
SyntaxError: bytes can only contain ASCII literal characters.
```

### le type `bytes`

* on manipule des objets `bytes` presque comme des objets `str`
* les bytes sont des séquences
* essentiellement les mêmes méthodes que pour les `str`

méthodes dans `str`, mais pas dans `bytes`

méthodes dans `bytes`, mais pas dans `str`

In [None]:
set(dir(str)) - set(dir(bytes))

In [None]:
set(dir(bytes)) - set(dir(str))

### le type `bytes`

* en interne, le type `bytes` ne stocke que des entiers
* la représentation sous forme de caractères est uniquement pour faciliter la lecture de l’ASCII

In [None]:
s = b'a\xff'
s[0], s[1]

# le type `bytearray`

* c’est un objet similaire au type `bytes`, mais qui est **mutable**
* on l’utilise lorsque l’on a besoin de modifier un objets `bytes`

In [None]:
source = b'spam'
buff = bytearray(source)
buff

In [None]:
# remplacer 'a' bar 'e'
buff[2] = ord('e')
buff

In [None]:
for char in buff:
    print(char, end=" ")

### le type bytearray

In [None]:
# méthode dans bytes 
# mais pas dans bytearray
set(dir(bytes)) - set(dir(bytearray))

In [None]:
# méthode dans bytearray 
# mais pas dans bytes
set(dir(bytearray)) - set(dir(bytes))

# texte, binaire et encodage

* choisir entre `str` et `bytes`
* quand et comment convertir 

### le problème

* dès que vous échangez avec l'extérieur, i.e.
  * Internet (Web, mail, etc.)
  * stockage (disque dur, clef USB)
  * terminal ou GUI, etc..
* vous devez traiter des flux **binaires**
  * et donc vous êtes confrontés à l'encodage des chaines
  * et notamment en présence d'accents
  * ou autres caractères non-ASCII

# contenus binaires et textuels

* toutes les données ne sont pas textuelles
  * exemple: fichiers exécutables comme `cmd.exe`
  * stockage de données propriétaires
* dès qu'on utilise des données textuelles,
  * on décode une suite de bits
  * il faut leur **donner un sens**
  * c'est l'encodage

# codage et décodage en python

![](pictures/str-bytes.png)

# Unicode

* ***une*** liste des caractères 
  * avec **chacun un *codepoint*** - un nombre entier unique
  * de l'ordre de 137.000 + en Juin 2018 (*and counting*)
  * limite théorique 1,114,112 caractères

* ***trois*** encodages:
    * **UTF-8**: taille variable 1 à 4 octets, **compatible ASCII**
    * UTF-32: taille fixe, 4 octets par caractère
    * UTF-16: taile variable, 2 ou 4 octets

![](pictures/unicode-table.png)

![](pictures/unicode-decode-example.png)

### UTF-8

* le nombre d'octets utilisé pour encoder un caractère dépend
  * du caractère et de l'encodage
  * texte ASCII : identique en UTF-8
  * en particulier, ne prennent qu'un octet

![](pictures/unicode-utf8-areas.png)

### Unicode et Python: `chr` et `ord`

![](pictures/unicode-e-accent.png)

In [None]:
# le codepoint du é accent aigu
codepoint = 0xe9
codepoint

In [None]:
chr(codepoint)

In [None]:
ord('é')

### UTF-8 et Python: `encode` et `decode`

In [None]:
text = 'été\n'
type(text)

In [None]:
# on compte les 
# caractères 

len(text)

In [None]:
# on sait formatter ;)
octets = text.encode(encoding="utf-8")
for b in octets:
    print(f"{b:02x}", end=" ")

In [None]:
# ici par contre on
# compte les octets

len(octets)

### UTF-8 et Python: `encode` et `decode`

In [None]:
# attention, la présentation des bytes
# à base de caractères n'est pas très lisible
octets

In [None]:
# ici on a bien 6 octets
len(octets)

In [None]:
octets.decode(encoding="utf-8")

### pourquoi l’encodage c’est souvent un souci ?

* chaque fois qu'une application écrit du texte dans un fichier
  * elle utilise un encodage
* cette information (quel encodage?) est **parfois** disponible
  * dans ou avec le fichier
  * ex. `# -*- coding: utf-8 -*-`
  * HTTP headers
* mais le plus souvent on ne peut pas sauver cette information
  * pas prévu dans le format
  * il faudrait des **métadata**

### pourquoi l’encodage c’est souvent un souci ?

* du coup on utilise le plus souvent des heuristiques
  * ex: un ordinateur (OS) configuré pour `cp-1252`
  * applications qui utilisent l'encodage défini pour tout l'ordi
* c'est comme ça qu'on reçoit des mails comme
  * `j'ai Ã©tÃ© reÃ§u Ã\xa0 l'Ã©cole`
  * au lieu de
  * `j'ai été reçu à l'école`
* sans parler des polices de caractères..

In [None]:
# Jean écrit un mail
envoyé = "j'ai été reçu à l'école"

In [None]:
# son OS l'encode pour le faire passer sur le réseau
binaire = envoyé.encode(encoding="utf-8")

In [None]:
# Pierre reçoit le binaire
# mais se trompe d'encodage
reçu = binaire.decode(encoding="cp1252")

In [None]:
# Pierre voit ceci dans son mailer
reçu

### pourquoi ça fonctionne en général ?

* lorsqu’on travaille toujours sur la même machine, 
  * si toutes les applications utilisent l'encodage de l'OS
  * tout le monde parle le même encodage
* le problème se corse
  * dès qu'il s'agit de données externes

### comment en est on arrivé là ?

* le standard définit les 128 premières valeurs
  * c’est l’ASCII classique
* du coup pendant longtemps le modèle mental a été
  * ***un char = un octet***
* cf. le type `char` en C

* pendant les années 1990 on a introduit un patch
  * encodages comme `iso-latin1`, `cp1252`
  * préserve l'invariant ***un char = un octet***
  * au prix .. d'une multitude d'encodages

### comment faire en pratique ?

* le défaut en Python est d'utiliser UTF-8
  * pour les sources
  * pour ouvrir les fichiers
* on peut préciser l'encodage des sources avec
  * `# coding: ascii` dans les sources
  * pas utile donc si en UTF-8 - bien sûr recommandé
* on peut (devrait) préciser l'encodage avec
  * `str.encode()`, `bytes.decode()`, et `open()`
  * le défaut dans ce cas va dépendre de l'OS !

### les chaines littérales

Un caractère peut être soit 

In [None]:
# entré directement au clavier
accent = 'é'
accent

In [None]:
# copié collé
warn = '⚠'
warn

In [None]:
# défini à partir de son codepoint
# si petit (un octet), format hexadécimal
'\xe9'

In [None]:
# si plus grand, utiliser \u 
# pour les codepoints sur 2 octets
"\u26A0"

Enfin `\Uxxxxxxxx` pour 4 octets, si codepoint encore plus grand (pas fréquemment utile)

# un exemple

In [None]:
s = '\u0534\u06AB\u05E7\u098b\u0bf8\u0f57\u2fb6'
print(s)

avec ces trois notations '\x` `\u` et `\u` il faut bien sûr utiliser **exactement**, respectivement, 2, 4 ou 8 digits hexadécimaux.

In [None]:
# le retour chariot a pour code ASCII 10
print('\x0a')

In [None]:
# je ne peux pas faire l'économie du 0 
try:
    print('\xa') # python n'est pas content
except:
    import traceback; traceback.print_exc()

### autres outils de conversion

les fonctions `chr` et `ord` font correspondre un codepoint décimal et un caractère Unicode

d'autres fonctions natives sont utiles pour convertir les codepoints (ou autres d'ailleurs) 

In [None]:
codepoint = 233; chr(codepoint)

In [None]:
hex(codepoint)

In [None]:
oct(codepoint)

In [None]:
bin(codepoint)

# `str.len()` : nombre de caractères

In [None]:
triple = '\xe7\u00e7\U000000e7'
len(triple)

* \xe7, \u00e7 et \U000000e7 un caractère chacun

* ***un caractère n'est pas un octet***
* on ne peut faire **aucune hypothèse** sur le nombre d'octets par caractère

In [None]:
# la différence avec l'encodage en bytes
len(triple.encode())

# configurer son éditeur de texte pour supporter Unicode/UTF-8

* notamment lorsque vous écrivez du code
* il est important que votre éditeur
* écrive bien vos fichiers source en **UTF-8**
* de plus en plus c'est le cas par défaut
* sinon il y a sans doute un réglage dans l'éditeur pour ça

# configurer son éditeur de texte pour Unicode/UTF-8

* si votre éditeur sauve en autre chose qu’utf-8, vous devez obligatoirement ajouter la ligne suivante au début de votre fichier
```
    # -*- coding: utf8 -*-
```

  En remplaçant utf8 par l’encodage utilisé par votre éditeur

### encodages par défaut

In [None]:
# on connait l’encodage du terminal avec
import sys
sys.stdin.encoding

In [None]:
# et dans l'autre sens
# 
sys.stdout.encoding

In [None]:
# on connait l’encodage du système de fichier avec
sys.getfilesystemencoding()

In [None]:
# et le réglage système par défaut
sys.getdefaultencoding()

en principe, au 21-ème siècle vous devez avoir utf-8 partout !

### comment changer d'encodage ?

* on passe toujours par le type `bytes`

In [None]:
# j'écris un mail
s = 'un été, à noël'
# il se fait encoder
b8 = s.encode()
b8

In [None]:
# on envoie les bytes par mail
# si à l'arrivée on utilise le mauvais
s1 = b8.decode('latin1')
s1

### en cas de problèmes

* pour ***décoder*** avec un encodage qui ne supporte pas tous les caractères encodés
* `decode()` accepte un argument `error`
  * `"strict"` (par défaut)
  * `"ignore"` (jette le caractère non supporté)
  * `"replace"` (remplace le caractère non supporté)

In [None]:
octets = 'un été, à noël'.encode(encoding='utf-8')
octets.decode('ascii', errors='ignore')

In [None]:
octets.decode('ascii', errors='replace')

### en cas de problèmes

* comment ***encoder*** avec un encodage qui ne supporte pas tous les caractères Unicode
* `encode()` accepte un argument `error`, identique i.e.:
  * `"strict"` (par défaut)
  * `"ignore"` (jette le caractère non supporté)
  * `"replace"` (remplace le caractère non supporté)

In [None]:
s = 'un été, à noël'
s.encode('ascii', errors='ignore')

In [None]:
s.encode('ascii', errors='replace')

### en cas de problèmes

* je ne connais pas l’encodage de ce que je reçois
  * on peut utiliser un librairie externe chardet
  * https://pypi.python.org/pypi/chardet
  * `pip install chardet`
* je veux convertir une chaîne Unicode en ASCII en convertissant en caractères proches
  * dans la librairie standard `unicodedata.normalize`

  * en librairie externe unidecode
  * `pip install unidecode`

# le BOM

* le [`BOM` (byte order mark)[https://en.wikipedia.org/wiki/Byte_order_mark]
* est un mécanisme permettant de disambigüer  
  entre les 3 encodages utf-8, utf-16 et utf-32

* ça consiste à ajouter un header pour utf-16 et utf-32
* crée une inflation artificielle

In [None]:
# en UTF-32:  1 char = 4 bytes
# donc on devrait voir 4
len("a".encode('utf32'))

In [None]:
# les 4 premiers octets correspondent 
# à la constante 'UTF32-LE'
b = "a".encode('utf32')
b[:4]

In [None]:
# évidemment ce n'est ajouté qu'une seule fois
s1000 = 1000*'x'
len(s1000.encode('utf32'))

### retour d'expérience

* principal écueil lors de portages python2 vers python3
* les types d'application concernés
  * réseau de toutes sortes
  * `subprocess`
* les opérations usuelles d'interaction avec le filesystem
  * en général sont OK car ouvertures explicites
  * `open(fn, "r")` ou `open(fn, "rb")`
* plus marginalement, utilisation d'API's un peu baroques