<div class="licence">
<span>Licence CC BY-NC-ND</span>
<span>Thierry Parmentelat &amp; Arnaud Legout</span>
</div>

### les séquences

* suite finie et ordonnée d'objets
* du coup indexable `seq[n]`
* indices **commencent à 0**
* peuvent contenir des duplications

* mutable
  * `list`, `bytearray`
* immutable
  * `str`, `bytes`, `tuple`, `range`

# fonctions sur (toutes) les séquences

* `S[i]`
  * retourne l’élément d'indice i
* `len(S)` 
  * donne la taille en nombre d’éléments

### Fonctions sur les séquences

* `S + T`
 * retourne une nouvelle séquence qui est la concaténation de S et T
* `S*n` ou `n*S`
  * retourne une nouvelle séquence qui est la concaténation de n *shallow* copies de S
* `min(S)` (resp. `max(S)`)
  * retourne le plus petit (resp. le plus grand) élément de S  

### fonctions sur les séquences

* `x in S`; selon les types:
 * `True` si un élément de S est égal à x (e.g. `list`)
 * `True` si S contient x (e.g. `str`)
* `S.index(a)`
  * retourne l’indice de la première occurrence de a dans S
* `S.count(a)`
  * retourne le nombre d’occurrences de a dans S

### fonctions sur les séquences

#### *slicing*

* `S[i:j]` retourne 
  * une nouvelle séquence de même type
  * contenant tous les éléments de l’indice i à l’indice j-1
* `S[i:j:k]` retourne
  * une nouvelle séquence de même type
  * prenant tous les éléments de l’indice i à l’indice j-1, par sauts de k éléments

<img src="pictures/egg-bacon.png"/>

### *slicing*

* on peut compter du début ou de la fin
* on peut omettre les bornes

In [None]:
s = "egg, bacon"
s[0:3]

In [None]:
# si on omet une borne 
# ce sera le début ..
s[:3]

In [None]:
# ... ou la fin:
s[5:]

In [None]:
# les indices peuvent être négatifs
s[-3:10]

In [None]:
# tout entier: une shallow-copy
s[:]

<img src="pictures/egg-bacon-bornes.png" text-align="center">

### les bornes

La convention est choisie pour pouvoir facilement encastrer les slices:

In [None]:
s[0:3]

In [None]:
s[3:6]

In [None]:
s[6:]

In [None]:
s[0:3] + s[3:6] + s[6:] == s

<img src="pictures/egg-bacon.png" text-align="center">

### le pas

* on peut préciser un pas
* peut aussi être négatif
* ou omis (défaut 1)

In [None]:
s[0:10:2]

In [None]:
s[::2]

In [None]:
s[:8:3]

In [None]:
s[-2::-3]

<img src="pictures/egg-bacon.png" text-align="center">

### pas d'exception

les slices ont un comportement plus permissif que l'indexation

In [None]:
# Si j'essaie d'utiliser un index inexistant
try: s[100]
except Exception as e: print("OOPS", e)

In [None]:
# par contre avec un slice, pas de souci
s[5:100]

In [None]:
# vraiment..
s[100:200]

<img src="pictures/egg-bacon.png" text-align="center">

In [None]:
s[-1]

In [None]:
s[-3:-1]

In [None]:
s[:-3]

In [None]:
s[::-1]

In [None]:
s[2:0:-1]

In [None]:
s[2::-1]

# formes idiomatiques

In [None]:
s = [1, 2, 3]

In [None]:
# une copie simple
s[:]

In [None]:
# copie renversée
s[::-1]

# `str` et `bytes`

* deux cas particuliers de **séquences**
  * `str` pour manipuler **du texte**
  * `bytes` pour manipuler **de la donnée brute**
  
* **ATTENTION**
  * un caractère ce **n'est pas** un octet

# chaînes de caractères `str` 

* un cas particulier de séquence
* une chaîne de caractères est définie de manière équivalente par des simples ou doubles guillemets (`'` ou `"`)
* on peut ainsi facilement inclure un guillemet

In [None]:
# une chaine entre double quotes
# pas de souci pour les accents 
print("c'est l'été")

In [None]:
# entre simple quotes
print('on se dit "pourquoi pas"')

### chaînes de caractères `str`

In [None]:
s = "l'hôtel"
print(s)

In [None]:
s = 'une "bonne" idée'
print(s)

In [None]:
s = """une très longue phrase
avec saut de ligne"""
print(s)

In [None]:
s = '  un backslash \\ un quote \' ' 
print(s)

# opérations sur les `str`

* toutes les opérations des séquences

In [None]:
s1 = 'abcdéfg'
s2 = 'bob'
len(s1)

In [None]:
# concaténation
s1 + s2
'abcdefbob'

In [None]:
s1[-1::-2]

In [None]:
'=' * 30

### opérations sur les `str` 

In [None]:
s1

In [None]:
'x' in s1

In [None]:
'cdé' in s1

In [None]:
s1.index('cdé')

### opérations sur les `str`

* par contre **ATTENTION** un `str` n'est **pas mutable**

In [None]:
try: 
    s1[2] = 'x'
except TypeError as e:
    print("OOPS", e, type(e))    

# formatage des chaînes : f-strings

* depuis Python-3.6
* utilisez les ***f-strings***
* qui évitent les répétitions fastidieuses

* entre `{` et `}` : **du code** 
* embarqué directement dans le format
* n'importe quelle expression

In [None]:
import math

In [None]:
nom, age = "Pierre", 42

In [None]:
f"{nom} a {age} ans"

In [None]:
f"360° = {2*math.pi} radians"

### formatage des chaînes de caractères

![](pictures/f-string.png)

In [None]:
print(f"ᴨ arrondi à deux décimales = {math.pi:.2f}")

### formats - scientifiques

formats scientifiques usuels: `e` `f` et `g`, cf. `printf`

In [None]:
x = 23451.23423536563
f'{x:e} | {x:f} | {x:g} | {x:010.1f} | {x:.2f}'

In [None]:
y = 769876.11434
f'{x:e} | {y:f} | {x:g} | {y:010.2f} | {x:.2f}'

Voir aussi pour plus de détails:  
https://mkaz.blog/code/python-string-format-cookbook/

### formats pour f-string : justification

justification: formats `<` `ˆ` et `>`

In [None]:
f"|{nom:<12}|{nom:^12}|{nom:>12}|"

In [None]:
# on peut aussi préciser avec quel caractère remplir
num = 123
f"|{num:<12}|{num:-^12}|{num:0>12}|"

# méthodes sur les `str`

* de nombreuses méthodes disponibles

In [None]:
s = "une petite phrase"
s.replace('petite', 'grande')

In [None]:
s.find('hra')

In [None]:
liste = s.split()
liste

### sur les `str` : `split()` et `join()`

In [None]:
liste

In [None]:
"".join(liste)

In [None]:
" ".join(liste)

In [None]:
"_".join(liste)

In [None]:
s2 = "_".join(liste)
s2

In [None]:
s2.split('_')

# `str` *vs* `bytes`

* le type `bytes` correspond, comme son nom l'indique,  
  à une suite d'**octets**

  * signification (décodage) à la charge du programmeur

* ce qui **n'est pas du tout** le cas du type `str`
  * décodage fait par Python
  * le programmeur choisit un encodage (défaut UTF-8)

# `str` *vs* `bytes`

![](pictures/str-bytes.png)

# texte, binaire et encodage

* choisir entre `str` et `bytes`
* quand et comment convertir 

### le problème

* dès que vous échangez avec l'extérieur, i.e.
  * Internet (Web, mail, etc.)
  * stockage (disque dur, clef USB)
  * terminal ou GUI, etc..
* vous devez traiter des flux **binaires**
  * et donc vous êtes confrontés à l'encodage des chaines
  * et notamment en présence d'accents
  * ou autres caractères non-ASCII

# contenus binaires et textuels

* toutes les données ne sont pas textuelles
  * exemple: fichiers exécutables comme `cmd.exe`
  * stockage de données propriétaires
* dès qu'on utilise des données textuelles,
  * on décode une suite de bits
  * il faut leur **donner un sens**
  * c'est l'encodage

# codage et décodage en python

![](pictures/str-bytes.png)

# Unicode

* ***une*** liste des caractères 
  * avec **chacun un *codepoint*** - un nombre entier unique
  * de l'ordre de 137.000 + en Juin 2018 (*and counting*)
  * limite théorique 1,114,112 caractères

* ***trois*** encodages:
    * **UTF-8**: taille variable 1 à 4 octets, **compatible ASCII**
    * UTF-32: taille fixe, 4 octets par caractère
    * UTF-16: taile variable, 2 ou 4 octets

![](pictures/unicode-table.png)

![](pictures/unicode-decode-example.png)

### UTF-8

* le nombre d'octets utilisé pour encoder un caractère dépend
  * du caractère et de l'encodage
  * texte ASCII : identique en UTF-8
  * en particulier, ne prennent qu'un octet

![](pictures/unicode-utf8-areas.png)

### Unicode et Python: `chr` et `ord`

![](pictures/unicode-e-accent.png)

In [None]:
# le codepoint du é accent aigu
codepoint = 0xe9
codepoint

In [None]:
chr(codepoint)

In [None]:
ord('é')

### UTF-8 et Python: `encode` et `decode`

In [None]:
text = 'été\n'
type(text)

In [None]:
# on compte les 
# caractères 

len(text)

In [None]:
octets = text.encode(encoding="utf-8")
for b in octets:
    print(f"{b:02x}", end=" ")

In [None]:
# ici par contre on
# compte les octets

len(octets)

### pourquoi l’encodage c’est souvent un souci ?

* chaque fois qu'une application écrit du texte dans un fichier
  * elle utilise un encodage
* cette information (quel encodage?) est **parfois** disponible
  * dans ou avec le fichier
  * ex. `# -*- coding: utf-8 -*-`
  * HTTP headers
* mais le plus souvent on ne peut pas sauver cette information
  * pas prévu dans le format
  * il faudrait des **métadata**

### pourquoi l’encodage c’est souvent un souci ?

* du coup on utilise le plus souvent des heuristiques
  * ex: un ordinateur (OS) configuré pour `cp-1252`
  * applications qui utilisent l'encodage défini pour tout l'ordi
* c'est comme ça qu'on reçoit des mails comme
  * `j'ai Ã©tÃ© reÃ§u Ã\xa0 l'Ã©cole`
  * au lieu de
  * `j'ai été reçu à l'école`
* sans parler des polices de caractères..

In [None]:
# Jean écrit un mail
envoyé = "j'ai été reçu à l'école"

In [None]:
# son OS l'encode pour le faire passer sur le réseau
binaire = envoyé.encode(encoding="utf-8")

In [None]:
# Pierre reçoit le binaire
# mais se trompe d'encodage
reçu = binaire.decode(encoding="cp1252")

In [None]:
# Pierre voit ceci dans son mailer
reçu

### autres outils de conversion

les fonctions `chr` et `ord` font correspondre un codepoint décimal et un caractère Unicode

In [None]:
# trouver le codepoint à partir du caractère
ord('é')

In [None]:
# et réciproquement
codepoint = 233; chr(codepoint)