# langages de script – Python

## Remise à niveau 2

### M2 Ingénierie Multilingue – INaLCO

loic.grobol@gmail.com  
yoa.dupont@gmail.com

# Structures de données : le retour

# Les listes

- Les listes sont des *sequences* (`str`, `tuple`, `list`)
- Les *sequences* sont des structures de données indicées qui peuvent contenir des éléments de différents types
- Les *sequences* sont des *iterables*, les listes aussi donc
- Les éléments d'une liste peuvent être modifiés (*mutable*)

- Une liste vide peut se déclarer de deux façons

In [None]:
stack = list()
stack = []

In [None]:
stack = list('Perl')
stack

# Les listes : fonctions

- Les listes héritent des fonctions des *sequences*, elles ont également des [fonctions propres](https://docs.python.org/3.6/tutorial/datastructures.html#more-on-lists)
- Parmi ces fonctions nous utiliserons principalement :
  - `append(x)` : ajoute un élément x à la fin de la liste (haut de la pile*)
  - `extend([x, y, z])` : ajoute tous les éléments de la liste arg à la fin de la liste
  - `pop(index=-1)` : supprime et renvoie l'élément de la liste à la position `index`
  - `index(x)` : renvoie l'index du premier élément de valeur x
  - `count(x)` : renvoie le nombre de fois où x apparaît
  - `sort(key=None, reverse=False)` : trie et modifie la liste, lire la [doc](https://docs.python.org/3.6/howto/sorting.html#sortinghowto) pour en savoir plus sur les ordres de tri.

In [None]:
stack = [12, 15, 12, 7, 18]
stack.index(12)

In [None]:
stack.count(12)

In [None]:
stack.sort()
stack

In [None]:
stack.append(23)
stack

In [None]:
stack.append([35, 46])
stack

In [None]:
stack.extend([51, 52])
stack

# Les listes en compréhension

- Elles permettent de définir des listes par filtrage ou opération sur les éléments d'une autre liste
- La [PEP 202](http://www.python.org/dev/peps/pep-0202/) conseille de préférer les listes en compréhension aux fonctions `map()` et `filter()`

In [None]:
[i ** 2 for i in range(10)]

In [None]:
[i ** 2 for i in range(10) if i % 2 == 0]

In [None]:
[(i, j) for i in range(2) for j in ['a', 'b']]

## Copie de liste

Dans `y = x`, `y` n'est pas un copie de x, les deux pointent vers le même objet

In [None]:
x = [1, 2, 3]
y = x
y[0] = 4
x

Pour copier une liste il faut utiliser :

In [None]:
x = [1, 2, 3]
y = x[:]
# ou
y = list(x)

# Les tuples

- Les tuples (`tuple`) sont des *sequences* similaires aux listes sauf qu'elles ne peuvent pas être modifiées (*immutable*)
- Les tuples sont souvent utilisées comme valeur de retour d'une fonction
- Les tuples peuvent être utilisées comme clé de dictionnaire

In [None]:
voyelles = ('a', 'e', 'i', 'o', 'u', 'y')
var = tuple('Perl')
var

# Déballage de séquences

- Le *sequence unpacking* permet d'effectuer plusieurs affectations simultanées
- L'*unpacking* s'applique souvent sur des tuples

In [None]:
x, y, z = (1, 2, 3)
y

In [None]:
lexique = [("maison", "mEz§"), ("serpent", "sERp@")]
for ortho, phon in lexique:
    print(phon)

## Tuple à 1 élément

Pour créer un tuple à un élément il faut utiliser la notation `(elem, )`

In [None]:
var = (1)
type(var)

In [None]:
var = (1, )
type(var)

# Parcours de liste

La boucle `for` est particulièrement adaptée pour parcourir les *iterables* et donc les listes

In [None]:
for item in voyelles:
    print(item)

La fonction `enumerate` peut être utile dans certains cas, elle renvoie un `tuple` contenant l'indice et la valeur de l'item à l'indice concerné

In [None]:
for i, item in enumerate(voyelles):
    print(i, item)

# Les ensembles

Les ensembles (`set`) sont des collections non ordonnées d'élements sans doublons
Les ensembles supportent les fonctions mathématiques d'union, d'intersection, de différence ([doc](https://docs.python.org/3.6/library/stdtypes.html#set))

  - `value in s` renvoie si `value` est un élément de `s`
  - `union(*sets)` renvoie l'union de tous les `sets` (l'ensemble des valeur contenues dans tous les sets).
  - `intersection(*sets)` renvoie l'intersection de tous les `sets` (l'ensemble des valeur contenues dans au moins un set).


In [None]:
ens0 = set()  # on crée l'ensemble vide
ens0

In [None]:
ens1 = {'le', 'guépard', 'le', 'poursuit'}
ens1

In [None]:
ens2 = {"avec", "le", "chandelier", "dans", "la", "cuisine"}
ens1.intersection(ens2)

# Les dictionnaires

- Les dictionnaires (`dict`) sont des structures de données associatives de type clé: valeur
- Les clés d'un dictionnaire sont uniques, seuls les types *immutable* peuvent être des clés ([doc](https://docs.python.org/3.6/library/stdtypes.html#mapping-types-dict))

  - `key in d` renvoie True si `key` est une clé de `d`
  - `keys()` renvoie la liste des clés
  - `values()` renvoie la liste des valeurs
  - `items()` renvoie la liste des couples clé:valeur (tuple)
  - `get(key, default=None)` renvoie la valeur associée à `key`. Si `key` n'existe pas, ajoute `key` associée à `default`
  - `setdefault(key, default=None)` si `key` n'existe pas, insère `key` avec la valeur `default` dans le dictionnaire puis renvoie la valeur associée à la clé.

In [None]:
d = {'Perl':'Larry Wall', 'Python':'Guido Van Rossum', 'C++':'Bjarne Stroustrup'}
d['Perl']

In [None]:
d['Ruby']

In [None]:
d.get('Ruby')

# Module collections

- Le module *collections* propose des implémentations de structures de données supplémentaires
- Dans la liste (voir [doc](https://docs.python.org/3.6/library/collections.html)), deux pourront nous intéresser :

  - `defaultdict`

     `defauldict` est similaire à un `dict` mais il permet l'autovivification

      Son implémentation le rend plus rapide qu'un dictionnaire utilisé avec la fonction `setdefault`


In [None]:
import collections
lexique = [("couvent", "kuv"), ("couvent", "kuv@")]
dico = collections.defaultdict(list)
for ortho, phon in lexique:
    dico[ortho].append(phon)
dico

# Module collections

  - `Counter`
  
`Counter` est un dictionnaire où les valeurs attendues sont les nombres d'occurences des clés

In [None]:
from collections import Counter
cnt = Counter()
list = ['le', 'guépard', 'le', 'poursuit']
for item in list:
    cnt[item] += 1
cnt

# Fonctions, la vengence

- Elles ont un nom, prennent des arguments, font un traitement et renvoient une valeur
- Il est très fortement recommandé de les documenter. En Python on utilise les *docstrings*
- Les docstrings sont accessibles dans la console avec help(ma_fonction) ou dans le script via l'attribut `__doc__`: `ma_fonction.__doc__`
- Les générateurs de documentation comme [sphinx](http://www.sphinx-doc.org) utilisent les docstrings

In [None]:
def soustraction(arg1, arg2):
    """Une soustraction quoi"""
    res = arg1 - arg2
    return res

## Fonctions : arguments

### Arguments positionnels

In [None]:
def soustraction(arg1, arg2):
    """Une soustraction quoi"""
    return arg1 - arg2

In [None]:
soustraction(4, 2)

In [None]:
soustraction(2, 4)

### Arguments avec valeurs par défaut

Ici `arg1` est obligatoire, `arg2` est facultatif

In [None]:
def soustraction(arg1, arg2=1):
    """Une soustraction quoi"""
    return arg1 - arg2

In [None]:
soustraction(4, 1)

In [None]:
soustraction(4)

### Arguments nommés (keywords arguments aka kwargs)

- On peut aussi appeler les fonctions avec des arguments nommés
- Dans ce cas l'ordre n'a pas d'importance
- On peut utiliser les deux, mais les keywords doivent être en dernier

In [None]:
soustraction(4, arg2=3)

### Nombre d'arguments arbitraires

Avec l'argument `*args`, une fonction peut prendre un nombre arbitraire d'éléments. On parle alors de fonction *variadique*.

In [None]:
def print_artist(name, *records):
    """Affiche un nom d'artiste puis une liste de ses enregistrements."""
    print(name)
    for item in records:
        print(item)
print_artist("Neil Young", "Ragged Glory", "Harvest Moon")

On peut aussi utiliser des `**kwargs` (*KeyWord ARGuments*)

In [None]:
def print_artist(name, *records, **concerts):
    """Affiche un nom d'artiste, une liste de ses enregistrements
    et des dates de concert.
    """
    print(name)
    for item in records:
        print(item)
    for place, date in concerts.items():
        print(place, date)
print_artist("Neil Young", "Ragged Glory", "Harvest Moon", Paris='12/10/2016', Albuquerque="14/11/2016")

## Fonctions : portée des variables

Les variables déclarées dans le corps d'une fonction ont une portée locale à la fonction

In [None]:
def foo():
    a = 2713
    print(a)

foo()
print(a)

Les variables globales (c-à-d dans le *top level*) sont accessibles en lecture dans une fonction

In [None]:
a = 2713

def foo():
    print(a)

foo()
a = 2
foo()

En revanche, les redéfinitions dans une fonction ne touchent pas la variable globale

In [None]:
a = 2713

def foo():
    a = 2
    print(f'Dans foo: a={a}')

print(f'Dans toplevel: a={a}')
foo()
print(f'Dans toplevel: a={a}')

**En détail :** Dans la fonction `foo`, `a=2` créé une variable locale qui masque (*shadow*) la variable globale `a`, mais cet effet est limité au bloc de la fonction : c'est pourquoi on retrouve la valeur originale de `a` quand on en sort.

Pour qu'une affectation ait une portée globale, il faut le demander explicitement avec le mot-clé `global`

In [None]:
a = 2713

def foo():
    global a
    a = 2
    print(f'Dans foo: a={a}')

print(f'Dans toplevel: a={a}')
foo()
print(f'Dans toplevel: a={a}')

Le modèle de portée des variables de Python est complexe, ce qui précède est une simplification. Pour aller plus loin
  
  - [La présentation de Ned Batchelder](https://nedbatchelder.com/text/names1.html) à PyCon 2015 (lecture vivement recommandée)
  - [La doc](https://docs.python.org/3/reference/executionmodel.html#naming-and-binding) comme toujours

## Fonctions : arguments mutables
Changer la valeur d'une variable passée en argument n'a pas d'effet sur cette variable

In [None]:
def ma_fonction(val):
    print(f'Dans ma_fonction: {val}')
    val = 3
    print(f'Dans ma_fonction: {val}')

a = 2
print(f'Dans top level: {a}')
ma_fonction(a)
print(f'Dans top level: {a}')

On dit que les arguments sont « passés par *valeur* », par oppostion à « passés par *référence* »

En revanche, les arguments mutables (`list`, `dict`, `set`, …) peuvent être modifiés par la fonction

In [None]:
def ma_fonction(val, lst):
    print(f'Dans ma_fonction: {lst}')
    lst.append(val)
    print(f'Dans ma_fonction: {lst}')

l = [1, 2, 3]
print(f'Dans toplevel: {l}')
ma_fonction(4, l)
print(f'Dans toplevel: {l}')

Si ce n'est pas le comportement voulu, il faut créer explicitement une nouvelle liste

In [None]:
def ma_fonction(val, lst):
    print(f'Dans ma_fonction: {lst}')
    lst_copy = lst[:]
    lst_copy.append(val)
    lst = lst_copy
    print(f'Dans ma_fonction:{lst}')

l = [1, 2, 3]
print(f'Dans toplevel: {l}')
ma_fonction(4, l)
print(f'Dans toplevel: {l}')

Ou en plus compact

In [None]:
def ma_fonction(val, lst):
    print(f'Dans ma_fonction: {lst}')
    lst = lst[:]
    lst.append(val)
    print(f'Dans ma_fonction:{lst}')

l = [1, 2, 3]
print(f'Dans toplevel: {l}')
ma_fonction(4, l)
print(f'Dans toplevel: {l}')

## Attention !
Il est parfois difficile de savoir quelles opérations font une copie des variables, ainsi

In [None]:
a = [1, 2, 3]
b = a
b = b + [4]
print(b)
print(a)

mais

In [None]:
a = [1, 2, 3]
b = a
b += [4]
print(b)
print(a)

# Assertions
	
* Les assertions (`assert condition`) permettent de vérifier qu'une condition est remplie avant de poursuivre le programme

* `assert` est utilisé à des fins de débogage.
* Les assertions ne sont pas prises en compte si l'interpréteur est appelé avec l'option -O (optimisation)

In [None]:
var = 2
assert 1 <= var <= 10

est équivalent à :

In [None]:
if __debug__:
    if not 1 <= var <= 10: raise AssertionError


## Attention !

Les assertions ne servent qu'à déboguer des erreurs qui ne sont pas censées arriver dans "la vraie vie" ! Pour gérer des erreurs qui peuvent survenir, il faut utiliser des exceptions (on verra plus en détail plus tard).  

Si on reprend la fonction heures:

In [None]:
def heures(secondes):
    H = secondes // 3600
    M = (secondes % 3600) // 60
    S = secondes % 60
    return f"{H}:{M}:{S}"

heures(-1)

Si on veut gérer une situation anormale (comme un nombre négatif de secondes), il faut lever une exception (avec le mot-clé `raise`) :

In [None]:
def heures(secondes):
    if secondes < 0:
        raise ValueError("Nombre négatif de secondes.")
    H = secondes // 3600
    M = (secondes % 3600) // 60
    S = secondes % 60
    return f"{H}:{M}:{S}"

heures(-1)

Une exception peut alors être attrapée et gérée à un endroit approprié :

In [None]:
try:
    heures(-1)
except ValueError:  # on s'attend à ce qu'une erreur de ce genre puisse arriver
    print("pas une heure")

Python dispose de nombreuses exceptions pour gérer différents cas, lisez bien la doc pour vous aider à les comprendre ou même pour les utiliser vous-même.

# Les fichiers

* Pour travailler avec les fichiers on doit procéder à trois opérations :
   1. Ouverture avec la fonction `open` (lève l'exception `FileNotFoundError` en cas d'échec)
   2. Lecture (`read` ou `readline` ou `readlines`) et/ou écriture (`write`)
   3. Fermeture du fichier avec la fonction `close`
	      
* Ouverture
  * `open` est une fonction qui accepte de nombreux arguments : RTFM
  * `open` renvoie un objet de type `file`	      
  * Le plus souvent elle s'emploie de la manière suivante:
  ```python
>>> #f = open(filename, mode)	   
>>> f = open('nom_fichier', 'w')
```

Les modes sont : 

* `r` : lecture (défaut)
* `w` : écriture
* `x` : création et écriture (échec si le fichier existe déjà)
* `a` : concaténation (append)
  
  
* `b` : mode binaire
* `t` : mode texte (défaut)
* `+` : read/write (ex: r+b)


## Les fichiers : ouverture

La documentation de Python conseille cette façon de faire 
```python
with open('mon_fichier', 'r') as f:
    read_data = f.read()
```
L'utilisation du mot clé `with` garantit la fermeture du fichier même si une exception est soulevée

## Les fichiers : lecture

* `read(size=-1)` lit les `size` premiers octets (mode `b`) ou caractères (mode `t`). Si `size` < 0, lit tout le fichier.
* `readline(size=-1)` lit au plus `size` caractères ou jusqu'à la fin de ligne. Si `size` < 0, lit toute la ligne. Il est conseillé de ne pas toucher à `size`.
* `readlines(hint=-1)` lit `hint` lignes du fichier. Si `hint` < 0, lit toutes les lignes du fichier.
* un objet `file` est un itérable ! (*the pythonic way*)

```python
for line in f:
    process(line)
```

## Les fichiers : écriture et fermeture

* `write(text)` écrit `texte` dans le fichier?
* `close()` ferme le fichier.  

En règle générale veillez à toujours fermer les objets fichiers.  
En mode écriture oublier de fermer un fichier peut réserver des mauvaises surprises

* fonction `print`
```python
with open('mon_fichier', 'w') as output_f:
    for item in list:
        print(item, file=output_f)
```
* `sys.stdin`, `sys.stdout` et `sys.stderr` sont des objets de type `file`

#### Exos

1. Résoudre The Descent sur CodinGame
2. Sur le fichier `zola_ventre-de-paris.txt`:
  1. combien y a-t-il de mots graphiques (séparés par des caractères d'espacement : espace, retour à la ligne, etc.) différents ?
  2. quels sont les 10 mots graphiques les plus fréquents ?
  3. Certains mots dans le texte sont coupés, le caractère `¬` indique qu'un mot a été coupé. Écrivez un fichier `zola_ventre-de-paris_recollé.txt` où les mots seront recollés (`m'em¬ bêtez` deviendra `m'embêtez`).
