# Langages de script - Python

## Cours 3 - structures de données

### M2 Ingénierie Multilingue - INaLCO

Clément Plancq - clement.plancq@ens.fr

# Avant de commencer

Les structures de données sont un point essentiel de tout langage de programmation
Les diapos qui suivent n'offrent qu'une couverture partielle du sujet
Vous devez lire attentivement et vous référer à la documentation officelle de Python :
* le [chapitre 5 du tutoriel](https://docs.python.org/3.6/tutorial/datastructures.html)
* la [doc sur les types built-in](https://docs.python.org/3.6/library/stdtypes.html)
* la [doc du module collections](https://docs.python.org/3/library/collections.html)


# Les listes

- Les listes sont des sequences (`str`, `tuple`, `list`)
- Les sequences sont des structures de données indicées qui peuvent contenir des éléments de différents types
- Les sequences sont des iterables, les listes aussi donc
- Les éléments d'une liste peuvent être modifiés (mutable)
- Une liste vide peut se déclarer de deux façons 

In [1]:
stack = list()
stack = []

In [2]:
stack = ["le", "guépard", "le", "poursuit"]
stack = list('Perl')
stack

['P', 'e', 'r', 'l']

# Les listes : fonctions

Les listes héritent des fonctions des sequences, elles ont également des fonctions propres.
Parmi ces fonctions nous utiliserons principalement :

- `append(x)` : ajoute `x` à la fin de la liste (haut de la pile*)
- `extend(arg)` : ajoute tous les éléments d'`arg` à la fin de la liste
- `pop()` : supprime et renvoie le dernier élément de la liste
- `index(x)` : renvoie l'index du premier élément de valeur `x`
- `count(x)` : renvoie le nombre de fois où `x` apparaît
- `sort()` : trie la liste, cf doc pour en savoir plus sur les ordres de tri

*Les listes fonctionnent comme des piles (LIFO)

# Les listes : fonctions

In [3]:
stack = [12, 15, 12, 7, 18]
stack.index(12)

0

In [4]:
stack.count(12)

2

In [5]:
stack.sort()
stack

[7, 12, 12, 15, 18]

# Listes en compréhension

- Elles permettent de définir des listes par filtrage ou opération sur les éléments d'une autre liste
- Elles viennent de la programmation fonctionnelle
- La PEP 202 conseille de préférer les listes en compréhension aux fonctions `map()` et `filter()`
- Pas évident-évident de prime abord mais très expressif, élégant et so pythonic. Un dév python doit maîtriser les listes en compréhension


# Listes en compréhension

In [6]:
[i ** 2 for i in range(10)]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [7]:
[i ** 2 for i in range(10) if i % 2 == 0]

[0, 4, 16, 36, 64]

In [8]:
[(i, j) for i in range(2) for j in ['a', 'b']]

[(0, 'a'), (0, 'b'), (1, 'a'), (1, 'b')]

# Attention !
## Copie de liste

Dans ```y = x``` y n'est pas un copie de x, les deux pointent vers le même objet

In [9]:
x = [1, 2, 3]
y = x
y[0] = 4
x

[4, 2, 3]

# ![Twilight Sparkle](http://plancq.clement.free.fr/img/licorne.png) Attention !

## Copie de liste

Pour copier une liste il faut utiliser

In [10]:
x = [1, 2, 3]
y = x[:]
y[0] = 4
x

[1, 2, 3]

ou

In [11]:
x = [1, 2, 3]
y = list(x)
y[0] = 4
x

[1, 2, 3]

# Les tuples

- Les tuples (`tuple`) sont des sequences similaires aux listes sauf qu'ils ne peuvent pas être modifiés (immutable)
- Les tuples sont souvent utilisés comme valeur de retour d'une fonction
- Les tuples peuvent être utilisés comme clé de dictionnaire

In [12]:
voyelles = ('a', 'e', 'i', 'o', 'u', 'y')
var = tuple('Perl')
var

('P', 'e', 'r', 'l')

# Déballage de séquences

- Le sequence unpacking permet d'effectuer plusieurs affectations simultanées
- L'unpacking s'applique souvent sur des tuples

In [13]:
x, y, z = (1, 2, 3)
y

2

In [14]:
lexique = [("maison", "mEz§"), ("serpent", "sERp@")]
for ortho, phon in lexique:
   print(phon)

mEz§
sERp@


# ![Twilight Sparkle](http://plancq.clement.free.fr/img/licorne.png) Attention !

## Tuple à 1 élément

Pour créer un tuple à un élément il faut utiliser la notation ```(elem, )```

In [15]:
var = (1)
print(type(var))
var = (1,)
print(type(var))

<class 'int'>
<class 'tuple'>


# Parcours de liste

La boucle ```for``` est particulièrement adaptée pour parcourir les iterables et donc les listes

In [16]:
l = [1, 2, 3, 4]
for item in l:
    print(item)

1
2
3
4


La fonction enumerate peut être utile dans certains cas, elle renvoie un tuple contenant l'indice et la valeur de l'item à l'indice concerné

In [17]:
l = [1, 2, 3, 4]
for i, item in enumerate(l):
    print(i, item)

0 1
1 2
2 3
3 4


# Les ensembles

- Les ensembles (```set```) sont des collections non ordonnées d'élements sans doublons
- Les ensembles supportent les fonctions mathématiques d'union, d'intersection, de différence ([doc](https://docs.python.org/3.6/library/stdtypes.html#set))

In [18]:
ens1 = {'le', 'guépard', 'le', 'poursuit'}
print(ens1)
ens2 = {"avec", "le", "chandelier", "dans", "la", "cuisine"}
print(ens1.intersection(ens2))

{'guépard', 'le', 'poursuit'}
{'le'}


# Les dictionnaires

- Les dictionnaires (```dict```) sont des structures de données associatives de type clé: valeur

- Les clés d'un dictionnaire sont uniques, seuls les types immutable peuvent être des clés (doc)

- `key in d` retourne `True` si `key` est une clé de `d`
- `keys()` retourne la liste des clés
- `values()` retourne la liste des valeurs
- `items()` retourne la liste des couples clé:valeur (`tuple`)
- `setdefault(key, default)` retourne la valeur associée à la clé. Si la clé n'existe pas, ajoute la clé associée à `default`

In [19]:
d = {'Perl':'Larry Wall', 'Python':'Guido Van Rossum', 'C++':'Bjarne Stroustrup'}
d['Perl']

'Larry Wall'

In [20]:
print(d['Ruby'])

KeyError: 'Ruby'

In [21]:
print(d.get('Ruby'))

None


# Module collections

- Le module collections propose des implémentations de structures de données supplémentaires

- Dans la liste (voir doc), deux pourront nous intéresser :
    - [defaultdict](https://docs.python.org/3.6/library/collections.html#collections.defaultdict)

```defauldict``` est similaire à un ```dict``` mais il permet l'autovivification. Son implémentation le rend plus rapide qu'un dictionnaire utilisé avec la fonction ```setdefault```

In [None]:
import collections
lexique = [("couvent", "kuv"), ("couvent", "kuv@")]
dico = collections.defaultdict(list)
for ortho, phon in lexique:
    dico[ortho].append(phon)
dico

# Module collections

- Counter

[Counter](https://docs.python.org/3.6/library/collections.html?highlight=counter#collections.Counter) est un dictionnaire où les valeurs attendues sont les nombres d'occurences des clés

In [None]:
from collections import Counter

cnt = Counter()
list = ['le', 'guépard', 'le', 'poursuit']
for item in list:
    cnt[item] += 1
cnt

# ![Twilight Sparkle](http://plancq.clement.free.fr/img/licorne.png) Help !

## Fonction `repr`

Dans la console Python les structures de données s'affichent de façon lisible

`print(obj)` ne donnera pas toujours le résultat escompté

La fonction `repr(obj)` est à préférer, elle donne une "représentation textuelle" d'un objet

# Exos

Vous rendrez des scripts Python3. Avec des commentaires c'est mieux.

1. À partir du fichier tsv [sem_Ef9POe.conll](http://plancq.clement.free.fr/files/sem_Ef9POe.conll)
    1. pour chaque POS listez les types classés par ordre d'occurrence décroissante,
    2. pour chaque type de chunk indiquez les longueurs min et max (en nb de mots).
2. Résoudre [Mime types](https://www.codingame.com/training/easy/mime-type) sur [CodinGame](https://www.codingame.com)