# CM9 - Python avancé

Ces CM et TD concentrent plusieurs outils avancés en Python. 

# 1 - Généraux

## Ouvrir un fichier avec with

En Python, with est un **context manager**. Il est surtout utilisé pour ouvrir un fichier, et garantie que celui ci est correctement fermé après lecture.

Doc : https://realpython.com/python-with-statement/

In [1]:
with open('corpus.txt', encoding='utf-8') as f:
    file = f.read()

print(file)

One Ring to rule them all,
One ring to find them;
One ring to bring them all and in the darkness bind them.


## Comprehension

Les comprehension sont des variables créées en une seule ligne de code, en passant par une boucle for. Elles permettent de (parfois) simplifier la lecture du code. Elles ont la structure suivante:

* list comprehension: [variable for variable in iterable]

* dict comprehension: {variable[0] : variable[1] for variable in iterable }

* generator comprehension : (variable for variable in iterable)

Doc : https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions

In [3]:
# façon classique
list_test = []
for element in [1,2,3,4,5,6,7,8]:
    if element % 2 == 0:
        list_test.append(element)
print(list_test)

# list comprehension
list_test = [element for element in [1,2,3,4,5,6,7,8]   if element % 2 == 0]
print(list_test)


[2, 4, 6, 8]
[1, 2, 3, 4, 5, 6, 7, 8]


In [4]:
# façon classique
dic_test = {}
for element in [1,2,3,4,5,6,7,8]:
    if element % 2 == 0:
        dic_test[f"{element}"] = element
print(dic_test)

# dict comprehension
dic_test = {f"{element}" : element for element in [1,2,3,4,5,6,7,8] if element % 2 == 0}
print(dic_test)


{'2': 2, '4': 4, '6': 6, '8': 8}
{'2': 2, '4': 4, '6': 6, '8': 8}


In [5]:
# Parfois on a affaire à des liste enchâssées (nested list). 
# Les list comprehension sont très utiles pour applatir ces listes

nested_list = [
    ['a', 1],
    ['b', 2],
    ['c', 3],
    ['d', 4],
    ['e', 5]
]

# on a 2 boucles for: la première parcourt chaque liste dans nested_list, la seconde parcourt chaque élement de la sous-liste
flat_list = [value for list_values in nested_list for value in list_values]
print(flat_list)



['a', 1, 'b', 2, 'c', 3, 'd', 4, 'e', 5]


## set

Le type **set** correspond aux ensemble. Les ensemble ont pour particularité de ne contenir que des éléments uniques. Ils ont également des opérations qui leurs sont propres (voir la théorie des ensembles).

Les opérations présentées ci-dessous sont les opérations de bases, mais il y en a d'autres.

Doc : https://docs.python.org/3/tutorial/datastructures.html#sets

In [6]:
set_moteur = set(['voiture', 'camion', 'moto'])
set_portes = set(['voiture', 'camion'])

# intersection est l'ensemble des éléments présents dans deux ensemble (à leur intersection)
set_moteur_portes = set_moteur.intersection(set_portes)
print('Set_moteur_portes', set_moteur_portes)

set_no_moteur = set(['velo', 'trotinette'])

# union est la somme de deux ensemble, en ne conservant que les elements uniques
set_vehicules = set_moteur.union(set_no_moteur)
print('set_vehicules', set_vehicules)

# difference indique les élements présents uniquement dans un ensemble A
set_moteur = set_vehicules.difference(set_no_moteur)
print('set_moteur', set_moteur)

# différence symétrique indique les élements unique présents dans chaque ensemble mais qui ne sont pas partagés.
# c'est l'opposé de intersection
set_symetric = set_moteur.symmetric_difference(set_portes)
print('set_symetric', set_symetric)

Set_moteur_portes {'camion', 'voiture'}
set_vehicules {'camion', 'trotinette', 'velo', 'moto', 'voiture'}
set_moteur {'camion', 'voiture', 'moto'}
set_symetric {'moto'}


In [None]:
list_elements = [1,2,3,4,2,3,4,5,6]
autre = []
for x in list_elements:
    if x not in autre:
        autre.append(x)

In [None]:
# premiere methode pour creer un set: on lui donne une liste d'elements
list_elements = [1,2,3,4,2,3,4,5,6]
set_elements = set(list_elements)
print(set_elements)

# seconde methode: on ajoute chaque element avec la methode add()
set_elements = set()
for element in list_elements:
    set_elements.add(element)

print(set_elements)



{1, 2, 3, 4, 5, 6}
{1, 2, 3, 4, 5, 6}


## Zip

La fonction zip() permet de parcourir plusieurs iterables en même temps. Ces iterables doivent avoir la même longueur.

Doc : https://docs.python.org/3/library/functions.html#zip

In [None]:
list_values = [1,2,3,4,5]
list_letters = ['a', 'b', 'c', 'd', 'e']

for value, letter in zip(list_values, list_letters):
    print(value, letter)

1 a
2 b
3 c
4 d
5 e


## glob

La fonction **glob** du package **glob** retourne la liste des fichiers contenus dans un dosser. Elle est très utile lorsque que l'on doit manipuler des fichiers ou dossiers depuis un script.

In [8]:
from glob import glob 

# il faut penser à ajouter ** à la fin du chemin. 
# ** une expression régulière qui signifie "tout / n'importe quoi"
for file in glob('dossier-glob/**'):
    print(file)

dossier-glob/test1.txt
dossier-glob/test2.txt
dossier-glob/test3.json


In [11]:
# on peut préciser le chemin pour n'obtenir que des
# fichiers d'un certain type
for file in glob('dossier-glob/**/**.txt', recursive=True):
    print(file)

In [10]:
for file in glob('dossier-glob/**.json'):
    print(file)

dossier-glob/test3.json


# os

**os** est le package qui permet d'intéragir avec le système d'exploitation.

Doc : https://docs.python.org/3/library/os.html 

In [12]:
import os

# il existe au moins deux méthodes pour créer des dossiers :
# mkdir et makedirs. makedirs a l'avantage sur mkdir de 
# pouvoir gérer les dossiers qui existent déjà
os.makedirs("newfolder", exist_ok=True)

In [13]:
os.makedirs("newfolder/otherfolder", exist_ok=True)

In [15]:
# os.system est un des principaux moyens de manipuler un 
# terminal depuis python
# dans la chaîne de caractères, on donne la commande et ses
# options, comme dans un terminal
os.system("rm fichier.txt")
# os.system("touch fichier.txt")

CM9.ipynb
corpus.txt
dossier-glob
fichier.txt
newfolder


0

In [None]:
for jsonfile in glob('dossier-glob/**/**.json'): 
    os.system(f"rm {jsonfile}")

In [None]:
for dossier in ('vocabulaire','semantique'):
    os.makedirs(dossier, exist_ok=True)

In [None]:
os.system('touch fichier.java ')

In [7]:
false_path = 'dossierA/dossierB/fichier.txt'
# os.path contient tous les outils pour manipuler
# des chemins
print('fichier :', os.path.basename(false_path))
print('dossier :', os.path.dirname(false_path))


fichier : fichier.txt
dossier : dossierA/dossierB


# 2 - Collections

Le package **collections** comprend de nombreux autres types de variables, certains totalement nouveaux, d'autres qui modifient le fonctionnement de types existants tels que les dictionnaires. 

## defaultdict

Le **defaultdict** est un dictionnaire qui a une valeur par défaut. Il est différent du type de base **dict**. Il est notamment utile pour incrémenter les valeurs d'un dictionnaire, sans effacer les valeurs précédentes.

Doc : https://docs.python.org/3/library/collections.html#collections.defaultdict

In [None]:
from collections import defaultdict
# ici on fait un defaultdict de list, mais on peut utiliser d'autre types (set, dict, tuples, ... idéalement qui vont contenir plusieurs valeurs)
df_dict = defaultdict(list)

list_elements = ['a', 1, 'b', 2, 'c', 3, 'd', 4, 'c', 5]
for element in list_elements:
    if isinstance(element, str):
        # attention ici on fait appel à la méthode append(), puisque les valeurs du dictionnaire sont des list
        df_dict['str'].append(element)
    elif isinstance(element, int):
        df_dict['int'].append(element)
    else:
        pass

print(df_dict)

defaultdict(<class 'list'>, {'str': ['a', 'b', 'c', 'd', 'c'], 'int': [1, 2, 3, 4, 5]})


## Enumerate

La fonction enumerate() permet de parcourir un iterable, tout en ayant son index.

Doc : https://docs.python.org/3/library/functions.html#enumerate

In [None]:
list_values = [1,2,3,4,5]
for i, value in enumerate(list_values):
    print(i, value)
print()

for i, value in enumerate(list_values):
    if i % 2 == 0:
        print(i, value)

0 1
1 2
2 3
3 4
4 5

0 1
2 3
4 5


## Counter

L'object Counter sert à compter les occurrences d'élements dans un iterable.

Doc : https://docs.python.org/3/library/collections.html#collections.Counter

In [16]:
from collections import Counter

list_elements = ['a', 'a', 'a', 1, 2, 3, 4, 4, 'b', 'c', 'c']

counter = Counter(list_elements)

# la méthode most_commion() retourne par ordre décroissant les fréquence de chaque élement
print(counter.most_common())

# # total() retourne la somme de tous les éléments
# print(counter.total())

# on peut également accepter à la fréquence d'un élément en particulier
print('a', counter['a'])

[('a', 3), (4, 2), ('c', 2), (1, 1), (2, 1), (3, 1), ('b', 1)]
a 3


In [17]:
dict(counter.most_common())

{'a': 3, 4: 2, 'c': 2, 1: 1, 2: 1, 3: 1, 'b': 1}

In [22]:

liste = [(3,'a'), (1,"c"),(2,"b")]
liste.sort(key=lambda x: x[0])
liste

[(1, 'c'), (2, 'b'), (3, 'a')]

# 3- Itertools 

**itertools** est un package de fonctions permettant de manipuler très efficacement des iterables. Il est bon de consulter et de tenter d'intégrer les outils proposés par itertools avant de les réecrire soit-même. En général, les outils d'**itertools** retournent des generateurs.

Ci-dessous quelques exemples des outils disponibles.

Doc : https://docs.python.org/3/library/itertools.html#itertools.pairwise

## groupby

Regroupe les éléments d'un iterable, en se basant sur une clés (mais cela ne veut pas dire que ces éléments doivent être un dictionnaire)

In [23]:
from itertools import groupby
list_a = [('a', 1), ('b', 2), ('a', 3), ('a',4), ('b', 5)]
# pour que groupby fonctionne, il faut d'abord s'assurer
# que l'iterable soit ordonné
list_a.sort(key=lambda x: x[0])
# l'argument key spécifie quelle clé utiliser pour grouper
# les éléments. Pour cela, on emploie généralement une fonction
# lambda
for key, group in groupby(list_a, key=lambda x: x[0]):
    print(key)
    # group est aussi un generator
    # print(group)
    for g in group:
        print(g)

a
('a', 1)
('a', 3)
('a', 4)
b
('b', 2)
('b', 5)


## combinations

Retourne une liste de toutes les combinaisons possibles à partir des éléments d'un iterable.

In [26]:
from itertools import combinations

list_a = [1,2,3,4,5,6]
# on doit specifier la taille des combinaisons
# ici, on veut des paires
for c in combinations(list_a, 5):
    print(c)

(1, 2, 3, 4, 5)
(1, 2, 3, 4, 6)
(1, 2, 3, 5, 6)
(1, 2, 4, 5, 6)
(1, 3, 4, 5, 6)
(2, 3, 4, 5, 6)


## accumulate

Retourne un iterable de la somme cumulée des éléments d'un iterable.

In [15]:
from itertools import accumulate

list_a = [1,2,3,4,5,6]
for c in accumulate(list_a):
    print(c)

1
3
6
10
15
21


## compress

Filtre un iterable à partir d'un autre

In [27]:
from itertools import compress 

list_a = [1,2,3,4,5,6]
filter_a = [1,0,1,0,1,1]
for c in compress(list_a, filter_a):
    print(c)

1
3
5
6


## tee

Retourne x copie d'un iterable.

In [19]:
from itertools import tee 

list_a = [1,2,3,4,5,6]
for c in tee(list_a, 2):
    print(list(c))

[1, 2, 3, 4, 5, 6]
[1, 2, 3, 4, 5, 6]
