# Structures de données et programmation fonctionelle dans Python/Sage
## Faites travailler l'ordinateur pour vous!

Présenté par: **Étienne Soucy**

# Objectifs
* Démystifier la programmation Python/Sage en offrant une perspective
    et une méthodologie "mathématiquement plaisantes".
* Introduire les structures de données de base de Python et souligner
    leur puissance et flexibilité.
* Présenter une sélection de fonctions et techniques de programmation
    fonctionelle pour le traitement de données mathématiques.

# Python
En tant que language de programmation, Python possède les
caractéristiques suivantes:
* Procédural, orienté-objet, multi-paradigme.
* Code interprété (vs compilé).
* Faible typage/typage dynamique (vs typage fort/typage statique).
* Haut niveau d'abstraction (vs bas niveau d'abstraction)
* Intéropération facile avec d'autres languages (particulièrement C).
* Emphase sur la simplicité. *There's one way to do it.*
* Occasionels problèmes de performance lors de cacluls complexes.

La simplicité et le dynamisme de Python en fait un excellent language de scriptage, prototypage, etc.

Cette simplicité aussi mené à l'adoption du language par la communauté scientifique. Leur contribution a mené au développement d'un écosystème de librairies et applications scientifiques extrèmement robustes (NumPy, Pandas, SciPy, Jupyter, SymPy, Sage, etc).

Le dynamisme de Python en fait également un excellent "language colle".

# Language colle
Un language colle (glue language) est un language qui facilite la coordination d'une variété de systèmes et données extérieurs vers un but unifié. (systèmes de gestion des données, serveurs, équipement réseau, bases de données scientifiques, etc).

L'internet moderne est bâtit sur le dos de languages colle tels que
Python, Perl, PHP, Ruby, Javascript, etc.

Les languages colle sont typiquement dynamiques, ce qui facilite la manipulation de données extérieures complexes et variables.

# Une perspective sur Python
Python a été conçu pour intéropérer avec le language C. L'interpréteur standard de Python, CPython, est écrit en C. De même, la majorité des librairies de base, ainsi que beaucoup de librairies externes, sont écrites en C.

Cela confère à Python une nature "hybride". C est énormément plus performant comme language au fait de sa nature compilée, fortement typée et sa capacité à manipuler directement la mémoire de l'ordinateur.

Une excellente stratégie pour écrire du code Python simple et performant est donc d'écrire le moins de code Python possible (!) et d'utiliser celui-ci comme un language colle maximisant l'usage des structures de données et fonctions des librairies robustes qui sont à notre disposition. C'est ce sur quoi nous mettrons l'emphase.

# Structures de données
Les structures de données de base de Python sont
### Liste (list)
La plus simple des structures; une colleciton de 
données ordonnées de taille variable.
### Tuple
Un n-uplet de données; semblable à la liste, mais de taille non-variable (immuable).
### Ensemble (set)
Un ensemble au sens mathématique. Une collection non-ordonnée de données uniques et immmuables, de taille variable.
### Dictionnaire (dict)
Un ensemble non-ordonné de paires de clés/valeurs.

In [1]:
# Liste
# Se construit avec [] ou list()
l1 = [1, 2, 3, 4]
l2 = list((1,2,3,4))
l1 == l2 # True

# Tuple
# Se construit avec (), ',' ou tuple.
# Note: La notation () doit contenir au moins une virgule
# pour que Python comprenne qu'on veut construire un tuple.
t1 = (1,2,3,4)
t2 = 1,2
t3 = tuple((1,2,3,4))
t4 = (1)        # t3 va contenir l'entier '1', pas un tuple
t5 = (1,)       # t4 va contenir le tuple (1)
t6 = tuple([1]) # idem que t4
t5 == t6 # True

# Unpacking: On peut déballer une collection dans un tuple de
# variables
v = (1,2,3)
x,y,z = v
x == 1; y == 2; z == 3 # True; True; True

# On accède aux éléments de listes et tuples par indice
l1[1] == 2 # True
t1[0] == 1 # True
l1[0] == t1[1] - 1 # True

True

In [2]:
# Ensemble
# Se construit avec {} ou set()
s1 = {1,2,3,4}
s2 = set([1,3,5,7])

# Les éléments d'un ensemble ne sont pas accesibles par
# indice: s1[0] produirait une erreur.

# On peut vérifier si un élément est dans un ensemble avec
# l'opérateur "in" ou la méthode contains()
1 in s1 # True

# Les ensembles comprennent le concept d'union et d'intersection
s1.intersection(s2) # 1,3
s1.union(s2) # 1,2,3,4,5,7
s1.isdisjoint(s2) # False
s1.issubset(s2) # False

# Dictionnaire
# Se construit avec {clé:valeur} ou dict()
d1 = {"pommes": 1, "oranges": 3, "bananes": 6}
d2 = dict([("pommes", 1), ("oranges", 3), ("bananes", 6)])
d1 == d2 # True
d1["oranges"] == 3 # True

True

# Notes sur l'usage
### Liste
La plus versatile mais aussi la moins performante des structures. Utiliser pour créer de petites collections de données à utiliser rapidement, accumuler dynamiquement des données dans une boucle, ou quand une collection ordonnée à taille variables est nécessaire.

### Tuple
La taille non-variable d'un tuple permet certaines optimisations à l'interpréteur, rendant le tuple plus performant que la liste lorsqu'une taille variable n'est pas désirable. Le tuple est utilisé très souvent en notation mathématique, rendant son usage très intuitif pour les mathématiciens.

### Ensemble
Les ensembles sont extrèmement performants sur l'accès et la recherche de données, ce qui les rend désirables quand l'ordre des données à traiter n'importe pas. Les ensembles éliminent aussi automatiquement les doublons. Convertir une liste en ensemble est une façon très efficace d'éliminer les doublons dans celle-ci.

### Dictionnaire
Outre l'usage standard comme un ensemble de clés/valeurs, certaines fonctions dans Python/Sage acceptent des dictionnaires en paramètre, ce qui peut parfois sauver beaucoup de temps.

In [3]:
# Exemple: Insérer directement la solution d'un système dans une matrice (Sage)
var('a,b,c,d,x,y')
M = matrix(2,2,[a,b,c,d])
e1 = a - b == 0
e2 = c + d == 0
e3 = a + 2*c == 0
sol = solve([e1,e2,e2, a == 1, d == 1], [a,b,c,d], solution_dict=True)[0]; show(sol)
show(M.subs(sol))

# Travailler avec les structures de données
## Un exemple
Cet exemple est tiré de mon stage de recherche sur le lemme de
ping-pong.

Soient deux matrices $R, T \in GL_3(\mathbb{R})$.
Soient deux ensembles $X, Y \subset \mathbb{R}^3$ tels que
* $\forall x \in X, R^nx \in Y, n \in \mathbb{N}, 0 < n < 4$
* $\forall y \in Y, Ty \in X$
On veut étudier le comportement de $R$ et $T$ et mieux comprendre quelle forme $X$ et $Y$ prennent.

Pour ce faire, on veut générer des points à visualiser sur un graphe.

In [4]:
# On définit nos matrices dans Sage
A=matrix([[0,0,-1],[1,0,-1],[0,1,-1]])
B=matrix([[0,0,1],[1,0,-3],[0,1,3]])
C=B*A^(-1)
R = A
T = C
show("R = ", R)
show("T = ", T)

In [5]:
# Les vecteurs suivants ont été identifiés comme bons points
# de départ
u = vector([1,0,3]); show("u = ", u)
v = vector([1,-2,1]); show("v = ", v)

In [6]:
# On commence par générer les puissances de R

# On commence avec une liste vide que l'on remplit dans une boucle
puisR = [] # liste vide
for t in range(1,4):
    puisR.append(R^t)
show(puisR)

In [7]:
# On applique ces matrices à u et v pour obtenir des points
# dans Y
ptsY = []
for vec in [u,v]:
    for mat in puisR:
        ptsY.append(mat * vec)
show(ptsY)

In [8]:
# Puis on applique T pour obtenir des points dans X
ptsX = [u,v]
for vec in ptsY:
    ptsX.append(T*vec)
show(ptsX)

In [9]:
# On affiche dans un graphe
show(list_plot(ptsX, color="blue", size=100) + list_plot(ptsY, color="green", size=100))

In [10]:
# On peut générer plus de points en répétant l'opération
# dans une boucle
ptsY = []
ptsX = [u,v]
for i in range(3):
    for vec in ptsX:
        for mat in puisR:
            ptsY.append(mat * vec)
    for vec in ptsY:
        ptsX.append(T*vec)
show(list_plot(ptsX, color="blue", size=1000) + list_plot(ptsY, color="green", size=1000))

In [11]:
# Après seulement quelques itérations, mon ordinateur commence à chauffer!
show(len(ptsX))
show(len(ptsY))

Quels "trucs" pouvons-nous utiliser pour
1.  se faciliter la vie
2. générer plus efficacement nos points?

# Petit détour
## Programmation fonctionelle
La programmation fonctionnelle est un paradigme de programmation qui cherche à se rapprocher de la méthode et la notation mathématique.

Python n'est pas un language purement fonctionel, mais possède beaucoup d'outils permettant d'écrire du code fonctionnel.

Nous allons voir ici quelques techniques de programmation fonctionnelle sans trop entrer dans la philosophie derrière.

In [12]:
# Premier exemple: La compréhension de liste
# Voici une autre façon de générer nos puissances de R:
puisR = [R^t for t in range(1,4)]
# Ou encore
puisR = [R^t for t in [1..3]] # Notation permise dans Sage

Cette notation vous est peut-être familière: Elle est inspirée de la théorie des ensembles!

$$ puisR = \{ R^t \,|\, t \in \mathbb{N}, 0 < t < 4 \} $$

La compréhension est très pratique quand on veut construire une collection à partir des éléments d'une autre collection.

In [13]:
# Modifions notre code pour qu'il fasse usage de la compréhension
ptsY = []
ptsX = [u,v]
for i in range(3):
    ptsY = ptsY + [mat * vec for vec in ptsX for mat in puisR]
    ptsX = ptsX + [T * vec for vec in ptsY]
show(list_plot(ptsX, color="blue", size=1000) + list_plot(ptsY, color="green", size=1000))
# La compréhension n'est pas nécessairement plus performante qu'une boucle for, mais elle
# permet souvent de simplifier notre code!

In [14]:
# Notre code génère présentement les mêmes points plusieurs fois. On peut éliminer ces
# points redondants en utilisant des ensembles plutôt que des listes!

# On doit d'abbord rendre nos vecteurs immuables, ce qui est facile dans Sage:
u = vector(u, immutable=True)
v = vector(v, immutable=True)

# Petite fonction pour créer des vecturs immuables plus facilement
def ivector(*args): return vector(*args, immutable=True)

ptsY = set() # On doit utiliser set() plutôt que {} pour créer un ensemble vide sinon Python ne sait
             # pas si on veut créer un dictionnaire ou un ensemble
ptsX = {u,v}
for i in range(3):
    # La compréhension d'ensemble fonctionne exactement comme la compréhension de liste!
    ptsY.update( {ivector(mat * vec) for vec in ptsX for mat in puisR} )
    ptsX.update( {ivector(T * vec) for vec in ptsY} )

show(len(ptsX))
show(len(ptsY))
show(list_plot(list(ptsX), color="blue", size=1000) + list_plot(list(ptsY), color="green", size=1000))
# En jetant les doublons, on sauve beaucoup de calculs intutiles et on va pouvoir générer plus de points!

# La fonction map
La fonciton map() dans Python nous vient de la programmation fonctionnelle. À son plus simple, map prend en
paramètre une fonction $f$ et une collection $C$, applique $f$ aux éléments de $C$ puis retourne une nouvelle collection contenant le résultat.

En termes mathématique, on peut dire: $map(f,C) \mapsto f(C)$

Notez que la collection initiale $C$ n'est aucunement modifiée. En programmation fonctionnelle, on évite le plus
possible la mutation des variables. Comme en mathématiques, si on pose $x = 5$, on s'attend à ce que $x = 5$ demeure vrai tout le long de notre problème.

Cette absence de mutation rend notre code très sécuritaire et permet
à l'interpréteur de nouvelles optimisations.

Essayons d'utiliser map dans notre code.

In [39]:
# On importe une fonction de la librairire de base functools
from itertools import product
ptsY = set() 
ptsX = {u,v}

# On définit une fonction à passer à map
def matprod(vm) :  # on passe un tuple vm (vec, mat) à notre fonction
    vec,mat = vm   # On déballe le tuple dans deux variables
    return ivector(mat * vec)

# La fonction product donne le produit cartésien de deux collections:
for i in range(3):
    XRt = list(product(ptsX, puisR))
    ptsY.update( map( matprod, XRt) )
    YT = product(ptsY, [T]);
    ptsX.update( map( matprod, YT) )

show(list_plot(list(ptsX), color="blue", size=1000) + list_plot(list(ptsY), color="green", size=1000))

Autres outils et librairires pertinents:
- Les librairies itertools, functools et collections de Python
- En particulier, la fonction cache dans functools
- Sage est capable de compiler votre code
- Sage contient des utilitaires de performance dans la section
    Utilities du manuel de référence