# Introduction à `Python`

[`Python`](https://www.python.org/) est un langage de programmation en pleine croissance dans le domaine de la **Data Science** et du **Big Data**. Il a une syntaxe particulière pour certains aspects, avec des points communs tout de même avec de nombreux autres. Nous allons ici aborder les premiers éléments de syntaxe de ce langage.

## Eléments de base

### Utilisation en mode console

`python` est un langage scripté, dont l'exécution se fait dans une console. Dans celle-ci, il est donc possible d'exécuter les commandes les unes après les autres. Il est aussi possible (et recommander) d'écrire son script dans un fichier texte (souvent avec l'extension `.py`) et de l'exécuter via `execfile()`.

Pour accéder à l'aide d'une fonction, il existe la fonction `help()`, prenant éventuellement en paramètre une fonction directement, ou une chaîne de caractère. Si la fonction n'a pas de paramètre, elle démarre l'aide interactive.

### *Notebook*

Le module `jupyter` permet de travailler avec des *notebooks*, qui sont des documents contenant à la fois le code, les résultat et du texte. Ce document est ainsi un *notebook*. 


### Types de données

Comme tous les autres langages, `python` a plusieurs types possibles pour les données. En voici quelques uns. Vous pouvez exécuter les commandes dans une console pour voir le résultat.

| valeur | type(valeur) |
|-|-|
| 1 | int |
| 1.234 | float |
| "chaîne" | str |
| (1, 2) | tuple |
| [1, 2] | list |
| {"a": 1, "b": "deux"} | dict |

Les `tuples`, `lists` et les `dicts` peuvent s'imbriquer les uns dans les autres.

```
(1, (2, 3), [4, 5], {"a": 1, "b": "deux"})
[1, [2, 3], (4, 5), {"a": 1, "b": "deux"}]
{"a": 1, "b": "deux", "c": (5, 6), "d": [7, 8]}
```

Il existe des fonctions permettant de passer d'un type à l'autre (quand cela est possible), telles que `int()`, `float()`, `str()`, `tuple()` et `list()`.

Il existe aussi des valeurs prédéfinies, telles que `True` (vrai), `False` (faux) et `None` (donnée absente).

### Création et suppression de variables

Il n'y a pas de mot-clé pour la définition d'une variable. Celle-ci est définie/créée lors de sa première affectation. Si elle n'existe pas mais qu'on essaie de l'utiliser, alors un message d'erreur apparaît. Il est aussi possible de la supprimer via la fonction `del()`.

### Type dynamique

Bien que `python` soit rigoureux dans l'évaluation des expressions (il ne fait pas de `cast` automatique - i.e. changement de type des données), le type d'une variable est dit **dynamique**. Le type d'une variable dépend uniquement de la valeur de son affectation. Voici un exemple simple de ce phénomène.

In [1]:
a = 1
print(a)
type(a)

1


int

In [2]:
a = "deux"
print(a)
type(a)

deux


str

La variable `a` est passée du type `int` au type `str` sans qu'on l'explicite. Il faut donc faire attention lors de l'écriture de ses programmes.

### Affichage

Comme vu précédemment, il existe la fonction `print()` permettant d'afficher du texte et/ou le contenu des variables dans la console. Celle-ci peut prendre les paramètres `sep`, qui permet d'indiquer le ou les caractères séparant les champs (un espace `" "` par défaut), et `end`, qui permet d'indiquer le caractère de fin de ligne (retour à la ligne `"\n"` par défaut).

### Opérateurs

Il existe bien évidemment tous les opérateurs classiques, tels que présentés ci-dessous.

| Type | Opérateurs |
|:-|:-|
| Arithmétiques | `+ - * / // % **` |
| Comparaisons | `> >= < <= == !=` |
| Booléens | `\| & not()` |


## Eléments de langage

### Traitement conditionnel

Comme dans tout langage, le traitement conditionnel se fait à partir d'un `if`. Voici un exemple très simple d'utilisation. 

In [3]:
a = 3
if (a > 2):
    print("sup")

sup


Une particularité de `python` est d'utiliser l'indentation (*i.e.* le décalage à droite à l'aide d'au moins une tabulation) pour définir les opérations à réaliser dans un bloc. Si on veut faire plusieurs opérations dans le `if`, voila comment procéder par exemple.

In [4]:
if (a > 2):
    print("dans le IF")
    print("sup")

dans le IF
sup


Il existe aussi la possibilité d'ajouter soit un traitement alternatif simple (avec `else`), soit un traitement alternatif conditionnel lui aussi (avec `elif`).

In [5]:
# Avec un else seulement
a = 1
if (a > 2):
    print("sup")
else:
    print("inf")

inf


In [6]:
# Avec elif en plus
if (a > 2):
    print("sup")
elif (a > 0):
    print("mid")
else:
    print("inf")

mid


Il n'existe rien dans `python` pour le `switch/case`tel qu'on peut le voir par ailleurs. Mais on peut passer par un dictionnaire pour des tests d'égalité (cf plus bas pour plus d'informations sur les dictionnaires).

In [7]:
jour = {
    0: "lundi",
    1: "mardi",
    2: "mercredi",
    3: "jeudi",
    4: "vendredi",
    5: "samedi",
    6: "dimanche"
}
jour.get(2)

'mercredi'

### Traitement itératif

On utilise en premier la boucle `for` dans laquelle on peut utiliser la fonction `range()` pour avoir les valeurs entre `0` (par défaut) et la valeur passée en paramètre. Vous remarquerez que `i` est persistant à la boucle et garde la dernière valeur.

In [8]:
for i in range(5):
    print(i)
print("dernière valeur de i :", i)

0
1
2
3
4
dernière valeur de i : 4


Cette fonction `range()` peut prendre deux paramètres, et dans ce cas, génère la boucle entre les deux par pas de 1.

In [9]:
for i in range(5, 10):
    print(i)

5
6
7
8
9


Et si l'on souhaite modifier le pas de séquence, on ajoute un troisième paramètre. Celui-ci doit être cohérent par rapport aux deux premières valeurs.

In [10]:
for i in range(10, 5, -1):
    print(i)

10
9
8
7
6


Il est possible d'utiliser une `list` ou un `tuple` pour définir les valeurs dans lesquelles naviguer.

In [11]:
for i in [4, 1, 10]:
    print(i)

4
1
10


Et en utilisant une chaîne de caractère, on peut naviguer dans celle-ci.

In [12]:
for l in "Bonjour":
    print(l)

B
o
n
j
o
u
r


Mais en utilisant un groupe de chaîne (`list` ou `tuple`), on travaille sur les chaînes au complet.

In [13]:
for l in ("jour", "soir"):
    print("Bon", l, sep = "")

Bonjour
Bonsoir


La fonction `enumerate()` permet de récupérer à la fois les indices des valeurs et les valeurs. 

In [14]:
a = [3, 1, 9, 4]
for i, x in enumerate(a):
    print("i =", i, "\tx =", x)

i = 0 	x = 3
i = 1 	x = 1
i = 2 	x = 9
i = 3 	x = 4


Et la fonction `zip()` permet elle de travailler sur plusieurs groupes de valeurs (ici deux listes). Notez que cette fonction limite le résultat à la taille du plus petit regroupement.

In [15]:
b = ["trois", "un", "neuf"]
for i, j in zip(a, b):
    print(" i =", i, "\tj =", j)

 i = 3 	j = trois
 i = 1 	j = un
 i = 9 	j = neuf


Enfin, on dispose aussi de la boucle `while` qui teste en début de boucle si une condition est toujours vérifiée. Bien évidemment, à la fin de la boucle, `i` a la première valeur à rendre la condition fausse. Ici, `i += 1` est un raccourci pour `i = i + 1`.

In [16]:
i = 0
while i < 10:
    print(i)
    i += 1
print("Valeur de i :", i)

0
1
2
3
4
5
6
7
8
9
Valeur de i : 10


## Création et manipulations d'objets 

Comme indiqué, il existe différents types d'objets en `python`. Sont présentés ici des exemples de créations et de manipulations de chaînes (`str`), de `tuples`, de `list` et de dictionnaires (`dict`).

### Chaînes

Une chaîne de caractère se définit à l'aide des quotes simples (`''`) ou doubles (`""`). Par défaut, `python` présentera les chaînes avec des simples quotes. Mais en présence d'une apostrophe dans la chaîne, il faut la déclarer avec des doubles quotes. Il est possible de connaître la longueur de la chaîne avec la fonction `len()`.

In [17]:
"bonjour"

'bonjour'

In [18]:
"aujourd'hui"

"aujourd'hui"

In [19]:
a = 'bonjour'
len(a)

7

Pour extraire des sous-chaînes, on utilise l'indexation en séquence `python`, en prenant en compte que le premier caractère est en position `0`. La séquence par défaut est par pas de 1 (par exemple, `1:5` renvoie les positions `1`, `2`, `3`, `4`, `5`). Si on omet le premier ou le dernier, `python` comprend qu'on désire le début ou la fin de la chaîne. On peut ajouter un paramètre à la séquence, permettant de jouer sur le pas entre les valeurs de la séquence.

In [20]:
a[1:5]

'onjo'

In [21]:
a[0:3]

'bon'

In [22]:
a[:3]

'bon'

In [23]:
a[3:len(a)]

'jour'

In [24]:
a[3:]

'jour'

In [25]:
a[::]

'bonjour'

In [26]:
a[::-1]

'ruojnob'

In [27]:
a[::2]

'bnor'

In [28]:
a[1:5:2]

'oj'

In [29]:
a[5:1:-2]

'uj'

Sur ces chaînes, on peut réaliser un certain nombre d'opérations classiques, telles que le changement de casse (`upper()` ou `lower()`), la mise en majuscule des premières lettres de chaque mot (`capitalize()`), la recherche d'une sous-chaîne (`find()` - première occurence), le remplacement d'une sous-chaîne (`replace()`), le dénombrement de sous-chaînes (`count()`) ou le découpage en sous-chaînes selon un caractère (`split()`). En voici quelques exemples.

In [30]:
a.upper()

'BONJOUR'

In [31]:
a.capitalize()

'Bonjour'

In [32]:
a.find('j')

3

In [33]:
a.replace('jour', 'soir')

'bonsoir'

In [34]:
a.count('o')

2

In [35]:
a.split('j')

['bon', 'our']

### Tuples

Un `tuple` en `python` est un ensemble déclaré via des `()`, composé de valeurs pas forcément de même type et éventuellement complexe, qu'il n'est pas possible de modifier. C'est en quelque sorte une constante, une fois déclarée.

Il est possible d'utiliser les mêmes outils d'indexation en séquence vu pour les chaînes. 

### Listes

Une `list` est aussi un ensemble déclarée via des `[]`, composé d'éléments pas forcément tous du même type et possiblement complexe. A la différence d'un tuple, une liste est modifiable.

In [36]:
a = [3, 1, 9, 7]
print(a)

[3, 1, 9, 7]


In [37]:
len(a)

4

In [38]:
a[0]

3

In [39]:
a[1:3]

[1, 9]

Il est possible d'utiliser les mêmes outils d'indexation en séquence vu pour les chaînes. 

Nous disposons sur ces listes de plusieurs fonctions tels que `reverse()` (pour inverser la liste), `sort()` (tri, avec l'option `reverse` pour le choix du tri), `pop()` (pour récupérer et supprimer le dernier élément), `append()` (pour ajouter un élément à la fin), `insert()` (pour insérer un élément dans la liste, à la position indiquée - paramètres = position suivie de la valeur), `remove()` (pour supprimer les valeurs passées en paramètre). Toutes ces fonctions modifient directement la liste sur laquelle on les applique.

In [40]:
a.reverse()
print(a)

[7, 9, 1, 3]


In [41]:
a.sort()
print(a)

[1, 3, 7, 9]


In [42]:
a.sort(reverse=True)
print(a)

[9, 7, 3, 1]


In [43]:
a.pop()
print(a)

[9, 7, 3]


In [44]:
a.append(5)
print(a)

[9, 7, 3, 5]


In [45]:
a.insert(0, 6)
print(a)

[6, 9, 7, 3, 5]


In [46]:
a.remove(7)
print(a)

[6, 9, 3, 5]


Un autre moyen d'insérer une valeur, voire plusieurs, à une liste est d'utiliser l'opérateur `+`, tel qu'indiqué ci-dessous. Celui-ci permet une concaténation des deux listes en une seule. L'opérateur `*` permet lui de répéter une liste autant de fois que désiré.

In [47]:
a + [1, 2]
a * 2

[6, 9, 3, 5, 6, 9, 3, 5]

On peut utiliser un mécanisme spécifique, appelé *list comprehension* (fonctionnant aussi sur les chaînes et les tuples), permettant de récupérer les valeurs (ou un calcul sur chaque valeur) pour tous les éléments de la liste (ou certains si on applique un `if`).

In [48]:
a = [3, 1, 9, 7]
[x**2 for x in a]

[9, 1, 81, 49]

In [49]:
[x**2 for x in a if x >= 4]

[81, 49]

Par contre, il faut faire très attention au **passage de référence** lorsqu'on copie une liste. En effet, dans le code suivant, on copie `a` dans `b`. Et en modifiant `a`, on remarque que `b` est aussi modifié. Et l'inverse est aussi vrai.

In [50]:
a = [1, 2, 3, 4]
print(a)

[1, 2, 3, 4]


In [51]:
b = a
print(b)

[1, 2, 3, 4]


In [52]:
a[0] = 5
print(a)
print(b)

[5, 2, 3, 4]
[5, 2, 3, 4]


In [53]:
b[1] = 9
print(b)
print(a)

[5, 9, 3, 4]
[5, 9, 3, 4]


Pour remédier à ce problème, on doit duppliquer la liste avec la fonction `copy()` de la liste initiale, comme ci-dessous.

In [54]:
b = a.copy()
a[0] = -1
print(a)
print(b)

[-1, 9, 3, 4]
[5, 9, 3, 4]


### Dictionnaires

Les **dictionnaires** (`dict` en `python`) sont des listes nommées (définies via des `{}`), c'est-à-dire que chaque élément a un nom (appelé aussi clé). Ces éléments ne sont pas forcément tous du même type, et peuvent aussi être complexe.

In [55]:
a = { "nom": "Jollois", "prenom": "FX", "langues": ["R", "Python", "SQL", "SAS"], "labo": { "nom": "LIPADE", "lieu": "CUSP"}}
print(a)
len(a)

{'nom': 'Jollois', 'prenom': 'FX', 'langues': ['R', 'Python', 'SQL', 'SAS'], 'labo': {'nom': 'LIPADE', 'lieu': 'CUSP'}}


4

Pour accéder aux éléments du dictionnaire, on peut utiliser le formalisme suivant.

In [56]:
a["nom"]

'Jollois'

In [57]:
a["langues"]

['R', 'Python', 'SQL', 'SAS']

In [58]:
a["langues"][0]

'R'

In [59]:
a["labo"]

{'nom': 'LIPADE', 'lieu': 'CUSP'}

In [60]:
a["labo"]["lieu"]

'CUSP'

Il existe aussi des fonctions utiles sur ces objets, telles que `get()` (pour récupérer la valeur d'une clé), `keys()` (pour avoir la liste des clés de l'objet), `values()` (pour avoir les valeurs des clés, dans le même ordre que listé dans `keys()`), `popitem()` (pour récupérer un dictionnaire avec le dernier item, et le supprimer du dictionnaire initiale) et `pop()` (pour récupérer la valeur de l'item passé en paramètre, et le supprimer de l'élément de départ).

In [61]:
a.get("nom")

'Jollois'

In [62]:
a.keys()

dict_keys(['nom', 'prenom', 'langues', 'labo'])

In [63]:
a.values()

dict_values(['Jollois', 'FX', ['R', 'Python', 'SQL', 'SAS'], {'nom': 'LIPADE', 'lieu': 'CUSP'}])

In [64]:
a.popitem()

('labo', {'nom': 'LIPADE', 'lieu': 'CUSP'})

In [65]:
print(a)

{'nom': 'Jollois', 'prenom': 'FX', 'langues': ['R', 'Python', 'SQL', 'SAS']}


In [66]:
a.pop("nom")

'Jollois'

In [67]:
print(a)

{'prenom': 'FX', 'langues': ['R', 'Python', 'SQL', 'SAS']}


On peut ajouter facilement un item à un dictionnaire, en lui affectant une valeur.

In [68]:
a["type"] = "MCF"
print(a)

{'prenom': 'FX', 'langues': ['R', 'Python', 'SQL', 'SAS'], 'type': 'MCF'}


De même que pour les listes, il faut faire attention lors de l'affectation d'un dictionnaire à un autre. La fonction `copy()` permet donc d'obtenir une copie indépendante de l'objet initial.

In [69]:
b = a
b["prenom"] = "Xavier"
print(b)
print(a)

{'prenom': 'Xavier', 'langues': ['R', 'Python', 'SQL', 'SAS'], 'type': 'MCF'}
{'prenom': 'Xavier', 'langues': ['R', 'Python', 'SQL', 'SAS'], 'type': 'MCF'}


In [70]:
b = a.copy()
b["prenom"] = "FX"
print(b)
print(a)

{'prenom': 'FX', 'langues': ['R', 'Python', 'SQL', 'SAS'], 'type': 'MCF'}
{'prenom': 'Xavier', 'langues': ['R', 'Python', 'SQL', 'SAS'], 'type': 'MCF'}


Le mécanisme de *list comprehension* est aussi utilisable pour créer un dictionnaire. Il faut dans ce cas indiquer deux valeus : la clé et sa valeur. Dans notre cas, la fonction `dict()` appliqué sur le résultat de la fonction `zip()` des deux listes nous permet d'avoir le même résultat.

In [71]:
fruits = ["pommes", "bananes", "poires", "oranges"]
nombres = [5, 2, 10, 4]
{fruits[i]:nombres[i] for i in range(4)}
dict(zip(fruits, nombres))

{'pommes': 5, 'bananes': 2, 'poires': 10, 'oranges': 4}

## Fonctions

### Définition

L'opérateur `def` permet de créer une fonction (ou une procédure qui sera juste une fonction ne renvoyant rien). L'opérateur `return` indiquant le résultat à renvoyer le cas échéant. Le premier exemple est une fonction renvoyant une valeur (approximative) de $\pi$. Comme pour un `if`, le bloc d'instructions est défini selon l'indentation.

In [72]:
def pi():
    res = 3.141593 ** 2
    return res
pi()

9.869606577649

Ce deuxième exemple est une procédure affichant tout simplement `"Bonjour"`.

In [73]:
def afficheBonjour():
    print("Bonjour")
afficheBonjour()

Bonjour


Il est bien évidemment possible de passer un paramètre à une fonction, sans qu'on ait à déclarer son type. Bien sûr, un appel de la fonction sans valeur pour un paramètre défini entraîne une erreur.

In [74]:
def afficheBonjour(nom):
    print("Bonjour", nom)
afficheBonjour("Jollois")

Bonjour Jollois


Lorqu'il y a plus d'un paramètre, on peut faire un appel classique. Mais il est aussi possible de nommer explicitement les paramètres. Avec ce mécanisme, il est ainsi possible de les déclarer dans l'ordre que l'on veut. Mais si l'on nomme un paramètre, il est obligatoire de nommer les autres (erreur d'exécution sinon).

In [75]:
def afficheBonjour(nom, prenom):
    print("Bonjour", prenom, nom)
afficheBonjour("Jollois", "FX")

Bonjour FX Jollois


In [76]:
afficheBonjour(nom = "Jollois", prenom = "FX")

Bonjour FX Jollois


In [77]:
afficheBonjour(prenom = "FX", nom = "Jollois")

Bonjour FX Jollois


Il existe la possibilité de définir une valeur par défaut à un paramètre dans une fonction. Ceci permet d'appeler la fonction sans donner de valeur pour ce paramètre (la fonction utilisera celle par défaut donc). 

In [78]:
def afficheBonjour(nom, prenom = "?"):
    print("Bonjour", prenom, nom)
afficheBonjour("Jollois", "FX")

Bonjour FX Jollois


In [79]:
afficheBonjour("Jollois")

Bonjour ? Jollois


### Pureté d'une fonction

Une fonction est dite *pure* si elle n'a pas d'effet de bords lors de son appel. Dans la fonction `f1()` définie ci-dessous, le paramètre `a` est local et son affectation ne change pas la valeur de la variable `a` globale. `f1()` sera donc considérée comme pure.

In [80]:
def f1(a):
    a = [b**2 for b in a]
    return a
a = list(range(5))
print(a)
print(f1(a))
print(a)

[0, 1, 2, 3, 4]
[0, 1, 4, 9, 16]
[0, 1, 2, 3, 4]


Maintenant, si nous définissons la fonction comme `f2()` ci-dessous, nous remarquons que la variable `a` globale est modifiée suite à l'appel de la fonction. `f2()` est considérée *impure*.

In [81]:
def f2(a):
    for i in a:
        a[i] = a[i] ** 2
    return a
a = list(range(5))
print(a)
print(f2(a))
print(a)

[0, 1, 2, 3, 4]
[0, 1, 4, 9, 16]
[0, 1, 4, 9, 16]


### Gestion des erreurs

Il arrive régulièrement que l'on doive gérer les erreurs d'exécution dans une fonction. On utilise pour cela l'opérateur `try`, qui contiendra le code à exécuter normalement. Et dans le bloc `except`, on indiquera la marche à suivre en cas d'erreur lors de l'exécution du `try`. On peut définir une suite d'instruction à réaliser après la gestion de l'erreur avec un bloc `finally` (optionnel).

Ci-dessous, nous définissons une fonction renvoyant la somme d'une liste ou d'un tuple. Si la somme est impossible à réaliser (par exemple, car il y a une chaîne dans la liste passée en paramètre), on affiche un message d'erreur et on renvoie la valeur `None`.

In [82]:
def somme(v):
    try:
        res = sum(v)
    except:
        print("Erreur : somme impossible !")
        res = None
    finally:
        return res
a = somme([1, 3, 5])
print(a)
a = somme(["un", 3, 5])
print(a)

9
Erreur : somme impossible !
None


### Fonctions sur Listes

Dans le cadre de l'utilisation de liste, il est nécessaire d'utiliser des fonctions particulières, dites *high order functions*. Ces dernières prennent en paramètre une fonction et une liste.

Pour les exemples, nous définissons une liste de nombres.

In [83]:
a = [13, 7, 2, 9, 1, 10, 6, 3, 8]
print(a)

[13, 7, 2, 9, 1, 10, 6, 3, 8]


#### `map()`

La fonction `map()` permet d'appliquer une fonction sur chaque élément d'une liste (ou d'un tuple). Elle renvoie un objet de type `map` que l'on peut transformer en liste avec la fonction `list()`. Une fois celle-ci appliqué, l'objet renvoyé par `map()` est vide.

Ici, nous définissons une fonction `carre()` qui renvoie le carré du paramètre passé. Et nous l'appliquons sur chaque élément de la liste `a` créé précédemment.

In [84]:
def carre(v):
    return v ** 2
carre(5)

25

In [85]:
b = map(carre, a)
print(list(b))

[169, 49, 4, 81, 1, 100, 36, 9, 64]


#### `filter()`

L'idée de la fonction `filter()` est de filtrer les valeurs de la liste, en fonction du résultat de la fonction passée en paramètre. De même que pour `map()`, nous listons les résultats pour l'avoir sous une forme de `list`.

La fonction `pair()` ci-dessous teste si la valeur passée en paramètre est divisible par 2 (donc si elle est paire). L'utlisation de la fonction `filter()` sur `a`, avec cette fonction, nous renvoie les valeurs de `a` paires.

In [86]:
def pair(v):
    return v%2 == 0
pair(5)
pair(8)

True

In [87]:
b = filter(pair, a)
print(list(b))

[2, 10, 6, 8]


#### `reduce()`

La dernière fonction intéressante sur les listes est `reduce()`, permettant de réduire une liste en une valeur. Elle est contenue dans le module `functools`, qu'on importe via la commande `import`.

La fonction à passer en paramètre doit donc prendre deux valeurs et renvoyer une valeur de même type. Le deuxième paramètre est la liste sur laquelle appliquer la réduction. Il est aussi possible d'ajouter une valeur initiale.

Cette fonction `reduce()` regroupe deux éléments de liste ensemble, puis regroupe le résultat précédent avec l'élément suivant, et ainsi de suite, jsuq'à épuisement de la liste.

Voici un exemple d'utilisation de `reduce()` pour le calcul de la somme des éléments d'une liste. On définit la fonction `somme()` qui prend deux éléments et qui renvoie la somme de deux. On l'applique, via `reduce()` sur la liste. Le résultat obtenu est bien la somme sur `a`. Le deuxième appel est avec une valeur initialisée à 100.

In [88]:
def somme(v1, v2): 
    return v1 + v2
somme(3, 10)

13

In [89]:
sum(a)

59

In [90]:
import functools
b = functools.reduce(somme, a)
print(b)

59


In [91]:
b = functools.reduce(somme, a, 100)
print(b)

159


#### Fonction anonyme

Dans ces appels de fonctions, il est courant de passer en paramètre une fonction simple. Dans ce cadre, il existe un mécanisme évitant la déclaration de la fonction avant. On parle de *fonction anonyme*, déclarée via l'opérateur `lambda`. Le principe est de définir la fonction lors de son passage comme paramètre. La contrainte est que cette fonction doit tenir sur une seule ligne.

Dans l'exemple qui suit, nous appliquons une fonction calculant le carré d'une valeur à une liste, via la fonction `map()`.

In [92]:
b = map(lambda v: v ** 2, a)
print(list(b))

[169, 49, 4, 81, 1, 100, 36, 9, 64]


Il est possible d'ajouter une condition `if` dans la fonction `lambda` avec un formalisme de type `valeurTrue if condition else valeurFalse`. Ci-après, nous calculons le carré de chaque valeur, multiplié par `-1` pour celles inférieur ou égale à 8.

In [93]:
b = map(lambda v: v **2 if v > 8 else -(v ** 2), a)
print(list(b))

[169, -49, -4, 81, -1, 100, -36, -9, -64]


## Données

Nous allons travailler sur des données Velib en temps réel, qui sont disponibles sur [cette page](https://opendata.paris.fr/explore/dataset/velib-disponibilite-en-temps-reel/).

Pour cela, nous avons besoin du module `requests`, tel qu'utilisé ci-dessous.

In [94]:
import requests

url = "https://opendata.paris.fr/api/records/1.0/search/"
par = dict(
    dataset = "velib-disponibilite-en-temps-reel"
)
r = requests.get(url = url, params = par)
r.json()


{'nhits': 1393,
 'parameters': {'dataset': 'velib-disponibilite-en-temps-reel',
  'timezone': 'UTC',
  'rows': 10,
  'format': 'json'},
 'records': [{'datasetid': 'velib-disponibilite-en-temps-reel',
   'recordid': '1c558934d35d2ace89f524493975254a5d9647a9',
   'fields': {'nbfreeedock': 28,
    'station_state': 'Operative',
    'maxbikeoverflow': 0,
    'creditcard': 'no',
    'station_type': 'yes',
    'overflowactivation': 'no',
    'station_code': '16107',
    'overflow': 'no',
    'nbbikeoverflow': 0,
    'duedate': '2018-07-15',
    'densitylevel': '1',
    'nbedock': 35,
    'station': '{"code": "16107", "name": "Benjamin Godard - Victor Hugo", "state": "Operative", "type": "yes", "dueDate": 1531632033, "gps": {"latitude": 48.865983, "longitude": 2.275725}}',
    'nbfreedock': 0,
    'nbbike': 5,
    'station_name': 'Benjamin Godard - Victor Hugo',
    'nbdock': 0,
    'geo': [48.865983, 2.275725],
    'nbebike': 2,
    'kioskstate': 'yes',
    'nbebikeoverflow': 0},
   'geometry

Dans ce résultat, nous voyons qu'il y a 1393 enregistrements à récupérer (`nhits`), et que nous en avons récupérer ici uniquement 10 (`parameters.rows`). Pour avoir les 10 suivants, on doit faire comme ci-dessous

In [95]:
par = dict(
    dataset = "velib-disponibilite-en-temps-reel",
    start = 11
)
rsuite = requests.get(url = url, params = par)
rsuite.json()

{'nhits': 1393,
 'parameters': {'dataset': 'velib-disponibilite-en-temps-reel',
  'timezone': 'UTC',
  'rows': 10,
  'start': 11,
  'format': 'json'},
 'records': [{'datasetid': 'velib-disponibilite-en-temps-reel',
   'recordid': 'ca28d96af91f12a8ec700dc6a8f2bf8ed257cd75',
   'fields': {'nbfreeedock': 24,
    'station_state': 'Operative',
    'maxbikeoverflow': 0,
    'creditcard': 'yes',
    'station_type': 'yes',
    'overflowactivation': 'no',
    'station_code': '14111',
    'overflow': 'no',
    'nbbikeoverflow': 0,
    'duedate': '2019-07-28',
    'densitylevel': '1',
    'nbedock': 25,
    'station': '{"code": "14111", "name": "Cassini - Denfert-Rochereau", "state": "Operative", "type": "yes", "dueDate": 1564347600, "gps": {"latitude": 48.83752583906732, "longitude": 2.336035408079624}}',
    'nbfreedock': 0,
    'nbbike': 0,
    'station_name': 'Cassini - Denfert-Rochereau',
    'nbdock': 0,
    'geo': [48.83752583906732, 2.336035408079624],
    'nbebike': 1,
    'kioskstate': 

Nous allons utiliser dans ce TP le module `pandas` permettant la gestion de données avec Python dans un format (individus décrits par des variables) plus classique pour les méthodes statistiques. Ce qui nous intéresse ici est le champ `records`, qui contient les enregistrements de 10 premières stations donc. On voit que le tableau obtenu n'est pas très lisible.

In [96]:
import pandas

records = r.json()['records']
df = pandas.DataFrame(records)

df

Unnamed: 0,datasetid,recordid,fields,geometry,record_timestamp
0,velib-disponibilite-en-temps-reel,1c558934d35d2ace89f524493975254a5d9647a9,"{'nbfreeedock': 28, 'station_state': 'Operativ...","{'type': 'Point', 'coordinates': [2.275725, 48...",2020-01-13T16:47:00.498000+00:00
1,velib-disponibilite-en-temps-reel,58244c402f325307ada71156b2192adc30eabb5a,"{'nbfreeedock': 45, 'station_state': 'Operativ...","{'type': 'Point', 'coordinates': [2.3390958085...",2020-01-13T16:47:00.498000+00:00
2,velib-disponibilite-en-temps-reel,118d4c252e49854d60b61fcfe62f1cba8fdad03a,"{'nbfreeedock': 17, 'station_state': 'Operativ...","{'type': 'Point', 'coordinates': [2.3373600840...",2020-01-13T16:47:00.498000+00:00
3,velib-disponibilite-en-temps-reel,e285ef7a3cb431f58efdd10663a37c2f7a16f07e,"{'nbfreeedock': 19, 'station_state': 'Operativ...","{'type': 'Point', 'coordinates': [2.3925706744...",2020-01-13T16:47:00.498000+00:00
4,velib-disponibilite-en-temps-reel,458fa326cbd3cad51df520c327dab0d1f694f755,"{'nbfreeedock': 26, 'station_state': 'Operativ...","{'type': 'Point', 'coordinates': [2.3875549435...",2020-01-13T16:47:00.498000+00:00
5,velib-disponibilite-en-temps-reel,c4ec029a67f24d765f4065983d69bcda1732a4ed,"{'nbfreeedock': 2, 'station_state': 'Operative...","{'type': 'Point', 'coordinates': [2.3436703160...",2020-01-13T16:47:00.498000+00:00
6,velib-disponibilite-en-temps-reel,909921def9b450939743a5363fece80072ffbd2f,"{'nbfreeedock': 55, 'station_state': 'Operativ...","{'type': 'Point', 'coordinates': [2.3433353751...",2020-01-13T16:47:00.498000+00:00
7,velib-disponibilite-en-temps-reel,adf2fedb25e30ca0005f17dddb740709b538b3b3,"{'nbfreeedock': 0, 'station_state': 'Operative...","{'type': 'Point', 'coordinates': [2.3011321574...",2020-01-13T16:47:00.498000+00:00
8,velib-disponibilite-en-temps-reel,f296ab6f6f863fca099570ac3c29094c003ab081,"{'nbfreeedock': 32, 'station_state': 'Operativ...","{'type': 'Point', 'coordinates': [2.2876673708...",2020-01-13T16:47:00.498000+00:00
9,velib-disponibilite-en-temps-reel,788f50bc1ecfbfed71ac8a3ddb150528a2659c77,"{'nbfreeedock': 55, 'station_state': 'Operativ...","{'type': 'Point', 'coordinates': [2.3661044619...",2020-01-13T16:47:00.498000+00:00


On souhaite finalement se restreindre qu'aux informations contenues dans le champs `fields`. Pour cela, on utilise le mécanisme de *dict comprehension*.

In [97]:
pandas.DataFrame([s['fields'] for s in records])

Unnamed: 0,nbfreeedock,station_state,maxbikeoverflow,creditcard,station_type,overflowactivation,station_code,overflow,nbbikeoverflow,duedate,...,nbedock,station,nbfreedock,nbbike,station_name,nbdock,geo,nbebike,kioskstate,nbebikeoverflow
0,28,Operative,0,no,yes,no,16107,no,0,2018-07-15,...,35,"{""code"": ""16107"", ""name"": ""Benjamin Godard - V...",0,5,Benjamin Godard - Victor Hugo,0,"[48.865983, 2.275725]",2,yes,0
1,45,Operative,55,yes,yes,no,6015,no,0,2018-04-05,...,52,"{""code"": ""6015"", ""name"": ""André Mazet - Saint-...",3,4,André Mazet - Saint-André des Arts,3,"[48.85375581057431, 2.3390958085656166]",3,yes,0
2,17,Operative,21,yes,yes,no,9020,no,0,2018-11-30,...,21,"{""code"": ""9020"", ""name"": ""Toudouze - Clauzel"",...",0,1,Toudouze - Clauzel,0,"[48.87929591733507, 2.3373600840568547]",3,yes,0
3,19,Operative,0,no,yes,no,11104,no,0,2018-10-22,...,20,"{""code"": ""11104"", ""name"": ""Charonne - Robert e...",0,1,Charonne - Robert et Sonia Delauney,0,"[48.85590755596891, 2.3925706744194035]",0,yes,0
4,26,Operative,30,no,yes,no,12109,no,0,2019-03-28,...,30,"{""code"": ""12109"", ""name"": ""Mairie du 12ème"", ""...",0,2,Mairie du 12ème,0,"[48.84085531176338, 2.3875549435615544]",2,yes,0
5,2,Operative,45,yes,yes,no,5001,no,0,2020-03-22,...,7,"{""code"": ""5001"", ""name"": ""Harpe - Saint-Germai...",33,1,Harpe - Saint-Germain,38,"[48.85151881501689, 2.343670316040516]",2,yes,0
6,55,Operative,60,yes,yes,no,14014,no,0,2019-04-28,...,60,"{""code"": ""14014"", ""name"": ""Jourdan - Stade Cha...",0,3,Jourdan - Stade Charléty,0,"[48.81942833336948, 2.343335375189781]",2,yes,0
7,0,Operative,41,yes,no,no,17026,no,0,2018-02-28,...,0,"{""code"": ""17026"", ""name"": ""Jouffroy d'Abbans -...",35,3,Jouffroy d'Abbans - Wagram,40,"[48.881973298351625, 2.301132157444954]",2,yes,0
8,32,Operative,39,yes,yes,no,17041,no,0,2018-03-30,...,38,"{""code"": ""17041"", ""name"": ""Guersant - Gouvion-...",0,2,Guersant - Gouvion-Saint-Cyr,1,"[48.88287775178599, 2.287667370814871]",5,yes,0
9,55,Operative,60,yes,yes,no,10013,no,0,2018-12-30,...,59,"{""code"": ""10013"", ""name"": ""Alibert - Jemmapes""...",1,2,Alibert - Jemmapes,1,"[48.8710440519842, 2.366104461987773]",2,yes,0


Ici, la colonne `station` ne nous est pas utile (les informations dedans sont déjà présentes). Toujours le même mécanisme de *list comprehension*, on peut la supprimer du résultat.

In [98]:
pandas.DataFrame([{i:s['fields'][i] for i in s['fields'] if i!='station'} for s in records])

Unnamed: 0,nbfreeedock,station_state,maxbikeoverflow,creditcard,station_type,overflowactivation,station_code,overflow,nbbikeoverflow,duedate,densitylevel,nbedock,nbfreedock,nbbike,station_name,nbdock,geo,nbebike,kioskstate,nbebikeoverflow
0,28,Operative,0,no,yes,no,16107,no,0,2018-07-15,1,35,0,5,Benjamin Godard - Victor Hugo,0,"[48.865983, 2.275725]",2,yes,0
1,45,Operative,55,yes,yes,no,6015,no,0,2018-04-05,1,52,3,4,André Mazet - Saint-André des Arts,3,"[48.85375581057431, 2.3390958085656166]",3,yes,0
2,17,Operative,21,yes,yes,no,9020,no,0,2018-11-30,1,21,0,1,Toudouze - Clauzel,0,"[48.87929591733507, 2.3373600840568547]",3,yes,0
3,19,Operative,0,no,yes,no,11104,no,0,2018-10-22,1,20,0,1,Charonne - Robert et Sonia Delauney,0,"[48.85590755596891, 2.3925706744194035]",0,yes,0
4,26,Operative,30,no,yes,no,12109,no,0,2019-03-28,1,30,0,2,Mairie du 12ème,0,"[48.84085531176338, 2.3875549435615544]",2,yes,0
5,2,Operative,45,yes,yes,no,5001,no,0,2020-03-22,1,7,33,1,Harpe - Saint-Germain,38,"[48.85151881501689, 2.343670316040516]",2,yes,0
6,55,Operative,60,yes,yes,no,14014,no,0,2019-04-28,1,60,0,3,Jourdan - Stade Charléty,0,"[48.81942833336948, 2.343335375189781]",2,yes,0
7,0,Operative,41,yes,no,no,17026,no,0,2018-02-28,1,0,35,3,Jouffroy d'Abbans - Wagram,40,"[48.881973298351625, 2.301132157444954]",2,yes,0
8,32,Operative,39,yes,yes,no,17041,no,0,2018-03-30,1,38,0,2,Guersant - Gouvion-Saint-Cyr,1,"[48.88287775178599, 2.287667370814871]",5,yes,0
9,55,Operative,60,yes,yes,no,10013,no,0,2018-12-30,1,59,1,2,Alibert - Jemmapes,1,"[48.8710440519842, 2.366104461987773]",2,yes,0


In [99]:
import folium
centre = [48.87, 2.35]
paris = folium.Map(location = centre, zoom_start = 12)
paris

In [100]:
df = pandas.DataFrame([{i:s['fields'][i] for i in s['fields'] if i!='station'} for s in records])
df

Unnamed: 0,nbfreeedock,station_state,maxbikeoverflow,creditcard,station_type,overflowactivation,station_code,overflow,nbbikeoverflow,duedate,densitylevel,nbedock,nbfreedock,nbbike,station_name,nbdock,geo,nbebike,kioskstate,nbebikeoverflow
0,28,Operative,0,no,yes,no,16107,no,0,2018-07-15,1,35,0,5,Benjamin Godard - Victor Hugo,0,"[48.865983, 2.275725]",2,yes,0
1,45,Operative,55,yes,yes,no,6015,no,0,2018-04-05,1,52,3,4,André Mazet - Saint-André des Arts,3,"[48.85375581057431, 2.3390958085656166]",3,yes,0
2,17,Operative,21,yes,yes,no,9020,no,0,2018-11-30,1,21,0,1,Toudouze - Clauzel,0,"[48.87929591733507, 2.3373600840568547]",3,yes,0
3,19,Operative,0,no,yes,no,11104,no,0,2018-10-22,1,20,0,1,Charonne - Robert et Sonia Delauney,0,"[48.85590755596891, 2.3925706744194035]",0,yes,0
4,26,Operative,30,no,yes,no,12109,no,0,2019-03-28,1,30,0,2,Mairie du 12ème,0,"[48.84085531176338, 2.3875549435615544]",2,yes,0
5,2,Operative,45,yes,yes,no,5001,no,0,2020-03-22,1,7,33,1,Harpe - Saint-Germain,38,"[48.85151881501689, 2.343670316040516]",2,yes,0
6,55,Operative,60,yes,yes,no,14014,no,0,2019-04-28,1,60,0,3,Jourdan - Stade Charléty,0,"[48.81942833336948, 2.343335375189781]",2,yes,0
7,0,Operative,41,yes,no,no,17026,no,0,2018-02-28,1,0,35,3,Jouffroy d'Abbans - Wagram,40,"[48.881973298351625, 2.301132157444954]",2,yes,0
8,32,Operative,39,yes,yes,no,17041,no,0,2018-03-30,1,38,0,2,Guersant - Gouvion-Saint-Cyr,1,"[48.88287775178599, 2.287667370814871]",5,yes,0
9,55,Operative,60,yes,yes,no,10013,no,0,2018-12-30,1,59,1,2,Alibert - Jemmapes,1,"[48.8710440519842, 2.366104461987773]",2,yes,0


In [101]:
paris = folium.Map(location = centre, zoom_start = 12)
for station in [s['fields'] for s in records]:
    folium.Marker(station["geo"], 
                        popup = station["station_name"]).add_to(paris)
paris