<div style="margin: auto; text-align: center;">
        <h2>Séminaire RUSS - 4 Avril 2019</h2>
</div>

<div style="margin: auto; text-align: center;">
<img style="margin: auto; height: 70px; width: auto;" src="img/russ_thumbnail.png" />
</div>

<div style="margin: auto; text-align: center; margin: 100px 10px 80px;">
    <h1>Introduction Python pour les utilisateurs de R</h1>
    <h5>Slides : <a href="https://mthh.github.io/RUSS_190404/">https://mthh.github.io/RUSS_190404/</a></h5>
</div>

<div style="width: 30%;margin: auto; display: flex; float: left;">
    <div style="margin: auto;">
    <img style="height: 60px; width: auto;" src="img/lig_logo.png" />
    </div>
    <div style="margin: auto;">
    <img style="height: 40px; width: auto;" src="img/uga_logo.png" />
    </div>
    <div style="margin: auto;">
    <img style="height: 40px; width: auto;" src="img/cnrs_logo.png" />
    </div>
    <div style="margin: auto;">
    <img style="height: 40px; width: auto;" src="img/inpg_logo.png" />
    </div>
</div>

<div style="margin: auto; text-align: right; font-style: italic;">
    <span>Matthieu Viry (matthieu.viry@univ-grenoble-alpes.fr)</span><br><span>Laboratoire d'informatique de Grenoble</span><br><span> (Univ. Grenoble Alpes / CNRS / Grenoble INP)</span>
</div>




In [1]:
from IPython.core.interactiveshell import InteractiveShell
from IPython.display import HTML, IFrame
InteractiveShell.ast_node_interactivity = "all"

Au programme :

- présentation du langage Python (spécificités, fondements, etc.)
- **calcul scientifique** (*Numpy* et *matplotlib*)
- **préparation et analyse de données** (*Pandas* et *RPy2*)
- analyse statistique, modélisation et apprentissage (*Scipy*, *statsmodels* et *scikit-learn*)
- manipulation de **données géospatiales** (*geopandas*, *shapely* et *rasterio*)
- **publication de données sur le Web** (*Dash* et *hug*)

Avec des liens !

1. [Présentation du language Python](#)
2. [Conseils sur la *stack* techno mobilisable](StackPythonInstall.slides.html)
3. [Calcul scientifique et visualisation de données](CalculVisu.slides.html)
4. [Préparation et analyse de données (lignes/colonnes) et lien avec R](Pydata.slides.html)
5. [Analyse statistique, modélisation et apprentissage](StatsML.slides.html)
6. [Manipulation de données géospatiales](ManipulationGeospatiale.slides.html)
7. [Publication sur le web](web.slides.html)
8. [Discussions](RetourDiscussion.slides.html)

<img src="img/python_logo.png" style="height: 200px; width: auto;"/>

**Python** :

- **Libre** (régit par la *Python Software Foundation License*, équivalent à BSD)

- Créé dans les années 90.

- Langage de **haut niveau**, **interprété**, **multi-paradigme** (impératif, fonctionnel, OO, ..)

- Langage orienté-objet (*héritage multiple*, *surcharge des opérateurs*)

Python est orienté-objet. Il supporte **l'héritage multiple** et la **surcharge des opérateurs**.
En Python toutes les données manipulées (y compris les types primitifs telles que les nombres et les chaînes de caractères) sont des objets : entier, flottant, liste, dictionnaire, etc. sont tous des objets.

Les objets de même nature ont le même type.

Ces objets contiennent notamment : des propriétés et des méthodes (qu'on va parfois retrouver sous le terme d'attributs).
Les propriétés permettent de stocker la valeur de l’objet et les méthodes représentent les fonctions permettant de manipuler la valeur de l’objet.

- Présence d'un **système de gestion des erreurs** et d'une **gestion automatique de la mémoire** (par comptage des références)

- **Typage dynamique fort** (et *duck typing*)

### Premiers pas en Python

#### L'intérpréteur fournit par défaut

- Éxécuter un script python :

```sh
python mon_script.py
```

- Ouvrir un intepréteur interactif : 

```sh
python
```

- Exemple :

```bash
mthh@mthh:~$ python3

Python 3.6.7 (default, Oct 22 2018, 11:32:17)
[GCC 8.2.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> print('Hello!')
Hello!
>>> 38
38
>>> exit()
```

- Comparable à taper 

```bash
mthh@mthh:~$ R

R version 3.4.4 (2018-03-15) -- "Someone to Lean On"
Copyright (C) 2018 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu (64-bit)

R est un logiciel libre livré sans AUCUNE GARANTIE.
Vous pouvez le redistribuer sous certaines conditions.
Tapez 'license()' ou 'licence()' pour plus de détails.

R est un projet collaboratif avec de nombreux contributeurs.
Tapez 'contributors()' pour plus d'information et
'citation()' pour la façon de le citer dans les publications.

Tapez 'demo()' pour des démonstrations, 'help()' pour l'aide
en ligne ou 'help.start()' pour obtenir l'aide au format HTML.
Tapez 'q()' pour quitter R.

[Sauvegarde de la session précédente restaurée]

> print('Hello!')
[1] "Hello!"
> q('no')
```

- On utilisera **IPython** par la suite, un terminal interactif très riche.


```bash
mthh@mthh:~$ ipython3

Python 3.6.7 (default, Oct 22 2018, 11:32:17)
Type 'copyright', 'credits' or 'license' for more information
IPython 7.4.0 -- An enhanced Interactive Python. Type '?' for help.

In [1]: print('Hello!')
Hello!

In [2]: 12
Out[2]: 12

In [3]: exit()
```

- Pas depuis un terminal système, mais depuis l'un des **IDE** présentés ensuite et qui offrent des environnements __*MATLAB-like*__, proche de l'environnement également offert par **RStudio**.

Python est dynamique : l'interpréteur peut évaluer des chaînes de caractères représentant des expressions ou des instructions Python. Il s'agit d'un langage *interprété* (comme le Java ou le Perl) à l'inverse de langage comme le C, le C++ ou le Pascal qui sont *compilés*.

Les langages compilés vont nécessiter de transformer le code source en code binaire (langage machine) lors d'une opération appelée la *compilation*.
Cette opération produit un fichier éxécutable dépendant du système d'exploitation et est à effectuer à chaque modification du code source.

Dans le cas d'un langage interprété (l'expression "langage de script" est synonyme), les instructions (le code source) sont "transcrites" par un *interpréteur* en langage machine au fur et à mesure de leur lecture.
L'éxécution d'un script écrit en Python est donc conditionnée par la présence de l'intepréteur Python (comme le serait du code Java avec la JVM par exemple).


#### Les types de données de base 

##### Entier (int)

In [2]:
a = 12
print(a, '\n', type(a))

12 
 <class 'int'>


##### Flottant (float)

In [3]:
a = 12.3
print(a, '\n', type(a))
print(a.is_integer())

12.3 
 <class 'float'>
False


##### Booléen (bool)

In [4]:
a = True
b = not a
print(b, '\n', type(b))

False 
 <class 'bool'>


##### Liste (list)

Les listes en Python peuvent contenir des objets hétérogènes.

In [5]:
a = []
a.append(1)
a.append("yo")
a.append([1, 2, 3])
a.append(4)
a.append(23.9)
a.append("Une autre chaine de caractères")
a

[1, 'yo', [1, 2, 3], 4, 23.9, 'Une autre chaine de caractères']

On va utiliser les crochets pour indexer les éléments de la listes (*en Python on commence à compter à 0*)

In [6]:
a[0] # <- Le premier élément de la liste
a[2] # <- Le troisième

# Il existe des méthodes pour enlever le dernier élément
# ou un élément particulier, etc.
a.pop()

1

[1, 2, 3]

'Une autre chaine de caractères'

In [7]:
a.index('yo')

1

In [8]:
a.remove('yo')
a

[1, [1, 2, 3], 4, 23.9]

In [9]:
# Une syntaxe permet également de créer une liste non-vide :
my_list = [1, 2, 5, 8, 12, 17]

In [10]:
for item in my_list:
    print(item)

1
2
5
8
12
17


##### Chaine de caractères (str)

In [11]:
a = "Ceci est une chaine de caractères"
print(type(a))

<class 'str'>


Les objets de ce type disposent de nombreuses méthodes :

In [12]:
a.lower()
a.upper()
a.isdigit()
a.isprintable()

'ceci est une chaine de caractères'

'CECI EST UNE CHAINE DE CARACTÈRES'

False

True

Comme avec les listes, on peut accéder à une position particulière ou obtenir un *slice* de l'objet.

In [13]:
a[2] # La troisième lettre
a[:12] # Jusqu'à la 12ème lettre
a[2:5] # ...

'c'

'Ceci est une'

'ci '

In [14]:
# À vrai dire, c'est un `iterable` comme les listes :
for letter in "abcde":
    print(letter)

a
b
c
d
e


##### N-uplets (tuple)

Il s'agit d'un containeur immutable (contrairement à une liste on peut pas ajouter / supprimer / modifier ses éléments) qui peut contenir des objets hétérogènes.  
Comme pour les listes, on peut utiliser les crochets pour appeler ses éléments.

In [15]:
# On peut l'utiliser pour stocker des informations structurées
# (où le N-ième élément a toujours la même signification)
pt1 = (12.1, 34.9) # (x, y)
pt2 = (34.4, 21.1) # (x, y)

info_consumers = [
    ('marie', 38, 21900.12), # (name, age, salary)
    ('bob', 22, 13900.12),
    ('alice', 48, 20900.12),
]

In [16]:
age_mean = 0
for consumer in info_consumers:
    age_mean += consumer[1] / len(info_consumers)

age_mean

36.0

##### Dictionnaire (dict)

Il s'agit d'une *HashMap* (principe clé -> valeur) relativement performante, pouvant contenir des éléments hétérogènes.

In [17]:
d1 = {}
d1['john'] = "1293038"
d1['eva'] = "1204004"
d1['rick'] = "1398091"
d1

{'john': '1293038', 'eva': '1204004', 'rick': '1398091'}

In [18]:
d1['john']

'1293038'

In [19]:
# Quelques méthodes des dictionnaires :
d1.get('rick')

'1398091'

In [20]:
d1.get('kdgjkdgjkd', "0") # avec valeur par défaut si absence de la clé

'0'

In [21]:
d1.keys() # Retourne une vue des clefs du dictionnaire

dict_keys(['john', 'eva', 'rick'])

In [22]:
d1.values() # Retourne une vue des valeurs du dictionnaire

dict_values(['1293038', '1204004', '1398091'])

In [23]:
# Fusion avec un autre dictionnaire
d1.update({'alice': '129874', 'alex': '2100012'})
print(d1)

{'john': '1293038', 'eva': '1204004', 'rick': '1398091', 'alice': '129874', 'alex': '2100012'}


In [24]:
# Tester la présence d'une clé :
'matt' in d1

False

In [25]:
d1['matt'] # <- oh no !

KeyError: 'matt'

##### Erreur (Exception)

In [26]:
try:
    # Le bloc de code à 'surveiller' :
    print(d1['bob'])
    
except KeyError as e:
    # Si l'erreur rencontrée est de type `KeyError`
    print('{} is missing 0_0'.format(e))

except Exception:
    # Si un autre type d'erreur est survenu
    print('Something else happened...')
    
else:
    # Si aucune erreur ne s'est produite
    print('doo')

finally:
    # Ce bloc est exécuté dans tous les cas
    print('We safely escaped from here !')

'bob' is missing 0_0
We safely escaped from here !


In [27]:
# Création d'un type d'erreur personnalisé
class UnrecoverableError(Exception): pass

if not 'bob' in d1:
    # Déclenchement de cette erreur
    # (en utilisant un message explicatif)
    raise UnrecoverableError('Where is bob ?')

UnrecoverableError: Where is bob ?

##### Ensemble (set)

In [28]:
seen = set()

for item in [1, 2, 4, 1, 5, 2, 9, 4, 1, 9]:
    seen.add(item)

print('{} éléments uniques : {}'.format(len(seen), list(seen)))

5 éléments uniques : [1, 2, 4, 5, 9]


In [29]:
s1 = {'rick', 'bob', 'alice', 'alex'}
s2 = {'john', 'eva', 'bob'}

# Des méthodes intéressantes
s1.intersection(s2) # -> {'bob'}
s2.issubset(s1) # -> False
s1.symmetric_difference(s2) # -> {'alex', 'alice', 'eva', 'john', 'rick'}

{'bob'}

False

{'alex', 'alice', 'eva', 'john', 'rick'}

##### Et les autres...

Une dizaine d'autres types natifs existent. Ils sont parfois manipulés de manière moins explicite (ou moins souvent!)

In [30]:
fset = frozenset(seen) # <- Un `set` auquel on ne pourra plus ajouter d'éléments
print(type(fset))
1 in fset  # Utile pour vérifier l'absence ou la présence d'un élément par exemple
12 in fset # ... et rapide

<class 'frozenset'>


True

False

**Rappel** : *tout est objet* en Python

In [31]:
isinstance(33, int)
isinstance(int, type)
isinstance(int, object)
isinstance(type, object)

issubclass(int, object)

True

True

True

True

True

### Les fonctions natives

- `isinstance(33, int)     # -> True`
- `len([1, 2, 3])          # -> 3`
- `type(33)                # -> int`

- `dir()` pour connaitre l'ensemble des attributs d'un objets directement dans l'interpréteur

In [32]:
li = [1, 2, 3]
print(dir(li))

['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']


### Contrôle du flux d'éxecution, comparaison, etc.

In [33]:
# Still looking for Bob !

my_list = list(d1.keys())
print(my_list)

for name in my_list:
    name_lower = name.lower()
    if name_lower == 'bob':
        print('Finally you\'re here..!')
    elif name_lower == 'eva':
        print('Oh hi Eva!')
    else:
        print('...')

['john', 'eva', 'rick', 'alice', 'alex']
...
Oh hi Eva!
...
...
...


In [34]:
def create_empty_consumer_info(names):
    result = []
    for name in names:
        result.append({
          "name": name, "age": None, "salary": 0  
        })
    return result


def set_age(info_consumers, name, age):
    for info in info_consumers:
        if info['name'] == name:
            info['age'] = age


infos = create_empty_consumer_info(my_list)
set_age(infos, 'alex', 33)
infos

[{'name': 'john', 'age': None, 'salary': 0},
 {'name': 'eva', 'age': None, 'salary': 0},
 {'name': 'rick', 'age': None, 'salary': 0},
 {'name': 'alice', 'age': None, 'salary': 0},
 {'name': 'alex', 'age': 33, 'salary': 0}]

In [35]:
# Avec une approche plus 'fonctionnelle' ?
infos = list(map(lambda x: {"name": x, "age": None, "salary": 0}, my_list))

# Utilisation de la fonction précédement définie
set_age(infos, 'alex', 22)
infos

[{'name': 'john', 'age': None, 'salary': 0},
 {'name': 'eva', 'age': None, 'salary': 0},
 {'name': 'rick', 'age': None, 'salary': 0},
 {'name': 'alice', 'age': None, 'salary': 0},
 {'name': 'alex', 'age': 22, 'salary': 0}]

In [36]:
# Une approche plus fonctionnelle et plus pythonique ?
infos = [{"name": x, "age": None, "salary": 0} for x in my_list]

# En utilisant le même type d'approche pour modifier un élément spécifique
[i for i in infos if i['name'] == 'alex'][0]['age'] = 107
infos

[{'name': 'john', 'age': None, 'salary': 0},
 {'name': 'eva', 'age': None, 'salary': 0},
 {'name': 'rick', 'age': None, 'salary': 0},
 {'name': 'alice', 'age': None, 'salary': 0},
 {'name': 'alex', 'age': 107, 'salary': 0}]

In [37]:
# Un rapide aperçu de l'approche orientée objet ?

class Consumer:
    def __init__(self, name, age=None, salary='0'):
        self.name = name
        self.age = age
        self.salary = salary

    def __repr__(self):
        return 'Consumer {}. age : {}. salary : {}'.format(self.name, self.age, self.salary)

    
class ConsumerInfos:
    def __init__(self, consumers):
        self.consumers = {c.name: c for c in consumers}
        
    def get_by_name(self, name):
        return self.consumers[name]

    def __repr__(self):
        return ''.join(['[','\n'.join(str(c) for c in self.consumers.values()),']'])


infos = ConsumerInfos(Consumer(name) for name in my_list)
infos.get_by_name('alex').age = 43
infos

[Consumer john. age : None. salary : 0
Consumer eva. age : None. salary : 0
Consumer rick. age : None. salary : 0
Consumer alice. age : None. salary : 0
Consumer alex. age : 43. salary : 0]

### Bloc d'instructions et indentation

## L'indentation !

In [38]:
li = [1, 2, 3]
for item in li:
    if item == 38:
        print('38 !!!!')
    else:
    print('Not 38 ..')

IndentationError: expected an indented block (<ipython-input-38-7d74bf765d5d>, line 6)

- Respecter les règles d'identations est nécessaire (comprendre *obligatoire*) en Python.

- Ce n'est pas une _contrainte_ lors d'une session de travail car les IDE guident la position du curseur.

- Cette indentation a un rôle direct sur le contrôle du flux d'éxecution.

- Elle permet d'éviter l'utilisation de *crochets* pour délimiter les blocs et de *point-virgules* pour délimiter les instructions.

In [39]:
# Ce code est volontairement incorrect /!\

result = []
li1 = [1, 2, 3, 4, 5, 6]
li2 = [4, 20, 31, 87, 123, 621]

# Ajoutons 1 à chaque élément
for item1, item2 in zip(li1, li2):
    new_item = item1 + item2
result.append(new_item)
# Cette instruction est éxécutée une seule fois
# après que l'ensemble des itération de la boucle ai été effectué

print(result)

[627]


In [40]:
result = []
li1 = [1, 2, 3, 4, 5, 6]
li2 = [4, 20, 31, 87, 123, 621]

# Ajoutons 1 à chaque élément
for item1, item2 in zip(li1, li2):
    new_item = item1 + item2
    result.append(new_item)
    # Cette instruction est éxécutée à
    # chaque itération de la boucle.

print(result)

[5, 22, 34, 91, 128, 627]


### Communauté, packages, documentation, etc.

La communauté Python compte de nombreux membres (c'est un des langages les plus en vogue [1](https://insights.stackoverflow.com/survey/2018#technology), [2](https://stackoverflow.blog/2017/09/06/incredible-growth-python/)), dans des thématiques variées (géospatial, astronomie, bio-informatique, etc.).  

En plus de sa facilité d'apprentissage, la polyvalence du langage est une des raison de sa forte utilisation : il est facile d'utiliser le Python pour écrire des tests pour une bibliothèque d'un autre langage ou pour faire la "glue" entre plusieurs composants d'un système.


1 : https://insights.stackoverflow.com/survey/2018#technology  
2 : https://stackoverflow.blog/2017/09/06/incredible-growth-python/

La gestion des packages se fait via l'utilitaire `pip`.  
Contrairement à `R` où les bibliothèques sont généralement installées depuis l'interpréteur du langage, en Python elles sont installées depuis le terminal du système d'exploitation.  

Les bibliothèques disponible via `pip` sont celle du Python Package Index : **PyPI** : https://pypi.org/.  

Contrairement au **CRAN**, il s'agit d'un index non-supervisé et dans une certaine mesure on en restera conscient lorsqu'on l'utilise (risque de *typosquatting*, etc.).  
Ce risque est toutefois très fortement réduit lors de l'utilisation du *package manager* d'une distribution Python telle qu'**Anaconda** ou **Canopy** qui seront présentées ensuite.

**Utilisation basique :**

```sh
pip install numpy
```

Si plusieurs installations de Python sont présentes sur le système d'exploitation (généralement sur GNU/Linux), il pourra être nécessaire de préciser pour laquelle on souhaite voir l'action réalisée: 

```sh
pip3 install numpy
```

L'utilitaire `pip` peut également être utilisé pour installer du code depuis un *repository* git ou depuis un dossier local par exemple.

```sh
pip install git+https://github.com/user/repo.git@branch
```

Spécifier avec précision la version d'une bibliothèque à installer :

```sh
pip install pandas==0.23.4
```

Supprimer une bibliothèque installée :
```sh
pip uninstall pandas
```


La **documentation officielle Python** est très agréable, complète (documentation de l'ensemble des fonctions natives et de l'ensemble des modules de la biliothèques standard, exemples, tutoriels, documentations pour les développeurs, etc.) et est **disponible en français**.

<img src="img/python_documentation.png" style="height: 400px; width: auto;"/>

Elle est générée avec [Sphinx](http://www.sphinx-doc.org/), outil développé à l'origine pour générer cette documentation, et dont la maturité lui permet d'être utilisé pour générer la documentation de différents type de projet informatique.