# <a href="https://www.python.org/"><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Python_logo_and_wordmark.svg/390px-Python_logo_and_wordmark.svg.png" style="max-width: 200px; display: inline" alt="Python"/></a> pour Statistique et Science des Données

Ce notebook est fortement inspiré du cours d'[introduction à Python](https://github.com/wikistat/Intro-Python) réalisé par **Philippe Besse** pour l'INSA Toulouse et utilisé avec respect de la licence. Quelques modifications ont été apportées afin de mieux cibler les besoins du cours de Data Mining.

# Introduction à <a href="https://www.python.org/"><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Python_logo_and_wordmark.svg/390px-Python_logo_and_wordmark.svg.png" style="max-width: 150px; display: inline" alt="Python"/></a> pour Calcul Scientifique - Statistique

#### Résumé
Présentation de **Python**, exécution de commandes interactives ou de scripts avec un IDE, utilisation d'un **notebook**; les **types et structures élémentaires** de données, les structures de contrôle, les **fonctions, classes et modules**. Introduction à l'utilisation des librairies scientifiques: **`Numpy, Matplotlib, Scipy`** et au type `array`.

----

# Tables des matières 

1. [Introduction](#1-Introduction)
    1. [Prérequis](#1.1-Prérequis)
    2. [Installation](#1.2-Installation)
2. [Utilisation de Python](#2-Utilisation-de-Python)
    1. [Notebook Jupyter](#2.1-Notebook-Jupyter)
    2. [Utilisation d'un IDE](#2.2-Utilisation-d'un-IDE)
    3. [Exemple](#2.3-Exemple)
3. [Types de données](#3.-Types-de-données)
    1. [Scalaires et chaînes](#3.1-Scalaires-et-chaînes)
    2. [Structures de données de base](#3.2-Structures-de-données-de-base)
4. [Syntaxe de Python](#4.-Syntaxe-de-Python)
    1. [Structure de contrôles élémentaires](#4.1-Structures-de-contrôle-élémentaires)
    2. [Fonctions](#4.2-Fonctions)
    3. [Modules et librairies](#4.3-Modules-et-librairies)
5. [Calcul scientifique](#5.-Calcul-scientifique)
    1. [Principales librairies ou packages](#5.1-Principales-librairies-ou-packages)
    2. [Le type `array`](#5.2-Type-array)
----

## 1 Introduction

### 1.1 Prérequis

Ce notebook introduit le langage libre Python et décrit les premières commandes nécessaires au **pré-traitement des données** avant l'utilisation de méthodes statistiques avec ce langage. Les aspects statistiques développés dans le CM1 sont supposés acquis ainsi qu'une connaissance des principes élémentaires de programmation dans un langage matriciel comme R ou Matlab. 

#### Ressources d'approfondissement

Pour des approfondissements, il existe de très nombreuses ressources pédagogiques accessibles sur la toile dont:
- [`tutoriel officiel`](https://docs.python.org/3/tutorial/index.html) de Python 3
- [`pythontutor.com`](http://pythontutor.com/) :Très utile pour comprendre visuellement ce qui se cache derrière chaque exécution de code en Python. 
- [`courspython.com`](http://www.courspython.com/) : pour les débutants qui souhaitent acquérir des bases de programmation pour les sciences, en particulier pour le calcul numérique et la visualisation.
- [`realpython.com`](https://realpython.com/) : Célèbre pour ces nombreux tutoriels sur Python et ses articles de blogs.

#### Autres ressources d'approfondissement **e-learnings ou MOOCs**:
- (🇫🇷 ) [Apprenez les bases du langage Python, Openclassrooms](https://openclassrooms.com/fr/courses/7168871-apprenez-les-bases-du-langage-python) : simple et efficace pour tout débutant en programmation.
- (🇫🇷 ) [Python 3 : des fondamentaux aux concepts avancés du langage, MOOC FUN](https://www.fun-mooc.fr/fr/cours/python-3-des-fondamentaux-aux-concepts-avances-du-langage/) : 
- (🇺🇸 ) [Using Python for Research, Harvard University](https://pll.harvard.edu/course/using-python-research?delta=1): Utilisation de Python appliqué à des cas d'usage pour la recherche scientifique.
- (🇺🇸 ) [Python for Data Science, The University of California](https://www.edx.org/course/python-for-data-science-2), San Diego Logo sur EdX: Utilisation de Python orienté Data Science

#### Pour ceux dérisant aller plus loins avec **livre papier ou numérique** :
* *Introduction to Python for Econometrics, Statistics and Data Analysis*, **Sheppard K.**  (2014) : Pour ceux voulant approfondir Python d'un point vu statistique et analyse de données.
* *Analyse de données avec Python*,  **Wes McKinney**  (2018) : Pour ceux voulant découvrir les techniques de manipulation , nettoyage de données en Python.
* *Natural Langaguage Processing with Python*, **Bird, Klein & Loper**: Pour ceux désirant avoir une introduction au traitement automatique des langues avec Python.
* *Le Machine Learning avec Python*, **Müller & Guido** : Pour ceux désirant mettre en place des solutions de Machine Learning avec Python.

### 1.2 Installation

Python et ses librairies peuvent être installés dans quasiment tout environnement matériel et système d'exploitation à partir du [site officiel](https://www.python.org/downloads/). Voici les principales librairies scientifiques définissant des structures de données et fonctions de calcul indispensables. 
- [ipython](https://ipython.readthedocs.io/en/stable/): pour une utilisation interactive de Python (et qui vous donne l'interface que vous avez sous les yeux)
- [numpy](https://numpy.org): pour utiliser vecteurs et tableaux
- [scipy](https://scipy.org): intègre les principaux algorithmes numériques,
- [matplotlib](https://matplotlib.org) et [seaborn](https://seaborn.pydata.org): pour les graphes statiques
- [plotly](https://plotly.com) : pour les graphes interactifs
- [pandas](https://pandas.pydata.org): structure de données plus haut niveau, construite à partir de `numpy`, et offrant des fonctions avancées notamment pour la gestion de données temporelles 
- [scikit-learn](https://scikit-learn.org): librarie d'apprentissage automatique avec des algorithmes clé en main.

Bien qu'il ne soit pas nécessaire d'utiliser un **distribution de Python** (comme Anaconda), il sera fortement recommandé de l'utiliser pour ce cours et pour tout débutant.
Cela évite d'installer plus de 200 packages à la main par exemple car les distributions regroupent de multiples modules fonctionnant ensemble au sein d'un même 'logiciel'.
Les distributions sont développées par des communautés open-source ou entreprises commerciales mais libres de droits pour une utilisation académique ou de recherche.
Citons deux distributions:

- <img src="https://interactivechaos.com/sites/default/files/inline-images/recursos_conda.jpg" style="max-width: 100px; display: inline" alt="Anaconda Logo"/>*La distribution Python [Anaconda](https://www.anaconda.com)*: qui est une distribution pour le calcul scientifique, gratuite pour un étudiant, ou un chercheur et open-source (**c'est celle que nous utiliserons pour les cours**). 

- <img src="https://www.enthought.com/wp-content/uploads/2019/08/logo_crispy-1.png" style="max-width: 100px; display: inline" alt="Anaconda Logo"/> *La distribution Python [Enthought](https://www.enthought.com/)*.


Les travaux dirigés de ce cours, nous utiliserons Anaconda avec Python en version v3.6 minimum.
La version v3.6 est normalement installée sur les postes d'UT1 Capitole.

Dans le cadre de ce cours, nous utiliserons principalement les librairies `numpy`, `pandas` et `plotly`.

#### Installation d'Anaconda 



Si ce n'est pas encore fait, veuillez installer [Anaconda Individual Edition](https://www.anaconda.com/products/individual) disponible sur Linux, MacOs et Windows. A l'heure où ces lignes sont écrites, Anaconda utilise la version 3.9 de Python.



#### Remarque sur la version de Python

En cherchant des informations ou de l'aide sur Internet, vous pourrez trouver la mention de **Python 2 ou Python 3**. Il s'agit des deux version majeures de Python.

Depuis le 1er Janvier 2020, **Python 2 n'est plus maintenu** et va donc progressivement représenter un risque de sécurité (les bugs n'étant plus corrigés). Dans tous vos futurs projets Python, **choisissez donc toujours la version 3, sans exception**.

Pour ce cours, nous utiliserons une version de Python supérieure à v3.6 (où 3 signifie à majeure, et 6 mineure)

La [documentation officielle](https://docs.python.org/3/) est disponible pour chaque version du langage (pour tenir compte des évolutions entre chaque version mineure) et vous tomberez parfois par erreur (par exemple en suivant un résultat d'un moteur de recherche) sur une page correspondant à la version 2. Pensez à **vérifier la version en haut à gauche** (à côté de la langue).

La documentation pour la version 2 est principalement bleue et "datée", celle pour la version 3 est généralement blanche et "moderne".

----


## 2 Utilisation de Python

Python peut s'exécuter dans **deux modes distincts** :
* **Utilisation interactive**, à partir de l'interpréteur directement. Vous pouvez utiliser un interprète de commande (`python` ou `ipython`) ou des notebooks exécutés dans un navigateur, plus conviviaux pour de l'exploration de données (`jupyter`). Un fichier est un document bloc-note utilisé par Jupyter Notebook avec l'extension `.ipynb`.
* **Exécution de scripts et programmes**. Vous écrivez alors la logique du programme dans un ou plusieurs fichier(s) `.py` que vous appelez avec l'interpréteur (`python mon_programme.py`)

Le premier mode est très adapté à des tâches telles que l'exploration initiale de données puisqu'il permet d'obtenir directement les réponses à ses questions sans avoir à relancer un programme ou recréer des objets en mémoire.

Le deuxième mode quant à lui est préférable dans un contexte plus programmatoire, lorsque l'on souhaite souhaite par exemple exécuter une tâche d'analyse bien définie par le biais d'un orchestrateur.


### 2.1 Notebook *Jupyter*
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/38/Jupyter_logo.svg/1200px-Jupyter_logo.svg.png
" style="max-width: 50px; display: inline" alt="Python"/>
Un notebook Jupyter (ce que vous voyez actuellement est un notebook) est un fichier qui permet de combiner du code et des éléments de texte riche (paragraphe, équations, liens, figures) écrit soit en [Markdown](https://stackedit.io/app), soit un texte brute.

Vous pourrez utiliser un notebook Jupyter pour travailler sur les projets et effectuer vos développements mais il faudra quand même rendre un rapport.

#### Présentation

Les commandes sont regroupées dans des cellules suivies de leur résultat après exécution. Ces résultats et commentaires sont  stockés dans un fichier spécifique `.ipynb` et sauvegardés. Les commandes $LaTeX$ sont acceptées pour intégrer des formules, la mise en page est assurée par des balises HTML ou [*Markdown*](https://stackedit.io/app#(http://fr.wikipedia.org/wiki/Markdown).

La commande de sauvegarde permet également d'extraire les seules commandes Python dans un fichier d'extension `.py`. C'est une façon simple et efficace de conserver tout l'historique d'une analyse pour en faire une présentation ou créer un tutoriel. Le calepin peut être en effet chargé  sous un autre format: page `html`, fichier `.pdf` ou diaporama.

Le projet [Jupyter](http://jupyter.org/) propose cet environnement de calepin pour beaucoup de langages (Python, R, Julia, Scala...). Il devient un outil indispensable pour assurer simplement la *reproductibilité* des analyses. 

#### Ouverture

L'ouverture d'un navigateur sur un calepin (Ipython ou Jupyter) est obtenu, selon l'installation,  à partir des menus ou en exécutant: 
`jupyter notebook`
ou 
`ipython notebook` 
dans une fenêtre de commande.

#### Utilisation

Une fois le calepin ouvert, 
- Entrer des commandes Python dans une cellule,
- Cliquer sur le bouton d'exécution de la cellule (ou lancer la cellule courante avec **Ctrl+Entrée**).
- Ajouter une ou des cellules de commentaires et balises HTML ou [Markdown](http://fr.wikipedia.org/wiki/Markdown). Pour ajouter et modifier des cellules :
    - 'A' (**A**bove) pour ajouter une nouvelle cellule *au-dessus* de la cellule courante
    - 'B' (**B**elow) pour ajouter une nouvelle cellule *en-dessous* de la cellule courante
    - 'D-D' (**D**elete) pour supprimer les cellules sélectionnées
    - 'Shift+M' (**M**erge) pour fusionner les cellules sélectionnées (qui doivent contiguës)
    - 'Y' pour convertir la cellule courante en cellule de code, 'M' pour la convertir en cellule **Markdown/HTML**
    - 'Enter' pour modifier le contenu d'une cellule
    
Vous retrouverez une liste des raccourcies assez complètes sur cet article : [Jupyter Notebook Shortcuts (towardsdatascience)](https://towardsdatascience.com/jypyter-notebook-shortcuts-bf0101a98330) 
    
Itérer l'ajout de cellules. Une fois l'exécution terminée:
- Sauver le calepin `.ipynb` 
- Exporter éventuellement une version `.html` pour une page web.
- Exporter le fichier `.py` regroupant les commandes Python pour une version opérationnelle.

**Attention** Un calepin de IPython ou Jupyter est un outil de travail exploratoire efficace et visuel qui facilite la collaboration entre plusieurs analystes; ce n'est pas un *rapport* d'une étude statistique mais simplement un moyen de générer tous les résultats (figures et valeurs) qui seront réutilisés dans le rapport.

#### Complétion de code

Les notebooks vous aident lors de rédaction de code afin d'accélérer le développement et de limiter les erreurs.

Pour bénéficier de la complétion de code, utiliser la **touche Tab**. 

Exemple : j'ai une variable `my_long_variable`. Je peux taper `my_lon<TAB>` et une liste déroulante apparaît et me propose `my_long_variable`.

Les différents délimiteurs sont également automatiquement appairés. En sélectionnant une portion de code et en tapant `"` (un guillemet), l'ensemble de la portion sélectionnée est entourée de guillemet. Ceci fonctionne avec `"`, `'`, `(`, `[`, `{` et `` ` `` (backtick).

### 2.2 Utilisation d'un IDE

Pour la réalisation d'applications et programmes plus complexes, l'usage d'un IDE (*integrated Development Environment*) libre comme [Spyder](http://code.google.com/p/spyderlib/) est recommandé. Ce dernier est intégré à la distribution `Anaconda` et sa présentation proche de celles de Matlab ou RStudio.

On peut citer également [Pycharm](https://www.jetbrains.com/pycharm/) qui offre des capacités encore plus avancées de développement. La licence d'utilisation est offerte pour les étudiants, et une version libre, gratuite et open-source est également disponible.

L'utilisation de ces logiciels ne sera pas abordée dans ces TP.

### 2.3 Exemple

En résumé, utiliser un notebook pour des analyses exploratoires élémentaires et un IDE `Spyder` ou `Pycharm` pour la construction de programmes et modules. 

Selon l'installation et à partir du répertoire de travail, exécuter la commande:

`jupyter notebook`

Entrer les commandes ci-dessous dans le calepin et les exécuter cellule après cellule.
**Ne pas hésiter à me solliciter en cas de question**.

# Ceci est le début d'une session Python gérée à l'aide d'un notebook.
# Le script est divisé en cellules avec généralement l'affichage d'au plus un résultat par cellule.
# Comme vous l'avez remarqué, les commentaires en Python sont précédés d'un symbole "#"
# Ils peuvent être situés sur leur propre ligne, ou bien en suivant une instruction

print('Hello world !') # Affiche "Hello world !"

----
## 3. Les bases de Python

Python est le langage **le plus populaire** en 2021 pour la **science des données**. Il tient sont nom d'une émission de la BCC *Monty Python's*.

C'est un langage **interprété**, **multiplatforme** et doté d'un **typage dynamique et fort**. Revenons sur ces termes:
-  **interprété**: contrairement à un langage compilé, qui doit passer par un compilateur pour traduire le programme en code machine en binaire, un langage interprété va être lu par un **interpréteur** qui pourra exécuter directement le code sans le transformer en code machine.
- **multiplatforme**: il est utilisable sur plusieurs systèmes d'exploitation Linux, MaxOs, Windows.
- **typage fort**:  c'est-à-dire que le type ne change pas de manière inattendue.
- **dynamique**: on peut facilement échanger le type d'une variable.

In [13]:
# Exemple de typage fort:
# Dé-commenter le code ci-dessous va générer une erreur car on ne peut pas concatener deux types différents
# '2' + 2

# Exemple pour la caractère dynamique:
# Les variables n'ont pas un type statique et le type d'une variable peut changer
a = 1
print(a)
a = 'hello'
print(a)
a = True
print(a)

1
hello
True


### 3.1 Tout est objet

Il notion important à comprendre est qu'en Python, **tout est objet** et **relation entre objet** : les chaînes, les entiers, les listes, les fonctions, les classes, les modules, etc.

Tout les objets sont manipulés par **référence**:
- une variable contient une référence vers un objet
- un objet peut être référencé par plusieurs variables.

1 variable -- référence --> 1 objet

1 objet -- est référencable --> N variables

Voici un modèle de déclaration d'objet, aussi appelé *Classe*:
```python
class Person:
    "Definition d'un modèle d'objet personne"
    
```

Il existe **2 types d'objets**:
- les objets **mutables** : ce sont les objets dont les valeurs ne peuvent pas changer après avoir été créé (ex: les strings)
- les objets **non mutables** : ce sont les objets dont les valeurs peuvent changer (ex: les listes)

Chaque objet à **3 caractéristiques principales**: 
- **Identité** : c'est un numéro unique qui distingue l'allocation dans la mémoire de l'ordinateur pour chaque objet.
- **Type**: indique quel est la nature de l'objet traité : nombre, string, booléen, list, etc ...
- **Valeur**: c'est la valeur des données contenues par l'objet : la valeur d'un nombre, une chaine de caractères pour un string, les éléments d'une liste...

Les objets peuvent également posséder des attributs ou des méthodes:
- **attributs**: c'est une valeur attachée à un objet
- **méthodes**: c'est une fonction attachée à un objet

Un object peut avoir 0 ou plusieurs instances: ce sont des exemplaires d'un objet. 

> Remarque: un objet (ou une classe) statique ne possède qu'une seule et unique instance.

In [43]:
# Exemple de déclaration d'un objet (ou classe)
class Person:
    "Definition d'un modèle d'objet personne"

# Instanciation de deux objets personnes dans deux allocations distinctes
print('Verifiez que p1 et p2 sont bien des objets disctincts')
p1 = Person()
p2 = Person()
# Observez que les allocations dans la mémoire vie commençant par 0x ne sont pas égales
print(p1)
print(p2)

p3 = p1
print('Observez que p3 à la même allocation mémoire que p1')
print(p3)
# Vérification de l'identité avec le mot clé 'is'
print(f'p1 is p2 ? {p1 is p2}')
print(f'p1 is p3 ? {p1 is p3}')

# Exemple d'objets mutable
# On peut changer la valeur d'un élement de la liste
print('\nLa liste est un objet mutable')
mylist = [1,2,3]
print(mylist)
mylist[0] = 5
print(mylist)

# Exemple d'objets non mutable 
# Décommenter pour essayer et vous obtiendrez une erreur car la valeur de l'objet ne peut pas être changé)
# myString = 'Hello World'
# myString[0] = 'T'

Verifiez que p1 et p2 sont bien des objets disctincts
<__main__.Person object at 0x7f80c8024a90>
<__main__.Person object at 0x7f80c80247f0>
Observez que p3 à la même allocation mémoire que p1
<__main__.Person object at 0x7f80c8024a90>
p1 is p2 ? False
p1 is p3 ? True

La liste est un objet mutable
[1, 2, 3]
[5, 2, 3]


### 3.2 Types de données

Python est un langage **fortement typé**, mais qui fait le choix d'un **typage dynamique**. En d'autres termes il n'y a pas à déclarer le type de chaque variable, néanmoins les opérations incompatibles avec certains types (e.g. additionner un nombre et une chaîne) soulèveront une erreur.

La déclaration des variables est implicite (integer, float, boolean, string): pas besoin d'un mot clé `var` par exemple.

```python
b = True
x = 0
s = 'hello'

```

La devise générale de Python est donc "**We are all consenting adults**". Peu de limitations sur la forme du code sont mises en place, mais vous êtes responsables des erreurs qui peuvent apparaître en raison de cette liberté.

Il existe également des moyens de mieux préciser les types attendus des variables ([*type hinting*](https://docs.python.org/3/library/typing.html)) mais ceux-ci sont plus adaptés dans un cadre de développement que pour une analyse. Afin de simplifier cette découverte de Python et alléger le code, ces moyens ne seront pas utilisés dans les TP.

In [49]:
# Exemple de fonction sans hinting
def greeting(name):
    return 'Hello ' + name

# Exemple de fonction avec hinting
def greeting_2(name: str) -> str:
    return 'Hello ' + name

Comme vous pouvez le voir ci-dessus, utiliser une syntaxe avec *hinting* permet d'indiquer au développeur le type des paramètres en entrée de la fonction et le type de la sortie.
Personnellement, j'apprécie de plus en plus l'écriture avec *hinting* dans lors du développement de programme un peu plus complexe car cela évite de faire des erreur de type et améliore parfois les attentes d'une fonction.



#### 3.2.1 Booléens


Python propose une logique ternaire, i.e. à trois états : Vrai, Faux et Inconnu. Il se rapproche en cela de la plupart des langages que vous avez pu manipuler jusqu'à présent (comme le SQL par exemple).

Chaque état est associé à un unique mot-clé.

In [73]:
# Etat vrai
a = True

# Etat faux
b = False

# Etant inconnu
c = None

# Mot clé not 
print(not False)
print(True and False and not False)


# Pour vérifier le type d'une variable
type(a)

True
False


bool

nombres entiers nuls, positifs ou négatifs sans partie fractionnaire et ayant une précision illimitée, par exemple 0, 100, -10 Remarque
**La casse est importante**. `True`, `False` et `None` doivent commencer par une majuscule.

La valeur `None` désigne une absence d'informations dans l'ensemble du langage Python. Aussi, il est possible que les valeurs `None` soient traitées différemment par de nombreuses fonctions.

Dans le cadre de l'exploration de données, on utilisera des représentations plus adaptées pour désigner des points de données manquants. Il est donc souvent **inutile d'utiliser `None`** dans ce contexte, on réservera donc ce mot-clé à un cadre plus programmatoire en dehors de la portée de ces TP. 

#### 3.2.2 Scalaires (ou nombres)

En Python, les nombres peuvent être de 3 types:
- **int**: les nombres entiers positifs, négatifs ou nuls à précision illimitées
- **float**: les nombres à virgule flottante
- **complex**: les nombres complexe est un nombre avec des composantes réelles et imaginaires

In [68]:
# int
a = 3

# float
b = 1.5

# complex
c = 5 + 6j

print(type(a))
print(type(b))
print(type(c))

<class 'int'>
<class 'float'>
<class 'complex'>


In [57]:
# Tous les opérateurs mathématiques de bases fonctionnent comme on s'y attend, pas de surprise ici
# Addition
print(a+b)

# Soustraction
print(a-b)

# Multiplication
print(a*b)

# Division
print(a/b)

# Division entière 
print(a//b)

# Modulo
print(7%5)

# Puissance
print(2 ** 3)

4.5
1.5
4.5
2.0
2.0
2
8


**Opérateurs de comparaison arithmétique** : `==, >, <, !=` dont le résultat est un booléen.

In [74]:
# Comparaison de **valeurs**
# Pas besoin de isEqual ou équivalent comme en Java

# Egalité
print(1 == 2)
# Egalité implicite entre un int et un float
print(2.0 == 2)

# Inégalité
print(1 != 2)

# Plus grand que
print(1 > 2)

# Plus petit que
print(1 < 2)

False
True
True
False
True


**Comparaison d'identité (ou de référence)**

Si l'on souhaite comparer les **références** de chaque objet, il existe l'opérateur `is`.

Pour rappel, 
* Deux objets ayant la même valeur n'ont pas forcément la même référence (`a=3` et `b=3`, `a` et `b` sont deux objets distincts)
* Deux objets ayant la même référence sont en réalité deux fois le même objet mais nommés différemment. Ils ont nécessairement la même valeur (`a=3` et `a=b`, les deux objets ont la même référence et la même valeur, ici 3)

In [69]:
a = 3
b = a

print(a is b) # Comparaison de références

True


In [63]:
a = 1000
b = 1000

a is b # Même valeur, mais deux objets distincts, donc la référence ne correspond pas

False

Pour information, il est possible de consulter la référence construite par Python pour chaque objet à l'aide de la fonction `id`. Le format de cette référence est interne au langage et ne signifie rien de particulier (si ce n'est qu'il est unique à chaque objet au cours d'une même session).

Il n'est **pas nécessaire de retenir ce détail d'implémentation** pour la suite des TD, néanmoins gardez à l'esprit (comme dans tous les langages) la différence entre comparaison de valeurs et de références. 

In [34]:
print(id(a))
print(id(b))

140630942025712
140630942025424


#### Chaînes de caractères (ou String)

En Python, les chaînes de caractères sont des **séquences de caractères non mutables**.

In [79]:
# Chaîne de caractère
a='bonjour '
b='le '
c="monde" # une chaîne est délimitée par des apostrophes ('blabla') ou des guillemets ("blabla") : le choix est libre

En Python 3 (version actuelle et maintenue), toutes les chaînes de caractères sont **automatiquement encodées en `UTF-8`** qui supporte peu ou prou tous les alphabets envisageables.

Si vous lisez des fichiers écrits dans un autre encodage (classiquement `latin-1` pour des fichiers occidentaux enregistrés avec Excel et consorts), vous devrez préciser au moment de la lecture l'encodage du fichier. Nous aborderons ce point plus loin.

In [80]:
# Concaténation de chaînes, plusieurs techniques possibles

# 1. Somme de chaînes
w = a + b + c
print(w)

# 2. Insertion de chaque variable de la fonction format dans le groupe {} correspondants
print('{}{}{}'.format(a, b, c)) 

# 3. Formatted strings (f-string), depuis Python 3.6
print(f'{a}{b}{c}')

# Remarques : les méthodes 2 et 3 permettent de concaténer d'autres types que les chaînes. Les types non-chaînes
# à concaténer seront alors automatiquement convertis en chaînes de caractères. Elles peuvent également effectuer
# des opérations de formattages plus avancées (alignement gauche/droite, centrage, justification, etc...). Nous
# n'aborderons pas ces opérations dans ce cours.

# J'utiliserai généralement la méthode 3. dans les corrigés qui est à mon goût la plus expressive tout en restant
# courte. Vous êtes bien sûr libres d'utiliser le style qui vous convient le mieux.

bonjour le monde
bonjour le monde
bonjour le monde


In [91]:
s = 'Hello World'

# Récupérer le 1er caractère
print(s[0])

# Récupérer le dernier caractère
print(s[-1])

# Récupérer le premier mot
print(s[0:6])

# Récupérer le dernier mot
print(s[-5:-1])

# Vérification de la présence d'une lettre ou d'un mot avec le mot clé 'in' (sensible à la casse)
print('H' in s)
print('Hello' in s)

H
d
Hello 
Worl
True
True


In [97]:
# Quelques fonctions utiles sur les chaînes
# Nombre de caractères
print(len(s))

# Séparer la chaîne selon un séparateur arbitraire (ici une espace)
print(s.split(' ')) 

# Mettre en majuscule
print(s.upper())

# Mettre en minuscule
print(s.lower())

# Mettre en capitale
print(s.capitalize())

# Remplacer une lettre ou d'un mot
print(s.replace('o','a'))
print(s.replace('Hello','See you'))

11
['Hello', 'World']
HELLO WORLD
hello world
Hello world
Hella Warld
See you World


### 3.3 Structures de données

Il existe plusieurs de structure de données:
* Les **Séquences** : collections d'objets ordonnées par leur position décomposables en 3 catégories
  * **Listes (ou list)**
  * **Tuples**
  * **Ranges**
* Les **Ensembles (ou Sets)**  : collections d'objets non ordonnées d'objets distincts
* Les **Dictionnaires (ou Dictionnaries)**: collections de paire clé valeurs non ordonnées

#### Listes
La liste est une séquence **ordonnée** (i.e. l'ordre d'insertion est mémorisé et constant dans le temps). Elle peut contenir une **combinaison arbitraire de types** (int, objets, boolean, d'autres listes, etc...) et un nombre arbitraire d'éléments.

La liste est **mutable**, on peut ajouter, supprimer ou modifier des éléments de la liste tout en conservant le même objet liste.

On accède à chaque élément avec sa position dans la liste (i.e. **la clé d'un élément est sa position**).

**Attention**, le premier élément d'une liste ou d'un tableau est indicé par **0**, pas par 1.

Une liste est délimitée par des crochets (`[]`)

In [183]:
# Création d'une liste vide
empty_list = []
empty_list = list()

# Les deux syntaxes sont équivalentes

In [184]:
# Exemples de listes
liste_A = [0,3,2,'hi']
liste_B = [0,3,2,4,5,6,1]
liste_C = [0,3,2,'hi',[1,2,3]]   

# Accéder à un élément d'une liste (ici le **deuxième élément**)
liste_A[1]

3

In [185]:
# On peut très bien afficher telle quelle une liste, qui apparaît alors avec des crochets []
print(liste_A)

# La fonction print admet en réalité un nombre illimité d'arguments. Tous les arguments sont concaténés avant l'affichage
# et séparés par une espace (par défaut mais paramétrable)
print(liste_A[0], liste_A[1], liste_A[2], liste_A[3])

[0, 3, 2, 'hi']
0 3 2 hi


In [186]:
# Indexer une liste

# Dernier élément
print(liste_C[-1])
# Avant-dernier
print(liste_C[-2])

# Dans le cas de listes imbriquées, on peut spécifier les indexs de façon hiérarchique
print(liste_C[-1][0])

[1, 2, 3]
hi
1


La syntaxe générale pour parcourir/extraire des sous-listes est la suivante : **`my_list[start:end:step]`**

Avec :
* `start` : index à partir duquel on parcourt la liste initiale (ici `my_list`). Si omis, démarrer à partir du début de la liste initiale (soit `start = 0`)
* `end` : index final de parcours. Cet élément est **exclus** (i.e. le dernier élément parcouru est à la position `end - 1`. Si omis, s'arrêter à la fin de la liste initiale (soit `end = len(my_list)`). 
* `step` : pas à utiliser pour parcourir la liste. Si omis, le pas vaut 1 (i.e. on parcourt tous les éléments). Le pas peut être positif (parcours par ordre croissant de positions) ou négatif (parcours dans le sens opposé)

Quelques exemples

In [187]:
# Extraire une sous-liste
print('Liste B :', liste_B) # liste initiale
print(liste_B[0:2]) # Du premier élément jusqu'au 3e (**exclus**)
print(liste_B[:2]) # Equivalent à la ligne précédente

print(liste_B[1:5:2]) # du deuxième au sixième élément (exclus), en sélectionner une valeur sur deux
print(liste_B[::3]) # Parcourir toute la liste, mais uniquement un élément sur 3, en partant du premier
print(liste_B[::-1]) # Parcourir toute la liste mais avec un pas de -1, i.e. parcourir dans le sens inverse

Liste B : [0, 3, 2, 4, 5, 6, 1]
[0, 3]
[0, 3]
[3, 4]
[0, 4, 1]
[1, 6, 5, 4, 2, 3, 0]


La dernière expression (`liste_B[::-1]`) est un moyen efficace d'inverser une liste avant de l'affecter à une variable.

##### Quelques fonctions de listes

**Trier**

```python
my_list.sort()  # le tri se fait en place, my_list est écrasée et remplacée par une version triée 
```

In [188]:
my_list = [3,2,4,1]

my_list.sort()

print(my_list)

[1, 2, 3, 4]


**Ajouter un élément**

```python
my_list.append('hi') # l'ajout se fait 'en place' (aucune valeur retournée mais my_list est modifiée')
```

In [189]:
my_list.append('hi') 

print(my_list) # remarquer que l'ordre d'insertion est conservé

[1, 2, 3, 4, 'hi']


**Insérer un élement à un certain index**

```python
my_list.insert(index, ()  
```

In [190]:
my_list.insert(5,"Ceci sera inséré à l'index 5 !")
print(my_list)

[1, 2, 3, 4, 'hi', "Ceci sera inséré à l'index 5 !"]


**Supprimer le dernier élément**

```python
my_list.pop() # Supprime par défaut le dernier élement
```

In [191]:
my_list.pop() # Remarquez que pop() supprime par défaut le dernier élement !

"Ceci sera inséré à l'index 5 !"

**Supprimer l'élément à l'index `i`**

```python
my_list.pop(i)  
```

In [192]:
my_list.pop(4) # Remarquez que l'élement supprimé est retourné !

'hi'

**Taille de la liste**

```python
len(my_list)
```

**Compter le nombre d'occurence d'un élement `e`**

```python
my_list.count(e)
```

In [193]:
print(len(my_list)) # Nombre d'éléments dans une liste

print(my_list.count(3)) # Compter le nombre d'occurences du paramètre (ici le nombre d'occurences de 3) 

4
1


**Etendre une liste `my_list` avec une autre liste `other_list`**

```python
my_list.extend(other_list)
```

In [194]:
print(my_list)
my_list.extend([7,8,9]) # Etendre my_liste : chaque élément de la liste passée en paramètre est ajouté dans my_list
print(my_list)

[1, 2, 3, 4]
[1, 2, 3, 4, 7, 8, 9]


**Max/Min d'une liste de même type**

```python
# max et min suppose que tous les éléments de la liste soit comparables deux à deux
max(my_list)
min(my_list)
```

In [195]:
my_list = [900, 78, 65, -678, 0, -22, 15, 78, -22]

print('Max de my_list:', max(my_list)) 
print('Min de my_list:', min(my_list))


Max de my_list: 900
Min de my_list: -678


**Inverser une liste**
```python
my_list.reverse() # Inverse les élements de la liste (Le dernier <-> Le premier, l'avant dernier <-> 2ème, etc...)
```

In [196]:
my_list.reverse()
print(my_list)

[-22, 78, 15, -22, 0, -678, 65, 78, 900]


**Supprimer la première occurence d'une valeur `v`**

```python
my_list.remove(v)
```

In [197]:
my_list.remove(78)
print(my_list)

[-22, 15, -22, 0, -678, 65, 78, 900]


**Supprime tous les élements**

```python
my_list.clear()
```

In [198]:
my_list.clear()
print(my_list)

[]


**Unpack une liste dans des variables**
```python
my_list.reverse() # Inverse les élements de la liste (Le dernier <-> Le premier, l'avant dernier <-> 2ème, etc...)
```

In [199]:
tmp_list = [1, 65, 'blabla']
(a, b, c) = tmp_list # List unpacking : on sépare chaque élément de la liste à sa propre variable
print(a)
print(b)
print(c)

1
65
blabla


#### Tuple

Un tuple (n-uplet en bon français) est identique à une liste mais **ne peut être modifié après sa création** (il est immutable), il est défini par des parenthèses.

Toutes les techniques et fonctions montrées ci-dessus sur les listes fonctionnent également sur les tuples, à l'exception de celles modifiant le tuple (ce qui est impossible).

Vous aurez rarement besoin de le manipuler pour les TD, mais il est couramment utilisé par les librairies en raison de son caractère immutable.

In [274]:
my_tuple = (0,3,2,'h')
my_tuple[1]
print(type(my_tuple))

<class 'tuple'>


In [52]:
my_tuple[1] = 10 # TypeError : impossible de modifier un tuple existant

TypeError: 'tuple' object does not support item assignment

In [201]:
# Tuple d'un élement
my_tuple = (1,)

In [203]:
# Un cas utile
coord = [(0,0),(1,1),(2,2)]
for (x,y) in coord:
    print(x,y)

0 0
1 1
2 2


#### Ranges

Les ranges sont des séquences non mutables d'entiers beaucoup utilisé dans les boucles for pour créer des listes de nombres rapidement et d'éviter de stocker inutilement des données (mais plutôt de les générer).

In [294]:
print(type(range(5)))

print(list(range(5)))

<class 'range'>
[0, 1, 2, 3, 4]


In [295]:
list(range(5,11))

[5, 6, 7, 8, 9, 10]

In [298]:
list(range(1,22,2))

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21]

In [301]:
for r in range(-20,21,5):
    print(r)

-20
-15
-10
-5
0
5
10
15
20


#### Ensembles (sets)

Les  ensembles (ou `sets`) sont des collections **non ordonnées** d'objets **distincts et unique**.

In [273]:
my_set = set() # Ensemble vide
my_set = {'a','b','c',1,2,3} 
print(type(my_set))

<class 'set'>


**Ajouter un élement**

In [236]:
print(len(my_set))
my_set.add('e')
print(len(my_set))
my_set.add('e') # N'ajoute rien car 'e' est déjà dans l'ensemble
print(my_set)

6
7
{'e', 1, 2, 3, 'b', 'a', 'c'}


**Union** AuB

In [253]:
A = {'a','b','c',1,2,3} 
B = {'c','d','e',3,4,5}
C = A.union(B)
print(C)

{'e', 1, 2, 3, 4, 5, 'b', 'a', 'd', 'c'}


**Intersection** AnB

In [250]:
C = A.intersection(B)
print(C)

{'c', 3}


**Différence** A \ B

In [251]:
C = A.difference(B)
print(new_set)

{1, 2, 'a', 'b'}


In [252]:
C = A - B
print(new_set)

{1, 2, 'a', 'b'}


**Différence symmétrique** AΔB

In [257]:
C = A.symmetric_difference(B)
print(C)

{1, 2, 4, 5, 'e', 'b', 'a', 'd'}


#### Dictionnaire

Un dictionnaire est similaire à une liste mais chaque entrée est assignée par une clé / un nom, il est **défini avec des accolades**.

Cet objet est notamment utilisé pour la construction de l'index des colonnes (variables) du type *DataFrame* de la librairie `pandas`.

> Remarque importante : les clés du dictionnaire doivent être hashables. Autrement dit elles ne peuvent pas être modifiées après création (et est donc unique). Une liste ne peut donc pas être une clé de dictionnaire (mais possible de l'utiliser en valeur). Une chaîne de caractère, un nombre ou un tuple (pour ne citer qu'eux) peuvent être utilisés comme clés.

In [275]:
# Création d'un dictionnaire vide (les deux syntaxes sont équivalentes)
my_dict = dict()
my_dict = {}
type(my_dict)

dict

In [258]:
# Création d'un dictionnaire pré-rempli
months = {'Jan':31 , 'Fév': 28, 'Mar':31}
months['Jan']

31

**Ajout d'une paire (clé,valeur)**

In [55]:
print(months) # valeur initiale
months['Déc'] = 31
print(months) # nouvelle valeur

{'Jan': 31, 'Fév': 28, 'Mar': 31}
{'Jan': 31, 'Fév': 28, 'Mar': 31, 'Déc': 31}


**Suppression d'une paire (clé,valeur)**

In [283]:
months.pop('Jan')

31

**Modification de la valeur d'une clé**

In [284]:
months['Fév'] = 29 # Année bissextile...
print(months)

{'Fév': 29, 'Mar': 31}


**Récupérer toutes les clés**

In [57]:
# Itérer le long de clés
months.keys()

dict_keys(['Jan', 'Fév', 'Mar', 'Déc'])

**Récupérer toutes les valeurs**

In [261]:
# Itérer le long des valeurs
months.values()

dict_values([31, 29, 31])

**Récupérer les combinaison (clé, valeur)**

In [265]:
# Combinaison de keys() et values() : renvoie des tuples clé/valeur pour itérer sur chaque couple
months.items()

dict_items([('Jan', 31), ('Fév', 29), ('Mar', 31)])

In [285]:
for item in months.items():
    print(item)

('Fév', 29)
('Mar', 31)


#### Matrices, array, DataFrame, ...

Dictionnaires, tuples et listes constituent les **structures de données de base** en Python. Leurs fonctionnalités sont néanmoins limitées pour une analyse de données (pas de calcul facile d'indicateurs numériques par exemple).

Des structures de données plus avancées sont fournies par des bibliothèques tierces. On étudiera le `DataFrame` fourni par `pandas` dans le notebook suivant.

----

## 4. Syntaxe de Python

### 4.1 Structures de contrôle élémentaires
Un bloc de commande est défini par **deux points suivis d'une indentation fixe**.  Cela force l'écriture de codes faciles à lire mais à être très attentif sur la gestion des indentations car la fin d'indentation signifie la fin d'un bloc de commandes.

Heureusement, les notebooks vous aident dans la rédaction de ces blocs en vous proposant par défaut une indentation censée être correcte.

#### Structure conditionnelle

In [286]:
# si alors, sinon si alors, sinon
# L'expression en face de chaque mot clé if/elif/else doit fournir un booléen quand elle est évaluée
a = 2

if a>0:
    b = 0
    print(b)
elif a > 50:
    print("a est plus grand que 50")
else:
    b=-1

print(b)

0
0


#### Structure itérative / boucles

In [61]:
for i in range(4):
    print(i)

0
1
2
3


In [62]:
for i in range(1,8,2):
    print(i)

1
3
5
7


In [63]:
# Pas la peine de définir un compteur pour itérer sur un élément itérable (liste, tuple, ...)
# Python peut directement renvoyer l'élément à chaque tour de boucle
# Cette fonctionnalité est très efficace en la combinant aux méthodes d'indexation vues précédemment

for element in my_list:
    print(element) # un élément par ligne

1
2
3
4
hi
7
8
9
[10, 11, 12]


Il existe également une structure `while` plus rarement utilisée. Elle n'est pas présentée ici (toutes les boucles `while` peuvent être réécrites en boucles `for`).

### 4.2 Fonctions

Les fonctions permettent de diviser de(s) grande(s) parties de code en morceaux afin de favoriser la ré-utilisation de code et éviter les réptétitions ([DRY](https://fr.wikipedia.org/wiki/Ne_vous_répétez_pas)).
Elles sont déclarées avec le mot-clé **`def`**.

In [287]:
# Définition d'une fonction, le mot clé "def" est obligatoire
def pythagorus(x,y):
    """ Calcule l'hypoténuse d'un triangle """ # Docstring (optionnelle) : document la fonction
    r = pow(x**2+y**2,0.5)
    
    return x,y,r # Valeur de retour

In [65]:
# exemples d'appel, tous équivalents
pythagorus(3,4) # paramètres passés dans l'ordre d'appel
pythagorus(x=3,y=4) # pour plus de clarté
pythagorus(y=4, x=3) # équivalent aux appels précédents, l'ordre des paramètres **nommés** n'est pas important

(3, 4, 5.0)

In [289]:
# aide intégrée
help(pythagorus)

Help on function pythagorus in module __main__:

pythagorus(x, y)
    Calcule l'hypoténuse d'un triangle



In [67]:
# Fonction avec des paramètres par défaut
def pythagorus(x=1,y=1):
    """ calcule l'hypoténuse d'un triangle """
    r = pow(x**2+y**2,0.5)
    return x,y,r

pythagorus()
pythagorus(5) # équivalent à pythagorus(x=5)

(5, 1, 5.0990195135927845)

La fonction `pythagorus` renvoie 3 valeurs correspondant aux longueurs des trois côtés. Il est possible d'affecter directement chaque valeur dans une variable distincte des autres, de la même manière que pour découper une liste (*list unpacking*).

In [68]:
# Si une seule variable est donnée pour récupérer la sortie, alors elle recevra un tuple avec toutes les valeurs
# retournées par la fonction
a = pythagorus(5, 4)

print(a)
print(type(a))

(5, 4, 6.4031242374328485)
<class 'tuple'>


In [303]:
# Si autant de variables sont données que de valeurs sont retournées par la fonction, alors chaque variable recevra
# une valeur retournée, dans l'ordre de retour

a, b, hypotenuse = pythagorus(5, 4)
print(a)
print(b)
print(hypotenuse)
print(type(hypotenuse))

5
4
6.4031242374328485
<class 'float'>


Le cas intermédiaire où le nombre de variables données est inférieur au nombre de valeurs retournées par la fonction ne fonctionne pas par défaut et renverra une erreur (une Exception). En effet ce **cas est ambigu**, Python ne sait pas comment répartir les valeurs retournées entre les variables données.

Il est possible d'utiliser **l'opérateur `*`** (dit *splat operator*) pour indiquer clairement le contenu que chaque variable est censé recevoir. Ce cas ne sera pas étudié en TD, mais il représente un allié efficace pour limiter le nombre de lignes de code nécessaire.

### 4.3 Compréhensions de liste (List Comprehensions)

La Compréhension de liste sont un opérateur un peu spécial en Python. Elle permet d'effectuer de façon courte et élégante des opérations sur tous les éléments d'une liste et de retourner cette liste (ce qui évite d'utiliser un boucle for pour faire la même chose).

In [311]:
valeurs = [-1,-2,-3,-4,-5]
print([v**3 for v in valeurs])

valeurs = ['a','b','c']
print([v*10 for v in valeurs])

[-1, -8, -27, -64, -125]
['aaaaaaaaaa', 'bbbbbbbbbb', 'cccccccccc']


### 4.4 Modules et librairies

Comme tous les langages de programmation modernes, Python est conçu pour être modulaire et permet facilement d'incorporer des fonctions et classes issues de sources diverses.

Ces bouts de code externes peuvent être rangés dans des **modules** ou des **packages** selon le niveau de complexité du projet.

#### Modules 
Un **module** contient plusieurs fonctions et commandes qui sont regroupées dans un fichier d'extension `.py`. **Un module est donc un unique fichier `.py`**.

Un **package** est une collection de plusieurs modules, interagissant entre eux si nécessaire. **Un package est donc un dossier de fichier `.py` et sous-dossiers**. Pour transformer un simple dossier en package, il faut insérer un fichier avec le nom `__init__.py` à sa racine (et celle de chaque sous-dossier). Le code dans ce fichier sera exécuté lorsque le package est importé. Les fichiers `__init__.py` peuvent être vides mais doivent être créés.

Dans tous les cas, importer un objet défini dans un module/package se fait à l'aide de la déclaration **`import`** 

Commencer par définir un module dans un fichier texte contenant les commandes suivantes.

```python
def dit_bonjour():
    print("Bonjour")
    
def div_by_2(x):
    return x/2
```

Sauver le fichier avec pour nom `testM.py` dans le répertoire courant de ce notebook.

Deux fonctions sont définies dans ce module : `dit_bonjour` et `div_by_2`. Nous allons tester les différents modes d'importation sur ce module.

**Premier cas** : on importe toutes les fonctions du module. Afin d'éviter les conflits de nommage (e.g. si une fonction `div_by_2` a déjà été définie auparavant et que l'on ne souhaite pas l'écraser), Python va par défaut importer ces fonctions dans le *namespace* du même nom que le module.

In [70]:
import testM
testM.dit_bonjour() # Les éléments de testM (ici les deux fonctions) sont accessibles dans le namespace "testM"

ModuleNotFoundError: No module named 'testM'

In [None]:
print(testM.div_by_2(10))

**Deuxième cas** : On peut également **cibler précisément les objets à importer** (ici la fonction `dit_bonjour`). Dans ce cas, l'objet importé sera disponible dans le namespace par défaut et donc aucun préfixe ne sera nécessaire pour l'utiliser. **Attention aux conflits de nommage** dans ce cas, Python ne lèvera aucune exception si un objet précédemment créé possède le même nom.

In [None]:
from testM import dit_bonjour
dit_bonjour() # aucun préfixe nécessaire

In [None]:
# On vérifie bien que l'objet importé est le même que précédemment
# En Python, les fonctions sont des objets comme les autres, et sont donc également comparables en référence
dit_bonjour is testM.dit_bonjour

**Troisième cas** : Identique au deuxième cas, mais en définissant un alias pour l'objet importé. Ceci permet d'éviter les conflits de nommage.

In [None]:
from testM import dit_bonjour as salut # on importe la même fonction qu'au dessus, mais avec un alias "salut"

salut()

In [None]:
# A nouveau, on vérifie bien que l'alias et l'objet initial sont identiques
salut is dit_bonjour

Les fonctions et classes importées fonctionnent exactement de la même manière que les fonctions définies au cours de la session (par exemple dans le notebook).

Lors de son premier appel, un module est pré-compilé dans un fichier `.pyc` qui est utilisé pour les appels suivants. **Attention**, si le fichier a été modifié / corrigé, il a besoin d'être rechargé par la commande `reload(name)`.

#### Package

Une librairie (*package*) regroupe plusieurs modules dans différents sous-répertoires. Le chargement spécifique d'un des modules se fait en précisant le chemin.

Chaque répertoire d'un package doit être séparé par un point (`.`).

In [None]:
# Import de la fonction randint dans le module random lui-même dans le package numpy
from numpy.random import randint

Les modules et packages développés par la communauté peuvent être téléchargés facilement avec l'utilitaire `pip` que vous avez utilisé au début de ce TD pour mettre en place votre environnement.

Ces modules et package externes sont importables exactement de la même façon que montrés ci-dessus.

### Librairie et documentation standard

La [**librairie standard Python**](https://docs.python.org/3/library/) contient une **quantité immense de fonctions** pouvant accomplir la grande majorité des tâches. Certaines bibliothèques tierces permettent néanmoins de combler les manques et d'apporter des fonctionnalités plus avancées. C'est notamment le cas pour du calcul scientifique.

Dans la plupart des cas, ce que vous souhaitez accomplir sera **déjà implémenté dans la librairie standard**. Il est donc recommandé de se familiariser avec la documentation (de qualité !) et de ne pas hésiter à chercher un peu dans la librairie standard avant de télécharger des modules depuis des sources tierces (souvent moins maintenues).

## 4.5 A vous de jouer

On définit ci-dessous un texte dans une variable `txt` (sur plusieurs lignes avec les caractères `\`). Avec les concepts vus jusqu'à présent, calculer et afficher les résultats suivants : 

1. Nombre de caractères dans `txt`
2. Nombre de caractères dans chaque phrase. On définit une phrase comme un groupe de mots, deux phrases sont délimitées par un point (`.`).
3. Nombre moyen de caractère sur l'ensemble des phrases. Indice : La fonction `sum(my_list)` renvoie la somme de tous les éléments dans `my_list`.
4. Afficher le cinquième mot de chaque phrase s'il existe, sinon afficher "`n/a`" ('not available')

In [73]:
txt = "The Zen of Python. \
Beautiful is better than ugly. \
Explicit is better than implicit. \
Simple is better than complex. \
Complex is better than complicated. \
Flat is better than nested. \
Sparse is better than dense. \
Readability counts. \
Special cases aren't special enough to break the rules. \
Although practicality beats purity. \
Errors should never pass silently. \
Unless explicitly silenced. \
In the face of ambiguity, refuse the temptation to guess. \
There should be one-- and preferably only one --obvious way to do it. \
Although that way may not be obvious at first unless you're Dutch. \
Now is better than never. \
Although never is often better than *right* now. \
If the implementation is hard to explain, it's a bad idea. \
If the implementation is easy to explain, it may be a good idea. \
Namespaces are one honking great idea -- let's do more of those!"

print(txt)

The Zen of Python. Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Complex is better than complicated. Flat is better than nested. Sparse is better than dense. Readability counts. Special cases aren't special enough to break the rules. Although practicality beats purity. Errors should never pass silently. Unless explicitly silenced. In the face of ambiguity, refuse the temptation to guess. There should be one-- and preferably only one --obvious way to do it. Although that way may not be obvious at first unless you're Dutch. Now is better than never. Although never is often better than *right* now. If the implementation is hard to explain, it's a bad idea. If the implementation is easy to explain, it may be a good idea. Namespaces are one honking great idea -- let's do more of those!


In [75]:
# 1. Nombre de caractères dans txt
txt.split('')

ValueError: empty separator

In [None]:
# 2. Nombre de caractères dans chaque phrases


In [None]:
# 3. Nombre moyen de caractères par phrase, sur l'ensemble du texte


In [None]:
# 4. Cinquième mot de chaque phrase


----

## 5. Calcul scientifique
Voici deux des principales librairies indispensables au calcul scientifique. 

Deux autres librairies: `pandas`, et `plotly` seront exposées en détail dans les notebooks suivants.

### 5.1 Principales librairies ou *packages*

#### `numpy`
Cette librairie définit le type de données `array` ainsi que les fonctions de calcul qui y sont associées. Il contient aussi quelques fonctions d'algèbre linéaire et statistiques. 

#### `SciPy`
Cette librairie est un ensemble très complet de modules d'algèbre linéaire, statistiques et autres algorithmes numériques. Le site  de la documentation en fournit la [liste](http://docs.scipy.org/doc/scipy/reference). 

La plupart de ces fonctions ne seront pas utiles pour l'analyse de données mais peuvent se révéler utile en cas de besoin spécifiques. Ce package ne sera pas utilisé dans la suite de ces TD.


Les fonctions dans `SciPy` et `numpy` sont **implémentées pour la plupart en C**. Les performances offertes sont donc proches des performances maximales de la machine.

### 5.2 Type `array`

C'est de loin la structure de données la plus utilisée pour le calcul scientifique sous Python. Elle décrit des tableaux ou **matrices multi-indices de dimension arbitraire $ n = 1, 2, 3, \ldots , 40, \ldots $**. **Tous les éléments d'un `array` sont de même type (booléen, entier, réel, complexe)**. 

Il est possible de contrôler précisément le type d'un `array`, par exemple pour gagner  de la place en mémoire, en codant les entiers sur 8, 16, 32 ou 64 bits, de même pour les réels (*float*) ou les complexes.

Les tableaux ou tables de données (*DataFrame*), bases d'analyses statistiques et regroupant des objets de types différents sont décrits avec la librairie `pandas`. On peut donc voir un `DataFrame` comme une collection d'`array`, **chaque colonne du `DataFrame` étant un `array` 1D**.

Un `DataFrame` se rapproche très fortement du concept de **cube OLAP**. Chaque `DataFrame` est ainsi un cube, néanmoins le `DataFrame` doit **tenir** (par défaut) **entièrement en mémoire** ce qui limite fortement sa taille.

#### Définition du type `array`

In [None]:
# Importation du package numpy, ici aliasé par np
import numpy as np

my_1d_array = np.array([4,3,2]) # On crée un array à partir d'une simple liste Python
print(my_1d_array)

In [None]:
# Un array 2D est simplement une liste de listes
# Par défaut, chaque liste imbriquée est une ligne de l'array final, 
# mais il est possible de personnaliser ce comportement

my_2d_array = np.array([[1,0,0],[0,2,0],[0,0,3]]) 
print(my_2d_array)

In [None]:
my_2d_array.shape

Le principal avantage de `numpy` par rapport à des listes imbriquées réside dans ses capacités d'**indexation**. Il est ainsi possible de sélectionner des morceaux d'array efficacement et avec une **syntaxe proche de la sélection de sous-listes**.

In [None]:
a = np.array([[0,1],[2,3],[4,5]])

a[2,1] # (ligne, colonne), les indices commencent à 0

In [None]:
a[:,1] # Sélectionner toute une colonne (ici la deuxième)

In [None]:
a[0,:] # Sélectionner toute une ligne (ici la première)

#### Fonctions de type `array`

Ces fonctions permettent d'initialiser rapidement un array répondant à certains critères courants (que des 1 sur la diagonale, éléments croissants, ...)

In [None]:
np.arange(5)

In [None]:
np.ones(3)

In [None]:
np.ones(shape=(3,4))

In [None]:
np.eye(3)

In [None]:
np.linspace(3, 7, 3)
np.linspace(start=3, stop=7, num=3) # équivalent à la ligne précédente

In [None]:
d = np.diag([1,2,4,3])
d

In [None]:
M = np.array([[10*n+m for n in range(3)] 
              for m in range(2)]) 
print(M)

Le module `numpy.random` fournit toute une liste de fonctions pour la génération de matrices aléatoires.

In [None]:
from numpy import random
random.rand(4,2) # tirage uniforme entre 0 et 1, taille finale (4, 2)

In [None]:
random.randn(4,2) # tirage selon la loi N(0,1), taille finale (4,2)

In [None]:
# Enregistrement d'un array dans un fichier
# Le format .npy est optimisé pour stocker des matrices numériques efficacement
np.save('data.npy', M)
np.load('data.npy')

#### Slicing

Le slicing est l'action de sélectionner une partie d'un `array`. On peut voir cette opération comme une découpe (*slice*) de l'array selon un certain nombre d'axes.

Le résultat d'une opération de *slicing* est donc un array de dimension égale ou plus petite que l'array source.

In [None]:
v = np.array([1,2,3,4,5])
print(v)

Les `array` 1D se comportent comme des listes Python, si ce n'est que les bornes des slices sont **incluses dans le résultat**

In [None]:
v[1:4]

In [None]:
v[1:4:2]

In [None]:
v[::]

In [None]:
v[::2] # par pas de 2

In [None]:
v[:3] # Jusqu'au troisième élement (inclus)

In [None]:
v[3:] # à partir du 3e élément

In [None]:
v[-1] # dernier élément

In [None]:
v[-2:] # deux derniers éléments 

In [None]:
M = random.rand(4,3) 
print(M)

In [None]:
ind = [1,2]
M[ind] # lignes d'indices 1 et 2

In [None]:
M[:,ind] # colonnes d'indices 1 et 2

In [None]:
# Masque (filtre) de sélection à partir d'une condition
(M > 0.5)

In [None]:
M[M > 0.5]

#### Autres fonctions

In [None]:
a = np.array([[0,1],[2,3],[4,5]])
a

In [None]:
np.ndim(a) # Nombre de dimensions

In [None]:
np.size(a) # Nombre d’éléments au total

In [None]:
a.min() # Valeur min

In [None]:
a.sum() # Somme des valeurs

In [None]:
a.sum(axis=0)  # Somme sur les lignes

In [None]:
a.sum(axis=1)  # sur les colonnes

Manipulation de formes (*reshaping*)

In [None]:
a = np.arange(6)
print(a, a.shape)
a = a.reshape(3, 2) # il faut que les deux formes soient compatibles : même nombre d'éléments dans les deux cas
print(a, a.shape)

#### Opérations entre  `array`s

Les opérateurs classiques (+, -, * , /) sont calculés termes à termes, entre deux éléments à la même position. Il faut donc que les deux opérandes soient de la même taille (même *shape*)

In [None]:
# Somme
a = np.arange(6).reshape(3,2)
b = np.arange(3,9).reshape(3,2)
c = np.transpose(b) # Shape = (2, 3)

a + b

In [None]:
a * b # produit terme à terme

In [None]:
np.dot(a,c) # produit scalaire (dot product en anglais)

In [None]:
np.power(a,2) # équivalent à np.dot(a, a)

In [None]:
a / 3