# <a href="https://www.python.org/"><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Python_logo_and_wordmark.svg/390px-Python_logo_and_wordmark.svg.png" style="max-width: 200px; display: inline" alt="Python"/></a> pour Statistique et Science des Donn√©es

Ce notebook est fortement inspir√© du cours d'[introduction √† Python](https://github.com/wikistat/Intro-Python) r√©alis√© par **Philippe Besse** pour l'INSA Toulouse et utilis√© avec respect de la licence. Quelques modifications ont √©t√© apport√©es afin de mieux cibler les besoins du cours de Data Mining.

# Introduction √† <a href="https://www.python.org/"><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/f8/Python_logo_and_wordmark.svg/390px-Python_logo_and_wordmark.svg.png" style="max-width: 150px; display: inline" alt="Python"/></a> pour Calcul Scientifique - Statistique

#### R√©sum√©
Pr√©sentation de **Python**, ex√©cution de commandes interactives ou de scripts avec un IDE, utilisation d'un **notebook**; les **types et structures √©l√©mentaires** de donn√©es, les structures de contr√¥le, les **fonctions, classes et modules**. Introduction √† l'utilisation des librairies scientifiques: **`Numpy, Matplotlib, Scipy`** et au type `array`.

----

# Tables des mati√®res 

1. [Introduction](#1-Introduction)
    1. [Pr√©requis](#1.1-Pr√©requis)
    2. [Installation](#1.2-Installation)
2. [Utilisation de Python](#2-Utilisation-de-Python)
    1. [Notebook Jupyter](#2.1-Notebook-Jupyter)
    2. [Utilisation d'un IDE](#2.2-Utilisation-d'un-IDE)
    3. [Exemple](#2.3-Exemple)
3. [Types de donn√©es](#3.-Types-de-donn√©es)
    1. [Scalaires et cha√Ænes](#3.1-Scalaires-et-cha√Ænes)
    2. [Structures de donn√©es de base](#3.2-Structures-de-donn√©es-de-base)
4. [Syntaxe de Python](#4.-Syntaxe-de-Python)
    1. [Structure de contr√¥les √©l√©mentaires](#4.1-Structures-de-contr√¥le-√©l√©mentaires)
    2. [Fonctions](#4.2-Fonctions)
    3. [Modules et librairies](#4.3-Modules-et-librairies)
5. [Calcul scientifique](#5.-Calcul-scientifique)
    1. [Principales librairies ou packages](#5.1-Principales-librairies-ou-packages)
    2. [Le type `array`](#5.2-Type-array)
----

## 1 Introduction

### 1.1 Pr√©requis

Ce notebook introduit le langage libre Python et d√©crit les premi√®res commandes n√©cessaires au **pr√©-traitement des donn√©es** avant l'utilisation de m√©thodes statistiques avec ce langage. Les aspects statistiques d√©velopp√©s dans le CM1 sont suppos√©s acquis ainsi qu'une connaissance des principes √©l√©mentaires de programmation dans un langage matriciel comme R ou Matlab. 

#### Ressources d'approfondissement

Pour des approfondissements, il existe de tr√®s nombreuses ressources p√©dagogiques accessibles sur la toile dont:
- [`tutoriel officiel`](https://docs.python.org/3/tutorial/index.html) de Python 3
- [`pythontutor.com`](http://pythontutor.com/) :Tr√®s utile pour comprendre visuellement ce qui se cache derri√®re chaque ex√©cution de code en Python. 
- [`courspython.com`](http://www.courspython.com/) : pour les d√©butants qui souhaitent acqu√©rir des bases de programmation pour les sciences, en particulier pour le calcul num√©rique et la visualisation.
- [`realpython.com`](https://realpython.com/) : C√©l√®bre pour ces nombreux tutoriels sur Python et ses articles de blogs.

#### Autres ressources d'approfondissement **e-learnings ou MOOCs**:
- (üá´üá∑ ) [Apprenez les bases du langage Python, Openclassrooms](https://openclassrooms.com/fr/courses/7168871-apprenez-les-bases-du-langage-python) : simple et efficace pour tout d√©butant en programmation.
- (üá´üá∑ ) [Python 3 : des fondamentaux aux concepts avanc√©s du langage, MOOC FUN](https://www.fun-mooc.fr/fr/cours/python-3-des-fondamentaux-aux-concepts-avances-du-langage/) : 
- (üá∫üá∏ ) [Using Python for Research, Harvard University](https://pll.harvard.edu/course/using-python-research?delta=1): Utilisation de Python appliqu√© √† des cas d'usage pour la recherche scientifique.
- (üá∫üá∏ ) [Python for Data Science, The University of California](https://www.edx.org/course/python-for-data-science-2), San Diego Logo sur EdX: Utilisation de Python orient√© Data Science

#### Pour ceux d√©risant aller plus loins avec **livre papier ou num√©rique** :
* *Introduction to Python for Econometrics, Statistics and Data Analysis*, **Sheppard K.**  (2014) : Pour ceux voulant approfondir Python d'un point vu statistique et analyse de donn√©es.
* *Analyse de donn√©es avec Python*,  **Wes McKinney**  (2018) : Pour ceux voulant d√©couvrir les techniques de manipulation , nettoyage de donn√©es en Python.
* *Natural Langaguage Processing with Python*, **Bird, Klein & Loper**: Pour ceux d√©sirant avoir une introduction au traitement automatique des langues avec Python.
* *Le Machine Learning avec Python*, **M√ºller & Guido** : Pour ceux d√©sirant mettre en place des solutions de Machine Learning avec Python.

### 1.2 Installation

Python et ses librairies peuvent √™tre install√©s dans quasiment tout environnement mat√©riel et syst√®me d'exploitation √† partir du [site officiel](https://www.python.org/downloads/). Voici les principales librairies scientifiques d√©finissant des structures de donn√©es et fonctions de calcul indispensables. 
- [ipython](https://ipython.readthedocs.io/en/stable/): pour une utilisation interactive de Python (et qui vous donne l'interface que vous avez sous les yeux)
- [numpy](https://numpy.org): pour utiliser vecteurs et tableaux
- [scipy](https://scipy.org): int√®gre les principaux algorithmes num√©riques,
- [matplotlib](https://matplotlib.org) et [seaborn](https://seaborn.pydata.org): pour les graphes statiques
- [plotly](https://plotly.com) : pour les graphes interactifs
- [pandas](https://pandas.pydata.org): structure de donn√©es plus haut niveau, construite √† partir de `numpy`, et offrant des fonctions avanc√©es notamment pour la gestion de donn√©es temporelles 
- [scikit-learn](https://scikit-learn.org): librarie d'apprentissage automatique avec des algorithmes cl√© en main.

Bien qu'il ne soit pas n√©cessaire d'utiliser un **distribution de Python** (comme Anaconda), il sera fortement recommand√© de l'utiliser pour ce cours et pour tout d√©butant.
Cela √©vite d'installer plus de 200 packages √† la main par exemple car les distributions regroupent de multiples modules fonctionnant ensemble au sein d'un m√™me 'logiciel'.
Les distributions sont d√©velopp√©es par des communaut√©s open-source ou entreprises commerciales mais libres de droits pour une utilisation acad√©mique ou de recherche.
Citons deux distributions:

- <img src="https://interactivechaos.com/sites/default/files/inline-images/recursos_conda.jpg" style="max-width: 100px; display: inline" alt="Anaconda Logo"/>*La distribution Python [Anaconda](https://www.anaconda.com)*: qui est une distribution pour le calcul scientifique, gratuite pour un √©tudiant, ou un chercheur et open-source (**c'est celle que nous utiliserons pour les cours**). 

- <img src="https://www.enthought.com/wp-content/uploads/2019/08/logo_crispy-1.png" style="max-width: 100px; display: inline" alt="Anaconda Logo"/> *La distribution Python [Enthought](https://www.enthought.com/)*.


Les travaux dirig√©s de ce cours, nous utiliserons Anaconda avec Python en version v3.6 minimum.
La version v3.6 est normalement install√©e sur les postes d'UT1 Capitole.

Dans le cadre de ce cours, nous utiliserons principalement les librairies `numpy`, `pandas` et `plotly`.

#### Installation d'Anaconda 



Si ce n'est pas encore fait, veuillez installer [Anaconda Individual Edition](https://www.anaconda.com/products/individual) disponible sur Linux, MacOs et Windows. A l'heure o√π ces lignes sont √©crites, Anaconda utilise la version 3.9 de Python.



#### Remarque sur la version de Python

En cherchant des informations ou de l'aide sur Internet, vous pourrez trouver la mention de **Python 2 ou Python 3**. Il s'agit des deux version majeures de Python.

Depuis le 1er Janvier 2020, **Python 2 n'est plus maintenu** et va donc progressivement repr√©senter un risque de s√©curit√© (les bugs n'√©tant plus corrig√©s). Dans tous vos futurs projets Python, **choisissez donc toujours la version 3, sans exception**.

Pour ce cours, nous utiliserons une version de Python sup√©rieure √† v3.6 (o√π 3 signifie √† majeure, et 6 mineure)

La [documentation officielle](https://docs.python.org/3/) est disponible pour chaque version du langage (pour tenir compte des √©volutions entre chaque version mineure) et vous tomberez parfois par erreur (par exemple en suivant un r√©sultat d'un moteur de recherche) sur une page correspondant √† la version 2. Pensez √† **v√©rifier la version en haut √† gauche** (√† c√¥t√© de la langue).

La documentation pour la version 2 est principalement bleue et "dat√©e", celle pour la version 3 est g√©n√©ralement blanche et "moderne".

----


## 2 Utilisation de Python

Python peut s'ex√©cuter dans **deux modes distincts** :
* **Utilisation interactive**, √† partir de l'interpr√©teur directement. Vous pouvez utiliser un interpr√®te de commande (`python` ou `ipython`) ou des notebooks ex√©cut√©s dans un navigateur, plus conviviaux pour de l'exploration de donn√©es (`jupyter`). Un fichier est un document bloc-note utilis√© par Jupyter Notebook avec l'extension `.ipynb`.
* **Ex√©cution de scripts et programmes**. Vous √©crivez alors la logique du programme dans un ou plusieurs fichier(s) `.py` que vous appelez avec l'interpr√©teur (`python mon_programme.py`)

Le premier mode est tr√®s adapt√© √† des t√¢ches telles que l'exploration initiale de donn√©es puisqu'il permet d'obtenir directement les r√©ponses √† ses questions sans avoir √† relancer un programme ou recr√©er des objets en m√©moire.

Le deuxi√®me mode quant √† lui est pr√©f√©rable dans un contexte plus programmatoire, lorsque l'on souhaite souhaite par exemple ex√©cuter une t√¢che d'analyse bien d√©finie par le biais d'un orchestrateur.


### 2.1 Notebook *Jupyter*
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/38/Jupyter_logo.svg/1200px-Jupyter_logo.svg.png
" style="max-width: 50px; display: inline" alt="Python"/>
Un notebook Jupyter (ce que vous voyez actuellement est un notebook) est un fichier qui permet de combiner du code et des √©l√©ments de texte riche (paragraphe, √©quations, liens, figures) √©crit soit en [Markdown](https://stackedit.io/app), soit un texte brute.

Vous pourrez utiliser un notebook Jupyter pour travailler sur les projets et effectuer vos d√©veloppements mais il faudra quand m√™me rendre un rapport.

#### Pr√©sentation

Les commandes sont regroup√©es dans des cellules suivies de leur r√©sultat apr√®s ex√©cution. Ces r√©sultats et commentaires sont  stock√©s dans un fichier sp√©cifique `.ipynb` et sauvegard√©s. Les commandes $LaTeX$ sont accept√©es pour int√©grer des formules, la mise en page est assur√©e par des balises HTML ou [*Markdown*](https://stackedit.io/app#(http://fr.wikipedia.org/wiki/Markdown).

La commande de sauvegarde permet √©galement d'extraire les seules commandes Python dans un fichier d'extension `.py`. C'est une fa√ßon simple et efficace de conserver tout l'historique d'une analyse pour en faire une pr√©sentation ou cr√©er un tutoriel. Le calepin peut √™tre en effet charg√©  sous un autre format: page `html`, fichier `.pdf` ou diaporama.

Le projet [Jupyter](http://jupyter.org/) propose cet environnement de calepin pour beaucoup de langages (Python, R, Julia, Scala...). Il devient un outil indispensable pour assurer simplement la *reproductibilit√©* des analyses. 

#### Ouverture

L'ouverture d'un navigateur sur un calepin (Ipython ou Jupyter) est obtenu, selon l'installation,  √† partir des menus ou en ex√©cutant: 
`jupyter notebook`
ou 
`ipython notebook` 
dans une fen√™tre de commande.

#### Utilisation

Une fois le calepin ouvert, 
- Entrer des commandes Python dans une cellule,
- Cliquer sur le bouton d'ex√©cution de la cellule (ou lancer la cellule courante avec **Ctrl+Entr√©e**).
- Ajouter une ou des cellules de commentaires et balises HTML ou [Markdown](http://fr.wikipedia.org/wiki/Markdown). Pour ajouter et modifier des cellules :
    - 'A' (**A**bove) pour ajouter une nouvelle cellule *au-dessus* de la cellule courante
    - 'B' (**B**elow) pour ajouter une nouvelle cellule *en-dessous* de la cellule courante
    - 'D-D' (**D**elete) pour supprimer les cellules s√©lectionn√©es
    - 'Shift+M' (**M**erge) pour fusionner les cellules s√©lectionn√©es (qui doivent contigu√´s)
    - 'Y' pour convertir la cellule courante en cellule de code, 'M' pour la convertir en cellule **Markdown/HTML**
    - 'Enter' pour modifier le contenu d'une cellule
    
Vous retrouverez une liste des raccourcies assez compl√®tes sur cet article : [Jupyter Notebook Shortcuts (towardsdatascience)](https://towardsdatascience.com/jypyter-notebook-shortcuts-bf0101a98330) 
    
It√©rer l'ajout de cellules. Une fois l'ex√©cution termin√©e:
- Sauver le calepin `.ipynb` 
- Exporter √©ventuellement une version `.html` pour une page web.
- Exporter le fichier `.py` regroupant les commandes Python pour une version op√©rationnelle.

**Attention** Un calepin de IPython ou Jupyter est un outil de travail exploratoire efficace et visuel qui facilite la collaboration entre plusieurs analystes; ce n'est pas un *rapport* d'une √©tude statistique mais simplement un moyen de g√©n√©rer tous les r√©sultats (figures et valeurs) qui seront r√©utilis√©s dans le rapport.

#### Compl√©tion de code

Les notebooks vous aident lors de r√©daction de code afin d'acc√©l√©rer le d√©veloppement et de limiter les erreurs.

Pour b√©n√©ficier de la compl√©tion de code, utiliser la **touche Tab**. 

Exemple : j'ai une variable `my_long_variable`. Je peux taper `my_lon<TAB>` et une liste d√©roulante appara√Æt et me propose `my_long_variable`.

Les diff√©rents d√©limiteurs sont √©galement automatiquement appair√©s. En s√©lectionnant une portion de code et en tapant `"` (un guillemet), l'ensemble de la portion s√©lectionn√©e est entour√©e de guillemet. Ceci fonctionne avec `"`, `'`, `(`, `[`, `{` et `` ` `` (backtick).

### 2.2 Utilisation d'un IDE

Pour la r√©alisation d'applications et programmes plus complexes, l'usage d'un IDE (*integrated Development Environment*) libre comme [Spyder](http://code.google.com/p/spyderlib/) est recommand√©. Ce dernier est int√©gr√© √† la distribution `Anaconda` et sa pr√©sentation proche de celles de Matlab ou RStudio.

On peut citer √©galement [Pycharm](https://www.jetbrains.com/pycharm/) qui offre des capacit√©s encore plus avanc√©es de d√©veloppement. La licence d'utilisation est offerte pour les √©tudiants, et une version libre, gratuite et open-source est √©galement disponible.

L'utilisation de ces logiciels ne sera pas abord√©e dans ces TP.

### 2.3 Exemple

En r√©sum√©, utiliser un notebook pour des analyses exploratoires √©l√©mentaires et un IDE `Spyder` ou `Pycharm` pour la construction de programmes et modules. 

Selon l'installation et √† partir du r√©pertoire de travail, ex√©cuter la commande:

`jupyter notebook`

Entrer les commandes ci-dessous dans le calepin et les ex√©cuter cellule apr√®s cellule.
**Ne pas h√©siter √† me solliciter en cas de question**.

# Ceci est le d√©but d'une session Python g√©r√©e √† l'aide d'un notebook.
# Le script est divis√© en cellules avec g√©n√©ralement l'affichage d'au plus un r√©sultat par cellule.
# Comme vous l'avez remarqu√©, les commentaires en Python sont pr√©c√©d√©s d'un symbole "#"
# Ils peuvent √™tre situ√©s sur leur propre ligne, ou bien en suivant une instruction

print('Hello world !') # Affiche "Hello world !"

----
## 3. Les bases de Python

Python est le langage **le plus populaire** en 2021 pour la **science des donn√©es**. Il tient sont nom d'une √©mission de la BCC *Monty Python's*.

C'est un langage **interpr√©t√©**, **multiplatforme** et dot√© d'un **typage dynamique et fort**. Revenons sur ces termes:
-  **interpr√©t√©**: contrairement √† un langage compil√©, qui doit passer par un compilateur pour traduire le programme en code machine en binaire, un langage interpr√©t√© va √™tre lu par un **interpr√©teur** qui pourra ex√©cuter directement le code sans le transformer en code machine.
- **multiplatforme**: il est utilisable sur plusieurs syst√®mes d'exploitation Linux, MaxOs, Windows.
- **typage fort**:  c'est-√†-dire que le type ne change pas de mani√®re inattendue.
- **dynamique**: on peut facilement √©changer le type d'une variable.

In [13]:
# Exemple de typage fort:
# D√©-commenter le code ci-dessous va g√©n√©rer une erreur car on ne peut pas concatener deux types diff√©rents
# '2' + 2

# Exemple pour la caract√®re dynamique:
# Les variables n'ont pas un type statique et le type d'une variable peut changer
a = 1
print(a)
a = 'hello'
print(a)
a = True
print(a)

1
hello
True


### 3.1 Tout est objet

Il notion important √† comprendre est qu'en Python, **tout est objet** et **relation entre objet** : les cha√Ænes, les entiers, les listes, les fonctions, les classes, les modules, etc.

Tout les objets sont manipul√©s par **r√©f√©rence**:
- une variable contient une r√©f√©rence vers un objet
- un objet peut √™tre r√©f√©renc√© par plusieurs variables.

1 variable -- r√©f√©rence --> 1 objet

1 objet -- est r√©f√©rencable --> N variables

Voici un mod√®le de d√©claration d'objet, aussi appel√© *Classe*:
```python
class Person:
    "Definition d'un mod√®le d'objet personne"
    
```

Il existe **2 types d'objets**:
- les objets **mutables** : ce sont les objets dont les valeurs ne peuvent pas changer apr√®s avoir √©t√© cr√©√© (ex: les strings)
- les objets **non mutables** : ce sont les objets dont les valeurs peuvent changer (ex: les listes)

Chaque objet √† **3 caract√©ristiques principales**: 
- **Identit√©** : c'est un num√©ro unique qui distingue l'allocation dans la m√©moire de l'ordinateur pour chaque objet.
- **Type**: indique quel est la nature de l'objet trait√© : nombre, string, bool√©en, list, etc ...
- **Valeur**: c'est la valeur des donn√©es contenues par l'objet : la valeur d'un nombre, une chaine de caract√®res pour un string, les √©l√©ments d'une liste...

Les objets peuvent √©galement poss√©der des attributs ou des m√©thodes:
- **attributs**: c'est une valeur attach√©e √† un objet
- **m√©thodes**: c'est une fonction attach√©e √† un objet

Un object peut avoir 0 ou plusieurs instances: ce sont des exemplaires d'un objet. 

> Remarque: un objet (ou une classe) statique ne poss√®de qu'une seule et unique instance.

In [43]:
# Exemple de d√©claration d'un objet (ou classe)
class Person:
    "Definition d'un mod√®le d'objet personne"

# Instanciation de deux objets personnes dans deux allocations distinctes
print('Verifiez que p1 et p2 sont bien des objets disctincts')
p1 = Person()
p2 = Person()
# Observez que les allocations dans la m√©moire vie commen√ßant par 0x ne sont pas √©gales
print(p1)
print(p2)

p3 = p1
print('Observez que p3 √† la m√™me allocation m√©moire que p1')
print(p3)
# V√©rification de l'identit√© avec le mot cl√© 'is'
print(f'p1 is p2 ? {p1 is p2}')
print(f'p1 is p3 ? {p1 is p3}')

# Exemple d'objets mutable
# On peut changer la valeur d'un √©lement de la liste
print('\nLa liste est un objet mutable')
mylist = [1,2,3]
print(mylist)
mylist[0] = 5
print(mylist)

# Exemple d'objets non mutable 
# D√©commenter pour essayer et vous obtiendrez une erreur car la valeur de l'objet ne peut pas √™tre chang√©)
# myString = 'Hello World'
# myString[0] = 'T'

Verifiez que p1 et p2 sont bien des objets disctincts
<__main__.Person object at 0x7f80c8024a90>
<__main__.Person object at 0x7f80c80247f0>
Observez que p3 √† la m√™me allocation m√©moire que p1
<__main__.Person object at 0x7f80c8024a90>
p1 is p2 ? False
p1 is p3 ? True

La liste est un objet mutable
[1, 2, 3]
[5, 2, 3]


### 3.2 Types de donn√©es

Python est un langage **fortement typ√©**, mais qui fait le choix d'un **typage dynamique**. En d'autres termes il n'y a pas √† d√©clarer le type de chaque variable, n√©anmoins les op√©rations incompatibles avec certains types (e.g. additionner un nombre et une cha√Æne) soul√®veront une erreur.

La d√©claration des variables est implicite (integer, float, boolean, string): pas besoin d'un mot cl√© `var` par exemple.

```python
b = True
x = 0
s = 'hello'

```

La devise g√©n√©rale de Python est donc "**We are all consenting adults**". Peu de limitations sur la forme du code sont mises en place, mais vous √™tes responsables des erreurs qui peuvent appara√Ætre en raison de cette libert√©.

Il existe √©galement des moyens de mieux pr√©ciser les types attendus des variables ([*type hinting*](https://docs.python.org/3/library/typing.html)) mais ceux-ci sont plus adapt√©s dans un cadre de d√©veloppement que pour une analyse. Afin de simplifier cette d√©couverte de Python et all√©ger le code, ces moyens ne seront pas utilis√©s dans les TP.

In [49]:
# Exemple de fonction sans hinting
def greeting(name):
    return 'Hello ' + name

# Exemple de fonction avec hinting
def greeting_2(name: str) -> str:
    return 'Hello ' + name

Comme vous pouvez le voir ci-dessus, utiliser une syntaxe avec *hinting* permet d'indiquer au d√©veloppeur le type des param√®tres en entr√©e de la fonction et le type de la sortie.
Personnellement, j'appr√©cie de plus en plus l'√©criture avec *hinting* dans lors du d√©veloppement de programme un peu plus complexe car cela √©vite de faire des erreur de type et am√©liore parfois les attentes d'une fonction.



#### 3.2.1 Bool√©ens


Python propose une logique ternaire, i.e. √† trois √©tats : Vrai, Faux et Inconnu. Il se rapproche en cela de la plupart des langages que vous avez pu manipuler jusqu'√† pr√©sent (comme le SQL par exemple).

Chaque √©tat est associ√© √† un unique mot-cl√©.

In [73]:
# Etat vrai
a = True

# Etat faux
b = False

# Etant inconnu
c = None

# Mot cl√© not 
print(not False)
print(True and False and not False)


# Pour v√©rifier le type d'une variable
type(a)

True
False


bool

nombres entiers nuls, positifs ou n√©gatifs sans partie fractionnaire et ayant une pr√©cision illimit√©e, par exemple 0, 100, -10 Remarque
**La casse est importante**. `True`, `False` et `None` doivent commencer par une majuscule.

La valeur `None` d√©signe une absence d'informations dans l'ensemble du langage Python. Aussi, il est possible que les valeurs `None` soient trait√©es diff√©remment par de nombreuses fonctions.

Dans le cadre de l'exploration de donn√©es, on utilisera des repr√©sentations plus adapt√©es pour d√©signer des points de donn√©es manquants. Il est donc souvent **inutile d'utiliser `None`** dans ce contexte, on r√©servera donc ce mot-cl√© √† un cadre plus programmatoire en dehors de la port√©e de ces TP. 

#### 3.2.2 Scalaires (ou nombres)

En Python, les nombres peuvent √™tre de 3 types:
- **int**: les nombres entiers positifs, n√©gatifs ou nuls √† pr√©cision illimit√©es
- **float**: les nombres √† virgule flottante
- **complex**: les nombres complexe est un nombre avec des composantes r√©elles et imaginaires

In [68]:
# int
a = 3

# float
b = 1.5

# complex
c = 5 + 6j

print(type(a))
print(type(b))
print(type(c))

<class 'int'>
<class 'float'>
<class 'complex'>


In [57]:
# Tous les op√©rateurs math√©matiques de bases fonctionnent comme on s'y attend, pas de surprise ici
# Addition
print(a+b)

# Soustraction
print(a-b)

# Multiplication
print(a*b)

# Division
print(a/b)

# Division enti√®re 
print(a//b)

# Modulo
print(7%5)

# Puissance
print(2 ** 3)

4.5
1.5
4.5
2.0
2.0
2
8


**Op√©rateurs de comparaison arithm√©tique** : `==, >, <, !=` dont le r√©sultat est un bool√©en.

In [74]:
# Comparaison de **valeurs**
# Pas besoin de isEqual ou √©quivalent comme en Java

# Egalit√©
print(1 == 2)
# Egalit√© implicite entre un int et un float
print(2.0 == 2)

# In√©galit√©
print(1 != 2)

# Plus grand que
print(1 > 2)

# Plus petit que
print(1 < 2)

False
True
True
False
True


**Comparaison d'identit√© (ou de r√©f√©rence)**

Si l'on souhaite comparer les **r√©f√©rences** de chaque objet, il existe l'op√©rateur `is`.

Pour rappel, 
* Deux objets ayant la m√™me valeur n'ont pas forc√©ment la m√™me r√©f√©rence (`a=3` et `b=3`, `a` et `b` sont deux objets distincts)
* Deux objets ayant la m√™me r√©f√©rence sont en r√©alit√© deux fois le m√™me objet mais nomm√©s diff√©remment. Ils ont n√©cessairement la m√™me valeur (`a=3` et `a=b`, les deux objets ont la m√™me r√©f√©rence et la m√™me valeur, ici 3)

In [69]:
a = 3
b = a

print(a is b) # Comparaison de r√©f√©rences

True


In [63]:
a = 1000
b = 1000

a is b # M√™me valeur, mais deux objets distincts, donc la r√©f√©rence ne correspond pas

False

Pour information, il est possible de consulter la r√©f√©rence construite par Python pour chaque objet √† l'aide de la fonction `id`. Le format de cette r√©f√©rence est interne au langage et ne signifie rien de particulier (si ce n'est qu'il est unique √† chaque objet au cours d'une m√™me session).

Il n'est **pas n√©cessaire de retenir ce d√©tail d'impl√©mentation** pour la suite des TD, n√©anmoins gardez √† l'esprit (comme dans tous les langages) la diff√©rence entre comparaison de valeurs et de r√©f√©rences. 

In [34]:
print(id(a))
print(id(b))

140630942025712
140630942025424


#### Cha√Ænes de caract√®res (ou String)

En Python, les cha√Ænes de caract√®res sont des **s√©quences de caract√®res non mutables**.

In [79]:
# Cha√Æne de caract√®re
a='bonjour '
b='le '
c="monde" # une cha√Æne est d√©limit√©e par des apostrophes ('blabla') ou des guillemets ("blabla") : le choix est libre

En Python 3 (version actuelle et maintenue), toutes les cha√Ænes de caract√®res sont **automatiquement encod√©es en `UTF-8`** qui supporte peu ou prou tous les alphabets envisageables.

Si vous lisez des fichiers √©crits dans un autre encodage (classiquement `latin-1` pour des fichiers occidentaux enregistr√©s avec Excel et consorts), vous devrez pr√©ciser au moment de la lecture l'encodage du fichier. Nous aborderons ce point plus loin.

In [80]:
# Concat√©nation de cha√Ænes, plusieurs techniques possibles

# 1. Somme de cha√Ænes
w = a + b + c
print(w)

# 2. Insertion de chaque variable de la fonction format dans le groupe {} correspondants
print('{}{}{}'.format(a, b, c)) 

# 3. Formatted strings (f-string), depuis Python 3.6
print(f'{a}{b}{c}')

# Remarques : les m√©thodes 2 et 3 permettent de concat√©ner d'autres types que les cha√Ænes. Les types non-cha√Ænes
# √† concat√©ner seront alors automatiquement convertis en cha√Ænes de caract√®res. Elles peuvent √©galement effectuer
# des op√©rations de formattages plus avanc√©es (alignement gauche/droite, centrage, justification, etc...). Nous
# n'aborderons pas ces op√©rations dans ce cours.

# J'utiliserai g√©n√©ralement la m√©thode 3. dans les corrig√©s qui est √† mon go√ªt la plus expressive tout en restant
# courte. Vous √™tes bien s√ªr libres d'utiliser le style qui vous convient le mieux.

bonjour le monde
bonjour le monde
bonjour le monde


In [91]:
s = 'Hello World'

# R√©cup√©rer le 1er caract√®re
print(s[0])

# R√©cup√©rer le dernier caract√®re
print(s[-1])

# R√©cup√©rer le premier mot
print(s[0:6])

# R√©cup√©rer le dernier mot
print(s[-5:-1])

# V√©rification de la pr√©sence d'une lettre ou d'un mot avec le mot cl√© 'in' (sensible √† la casse)
print('H' in s)
print('Hello' in s)

H
d
Hello 
Worl
True
True


In [97]:
# Quelques fonctions utiles sur les cha√Ænes
# Nombre de caract√®res
print(len(s))

# S√©parer la cha√Æne selon un s√©parateur arbitraire (ici une espace)
print(s.split(' ')) 

# Mettre en majuscule
print(s.upper())

# Mettre en minuscule
print(s.lower())

# Mettre en capitale
print(s.capitalize())

# Remplacer une lettre ou d'un mot
print(s.replace('o','a'))
print(s.replace('Hello','See you'))

11
['Hello', 'World']
HELLO WORLD
hello world
Hello world
Hella Warld
See you World


### 3.3 Structures de donn√©es

Il existe plusieurs de structure de donn√©es:
* Les **S√©quences** : collections d'objets ordonn√©es par leur position d√©composables en 3 cat√©gories
  * **Listes (ou list)**
  * **Tuples**
  * **Ranges**
* Les **Ensembles (ou Sets)**  : collections d'objets non ordonn√©es d'objets distincts
* Les **Dictionnaires (ou Dictionnaries)**: collections de paire cl√© valeurs non ordonn√©es

#### Listes
La liste est une s√©quence **ordonn√©e** (i.e. l'ordre d'insertion est m√©moris√© et constant dans le temps). Elle peut contenir une **combinaison arbitraire de types** (int, objets, boolean, d'autres listes, etc...) et un nombre arbitraire d'√©l√©ments.

La liste est **mutable**, on peut ajouter, supprimer ou modifier des √©l√©ments de la liste tout en conservant le m√™me objet liste.

On acc√®de √† chaque √©l√©ment avec sa position dans la liste (i.e. **la cl√© d'un √©l√©ment est sa position**).

**Attention**, le premier √©l√©ment d'une liste ou d'un tableau est indic√© par **0**, pas par 1.

Une liste est d√©limit√©e par des crochets (`[]`)

In [183]:
# Cr√©ation d'une liste vide
empty_list = []
empty_list = list()

# Les deux syntaxes sont √©quivalentes

In [184]:
# Exemples de listes
liste_A = [0,3,2,'hi']
liste_B = [0,3,2,4,5,6,1]
liste_C = [0,3,2,'hi',[1,2,3]]   

# Acc√©der √† un √©l√©ment d'une liste (ici le **deuxi√®me √©l√©ment**)
liste_A[1]

3

In [185]:
# On peut tr√®s bien afficher telle quelle une liste, qui appara√Æt alors avec des crochets []
print(liste_A)

# La fonction print admet en r√©alit√© un nombre illimit√© d'arguments. Tous les arguments sont concat√©n√©s avant l'affichage
# et s√©par√©s par une espace (par d√©faut mais param√©trable)
print(liste_A[0], liste_A[1], liste_A[2], liste_A[3])

[0, 3, 2, 'hi']
0 3 2 hi


In [186]:
# Indexer une liste

# Dernier √©l√©ment
print(liste_C[-1])
# Avant-dernier
print(liste_C[-2])

# Dans le cas de listes imbriqu√©es, on peut sp√©cifier les indexs de fa√ßon hi√©rarchique
print(liste_C[-1][0])

[1, 2, 3]
hi
1


La syntaxe g√©n√©rale pour parcourir/extraire des sous-listes est la suivante : **`my_list[start:end:step]`**

Avec :
* `start` : index √† partir duquel on parcourt la liste initiale (ici `my_list`). Si omis, d√©marrer √† partir du d√©but de la liste initiale (soit `start = 0`)
* `end` : index final de parcours. Cet √©l√©ment est **exclus** (i.e. le dernier √©l√©ment parcouru est √† la position `end - 1`. Si omis, s'arr√™ter √† la fin de la liste initiale (soit `end = len(my_list)`). 
* `step` : pas √† utiliser pour parcourir la liste. Si omis, le pas vaut 1 (i.e. on parcourt tous les √©l√©ments). Le pas peut √™tre positif (parcours par ordre croissant de positions) ou n√©gatif (parcours dans le sens oppos√©)

Quelques exemples

In [187]:
# Extraire une sous-liste
print('Liste B :', liste_B) # liste initiale
print(liste_B[0:2]) # Du premier √©l√©ment jusqu'au 3e (**exclus**)
print(liste_B[:2]) # Equivalent √† la ligne pr√©c√©dente

print(liste_B[1:5:2]) # du deuxi√®me au sixi√®me √©l√©ment (exclus), en s√©lectionner une valeur sur deux
print(liste_B[::3]) # Parcourir toute la liste, mais uniquement un √©l√©ment sur 3, en partant du premier
print(liste_B[::-1]) # Parcourir toute la liste mais avec un pas de -1, i.e. parcourir dans le sens inverse

Liste B : [0, 3, 2, 4, 5, 6, 1]
[0, 3]
[0, 3]
[3, 4]
[0, 4, 1]
[1, 6, 5, 4, 2, 3, 0]


La derni√®re expression (`liste_B[::-1]`) est un moyen efficace d'inverser une liste avant de l'affecter √† une variable.

##### Quelques fonctions de listes

**Trier**

```python
my_list.sort()  # le tri se fait en place, my_list est √©cras√©e et remplac√©e par une version tri√©e 
```

In [188]:
my_list = [3,2,4,1]

my_list.sort()

print(my_list)

[1, 2, 3, 4]


**Ajouter un √©l√©ment**

```python
my_list.append('hi') # l'ajout se fait 'en place' (aucune valeur retourn√©e mais my_list est modifi√©e')
```

In [189]:
my_list.append('hi') 

print(my_list) # remarquer que l'ordre d'insertion est conserv√©

[1, 2, 3, 4, 'hi']


**Ins√©rer un √©lement √† un certain index**

```python
my_list.insert(index, ()  
```

In [190]:
my_list.insert(5,"Ceci sera ins√©r√© √† l'index 5 !")
print(my_list)

[1, 2, 3, 4, 'hi', "Ceci sera ins√©r√© √† l'index 5 !"]


**Supprimer le dernier √©l√©ment**

```python
my_list.pop() # Supprime par d√©faut le dernier √©lement
```

In [191]:
my_list.pop() # Remarquez que pop() supprime par d√©faut le dernier √©lement !

"Ceci sera ins√©r√© √† l'index 5 !"

**Supprimer l'√©l√©ment √† l'index `i`**

```python
my_list.pop(i)  
```

In [192]:
my_list.pop(4) # Remarquez que l'√©lement supprim√© est retourn√© !

'hi'

**Taille de la liste**

```python
len(my_list)
```

**Compter le nombre d'occurence d'un √©lement `e`**

```python
my_list.count(e)
```

In [193]:
print(len(my_list)) # Nombre d'√©l√©ments dans une liste

print(my_list.count(3)) # Compter le nombre d'occurences du param√®tre (ici le nombre d'occurences de 3) 

4
1


**Etendre une liste `my_list` avec une autre liste `other_list`**

```python
my_list.extend(other_list)
```

In [194]:
print(my_list)
my_list.extend([7,8,9]) # Etendre my_liste : chaque √©l√©ment de la liste pass√©e en param√®tre est ajout√© dans my_list
print(my_list)

[1, 2, 3, 4]
[1, 2, 3, 4, 7, 8, 9]


**Max/Min d'une liste de m√™me type**

```python
# max et min suppose que tous les √©l√©ments de la liste soit comparables deux √† deux
max(my_list)
min(my_list)
```

In [195]:
my_list = [900, 78, 65, -678, 0, -22, 15, 78, -22]

print('Max de my_list:', max(my_list)) 
print('Min de my_list:', min(my_list))


Max de my_list: 900
Min de my_list: -678


**Inverser une liste**
```python
my_list.reverse() # Inverse les √©lements de la liste (Le dernier <-> Le premier, l'avant dernier <-> 2√®me, etc...)
```

In [196]:
my_list.reverse()
print(my_list)

[-22, 78, 15, -22, 0, -678, 65, 78, 900]


**Supprimer la premi√®re occurence d'une valeur `v`**

```python
my_list.remove(v)
```

In [197]:
my_list.remove(78)
print(my_list)

[-22, 15, -22, 0, -678, 65, 78, 900]


**Supprime tous les √©lements**

```python
my_list.clear()
```

In [198]:
my_list.clear()
print(my_list)

[]


**Unpack une liste dans des variables**
```python
my_list.reverse() # Inverse les √©lements de la liste (Le dernier <-> Le premier, l'avant dernier <-> 2√®me, etc...)
```

In [199]:
tmp_list = [1, 65, 'blabla']
(a, b, c) = tmp_list # List unpacking : on s√©pare chaque √©l√©ment de la liste √† sa propre variable
print(a)
print(b)
print(c)

1
65
blabla


#### Tuple

Un tuple (n-uplet en bon fran√ßais) est identique √† une liste mais **ne peut √™tre modifi√© apr√®s sa cr√©ation** (il est immutable), il est d√©fini par des parenth√®ses.

Toutes les techniques et fonctions montr√©es ci-dessus sur les listes fonctionnent √©galement sur les tuples, √† l'exception de celles modifiant le tuple (ce qui est impossible).

Vous aurez rarement besoin de le manipuler pour les TD, mais il est couramment utilis√© par les librairies en raison de son caract√®re immutable.

In [274]:
my_tuple = (0,3,2,'h')
my_tuple[1]
print(type(my_tuple))

<class 'tuple'>


In [52]:
my_tuple[1] = 10 # TypeError : impossible de modifier un tuple existant

TypeError: 'tuple' object does not support item assignment

In [201]:
# Tuple d'un √©lement
my_tuple = (1,)

In [203]:
# Un cas utile
coord = [(0,0),(1,1),(2,2)]
for (x,y) in coord:
    print(x,y)

0 0
1 1
2 2


#### Ranges

Les ranges sont des s√©quences non mutables d'entiers beaucoup utilis√© dans les boucles for pour cr√©er des listes de nombres rapidement et d'√©viter de stocker inutilement des donn√©es (mais plut√¥t de les g√©n√©rer).

In [294]:
print(type(range(5)))

print(list(range(5)))

<class 'range'>
[0, 1, 2, 3, 4]


In [295]:
list(range(5,11))

[5, 6, 7, 8, 9, 10]

In [298]:
list(range(1,22,2))

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21]

In [301]:
for r in range(-20,21,5):
    print(r)

-20
-15
-10
-5
0
5
10
15
20


#### Ensembles (sets)

Les  ensembles (ou `sets`) sont des collections **non ordonn√©es** d'objets **distincts et unique**.

In [273]:
my_set = set() # Ensemble vide
my_set = {'a','b','c',1,2,3} 
print(type(my_set))

<class 'set'>


**Ajouter un √©lement**

In [236]:
print(len(my_set))
my_set.add('e')
print(len(my_set))
my_set.add('e') # N'ajoute rien car 'e' est d√©j√† dans l'ensemble
print(my_set)

6
7
{'e', 1, 2, 3, 'b', 'a', 'c'}


**Union** AuB

In [253]:
A = {'a','b','c',1,2,3} 
B = {'c','d','e',3,4,5}
C = A.union(B)
print(C)

{'e', 1, 2, 3, 4, 5, 'b', 'a', 'd', 'c'}


**Intersection** AnB

In [250]:
C = A.intersection(B)
print(C)

{'c', 3}


**Diff√©rence** A \ B

In [251]:
C = A.difference(B)
print(new_set)

{1, 2, 'a', 'b'}


In [252]:
C = A - B
print(new_set)

{1, 2, 'a', 'b'}


**Diff√©rence symm√©trique** AŒîB

In [257]:
C = A.symmetric_difference(B)
print(C)

{1, 2, 4, 5, 'e', 'b', 'a', 'd'}


#### Dictionnaire

Un dictionnaire est similaire √† une liste mais chaque entr√©e est assign√©e par une cl√© / un nom, il est **d√©fini avec des accolades**.

Cet objet est notamment utilis√© pour la construction de l'index des colonnes (variables) du type *DataFrame* de la librairie `pandas`.

> Remarque importante : les cl√©s du dictionnaire doivent √™tre hashables. Autrement dit elles ne peuvent pas √™tre modifi√©es apr√®s cr√©ation (et est donc unique). Une liste ne peut donc pas √™tre une cl√© de dictionnaire (mais possible de l'utiliser en valeur). Une cha√Æne de caract√®re, un nombre ou un tuple (pour ne citer qu'eux) peuvent √™tre utilis√©s comme cl√©s.

In [275]:
# Cr√©ation d'un dictionnaire vide (les deux syntaxes sont √©quivalentes)
my_dict = dict()
my_dict = {}
type(my_dict)

dict

In [258]:
# Cr√©ation d'un dictionnaire pr√©-rempli
months = {'Jan':31 , 'F√©v': 28, 'Mar':31}
months['Jan']

31

**Ajout d'une paire (cl√©,valeur)**

In [55]:
print(months) # valeur initiale
months['D√©c'] = 31
print(months) # nouvelle valeur

{'Jan': 31, 'F√©v': 28, 'Mar': 31}
{'Jan': 31, 'F√©v': 28, 'Mar': 31, 'D√©c': 31}


**Suppression d'une paire (cl√©,valeur)**

In [283]:
months.pop('Jan')

31

**Modification de la valeur d'une cl√©**

In [284]:
months['F√©v'] = 29 # Ann√©e bissextile...
print(months)

{'F√©v': 29, 'Mar': 31}


**R√©cup√©rer toutes les cl√©s**

In [57]:
# It√©rer le long de cl√©s
months.keys()

dict_keys(['Jan', 'F√©v', 'Mar', 'D√©c'])

**R√©cup√©rer toutes les valeurs**

In [261]:
# It√©rer le long des valeurs
months.values()

dict_values([31, 29, 31])

**R√©cup√©rer les combinaison (cl√©, valeur)**

In [265]:
# Combinaison de keys() et values() : renvoie des tuples cl√©/valeur pour it√©rer sur chaque couple
months.items()

dict_items([('Jan', 31), ('F√©v', 29), ('Mar', 31)])

In [285]:
for item in months.items():
    print(item)

('F√©v', 29)
('Mar', 31)


#### Matrices, array, DataFrame, ...

Dictionnaires, tuples et listes constituent les **structures de donn√©es de base** en Python. Leurs fonctionnalit√©s sont n√©anmoins limit√©es pour une analyse de donn√©es (pas de calcul facile d'indicateurs num√©riques par exemple).

Des structures de donn√©es plus avanc√©es sont fournies par des biblioth√®ques tierces. On √©tudiera le `DataFrame` fourni par `pandas` dans le notebook suivant.

----

## 4. Syntaxe de Python

### 4.1 Structures de contr√¥le √©l√©mentaires
Un bloc de commande est d√©fini par **deux points suivis d'une indentation fixe**.  Cela force l'√©criture de codes faciles √† lire mais √† √™tre tr√®s attentif sur la gestion des indentations car la fin d'indentation signifie la fin d'un bloc de commandes.

Heureusement, les notebooks vous aident dans la r√©daction de ces blocs en vous proposant par d√©faut une indentation cens√©e √™tre correcte.

#### Structure conditionnelle

In [286]:
# si alors, sinon si alors, sinon
# L'expression en face de chaque mot cl√© if/elif/else doit fournir un bool√©en quand elle est √©valu√©e
a = 2

if a>0:
    b = 0
    print(b)
elif a > 50:
    print("a est plus grand que 50")
else:
    b=-1

print(b)

0
0


#### Structure it√©rative / boucles

In [61]:
for i in range(4):
    print(i)

0
1
2
3


In [62]:
for i in range(1,8,2):
    print(i)

1
3
5
7


In [63]:
# Pas la peine de d√©finir un compteur pour it√©rer sur un √©l√©ment it√©rable (liste, tuple, ...)
# Python peut directement renvoyer l'√©l√©ment √† chaque tour de boucle
# Cette fonctionnalit√© est tr√®s efficace en la combinant aux m√©thodes d'indexation vues pr√©c√©demment

for element in my_list:
    print(element) # un √©l√©ment par ligne

1
2
3
4
hi
7
8
9
[10, 11, 12]


Il existe √©galement une structure `while` plus rarement utilis√©e. Elle n'est pas pr√©sent√©e ici (toutes les boucles `while` peuvent √™tre r√©√©crites en boucles `for`).

### 4.2 Fonctions

Les fonctions permettent de diviser de(s) grande(s) parties de code en morceaux afin de favoriser la r√©-utilisation de code et √©viter les r√©pt√©titions ([DRY](https://fr.wikipedia.org/wiki/Ne_vous_r√©p√©tez_pas)).
Elles sont d√©clar√©es avec le mot-cl√© **`def`**.

In [287]:
# D√©finition d'une fonction, le mot cl√© "def" est obligatoire
def pythagorus(x,y):
    """ Calcule l'hypot√©nuse d'un triangle """ # Docstring (optionnelle) : document la fonction
    r = pow(x**2+y**2,0.5)
    
    return x,y,r # Valeur de retour

In [65]:
# exemples d'appel, tous √©quivalents
pythagorus(3,4) # param√®tres pass√©s dans l'ordre d'appel
pythagorus(x=3,y=4) # pour plus de clart√©
pythagorus(y=4, x=3) # √©quivalent aux appels pr√©c√©dents, l'ordre des param√®tres **nomm√©s** n'est pas important

(3, 4, 5.0)

In [289]:
# aide int√©gr√©e
help(pythagorus)

Help on function pythagorus in module __main__:

pythagorus(x, y)
    Calcule l'hypot√©nuse d'un triangle



In [67]:
# Fonction avec des param√®tres par d√©faut
def pythagorus(x=1,y=1):
    """ calcule l'hypot√©nuse d'un triangle """
    r = pow(x**2+y**2,0.5)
    return x,y,r

pythagorus()
pythagorus(5) # √©quivalent √† pythagorus(x=5)

(5, 1, 5.0990195135927845)

La fonction `pythagorus` renvoie 3 valeurs correspondant aux longueurs des trois c√¥t√©s. Il est possible d'affecter directement chaque valeur dans une variable distincte des autres, de la m√™me mani√®re que pour d√©couper une liste (*list unpacking*).

In [68]:
# Si une seule variable est donn√©e pour r√©cup√©rer la sortie, alors elle recevra un tuple avec toutes les valeurs
# retourn√©es par la fonction
a = pythagorus(5, 4)

print(a)
print(type(a))

(5, 4, 6.4031242374328485)
<class 'tuple'>


In [303]:
# Si autant de variables sont donn√©es que de valeurs sont retourn√©es par la fonction, alors chaque variable recevra
# une valeur retourn√©e, dans l'ordre de retour

a, b, hypotenuse = pythagorus(5, 4)
print(a)
print(b)
print(hypotenuse)
print(type(hypotenuse))

5
4
6.4031242374328485
<class 'float'>


Le cas interm√©diaire o√π le nombre de variables donn√©es est inf√©rieur au nombre de valeurs retourn√©es par la fonction ne fonctionne pas par d√©faut et renverra une erreur (une Exception). En effet ce **cas est ambigu**, Python ne sait pas comment r√©partir les valeurs retourn√©es entre les variables donn√©es.

Il est possible d'utiliser **l'op√©rateur `*`** (dit *splat operator*) pour indiquer clairement le contenu que chaque variable est cens√© recevoir. Ce cas ne sera pas √©tudi√© en TD, mais il repr√©sente un alli√© efficace pour limiter le nombre de lignes de code n√©cessaire.

### 4.3 Compr√©hensions de liste (List Comprehensions)

La Compr√©hension de liste sont un op√©rateur un peu sp√©cial en Python. Elle permet d'effectuer de fa√ßon courte et √©l√©gante des op√©rations sur tous les √©l√©ments d'une liste et de retourner cette liste (ce qui √©vite d'utiliser un boucle for pour faire la m√™me chose).

In [311]:
valeurs = [-1,-2,-3,-4,-5]
print([v**3 for v in valeurs])

valeurs = ['a','b','c']
print([v*10 for v in valeurs])

[-1, -8, -27, -64, -125]
['aaaaaaaaaa', 'bbbbbbbbbb', 'cccccccccc']


### 4.4 Modules et librairies

Comme tous les langages de programmation modernes, Python est con√ßu pour √™tre modulaire et permet facilement d'incorporer des fonctions et classes issues de sources diverses.

Ces bouts de code externes peuvent √™tre rang√©s dans des **modules** ou des **packages** selon le niveau de complexit√© du projet.

#### Modules 
Un **module** contient plusieurs fonctions et commandes qui sont regroup√©es dans un fichier d'extension `.py`. **Un module est donc un unique fichier `.py`**.

Un **package** est une collection de plusieurs modules, interagissant entre eux si n√©cessaire. **Un package est donc un dossier de fichier `.py` et sous-dossiers**. Pour transformer un simple dossier en package, il faut ins√©rer un fichier avec le nom `__init__.py` √† sa racine (et celle de chaque sous-dossier). Le code dans ce fichier sera ex√©cut√© lorsque le package est import√©. Les fichiers `__init__.py` peuvent √™tre vides mais doivent √™tre cr√©√©s.

Dans tous les cas, importer un objet d√©fini dans un module/package se fait √† l'aide de la d√©claration **`import`** 

Commencer par d√©finir un module dans un fichier texte contenant les commandes suivantes.

```python
def dit_bonjour():
    print("Bonjour")
    
def div_by_2(x):
    return x/2
```

Sauver le fichier avec pour nom `testM.py` dans le r√©pertoire courant de ce notebook.

Deux fonctions sont d√©finies dans ce module : `dit_bonjour` et `div_by_2`. Nous allons tester les diff√©rents modes d'importation sur ce module.

**Premier cas** : on importe toutes les fonctions du module. Afin d'√©viter les conflits de nommage (e.g. si une fonction `div_by_2` a d√©j√† √©t√© d√©finie auparavant et que l'on ne souhaite pas l'√©craser), Python va par d√©faut importer ces fonctions dans le *namespace* du m√™me nom que le module.

In [70]:
import testM
testM.dit_bonjour() # Les √©l√©ments de testM (ici les deux fonctions) sont accessibles dans le namespace "testM"

ModuleNotFoundError: No module named 'testM'

In [None]:
print(testM.div_by_2(10))

**Deuxi√®me cas** : On peut √©galement **cibler pr√©cis√©ment les objets √† importer** (ici la fonction `dit_bonjour`). Dans ce cas, l'objet import√© sera disponible dans le namespace par d√©faut et donc aucun pr√©fixe ne sera n√©cessaire pour l'utiliser. **Attention aux conflits de nommage** dans ce cas, Python ne l√®vera aucune exception si un objet pr√©c√©demment cr√©√© poss√®de le m√™me nom.

In [None]:
from testM import dit_bonjour
dit_bonjour() # aucun pr√©fixe n√©cessaire

In [None]:
# On v√©rifie bien que l'objet import√© est le m√™me que pr√©c√©demment
# En Python, les fonctions sont des objets comme les autres, et sont donc √©galement comparables en r√©f√©rence
dit_bonjour is testM.dit_bonjour

**Troisi√®me cas** : Identique au deuxi√®me cas, mais en d√©finissant un alias pour l'objet import√©. Ceci permet d'√©viter les conflits de nommage.

In [None]:
from testM import dit_bonjour as salut # on importe la m√™me fonction qu'au dessus, mais avec un alias "salut"

salut()

In [None]:
# A nouveau, on v√©rifie bien que l'alias et l'objet initial sont identiques
salut is dit_bonjour

Les fonctions et classes import√©es fonctionnent exactement de la m√™me mani√®re que les fonctions d√©finies au cours de la session (par exemple dans le notebook).

Lors de son premier appel, un module est pr√©-compil√© dans un fichier `.pyc` qui est utilis√© pour les appels suivants. **Attention**, si le fichier a √©t√© modifi√© / corrig√©, il a besoin d'√™tre recharg√© par la commande `reload(name)`.

#### Package

Une librairie (*package*) regroupe plusieurs modules dans diff√©rents sous-r√©pertoires. Le chargement sp√©cifique d'un des modules se fait en pr√©cisant le chemin.

Chaque r√©pertoire d'un package doit √™tre s√©par√© par un point (`.`).

In [None]:
# Import de la fonction randint dans le module random lui-m√™me dans le package numpy
from numpy.random import randint

Les modules et packages d√©velopp√©s par la communaut√© peuvent √™tre t√©l√©charg√©s facilement avec l'utilitaire `pip` que vous avez utilis√© au d√©but de ce TD pour mettre en place votre environnement.

Ces modules et package externes sont importables exactement de la m√™me fa√ßon que montr√©s ci-dessus.

### Librairie et documentation standard

La [**librairie standard Python**](https://docs.python.org/3/library/) contient une **quantit√© immense de fonctions** pouvant accomplir la grande majorit√© des t√¢ches. Certaines biblioth√®ques tierces permettent n√©anmoins de combler les manques et d'apporter des fonctionnalit√©s plus avanc√©es. C'est notamment le cas pour du calcul scientifique.

Dans la plupart des cas, ce que vous souhaitez accomplir sera **d√©j√† impl√©ment√© dans la librairie standard**. Il est donc recommand√© de se familiariser avec la documentation (de qualit√© !) et de ne pas h√©siter √† chercher un peu dans la librairie standard avant de t√©l√©charger des modules depuis des sources tierces (souvent moins maintenues).

## 4.5 A vous de jouer

On d√©finit ci-dessous un texte dans une variable `txt` (sur plusieurs lignes avec les caract√®res `\`). Avec les concepts vus jusqu'√† pr√©sent, calculer et afficher les r√©sultats suivants : 

1. Nombre de caract√®res dans `txt`
2. Nombre de caract√®res dans chaque phrase. On d√©finit une phrase comme un groupe de mots, deux phrases sont d√©limit√©es par un point (`.`).
3. Nombre moyen de caract√®re sur l'ensemble des phrases. Indice : La fonction `sum(my_list)` renvoie la somme de tous les √©l√©ments dans `my_list`.
4. Afficher le cinqui√®me mot de chaque phrase s'il existe, sinon afficher "`n/a`" ('not available')

In [73]:
txt = "The Zen of Python. \
Beautiful is better than ugly. \
Explicit is better than implicit. \
Simple is better than complex. \
Complex is better than complicated. \
Flat is better than nested. \
Sparse is better than dense. \
Readability counts. \
Special cases aren't special enough to break the rules. \
Although practicality beats purity. \
Errors should never pass silently. \
Unless explicitly silenced. \
In the face of ambiguity, refuse the temptation to guess. \
There should be one-- and preferably only one --obvious way to do it. \
Although that way may not be obvious at first unless you're Dutch. \
Now is better than never. \
Although never is often better than *right* now. \
If the implementation is hard to explain, it's a bad idea. \
If the implementation is easy to explain, it may be a good idea. \
Namespaces are one honking great idea -- let's do more of those!"

print(txt)

The Zen of Python. Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Complex is better than complicated. Flat is better than nested. Sparse is better than dense. Readability counts. Special cases aren't special enough to break the rules. Although practicality beats purity. Errors should never pass silently. Unless explicitly silenced. In the face of ambiguity, refuse the temptation to guess. There should be one-- and preferably only one --obvious way to do it. Although that way may not be obvious at first unless you're Dutch. Now is better than never. Although never is often better than *right* now. If the implementation is hard to explain, it's a bad idea. If the implementation is easy to explain, it may be a good idea. Namespaces are one honking great idea -- let's do more of those!


In [75]:
# 1. Nombre de caract√®res dans txt
txt.split('')

ValueError: empty separator

In [None]:
# 2. Nombre de caract√®res dans chaque phrases


In [None]:
# 3. Nombre moyen de caract√®res par phrase, sur l'ensemble du texte


In [None]:
# 4. Cinqui√®me mot de chaque phrase


----

## 5. Calcul scientifique
Voici deux des principales librairies indispensables au calcul scientifique. 

Deux autres librairies: `pandas`, et `plotly` seront expos√©es en d√©tail dans les notebooks suivants.

### 5.1 Principales librairies ou *packages*

#### `numpy`
Cette librairie d√©finit le type de donn√©es `array` ainsi que les fonctions de calcul qui y sont associ√©es. Il contient aussi quelques fonctions d'alg√®bre lin√©aire et statistiques. 

#### `SciPy`
Cette librairie est un ensemble tr√®s complet de modules d'alg√®bre lin√©aire, statistiques et autres algorithmes num√©riques. Le site  de la documentation en fournit la [liste](http://docs.scipy.org/doc/scipy/reference). 

La plupart de ces fonctions ne seront pas utiles pour l'analyse de donn√©es mais peuvent se r√©v√©ler utile en cas de besoin sp√©cifiques. Ce package ne sera pas utilis√© dans la suite de ces TD.


Les fonctions dans `SciPy` et `numpy` sont **impl√©ment√©es pour la plupart en C**. Les performances offertes sont donc proches des performances maximales de la machine.

### 5.2 Type `array`

C'est de loin la structure de donn√©es la plus utilis√©e pour le calcul scientifique sous Python. Elle d√©crit des tableaux ou **matrices multi-indices de dimension arbitraire $ n = 1, 2, 3, \ldots , 40, \ldots $**. **Tous les √©l√©ments d'un `array` sont de m√™me type (bool√©en, entier, r√©el, complexe)**. 

Il est possible de contr√¥ler pr√©cis√©ment le type d'un `array`, par exemple pour gagner  de la place en m√©moire, en codant les entiers sur 8, 16, 32 ou 64 bits, de m√™me pour les r√©els (*float*) ou les complexes.

Les tableaux ou tables de donn√©es (*DataFrame*), bases d'analyses statistiques et regroupant des objets de types diff√©rents sont d√©crits avec la librairie `pandas`. On peut donc voir un `DataFrame` comme une collection d'`array`, **chaque colonne du `DataFrame` √©tant un `array` 1D**.

Un `DataFrame` se rapproche tr√®s fortement du concept de **cube OLAP**. Chaque `DataFrame` est ainsi un cube, n√©anmoins le `DataFrame` doit **tenir** (par d√©faut) **enti√®rement en m√©moire** ce qui limite fortement sa taille.

#### D√©finition du type `array`

In [None]:
# Importation du package numpy, ici alias√© par np
import numpy as np

my_1d_array = np.array([4,3,2]) # On cr√©e un array √† partir d'une simple liste Python
print(my_1d_array)

In [None]:
# Un array 2D est simplement une liste de listes
# Par d√©faut, chaque liste imbriqu√©e est une ligne de l'array final, 
# mais il est possible de personnaliser ce comportement

my_2d_array = np.array([[1,0,0],[0,2,0],[0,0,3]]) 
print(my_2d_array)

In [None]:
my_2d_array.shape

Le principal avantage de `numpy` par rapport √† des listes imbriqu√©es r√©side dans ses capacit√©s d'**indexation**. Il est ainsi possible de s√©lectionner des morceaux d'array efficacement et avec une **syntaxe proche de la s√©lection de sous-listes**.

In [None]:
a = np.array([[0,1],[2,3],[4,5]])

a[2,1] # (ligne, colonne), les indices commencent √† 0

In [None]:
a[:,1] # S√©lectionner toute une colonne (ici la deuxi√®me)

In [None]:
a[0,:] # S√©lectionner toute une ligne (ici la premi√®re)

#### Fonctions de type `array`

Ces fonctions permettent d'initialiser rapidement un array r√©pondant √† certains crit√®res courants (que des 1 sur la diagonale, √©l√©ments croissants, ...)

In [None]:
np.arange(5)

In [None]:
np.ones(3)

In [None]:
np.ones(shape=(3,4))

In [None]:
np.eye(3)

In [None]:
np.linspace(3, 7, 3)
np.linspace(start=3, stop=7, num=3) # √©quivalent √† la ligne pr√©c√©dente

In [None]:
d = np.diag([1,2,4,3])
d

In [None]:
M = np.array([[10*n+m for n in range(3)] 
              for m in range(2)]) 
print(M)

Le module `numpy.random` fournit toute une liste de fonctions pour la g√©n√©ration de matrices al√©atoires.

In [None]:
from numpy import random
random.rand(4,2) # tirage uniforme entre 0 et 1, taille finale (4, 2)

In [None]:
random.randn(4,2) # tirage selon la loi N(0,1), taille finale (4,2)

In [None]:
# Enregistrement d'un array dans un fichier
# Le format .npy est optimis√© pour stocker des matrices num√©riques efficacement
np.save('data.npy', M)
np.load('data.npy')

#### Slicing

Le slicing est l'action de s√©lectionner une partie d'un `array`. On peut voir cette op√©ration comme une d√©coupe (*slice*) de l'array selon un certain nombre d'axes.

Le r√©sultat d'une op√©ration de *slicing* est donc un array de dimension √©gale ou plus petite que l'array source.

In [None]:
v = np.array([1,2,3,4,5])
print(v)

Les `array` 1D se comportent comme des listes Python, si ce n'est que les bornes des slices sont **incluses dans le r√©sultat**

In [None]:
v[1:4]

In [None]:
v[1:4:2]

In [None]:
v[::]

In [None]:
v[::2] # par pas de 2

In [None]:
v[:3] # Jusqu'au troisi√®me √©lement (inclus)

In [None]:
v[3:] # √† partir du 3e √©l√©ment

In [None]:
v[-1] # dernier √©l√©ment

In [None]:
v[-2:] # deux derniers √©l√©ments 

In [None]:
M = random.rand(4,3) 
print(M)

In [None]:
ind = [1,2]
M[ind] # lignes d'indices 1 et 2

In [None]:
M[:,ind] # colonnes d'indices 1 et 2

In [None]:
# Masque (filtre) de s√©lection √† partir d'une condition
(M > 0.5)

In [None]:
M[M > 0.5]

#### Autres fonctions

In [None]:
a = np.array([[0,1],[2,3],[4,5]])
a

In [None]:
np.ndim(a) # Nombre de dimensions

In [None]:
np.size(a) # Nombre d‚Äô√©l√©ments au total

In [None]:
a.min() # Valeur min

In [None]:
a.sum() # Somme des valeurs

In [None]:
a.sum(axis=0)  # Somme sur les lignes

In [None]:
a.sum(axis=1)  # sur les colonnes

Manipulation de formes (*reshaping*)

In [None]:
a = np.arange(6)
print(a, a.shape)
a = a.reshape(3, 2) # il faut que les deux formes soient compatibles : m√™me nombre d'√©l√©ments dans les deux cas
print(a, a.shape)

#### Op√©rations entre  `array`s

Les op√©rateurs classiques (+, -, * , /) sont calcul√©s termes √† termes, entre deux √©l√©ments √† la m√™me position. Il faut donc que les deux op√©randes soient de la m√™me taille (m√™me *shape*)

In [None]:
# Somme
a = np.arange(6).reshape(3,2)
b = np.arange(3,9).reshape(3,2)
c = np.transpose(b) # Shape = (2, 3)

a + b

In [None]:
a * b # produit terme √† terme

In [None]:
np.dot(a,c) # produit scalaire (dot product en anglais)

In [None]:
np.power(a,2) # √©quivalent √† np.dot(a, a)

In [None]:
a / 3