```Ecole Centrale Nantes
Option InfoIA
PAPY: Programmation avancée python
TP1
Année 2022-2023
Auteur: Lucas Lestandi
lucas.lestandi@ec-nantes.fr
V1.0
```

# TP 1 : Environnement de programmation et prise en main

> **Objectifs:**
> - Mise en place d'un environement commun
>   * Mise en place d'un système unix de développement
>   * Installation et déploiement conda
>   * Prise en main IDE/Git
>   * installation jupyter
> - S'exercer sur le python de base


**Remarque:** une part importante des activités de développement consiste à rechercher de l'information (principalement en ligne) et de l'appliquer à son problème. Dans la pratique, on évitera de copier coller une solution incomprise depuis stackoverflow. Par contre certaines explications sont de très bonnes qualités, il faut savoir trouver un bon équilibre! Enfin, un grand nombre d'outils et bibliothèques possèdes des documentation de très bonne qualité comme nous allons le voir avec les docs *microsoft, anaconda, miniconda, jupyter, python, etc.* 

## Système d'exploitation (OS)

> Windows permet l'utilisation native de python mais ce n'est pas très pratique

> On va s'équiper d'un environemement UNIX (mac/linux) si ce n'est déjà fait

### Windows Subsytem Linux (WSL)
Suivre
https://docs.microsoft.com/fr-fr/windows/wsl/install

ou
https://lecrabeinfo.net/installer-wsl-windows-subsystem-for-linux-sur-windows-10.html

Pour un plus grand confort, installer le terminal windows https://apps.microsoft.com/store/detail/windows-terminal/9N0DX20HK701?hl=fr-fr&gl=FR

![exemple de terminal](ressources/terminal_WSL.PNG)

⚠️ A partir de maintenant il est vivement recommandé d'effectuer les manipulations dans la WSL ou sur votre systeme linux.

> **Nous n'assurons pas le support windows**

### Les machines virtuelles (VM)

Vous pouvez aussi installer très facilement des [VM](https://fr.wikipedia.org/wiki/Machine_virtuelle), en utilisant par exemple [`VirtualBox`](https://www.virtualbox.org/) pour virtualiser un système de test. **Ce n'est pas recommandé pour nos TPs puisque les performances sont assez mauvaises.** 

### Docker (optionnel)

Une autre approche est d'utiliser des *container* comme docker. Si vous êtes administrateur de votre machine, je vous recommande de tester cette approche. Elle permet d'invoquer un environnement d'exécution isolé et contenant tous les outils nécessaires au bon fonctionnement d'un programme. Cette approche est très utilisée pour le déploiement de services sur des fermes de serveur. En local, elle permet par exemple l'utilisation simultanée de logiciels incompatibles entre eux (par exemple lié à problèmes de version) et surtout un controle fin et pérenne des versions de logiciels/bibliothèques nécessaire au bon fonctionnemnet d'une application. 

> **Remarque** Il n'est pas nécessaire d'installer Docker pour ce TP, vous pouvez passer à la suite si vous le souhaitez. 

#### Installation

https://docs.docker.com/get-docker/

#### Quelques bases
https://docs.docker.com/get-started/overview/ propose une introduction très complète. 

On peut par exemple lancer un système ubuntu très simplemment depuis windows en exécutant la commande suivante:
```shell 
$ docker run -it ubuntu
```
Qui recherchera l'image d'ubuntu si celle-ci n'est pas déjà présente en local, puis exécutera l'environnement en mode intéractif. 

Pour information, le dockerfile ne contient que 3 lignes :
```shell
FROM scratch #l'image minimale de docker
ADD ubuntu-jammy-oci-amd64-root.tar.gz / #l'archive contenant ubuntu
CMD ["bash"] # la commande que l'on exécutera par défaut avec l'option -it
```


> Pour les TPs de ce cours, une très bonne série d'images est proposée par https://jupyter-docker-stacks.readthedocs.io/en/latest/using/selecting.html. Dans un premier temps, `scipy-notebook` est un choix très complet.

## Anaconda

  <div style="text-align: left; float: left;">
    <img src="https://upload.wikimedia.org/wikipedia/en/c/cd/Anaconda_Logo.png" alt="Logo Anaconda" width="400" height="200">
  </div>

  <div style="text-align: left; float: left;">
    <ul>
        <li><b>Anaconda</b> : distribution de python</li>
        <li>gestionnaire d'environement</li>
        <li> <a src="https://www.anaconda.com/products/distribution">Distribution officielle avec de nombreux paquets pré-installés</a> </li>
        <li>miniconda : version minimale</li>
        <li>mamba : installation rapide de paquet </li>
    </ul>
  </div>

 ### Installation (Windows)
 
 Suivre les instructions en fonction de votre machine: https://docs.anaconda.com/anaconda/install/

In [1]:
%%html 
<iframe src="https://docs.anaconda.com/anaconda/install/" width="1000" height="800"></iframe>

Anaconda peut être livré avec une version graphique
![navigateur](ressources/anaconda-navigator.png)

Mais contient à minima un moteur pour la gestion des paquets *via* un interface en ligne de commande, soit `Ancaconda prompt` (qui émule un shell linux) soit directement dans le shell du système en l'activant ou non.

### Installation (miniconda sous linux)

Miniconda est une version "allégée" et surtout libre de conda. On peut télécharger le script d'installation )(`Miniconda3 Linux 64-bit`) directement https://docs.conda.io/en/latest/miniconda.html ou exécuter la série de commande suivante dans le dossier de votre choix.
```shell
$ wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
$ chmod 711 Miniconda3-latest-Linux-x86_64.sh
$ ./Miniconda3-latest-Linux-x86_64.sh
```
Puis on répond aux questions posées par le script. Une fois celui-ci complété, `conda` est accessible et l'environement de base est actif par défaut dans les nouveaux terminaux.

> miniconda est aussi disponible sous windows.

### Création d'environement via la CLI (Command Line Interface)

**But**: 
- Créer un environnement autonome pour ce TP : `TP1`
- Installer quelques paquets pour un usage scientifique/AI

> ⚠️ Selon la méthode d'installation, les paquets installés dans l'environnement de base diffèrent. On va donc créer un environement distinct qui nous permettra d'avoir la même configuration sur toute les machines. 

> On verra dans un TP ultérieur que ces environements peuvent etre exportés (plus ou moins) facilement pour des questions de portabilité.

> Pour toutes les questions suivantes, vous trouverez les informations nécessaires dans les documentations conda/anaconda en ligne.

<div class="alert alert-info"> 
    <ol>
        <li> Lancer un terminal/anaconda prompt</li>
        <li> Créer un environement conda appelé <code>TP1</code> </li>
        <li> L'activer avec la commande <code>conda activate TP1</code>. L'entête du terminal commence désormais par `(TP1)`</li>
        <li> Quel version de python est appelée par les commandes <code>python</code> et <code>python3</code>. On pourra utiliser la commande shell <code>which</code> ou exécuter python pour plus de détail.</li>
        <li> Installer la version 3.10.6 de python précisément.
        <li> Tester à nouveau la version de python</li>
        <li> Installer et tester le paquet <code>ipython</code> grace à conda. Il propose entre autre un shell python interractif avec une introspection avancée et une colorisation.</li>
        <li> Installer les paquets suivants : <code>scipy, matplotlib, sympy</code>. <i>Vérifier à nouveau la version python, que conclure?</i> 
        <br> <i>L'installation peut prendre du temps puisqu'elle nécessite de vérifier qu'il n'y a pas de conflit entre les modules installés! A l'inverse, <code>pip</code> l'installateur le plus commun n'effectue pas de telles vérifications. Une solution récente pour accélérer l'installation est d'utiliser `mamba` en lieu et place de conda.</i>
        </li>
        <li> Installer le paquet <code>pygame</code> et tester la commande suivante :  <code>python -m pygame.examples.aliens</code>. Que se passe-t-il?</li>
        <li> Dans le terminal interractif de votre choix, calculez les 10 premiers termes de la suite de Fibonacci ${u_{n+2}=u_n+u_{n+2}}, u_0=0, u_1=1$</li>
        <li> Idem pour les 100 premiers termes.</li>
    </ol>
</div>

**Solution 2,3,4:**
```shell 
$ conda create --name TP1
$ conda activate TP1 # active l'environement
(TP1) $ which python3 # on teste l'emplacement du python appelé par python3
/usr/bin/python3
(TP1) $ python3
Python 3.8.10 (default, Jun 22 2022, 20:18:18)
[GCC 9.4.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>>
```

**Solution 5,6:**
*Si le paquet n'est pas disponible sur le dépot de base, on pourra utiliser le canal forge avec l'option `-c conda-forge`. Ce dernier contient beaucoup plus de paquets.*
```shell
(TP1) $ conda install python=3.10.6 -y 
# ou
(TP1) $ conda install -c conda-forge python=3.10.6 -y 
...
```

Nouveau test
```shell
(TP1) $ which python
/home/llestandi/anaconda3/envs/TP1/bin/python
(TP1) $ python --version
Python 3.10.6
```

Maintenant, si on tape `python` dans le shell: 
```shell
(TP1) $ python
Python 3.10.4 (main, Mar 31 2022, 08:41:55) [GCC 7.5.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>>
```

**Solution 7,8:**
```shell
(TP1) $ conda install ipython -y
(TP1) $ conda install scipy matplotlib sympy -y
```

**Solution 9:**
```shell
(TP1) $ conda install pygame -y
# renvoie un erreur, il faut utiliser pip
(TP1) $ pip install pygame
(TP1) $ python -m pygame.examples.aliens
# renvoie une erreur si on utilise la wsl
# démarre un petit jeu graphique si machine linux ou anaconda prompt
```

**Solution 10, 11**
```python
Python 3.10.4 (main, Mar 31 2022, 08:41:55) [GCC 7.5.0]
Type 'copyright', 'credits' or 'license' for more information
IPython 8.4.0 -- An enhanced Interactive Python. Type '?' for help.

In [1]: def fibonacci(u_n,u_n1):
   ...:     return u_n+u_n1
   ...:

In [2]: Fib=[0,1]

In [3]: for i in range(1,11):
   ...:     Fib.append(fibonacci(Fib[-1],Fib[-2]))
   ...:

In [4]: Fib
Out[4]: [0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89]

In [5]: Fib=[0,1]
   ...: for i in range(1,101):
   ...:     Fib.append(fibonacci(Fib[-1],Fib[-2]))
   ...:

In [6]: Fib
```

## IDE : l'exemple VS Code
L'éditeur intégré de développement (IDE) s'est imposé comme l'outil indispensable pour l'élaboration de projet de code moderne. C'est particulièrement vrai en python, avec les possibilités d'introspection, exécution et débuggage de code.

### Installation et documentation

Télécharger le logiciel et l'installer. Profitez en pour survoler la doc et les tutoriels.
- https://code.visualstudio.com/

<div class="alert alert-info"> <b>Exercice:</b> 
    <ol>
        <li>Lancer VS Code</li>
        <li>Créer un fichier <code>hello-world.py</code> qui affichera "hello, world" suivit de la version de python en cours d'utilisation.</li>
        <li> Exécuter le script dans le terminal (usuel) et celui inclu dans l'IDE.
    </ol>

In [2]:
import sys
print("Hello, world")
print(sys.version)

Hello, world
3.9.13 | packaged by conda-forge | (main, May 27 2022, 16:56:21) 
[GCC 10.3.0]


### Installation des extensions python
L'IDE natif propose la coloration syntaxique mais guère plus à ce stade. Il faut donc ajouter des extensions en fonction de vos projets. Pour ce cours, installer les extensions `Python` et `Pylance` qui offrent grand nombre de *features*.

### Connection à une machine hote
Une des grandes forces de VS code est la facilité d'utilisation sur des hotes distants. Moyennant une connection SSH (locale pour la WSL) à une machine équipée de `VS code` (au moins dans sa partie serveur), on peut interragir avec le code de la même manière que s'il était sur sa propre machine.
![https://code.visualstudio.com/docs/remote/remote-overview](https://code.visualstudio.com/assets/docs/remote/remote-overview/architecture.png)
Pour faire cela on utilsera les paquets `remote-WSL` et `remote-SSH` comme décrit [ici](https://code.visualstudio.com/docs/remote/remote-overview).

Pour nos TP cela permet d'accéder à l'environement de développement que l'on a conçu dans l'exercice pércédent. VS code sera capable de repérer les paquets installés ou non et d'afficher les docstrings.

### Git
En plus de votre IDE vous aurez **ABSOLUMENT** besoin d'un logiciel de versionnage, dont `git` est le leader incontesté. A installer et activer dans votre environement!

Quelques bases : https://training.github.com/downloads/github-git-cheat-sheet.pdf

Et la [doc officielle](https://git-scm.com/book/fr/v2/Les-bases-de-Git-D%C3%A9marrer-un-d%C3%A9p%C3%B4t-Git) (trés/trop) détaillée

<div class="alert alert-info"> <b>Exercice: création d'un dépot git</b> 
    <ol>
        <li> Déplacer le fichier <code>hello-world.py</code> dans un dossier TP1 </li>
        <li> Créer un nouveau dépot git </li>
        <li> Y ajouter le fichier et `commit` les changements.
    </ol>
Il s'agit la d'un dépot local. On pourrait aussi l'uploader sur un plateforme type github.
</div>

<div class="alert alert-info"> <b>Exercice: clonage et analyse de sources</b> 
    <ol>
        <li> Trouver et cloner les sources de la bibliothèque numpy dans un dossier temporaire? </li>
        <li> Quel est le tag du commit <code>7d4349e332fcba2bc3f266267421531b3ec5d3e6</code>? </li>
        <li> Ouvrir les sources de la bibliothèque numpy et trouver de quelle façon est calculé la norme d'un <code>array</code>. Trouver la ligne où cette fonction est définie. </li>
        <li> Quelles sont les arguments de cette fonction? </li>
        <li> Quel cas (ligne et valeur de l'argument) peuvent être appelés si <code>ord</code> est laissé vide (`None`)? 
    </ol>
</div>

 <div class="alert alert-danger"> A la fin de cette section, vous devez disposer de VS code, avec un systeme de controle de version. </div>

1. `git clone https://github.com/numpy/numpy.git` va cloner le répertoire depuis github. Il est attendu des étudiants qu'ils trouvent le dépot eux même. 
1. `git log 7d4349e332fcba2bc3f266267421531b3ec5d3e6`, le tag est indiqué entre parenthèse.
1. La norme d'un `array` se calcule avec la fonction `norm` de `numpy.linalg`. Dans ma version, elle se trouve ligne 2350.
1. Les arguments sont expliqués dans le doctring,
```    
Parameters
    ----------
    x : array_like
        Input array.  If `axis` is None, `x` must be 1-D or 2-D, unless `ord`
        is None. If both `axis` and `ord` are None, the 2-norm of
        ``x.ravel`` will be returned.
    ord : {non-zero int, inf, -inf, 'fro', 'nuc'}, optional
        Order of the norm (see table under ``Notes``). inf means numpy's
        `inf` object. The default is None.
    axis : {None, int, 2-tuple of ints}, optional.
        If `axis` is an integer, it specifies the axis of `x` along which to
        compute the vector norms.  If `axis` is a 2-tuple, it specifies the
        axes that hold 2-D matrices, and the matrix norms of these matrices
        are computed.  If `axis` is None then either a vector norm (when `x`
        is 1-D) or a matrix norm (when `x` is 2-D) is returned. The default
        is None.

        .. versionadded:: 1.8.0

    keepdims : bool, optional
        If this is set to True, the axes which are normed over are left in the
        result as dimensions with size one.  With this option the result will
        broadcast correctly against the original `x`.

        .. versionadded:: 1.10.0
```
1. Si `ord` n'est pas reseigné, on retombe sur le cas par défaut en norme 2, soit la norme euclidienne, alors le cas est traité dans le bloc commençant ligne 2506 par
```python
if axis is None
``` 
Sinon des cas particuliers sont traités ligne 2544 et 2584.

## Les jupyter notebooks
Ce document est en fait un notebook, nous allons l'ouvrir pour poursuivre ce TP.

Avant cela, il faudra installer la suite d'applications avec la commande

```shell
$ conda install -c conda-forge jupyter jupyterlab nb_conda_kernels jupyter_contrib_nbextensions
```

Que l'on peut décomposer ainsi : `conda` appèle le gestionnaire d'environnement, en mode `install`. On choisit un "channel" particulier ici avec l'option `-c conda-forge` qui contient plus de paquets que le dépot standard puisqu'il est maintenu par la communauté. Enfin on liste les paquets que l'on souhaite installer. 

> La documentation pricipale : https://docs.jupyter.org/en/latest/

> Pour plus de détail sur les extensions : https://towardsdatascience.com/jupyter-notebook-extensions-517fa69d2231

> De même, pour le setup d'un environnemnet IA : https://towardsdatascience.com/how-to-set-up-anaconda-and-jupyter-notebook-the-right-way-de3b7623ea4a

**Deux** interfaces s'offrent à vous, 
1. les notebooks "purs" avec les extensions pour une approche assez textuelle mais fournie avec les nombreux outils des  `nbextensions`.
1. `jupyterlab`, qui réplique un environnement de type IDE, pour des notebooks. On a une bare de navigation, un explorateur de variable, etc. C'est entrain de devenir le nouveau standard. 

D'un point de vue technique. L'utilisation de jupyter se passe sur deux plans, un coté serveur, que l'on lance dans le terminal (ou sur un serveur) et de l'autre une visualisation à partir du navigateur de son choix. L'addresse par défaut est https://localhost:8888 avec 8888 le port par défaut (on peut le modifier) ou remplacer localhost par une addresse sur le web.  

<div class="alert alert-danger"> <b>Attention:</b> fermer le navigateur ne suffit pas à interrompre le process. Il faut le faire dans le terminal avec un double <code>CTRL+C</code>. On peut par contre terminer individuellement les notebooks pour libérer la mémoire occupée par celui-ci.</div>

### Un peu de pratique

Il existe 3 types de cellules dans les notebook. Des cellules de texte comme celle-ci. Une fois validée, le moteur interprete le texte avec le balisage Markdown (et HTML) pour sa mise en forme.
Par exemple: 
**Du texte gras markdown** suivit d'une formule mathématique en $\LaTeX$. On peut intégrer des images ou des liens très simplement : https://www.markdownguide.org/getting-started/.

In [3]:
#Enfin il y a les blocks de code interprétés. Par défaut en python avec le dernier output qui est affiché. Comme dans un interpréteur python standard.
import sys
sys.version

'3.9.13 | packaged by conda-forge | (main, May 27 2022, 16:56:21) \n[GCC 10.3.0]'

In [4]:
#On peut aussi créer des fonctions ou tout type d'objet python
def mafonction(arg1):
    print(arg1)
    return None

Dans ce cas, attention à la portée des variables et à l'ordre d'exécution. En effet, il est tentant de rééxécuter des cellules, parfois dans le désordre. Il faudra donc s'éfforcer, une fois la solution trouvée, d'avoir un notebook qui s'exécute d'une traite sans erreur. Pour vérifier cela, on utiliser le bouton noyau *"redémarrer et tout exécuter"* ⏩.

L'interpréteur ipython et par conséquent jupyter est livré avec un nombre important de **magics** qui vont soit augmenter un cellule python soit interragir directement avec le system.

In [5]:
%run hello-world.py 
#permet d'exécuter dans le notebook (et surtout l'interpréteur attaché) un fichier externe

Hello, world
3.9.13 | packaged by conda-forge | (main, May 27 2022, 16:56:21) 
[GCC 10.3.0]


In [6]:
# Evalue le temps d'exécution d'une ligne
%timeit for i in range(1000): i*2.5

26.9 µs ± 942 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [7]:
%%timeit
#pour la cellule entiere
for i in range(1000): 
    i*2.5

26.1 µs ± 351 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


Quelques commandes du terminal sont disponibles avec les magics comme `cd`, `pwd`, `ls`. 
<div class="alert alert-info"> Se déplacer dans le dossier TP1 et afficher son contenu </div>

<div class="alert alert-danger"> Les deux magics suivantes sont à appliquer dans la majorité des notebooks. Elle permettent le rechargement automatique des modules que vous utilisez ce qui est particulièrement utile lors de l'utilisation d'un projet en cours de développement.</div>

In [8]:
%reload_ext autoreload
%autoreload 2

## Un peu de python pour finir
On va s'appuyer sur l'aspect dynamique du notebook pour la fin de ce TP. En particulier, on va travailler avec du texte et des fichiers puisque cela nécessite des fonctions basiques de python.

<div class="alert alert-info"> <b> Exercice: </b> Ci-dessous un certain nombre de problèmes sont décrit, ouvrez un notebook jupyter et répondez directement dedans. </div>

<div class="alert alert-warning"> <b>Remarque:</b> n'oubliez pas d'accéder à la documentation et autres <a href="https://perso.limsi.fr/pointal/_media/python:cours:mementopython3-english.pdf">pense bête</a> pour répondre aux questions.  </div>

### Manipulation d'un texte assez long.
On va travailler avec le poème archi classique de Jean de La Fontaine. 
```
LA CIGALE ET LA FOURMI
La Cigale, ayant chanté
Tout L'Été,
Se trouva fort dépourvue
Quand la Bise fut venue.
Pas un seul petit morceau
De mouche ou de vermisseau.
Elle alla crier famine
Chez la Fourmi sa voisine,
La priant de lui prêter
Quelque grain pour subsister
Jusqu'à la saison nouvelle.
« Je vous paierai, lui dit-elle,
Avant l'Août, foi d'animal,
Intérêt et principal. »
La Fourmi n'est pas prêteuse :
C'est là son moindre défaut.
« Que faisiez-vous au temps chaud ?
Dit-elle à cette emprunteuse.
- Nuit et jour à tout venant
Je chantais, ne vous déplaise.
- Vous chantiez ? j'en suis fort aise :
Eh bien ! dansez maintenant. »
```
Derrière se texte annodin se cache un nombre important de caractères spéciaux qu'il faut pouvoir manipuler si l'on veut extraire des informations de celui-ci.

**Copier le poème dans un fichier `fable.txt` situé dans le même dossier que le notebook.**

#### Intérraction avec les fichiers

- **Ouvrir le fichier `fable.txt`** et stocker son contenu dans une variable `fable`.

In [9]:
with open("fable.txt") as fable_source:
    fable=fable_source.read()

- **Afficher le contenu de fable. S'agit-il d'un texte ascii?**

In [10]:
print(fable)
fable.isascii()

LA CIGALE ET LA FOURMI
La Cigale, ayant chanté
Tout L'Été,
Se trouva fort dépourvue
Quand la Bise fut venue.
Pas un seul petit morceau
De mouche ou de vermisseau.
Elle alla crier famine
Chez la Fourmi sa voisine,
La priant de lui prêter
Quelque grain pour subsister
Jusqu'à la saison nouvelle.
« Je vous paierai, lui dit-elle,
Avant l'Août, foi d'animal,
Intérêt et principal. »
La Fourmi n'est pas prêteuse :
C'est là son moindre défaut.
« Que faisiez-vous au temps chaud ?
Dit-elle à cette emprunteuse.
- Nuit et jour à tout venant
Je chantais, ne vous déplaise.
- Vous chantiez ? j'en suis fort aise :
Eh bien ! dansez maintenant. »



False

Les strings python `str` sont encodés par défaut avec la norme utf-8 ce qui permet de traites les caractères du français, et de la plupart des autres langues. De plus un certain nombre d'"escape character" sont interprétés à l'affichage. C'est le cas du retour à la ligne. Ce dernier est codé par `\n`. Ainsi, si l'on affiche le contenu de fable explicitement dans le notebook, il n'y plus de retour à la ligne mais une seule ligne contenant tout le texte.

In [11]:
fable

"LA CIGALE ET LA FOURMI\nLa Cigale, ayant chanté\nTout L'Été,\nSe trouva fort dépourvue\nQuand la Bise fut venue.\nPas un seul petit morceau\nDe mouche ou de vermisseau.\nElle alla crier famine\nChez la Fourmi sa voisine,\nLa priant de lui prêter\nQuelque grain pour subsister\nJusqu'à la saison nouvelle.\n« Je vous paierai, lui dit-elle,\nAvant l'Août, foi d'animal,\nIntérêt et principal. »\nLa Fourmi n'est pas prêteuse :\nC'est là son moindre défaut.\n« Que faisiez-vous au temps chaud ?\nDit-elle à cette emprunteuse.\n- Nuit et jour à tout venant\nJe chantais, ne vous déplaise.\n- Vous chantiez ? j'en suis fort aise :\nEh bien ! dansez maintenant. »\n"

- **Ecrire un script qui compte les dialogues prononcés par les deux personnages.**  On tiendra compte des "-" lorsqu'ils indiquent un changement d'orateur.

In [12]:
compteur=0
dialogue=False
nl=True
for c in fable:
    # on commence un bloc de dialogue
    if c=="«":
        compteur+=1
        dialogue=True
        print(c)
    # on ferme un bloc de dialogue
    elif c=="»":
        dialogue=False
        print(c)
    # on commence un bloc de dialogue
    elif c=="-" and dialogue and nl:
        compteur+=1
        print(c)
    #on garde en mémoire si on vient de changer de ligne
    if c=="\n":
        nl=True
    else:
        nl=False
print(compteur)

«
»
«
-
-
»
4


- **Supprimer tous les "e" du texte**

In [13]:
liste_separee=fable.split('e')
fabl="".join(liste_separee)
fabl

# On aurait aussi pu utiliser translate ou une boucle.

"LA CIGALE ET LA FOURMI\nLa Cigal, ayant chanté\nTout L'Été,\nS trouva fort dépourvu\nQuand la Bis fut vnu.\nPas un sul ptit morcau\nD mouch ou d vrmissau.\nEll alla crir famin\nChz la Fourmi sa voisin,\nLa priant d lui prêtr\nQulqu grain pour subsistr\nJusqu'à la saison nouvll.\n« J vous pairai, lui dit-ll,\nAvant l'Août, foi d'animal,\nIntérêt t principal. »\nLa Fourmi n'st pas prêtus :\nC'st là son moindr défaut.\n« Qu faisiz-vous au tmps chaud ?\nDit-ll à ctt mpruntus.\n- Nuit t jour à tout vnant\nJ chantais, n vous déplais.\n- Vous chantiz ? j'n suis fort ais :\nEh bin ! dansz maintnant. »\n"

- **Enrigstrer le nouveau fichier sous le nom `fabl.txt`** 

In [14]:
with open('fabl.txt','w') as file:
    file.write(fabl)

In [15]:
compteur=0
dialogue=False
nl=True
for c in fable:
    # on commence un bloc de dialogue
    if c=="«":
        compteur+=1
        dialogue=True
        print(c)
    # on ferme un bloc de dialogue
    elif c=="»":
        dialogue=False
        print(c)
    # on commence un bloc de dialogue
    elif c=="-" and dialogue and nl:
        compteur+=1
        print(c)
    #on garde en mémoire si on vient de changer de ligne
    if c=="\n":
        nl=True
    else:
        nl=False
print(compteur)

«
»
«
-
-
»
4


### Un parseur simple
A l'image du référencement google, on souhaite extraire les titres d'une page web : https://fr.wikipedia.org/wiki/Python_(langage).

Comme la plupart des sites, celui-ci est basé sur un code html que l'on va importer directement avec python et la library native `urllib` (cf doc.) et sa fonction `urlopen`. 
- **Lire le code html et en afficher quelques lignes (`readlines`).**
L'output doit ressembler à ceci
```
b'<!DOCTYPE html>\n'
b'<html class="client-nojs" lang="fr" dir="ltr">\n'
b'<head>\n'
b'<meta charset="UTF-8"/>\n'
b'<title>Python (langage) \xe2\x80\x94 Wikip\xc3\xa9dia</title>\n'
...
```

In [16]:
import urllib
u2 = urllib.request.urlopen('https://fr.wikipedia.org/wiki/Python_(langage)')

for lines in u2.readlines():
    pass
    #print (lines)

**Combien y a-t-il de lignes de code? et de charactères?**
> *Remarque: les lignes extraites par `readlines` sont du bytecode et non des strings. Pour notre analyse, on doit convertir et puis chercher les balises de texte comme précédemment.* 

In [17]:
u2.read()

b''

> Le code est vide (une fois lu) on va donc stocker celui ci dans un `str`.

In [18]:
u2 = urllib.request.urlopen('https://fr.wikipedia.org/wiki/Python_(langage)')
html_wiki=u2.read()

In [19]:
len(html_wiki)

343961

In [20]:
len(html_wiki.decode("utf-8").split("\n"))

2213

**Extraire les titres de niveau 1 à 3 (balise <h\*> et <\/h*>) dans une structure de donnée permettant de les trier par importance.** *On peut utiliser des __regex__ pour faciliter l'analyse.*

**Afficher ces titres de manière hiérarchique (en non chronologique).**

In [21]:
#On garde les résultats dans un dictionnaire de liste. On aurait aussi pu créer 3 listes.
titres={"h1":[],"h2":[],"h3":[]}

In [22]:
import re
# on utilise les expressions régulières pour extraire le code. 
h1_regex="<h1.*</h1>" 
headers=re.findall(h1_regex,html_wiki.decode("utf-8"))
headers

['<h1 id="firstHeading" class="firstHeading mw-first-heading"><span class="mw-page-title-main">Python (langage)</span></h1>']

On constate qu'il n'y a pas simplement les balises mais aussi tout un tas de détails que l'on ne souhaite pas conserver pour cet exercice. On peut reprendre l'idée de l'exercice précédent pour résoudre celui-ci. 

In [23]:
def extraction_titre(texte):
    """Exclut le balisage du contenu obtenu par regex en vérifiant les <> et []"""
    # Solution à la main, il existe plus subtil (et efficace avec regex etc.)
    balise=False
    bracket=False
    titre=""
    for c in texte:
        if c=="<":
            balise=True
        if c=="[":
            bracket=True

        if not (balise or bracket) :
            titre+=c 

        if c==">":
            balise=False
        if c=="]":
            bracket=False
    return titre

In [24]:
for level in titres.keys():
    regex=f"<{level}.*</{level}>" 
    headers=re.findall(regex,html_wiki.decode("utf-8"))
    for texte in headers:
        titres[level].append(extraction_titre(texte))
    
titres

{'h1': ['Python (langage)'],
 'h2': ['Utilisation',
  'Historique',
  'Caractéristiques',
  'Bibliothèque standard',
  'Conventions de style',
  'Interfaces graphiques',
  'La communauté Python',
  'Implémentations du langage',
  'Distributions de Python',
  'Historique des versions',
  'Développement',
  'Notes et références',
  'Voir aussi'],
 'h3': ['Au CWI',
  'Au CNRI',
  'À BeOpen',
  'La Python Software Foundation',
  'Syntaxe',
  'Réflexivité',
  'Typage',
  'Modèle objet',
  'Adoption de Python',
  'Les PEP',
  'Python 3',
  'Python pour smartphones',
  'Bibliographie',
  'Liste des principaux frameworks',
  'Articles connexes']}

> *En fait, comme pour pratiquement tout, il existe une librairie python qui sait faire le parsing pour nous : `beautifulsoup`

**Extraire les memes informations à l'aide de `beautifulsoup`**

Pour l'installer : `mamba  install -c anaconda beautifulsoup4 -y`

In [25]:
from bs4 import BeautifulSoup

In [26]:
soup=BeautifulSoup(html_wiki,'html.parser')

In [27]:
print(soup.title.text)

Python (langage) — Wikipédia


In [28]:
headerlist = soup.find_all('h2') # fait la meme chose que le regex précédent 

In [29]:
for header in headerlist:
    print(header.text)

Utilisation[modifier | modifier le code]
Historique[modifier | modifier le code]
Caractéristiques[modifier | modifier le code]
Bibliothèque standard[modifier | modifier le code]
Conventions de style[modifier | modifier le code]
Interfaces graphiques[modifier | modifier le code]
La communauté Python[modifier | modifier le code]
Implémentations du langage[modifier | modifier le code]
Distributions de Python[modifier | modifier le code]
Historique des versions[modifier | modifier le code]
Développement[modifier | modifier le code]
Notes et références[modifier | modifier le code]
Voir aussi[modifier | modifier le code]


On constate que les possibilités d'interraction avec la page font partie intégrante des headers au sens html. Il faut donc répliquer le tris effectué précédemment. Puisque le motif est régulier, un simple split fera l'affaire

In [30]:
print("Headers2:\n------------")
for header in headerlist:
    print(header.text.split("[")[0])

Headers2:
------------
Utilisation
Historique
Caractéristiques
Bibliothèque standard
Conventions de style
Interfaces graphiques
La communauté Python
Implémentations du langage
Distributions de Python
Historique des versions
Développement
Notes et références
Voir aussi


In [31]:
# Cette approche comprend tous les niveaux de header avec regex compile. cf la doc.
headerlist = soup.find_all(re.compile('^h[1-3]'))
print("Headers : \n------------")
for header in headerlist:
    print(header.text.split("[")[0])

Headers : 
------------
Python (langage)
Utilisation
Historique
Au CWI
Au CNRI
À BeOpen
La Python Software Foundation
Caractéristiques
Syntaxe
Réflexivité
Typage
Modèle objet
Bibliothèque standard
Conventions de style
Interfaces graphiques
La communauté Python
Adoption de Python
Implémentations du langage
Distributions de Python
Historique des versions
Développement
Les PEP
Python 3
Python pour smartphones
Notes et références
Voir aussi
Bibliographie
Liste des principaux frameworks
Articles connexes


### Bonus
Le jeu "plus petit/plus grand" est un des classiques dans l'apprentissage de la programmation. L'ordinateur génère un nombre aléatoire et le joueur essaye de le retrouver. À chaque étape, l'ordinateur indique si le nombre proposé est plus petit ou plus grand que le nombre à trouver.
Ici, l'exercice proposé est de programmer la position inverse : le joueur choisit un nombre et l'ordinateur essaye de le retrouver selon la même approche.

La vraie difficulté de l'exercice sera que le programme doit détecter la tricherie (celle du joueur, car le programme, lui, ne triche jamais). Ce cas se produit quand l'ordinateur propose (par exemple) 50 et que le joueur répond "+". Puis plus tard, il propose 51 et le joueur répond "-". Et bien entendu, une situation symétrique si l'ordinateur propose (toujours) 50 et que le joueur répond "-". Puis plus tard, il propose 49 et le joueur répond "+".

Exemple de résultat honnête
```
Mémorisez un nombre entre 1 et 100, je vais essayer de le retrouver
Appuyez sur <enter> quand vous serez prêt. Et ne trichez pas ensuite...
Je propose 57... +, - ou G ?-
Je propose 37... +, - ou G ?-
Je propose 19... +, - ou G ?+
Je propose 25... +, - ou G ?G
J'ai trouvé 25 en 4 coups !!!
```
Exemple de tricherie
```
Mémorisez un nombre entre 1 et 100, je vais essayer de le retrouver
Appuyez sur <enter> quand vous serez prêt. Et ne trichez pas ensuite...
Je propose 44... +, - ou G ?-
Je propose 29... +, - ou G ?-
Je propose 17... +, - ou G ?+
Je propose 25... +, - ou G ?+
Je propose 27... +, - ou G ?-
Je propose 26... +, - ou G ?-
Tricheur !!! A la réponse 4 il avait été proposé 25 et répondu "+" - En proposant 26 la réponse ne peut pas être "-" !!!
J'ai gagné par forfait en 6 coups !!!
```

In [35]:
#!/usr/bin/env python3 
# coding: utf-8 
# L'exercice est tiré de https://python.developpez.com/exercices/?page=Problemes-complexes#Plus-petit-Plus-grand
  
import random 
  
# Le jeu 
def jeu(minValue, maxValue, *, taux=20): 
	historique=[]					# L'historique des réponses 
	plage=(minValue, maxValue)			# La plage de valeurs 
  
	# Préparation jeu 
	taux%=100					# Un taux ne peut pas être supérieur à 100 
	print( 
		"Mémorisez un nombre entre {} et {}, je vais essayer de le retrouver".format( 
			minValue, 
			maxValue, 
		) 
	) 
	input("Appuyez sur <enter> quand vous serez prêt. Et ne trichez pas ensuite...") 
  
	# Boucle de jeu 
	while True: 
		# Evaluation du nombre à proposer: le taux permet d'influer sur une certaine marge 
		delta=int(taux * (plage[1] - plage[0]) // 100) 
		propose=sum(plage) // 2 + random.randint(-delta, delta) 
  
		# Proposition du chiffre, attente réponse joueur 
		while True: 
			rep=input("Je propose {}... +, - ou G ?".format(propose)) 
			if rep and rep in "+-G": break 
			print("S'il vous plaît, répondez par + ou - ou G !!!") 
		# while 
  
		# Gagné ? 
		if rep == "G": 
			print("J'ai trouvé {} en {} coups !!!".format(propose, len(historique) + 1)) 
			return (True, len(historique) + 1) 
		# if 
  
		# Tricherie dans la réponse ? 
		check=tricherie(propose, rep, historique) 
		if check >= 0: 
			print( 
				"Tricheur !!! A la réponse {} il avait été proposé {} et répondu \"{}\" - En proposant {} la réponse ne peut pas être \"{}\" !!!".format( 
					check+1, 
					historique[check]["nb"], 
					historique[check]["rep"], 
					propose, 
					rep, 
				) 
			) 
			print("J'ai gagné par forfait en {} coups !!!".format(len(historique) + 1)) 
			return (False, len(historique) + 1) 
		# if 
  
		# Calcul nouvelle plage de valeurs 
		plage=(plage[0], propose-1) if rep == "-" else (propose+1, plage[1]) 
  
		# Enregistrement de la réponse 
		historique.append( 
			{ 
				"nb" : propose, 
				"rep" : rep, 
			} 
		) 
	# while 
# jeu() 
  
# Vérification tricherie éventuelle 
def tricherie(nb, rep, historique): 
	for (i, h) in enumerate(historique): 
		#print(nb, rep, h) 
		# La tricherie se produit si le joueur répond "+" pour une proposition 
		# Alors qu'il avait répondu "-" à une proposition se situant à +1 (et inversement) 
		if h["nb"] + (1 if rep == "-" else -1) == nb: return i 
	# for 
	return -1 
# tricherie() 
  
# Lancement du jeu 
jeu(1, 100)

Mémorisez un nombre entre 1 et 100, je vais essayer de le retrouver
Appuyez sur <enter> quand vous serez prêt. Et ne trichez pas ensuite...
Je propose 65... +, - ou G ?+
Je propose 89... +, - ou G ?+
Je propose 97... +, - ou G ?+
Je propose 99... +, - ou G ?+
Je propose 100... +, - ou G ?G
J'ai trouvé 100 en 5 coups !!!


(True, 5)