# Analyse de données sur Jupyter Notebook

## Partie 1 - Introduction aux notebooks Jupyter

Philippe Lemaire, INSA

## Analyser des données avec les notebooks Jupyter<a id="intro"></a>

Ceci est un notebook Jupyter. Chaque document de ce type est une sorte de carnet de notes. Vous pouvez l'utiliser pour décrire une expérience, enregistrer des données, et vos commentaires. Contrairement à un carnet de notes papier, un notebook Jupyter permet d’écrire et exécuter du code, et de le partager. C'est cette combinaison de fonctionnalités qui rend les notebooks Jupyter si intéressants pour l'analyse de données. Depuis les données à la production finale de visualisation, et en passant par le calcul numérique et vos notes, vous pouvez tout produire et enregistrer dans un seul document dynamique.

### Quel est l'intérêt du code dans l'analyse de données ?<a id="id"></a>

Utiliser la programmation permet de réaliser votre analyse sous la forme d'une recette reproductible, une simple série d'instructions prédéfinies.

Une fois que votre programme a été écrit, il produira toujours les mêmes résultats à partir des mêmes données. Ceci vous permet de montrer réellement votre travail.

Votre code peut également être réutilisé comme point de départ pour analyser d'autres jeux de données similaires, pour répêter vos expériences.
Par ailleurs les traitements à appliquer aux données sont généralement les mêmes quelle que soit la taille des jeux de données. Une fois votre procédure au point sur un échantillon, traiter un jeu de données volumineux devient simplement une question de temps, ou d'accès à un calculateur plus puissant que le vôtre.


## Prendre en main l'environnement Jupyter Notebook<a id='getting_started'></a>

Un notebook Jupyter est une suite de **cellules** qui contiennent du texte. Ces cellules sont empilées verticalement, et doivent pouvoir être exécutées dans l'ordre, de haut en bas.

Topo sur cellules en mode édition et commande, input et output

### Exécuter du code<a id="running_code"></a> 

L'intérêt principal d'un notebook Jupyter reste d'y écrire et exécuter du code. Plusieurs langages différents peuvent être utilisés avec Jupyter, notamment Python 3. Python est de plus en plus utilisé dans la communauté scientifique et dans l'industrie pour la gestion et l'analyse de données. Ce large usage signifie que d'excellentes ressources existent déjà autour de vous et que la plupart du temps, pas besoin de réinventer la roue pour commencer à produire des choses utiles.

L'objectif de ce document est d'appréhender à la fois les bases du langage de programmation Python et le fonctionnement de l’environnement jupyter Notebook.

Les cellules d'un notebook peuvent être de plusieurs type. Le type par défaut est la cellule **code**. Si vous créez un nouveau notebook vierge, il contiendra une cellule unique de type code. Vous pourrez évidemment insérer des cellules supplémentaires en dessous ou au dessus de la cellule actuellement sélectionnée, via les menus du notebook, ou les raccourcis clavier **B** et **A**. (retenez **A**bove et **B**elow.)

Vous pourrez également fusionner une cellule avec celle immédiatement en dessous, ou l'opération contraire qui consiste à scinder une cellule en deux, et encore réordonner les cellules à votre convenance.
*
Une fois du code Python écrit dans une cellule, vous pouvez utiliser le menu ou le bouton exécuter, ou le raccourci **Maj+Entrée** pour l'exécuter et afficher le résultat juste en dessous de la cellule.


In [1]:
2+3 # exécutez cette cellule via le bouton "Run" ou le raccourci clavier Maj+Entrée

5

Vous devriez maintenant avoir sous la cellule de code une ligne commençant par <span style="color:#D64423; font-family:monospace">Out[ ]:</span> affichant le résultat:
<img style="width:590px" src='http://blogs.bath.ac.uk/python/wp-content/uploads/sites/140/2017/11/output.png'/>
et le "focus" est automatiquement passé à la cellule suivante. Vous pouvez toujours revenir en arrière sur une cellule et l'exécuter à nouveau.

La plupart des exemples et mini-exercices seront présentés sous cette forme :

>```python
>print("hello")
>```

avec une cellule de code vide en dessous pour que vous puissiez réaliser l'exercice en direct. Évitez de copier et coller, vous intègrerez mieux la syntaxe si vous tapez chaque bout de code, au moins dans un premier temps.

Commençons avec cet exemple :

>```python
>print("hello")
>```

In [2]:
print('Hello world!')

Hello world!


Votre résultat devrait être

```
Hello world!
```

There will also be small exercises that ask you to write your own piece of code from scratch, or modify an example that is not finished yet; it might contain an error – often called a **bug**, or just not do exactly what we would like. These will be indicated with green boxes.

<div class="alert alert-success"> 
<b>Edit</b> the <span style="font-family:monospace;">print</span> statement below, so that when you run the cell it prints your name.
</div>

Missing code is indicated by a series of grey squares, which you will need to replace.

In [3]:
# Edit this code cell and run it.
print("My name is Phil")

My name is Phil


<div class="alert alert-success">
Type new code into the cell below to print today's date.
</div>

In [4]:
# Edit this code cell and run it.
print( ◽◽◽ )

SyntaxError: invalid character '◽' (U+25FD) (2197614617.py, line 2)

### Saving Notebooks<a id="saving_notebooks"></a>

To save your notebook, you can select **File > Save and Checkpoint** from the Jupyter menu, or use the keyboard shortcut **⌘+S** (on macOS) or **ctrl+S** (on Windows & Linux). Jupyter notebooks are saved as **.ipynb** files.

<img style='width:550px' src='http://blogs.bath.ac.uk/python/wp-content/uploads/sites/140/2017/11/save_and_checkpoint.png'/>

You can make a copy of a notebook (for example, to save an old version while you work on a new idea, or to duplicate a notebook to a different directory) you can either select **File > Make a Copy**, which duplicates the current notebook in the same directory; or you can select **File&nbsp;>&nbsp;Download&nbsp;as&nbsp;>&nbsp;Notebook&nbsp;(.ipynb)**, to download a copy into your **Downloads**.

### Explain Your Code: Comments and Markdown Cells<a id="comments"></a>
One of the advantages of using *code* for numerical calculations and data analysis is that you end up with a record of exactly what you have done. You, or anyone else, can read the code, to understand how you reached your answer. You can think of this as &ldquo;showing your working&rdquo;, and it can be very helpful if you want to solve a *similar* problem in the future.

Often, reading only the code can get quite cryptic (it is called &ldquo;code&rdquo;, after all), which makes it difficult to understand what is happening. To explain what a particular piece of code does, or to explain *why* a piece of code is being used, you can include **comments**.

 
```python
# this is a comment
```

Any text that appears after a <span style="font-family:monospace; color:#438080">#</span> symbol is part of the comment, and is ignored when the code is run. 

Jupyter notebooks offer a second way to describe what you are doing: **Markdown cells**. A code cell can be converted to a Markdown cell by selecting Cell > Cell Type > Markdown from the menu.  
<img src='http://blogs.bath.ac.uk/python/wp-content/uploads/sites/140/2017/11/markdown.png', width=350/>  
A Markdown cell can be used to type plain text, which is displayed when the cell is run. Markdown cells are useful for documenting a notebook, particularly when you want to write something more detailed than a short comment. Markdown cells can also contain basic text formatting, links, images, and equations (more information is [here](http://jupyter-notebook.readthedocs.io/en/latest/examples/Notebook/Working%20With%20Markdown%20Cells.html)).

<div class="alert alert-success">
Type a comment into the cell below and run it.
</div>

In [None]:
◽◽◽

<div class="alert alert-success">
The cell below should be a Markdown cell, but it is currently a code cell.  
First run the cell to see what happens.
Then change it into a **Markdown** cell, before re-running it. 
</div>

In [None]:
Markdown cells allow you to type longer text to explain what your code is doing.  
Setting this cell to Markdown, and running it will format the text for clearer reading.  
Markdown also provides shorthand for including other features such as [links][cheatsheet].

[cheatsheet]:https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet

To edit a Markdown cell after it has been run, double-click on it to see the raw Markdown code.

<div class="alert alert-success">
Double click on the Markdown output above that starts &ldquo;*Markdown cells allow you to type longer text&hellip;*&rdquo; and add the following Markdown code to it:<br/><br/><span style='font-family:monospace'># My favourite meals are<br/>
- Breakfast<br/>
- Lunch<br/>
- Brunch
</span><br/><br/>
</div>

Then re-run the cell to view the formatted output.

### Using **<span style="color:#377d22; font-family:monospace">assert</span>** Statements for Interactive Feedback<a id="assert_statements"></a>

The exercise notebooks contain code cells with **<span style="color:#377d22; font-family:monospace">assert</span>** statements. These have been included so that you can test your code as you write it.  

An **<span style="color:#377d22; font-family:monospace">assert</span>** statement checks whether a particular condition is **true**, or **false**. If the specified condition is **false**, running the code will produce an <span style="color:#D64423; font-family:monospace">AssertionError</span> error. If this happens, go back to your code, and figure out the source of the error before moving on. If an **<span style="color:#377d22; font-family:monospace">assert</span>** statement runs without an error, your code works correctly and you can move on to the next part of the exercise.

e.g. if this is given as a mini-exercise

<div class="alert alert-success"> 
Calculate two plus two.
</div>

and you mistype the solution in the code cell below:

In [None]:
# enter your code in this cell
2+3

In [None]:
# this cell tests your code. You do not need to edit it.
assert _ == 4 
# the _ character refers to the output from the previous cell.

Because the calcualtion code gives the wrong result, the **<span style="color:#377d22; font-family:monospace">assert</span>** statement in the following cell fails, producing an <span style="color:#D64423; font-family:monospace">AssertionError</span>.

<div class="alert alert-success"> 
Correct the code above, and check that the test passes.
</div>