# Fondamentaux - données tabulaire

Comment gérer des données tabulaires en Python?

- Qu'est-ce qu'une librairies `python`
- Importer une librairie et utiliser les fonctions qu'elle contient
- Lire des données tabulaires depuis un fichier dans un programme
- Selectionner une sous-partie des données
- Effectuer des opérations sur un ensemble de données

## Un mot sur les librairies

La richesse de l'écosystème python provient en partie de ses librairies, qu'elles soient incluent ([librairie standard](https://docs.python.org/3/library/) ou `stdlib`, pas besoin de les installer, juste de les importer) ou tierce partie (il faudra alors les installer).

Avec Anaconda, une partie des librairies tierces **sont déjà installés**, en particulier celles utile pour le calcul scientifique. **Ce ne sera pas forcément le cas**.

L'installation d'une librairie se fait avec `pip`, ou avec `conda` si Anaconda est disponible, et ce en ligne de commande (avec Anaconda, cherchez **Anaconda Prompt** dans le menu démarrer).

```bash
pip install my_lib
# OU
conda install my_lib
```

`conda` permet d'installer des librairies (ou des logiciels) qui sont pas dans l'écosystème Python, au contraire de `pip` qui est spécifique à Python.

**Ne réinventez pas la roue : si vous avez besoin d'une fonctionnalité qui est disponible dans une librairie de *bonne qualité* ou dans la librairie standard, utilisez la! Passez *un peu* de temps à fouiller ce qui existe vous fera gagner du temps et en robustesse.**

Il est intéressant d'implémenter une fonctionnalité par soi-même pour mieux comprendre, mais revenez ensuite aux librairies déjà existante. Quelques exceptions : réduire les dépendance (dans le cas d'un produit final qu'il faudra maintenir), ou si les alternatives ne sont pas satisfaisantes.

### Les librairies locales

Il est possible d'importer n'importe quel fichier python (.py) disponible dans le dossier courant. C'est en fait vrai pour tous les emplacements PYTHONPATH :

In [1]:
import sys
print(*sys.path, sep="\n")

SyntaxError: invalid syntax (<ipython-input-1-66943d79681d>, line 2)

En important un fichier python, l'ensemble du fichier est interprété, sauf les parties encadrées par

```python
if __name__ == "__main__":
    ...
    ...
```
.
Soyez donc prudent, en évitant de mettre dans ces fichiers des instructions trop gourmandes en temps : on essaye de mettre dans ces fichiers essentiellement des définitions de fonctions et de classes.

Il est également possible d'organiser les fichiers en sous-modules : il suffit de placer un fichier vide `__init__.py` dans un dossier pour qu'il soit possible d'importer les fichiers présents dans ce dossier.

## Numpy pour manipuler les données tabulaires

Il va falloir dans un premier temps importer `numpy`. Nous allons ici rapidement introduire cette librairie, une autre séance sera mis en place pour aller plus loin.

C'est la **brique de base** du calcul scientifique en python, elle permet de manipuler les **données tabulaires** de façon efficace. L'objet de base est l'array numpy `numpy.ndarray`.

L'objet diffère des listes par l'homogénéité des données qu'elle contient. Un **ndarray ne peut contenir qu'un seul type de données**. Un ndarray d'entier ne pourra pas contenir de flottants (à moins de convertir l'intégralité de ses entiers en flottants). C'est l'extension à un nombre arbitraire de dimension d'un vecteur (ndim=1), d'une matrice (ndim=2) ou d'une hypermatrice (ndim=3).

Ce manque de souplesse dans le type de donnée est dû à l'implémentation de `numpy` en C. Cela permet de manipuler des données tabulaires de façon très performantes tout en gardant la versatilisé de Python.

### import de librairie et alias

Le formalisme de base pour importer une librairie est 

```python
import my_lib
```

et les fonctions ou classes contenus dans le module seront alors disponible via `my_lib.a_function()`. `my_lib` est appelé un *namespace* et permet de séparer des fonctions dans différents conteneurs. De cette façon, il est possible d'importer des fonctions provenant de différents modules mais ayant le même nom.

```python
import numpy
import math

math.sin(3)
numpy.sin(3)
```


Il est également possible d'accéder au module au travers d'un alias :

```python
import a_lib_with_a_very_long_name as short_lib
```

les fonctions ou classes contenus dans le module seront alors disponible via `short_lib.a_function()`.

Certains alias sont très courant dans la communauté scientifique :

```python
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
```

Enfin, il est possible d'importer une (ou plusieurs) fonction ou sous-modules uniquement avec le formalisme

```python
from my_lib import my_function, MyClass
```

les fonctions importés sont disponibles directement (`a_function()`).

Vous pourrez également rencontrer le formalisme suivant

```python
from my_lib import *
```

qui importera l'intégralités des fonctions disponibles dans le *namespace global*.

***C'est une très mauvaise pratique qui est à proscrire absolument.***

In [2]:
import numpy as np

Il est possible de lire un fichier texte contenant des donnée directement avec `numpy`. Un array numpy contenant les données sera alors créé. Nous allons assigner cet array dans une variable pour nous en servir.

In [3]:
data = np.loadtxt("../../data/temperatures_np.csv", delimiter=",")

Les données sont en mémoire, il est possible de les manipuler.

In [4]:
print(type(data))

<type 'numpy.ndarray'>


Comme décrit plus haut, les données sont stockés dans un `numpu.ndarray`. Il est possible de vérifier le type des données sous-facente :

In [5]:
print(data.dtype)

float64


La méthode `ndarray.shape` renvoie les dimensions d'un `ndarray` sous la forme d'un `tuple`.

In [6]:
print(data.shape)

(44640, 2)


Les données sont la température météo extérieur et la température intérieur (provenant d'un capteur de température), avec une résolution d'une minute sur un mois de Janvier. Il est possible d'accéder aux données en `indexant` les données. Nous avons ici deux dimension, il faut fournir deux indices.

In [143]:
print('Première valeur:', data[0, 0])

Première valeur: 23.0


In [144]:
print('Valeur centrale:', data[44640 // 2, 0])

Valeur centrale: 23.8


A noter : **les indices commencent à 0** et suivent la notation **lignes, colonnes**.

## Slicing

Nous avons vu comment indexer nos données pour obtenir une seule valeur. Il est possible d'accéder à une sous-partie des valeur avec la syntaxe de slicing `[start:stop:step]`, la borne `stop` étant exclue.

In [145]:
print(data[0:5, 0])

[23. 23. 23. 23. 23.]


Chaque élément de `[start:stop:step]` est optionnel, et possède une valeur par défaut, respectivement 0, N et 1, N étant le index du tableau.

In [146]:
print(data[:5, 1], data[0:5:1, 1], sep="\n")

[7.5 7.5 7.3 7.4 7.4]
[7.5 7.5 7.3 7.4 7.4]


De cette façon, il est possible de récupérer l'intégralité d'une dimension avec la syntaxe `[:]`

In [147]:
print(data[:, 1])

[7.5 7.5 7.3 ... 8.8 8.7 8.6]


Il est possible également d'exclure les indices des dernières dimension : dans ce cas, l'ensemble de ces dimensions seront récupérés

In [148]:
print(data[:5])

[[23.   7.5]
 [23.   7.5]
 [23.   7.3]
 [23.   7.4]
 [23.   7.4]]


## Analyse des données

Numpy contient un certain nombre de fonctions très utiles. Ainsi, pour récupérer la valeur moyenne des données :

In [8]:
print(np.mean(data))
# pour effectuer la moyenne sur un axe seulement
print(np.mean(data, axis=0))
# la moyenne est accessible en tant que fonction numpy, ou en tant que méthode des array.
print(data.mean(axis=0))
# print(data.mean(axis=1))

14.830828293010752
[23.48327061  6.17838598]
[15.25 15.25 15.15 ... 15.9  15.85 15.8 ]


`np.mean` est une fonction : c'est un objet qui prendra des arguments en entrée et renverra une ou plusieurs valeur. Il existe des fonctions qui ne prennent aucun argument en entrée (les parenthèses sont tout de même nécessaire pour *appeler* la fonction), et d'autres qui ne renvoient aucunes valeurs (un objet `None`). Les *méthodes* sont des fonctions associé à une instance de classe, comme une chaine de caractère... ou un array numpy, comme pour `my_data.mean()`.

Pour connaitre la documentation interne d'une fonction, vous pouvez utiliser la fonction `help`. Essayez par exemple `help(np.mean)` !

Sur une session interactive (un notebook jupyter ou IPython par exemple), il est possible d'accéder aux argument avec la touche `Tab`, et la documentation avec `Maj+Tab` après la première parenthèse d'une fonction. `Tab` fonctionne également pour compléter un nom de variable, une liste de fonction d'un module ...

In [11]:
T_in, T_out = data.T
print(T_in.shape)
print(T_out.shape)

(44640,)
(44640,)


Nous avons effectué ici deux opération :
- Nous avons transposé l'array data, qui est passé d'une dimension (N, 2) à (2, N).
- Nous avons "unpacké" (on parle aussi d'assignement multiple) ces deux dimension dans deux variables différentes, T_in et T_out.

In [151]:
maxval, minval, stdval = T_out.max(), T_out.min(), T_out.std()

print('maximum temperature:', maxval)
print('minimum temperature:', minval)
print('standard deviation:', stdval)

maximum temperature: 18.1
minimum temperature: -0.7
standard deviation: 2.9272515263269288


## Quelques exercices

### Chaines de caractère et slicing

Nous avons vu qu'il était possible de *slicer* un array. Il est également possible de slicer n'importe quel *itérable*, comme les listes, les tuples, les dictionnaires et... les chaînes de caractère. Ainsi

```python
>>> element = 'oxygen'
>>> print('first three characters:', element[0:3])
first three characters: oxy
>>> print('last three characters:', element[3:6])
last three characters: gen
```

Quel serait la valeur de `element[:4]`? `element[2::2]`? `element[:]`?

In [18]:
element = 'oxygen'
print('first four characters:', element[:4])
print('one character over two, from the third character to the end', element[2::2])
print('all characters', element[:])

('first four characters:', 'oxyg')
('one character over two, from the third character to the end', 'ye')
('all characters', 'oxygen')


### Thin slices

La borne supérieur étant exclue, `element[3:3]` renverra une chaine vide. Qu'est-ce qui se passe si on fait la même chose avec `data[6:6, 1]` ? avec `data[6:6, :]` ?

In [20]:
print('sixth value of first column:', data[6:6, 1])
print('sixth value of all columns:', data[6:6, :])

('sixth value of first column:', array([], dtype=float64))
('sixth value of all columns:', array([], shape=(0, 2), dtype=float64))


array([], dtype=float64)

## Cas d'étude, données horaires

Pour la suite, nous allons travailler sur la moyenne horaire des température extérieur, avec en lignes les différentes heures et en colonne les jours du mois.

In [21]:
data_h = np.loadtxt("../../data/temperatures_ext_np.csv", delimiter=",")

In [22]:
print(data_h.shape)

(24, 31)


Étudiez un peu les données : quels sont la moyenne de température du mois, heure par heure? l'écart type?
A quelle heure a été la température la plus froide? Quel jour? (les données commencent le 1er Janvier et les heures à minuit).

In [39]:
# T° moyenne et écart type du mois
print('moyenne de temperature du mois:', np.mean(data_h))
print('ecart type de temperature du mois:', data_h.std())
# T° moyenne et écart type heure par heure (mean over columns)
print('moyenne de temperature heure par heure:', data_h.mean(axis=1))
print('ecart type de temperature heure par heure:', data_h.std(axis=1))
# T° minimale
print('temperature minimale:', data_h.min())
index = np.where(data_h==data_h.min())
print('la temperature minimale a ete atteinte le {} Janvier a {}h').format(index[1]+1,index[0])

('moyenne de temperature du mois:', 6.178385976702509)
('ecart type de temperature du mois:', 2.8965571708195603)
('moyenne de temperature heure par heure:', array([5.44865591, 5.10150538, 4.70827957, 4.61037634, 4.54193548,
       4.50215054, 4.46064516, 4.32629032, 4.78672043, 5.74376344,
       7.03935484, 7.99177419, 8.75026882, 9.22408602, 9.15370968,
       8.72163816, 7.42435647, 6.52037634, 6.18994624, 6.06080645,
       5.90236559, 5.80731183, 5.63913978, 5.62580645]))
('ecart type de temperature heure par heure:', array([2.34566096, 2.32189772, 2.17841716, 2.17682152, 2.10129343,
       2.04155645, 2.18120432, 2.11239285, 2.16689604, 2.38248755,
       2.4277164 , 2.52058987, 2.720658  , 3.05521368, 3.23226855,
       3.20619774, 2.59307323, 2.5196355 , 2.58440573, 2.4126476 ,
       2.2178855 , 2.19601128, 2.16354361, 2.24990784]))
('temperature minimale:', -0.4666666666666669)
la temperature minimale a ete atteinte le [13] Janvier a [6]h


[***Prochaine section***](fonda_03-simple_vizu.ipynb)