# Activité 1

## Lecture d'un fichier csv

Pour manipuler et analyser les données, le module `pandas` ([https://pandas.pydata.org/](https://pandas.pydata.org/)), développé pour Python, s'avère des plus pratique. En particulier, il permet la lecture et l'écriture de fichiers `csv`. Nous le chargeons donc dès le début de notre code avec le module `numpy`.

In [None]:
import numpy as np
import pandas as pd

Pour ouvrir un fichier en *lecture* et charger les données dans la mémoire de l'ordinateur, nous utilisons la fonction `read_csv`de ce module. Celle-ci reçoit plusieurs arguments parmi lesquels :
- le nom du fichier;
- une indication sur le séparateur des données : virgule `,`, point-virgule `;`, espace ` `, tabulation `\t`;
- une option précisant si la première ligne du fichier est une ligne d'entêtes ou une ligne de données.

Pour illustrer notre propos, ouvrons avec un fichier nommé `data_chute_libre1.csv` dans lequel la première ligne comporte les désignations des informations présentes dans chaque colonne. Les données y sont séparées par un point-virgule. Les données sont affectées à la variable `data`.

In [None]:
# nom du fichier
filename = 'data_chute_libre1.csv'
# lecture des données et stockage dans la variable data
data = pd.read_csv(filename, sep = ';')

La variable `data`,appelée un *dataframe*, contient toutes les informations tabulaires présentes dans le fichier. L'affichage des cinq premières lignes du tableau se fait à l'aide de la fonction `head` du module `panda`.

In [None]:
print(data)

Si le séparateur des données est une virgule, la variable `data` est définie par `pandas.read_csv(filename, sep = ',')`. Le fichier `data_chute_libre2.csv` permet d'illustrer cette remarque.

In [None]:
filename = 'data_chute_libre2.csv'
data = pd.read_csv(filename, sep = ',')
data.head()

### Question
> 1. Quels séparateurs sont utilisés dans les lignes suivantes ?
```
data = pandas.read_csv(filename, sep = ' ')
data = pandas.read_csv(filename, sep = '\t')
```

Vous pouvez les tester avec les fichiers `data_chute_libre3.csv` et `data_chute_libre4.csv`.

In [None]:
# fichier data_chute_libre3.csv
filename = 'data_chute_libre3.csv'
data = pd.read_csv(filename, sep = ' ')
data.head()

In [None]:
# fichier data_chute_libre4.csv
filename = 'data_chute_libre4.csv'
data = pd.read_csv(filename, sep = '\t')
data.head()

## Manipulation élémentaires des données

Comme écrit plus haut, la variable `data` est un *dataframe* ([http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe](http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe)). Il s'agit d'une *structure de données*, c'est-à-dire d'un moyen d'organiser l'information dans la mémoire de l'ordinateur et d'agir sur celle-ci à l'aide de *méthodes* (fonctions) spécifiques. Un *dataframe* `panda` est une structure de données bidimensionnelle qui ressemble à un tableau si ce n'est que les données qui y sont stockées peuvent être de *types* différents.
Si la première ligne du *dataframe* contient les intitulés des colonnes, il est possible de récupérer les données de la colonne en y faisant référence. Par exemple :

In [None]:
t = data['temps'] # tableau des instants
#print(t)

affecte à la variable `t` toutes les valeurs de la première colonne de `data`. Le type de cette variable est `pandas.core.series.Series`, un type de `panda` qui s'apparente à un tableau unidimensionnel.
Si nécessaire, `t`peut être convertie en un tableau unidimensionnel de type `ndarray` du module `numpy` avec `t = np.asarray(t)`. Cela n'est cependant pas indispensable pour nos besoins futurs. L'important est de savoir que les données sont dans un tableau !

Définissons également deux variables `x` et `z` associées aux deux autres colonnes de `data`.

In [None]:
x = data['abscisse']
z = data['cote']

In [None]:
data.head()

### Question
> 2. Afficher les cinq premières lignes des tableaux `t`, `x`, `z`.

Pour un physicien, les tableaux `t`, `x` et `z` représentent des résultats de mesures associés à des grandeurs physiques. Le tableau `t` fait référence à des *instants*, le tableau `x` à des *abscisses*, le tableau `z` à des *cotes*. Chaque donnée des tableaux peut être récupérée par son *indice*. Par exemple :

In [None]:
print(t)

affiche l'instant de rang 5 dans le tableau `t`. Il convient d'être vigilant avec les indices : **ils commencent à 0** et non à 1. Comparez les deux résultats renvoyés les lignes de codes suivantes.

In [None]:
print(t[4])
t.head()

Le nombre d'éléments dans un tableau peut être obtenu en appelant la *méthode* `len`.

In [None]:
print(len(t))

Le résultat précédent indique que le tableau `t` contient 20 informations, chacune accessible par son rang de 0 à 19. La méthode `print` permet leur affichage. Attention à ne pas demander l'affichage d'un trop grand nombre de valeurs !

In [None]:
print(t)

## Graphiques
Les deux tableaux `x` et `z` contiennent donc les mesures d'abscisses et de cotes associées à différents instants stockés dans la tableau `t`. Ainsi, à l'instant `t[i]` sont associées l'abscisse `x[i]` et la cote `z[i]`, `i` étant un entier pouvant prendre ses valeurs entre 0 et 19 dans notre exemple.
La représentation graphique des *lois horaires* donnant l'évolution de l'abscisse en fonction du temps peut se faire à l'aide de méthodes graphiques du module `matplotlib.pyplot`. Chargeons ce module.

In [None]:
import matplotlib.pyplot as plt
#%matplotlib inline

puis traçons la loi horaire de l'abscisse.

In [None]:
plt.plot(t,x)
plt.show()

La loi horaire de la cote est obtenue de manièe similaire.

In [None]:
plt.plot(t,z)
plt.show()

Enfin, la *trajectoire*, c'est-à-dire la cote en fonction de l'abscisse, est obtenue comme suit.

In [None]:
plt.plot(x,z)
plt.show()

Par défaut, les précédents graphes sont obtenus en joignant les points de mesures. Des options permettent de modifier l'apparence des graphes. Par exemple, en ajoutant `'ro'` dans la méthode `plot`, les points sont matérialisés en rouge (`r`) sous la forme de petits disques (`o`).

In [None]:
plt.plot(x,z,'b+')
plt.show()

Les deux présentations peuvent être combinées.

In [None]:
#plt.plot(x,z,'b-',x,z,'r+')
plt.plot(t,x,'r+')
plt.plot(t,z,"b+")
#plt.plot(x,z,'bo-')
plt.show()

D'autres options permettent l'ajout de *labels* sur les axes et d'un titre au graphique. La première ligne du code suivant permet en outre de redéfinir la taille du graphique affiché : 10 pouces x 5 pouces.

In [None]:
plt.rcParams['figure.figsize'] = [6,3]
plt.xlabel("abscisse $x$")
plt.ylabel("cote $z$")
plt.title("Chute libre d'un corps")
plt.plot(x,z,'ro-')
plt.show()

Le module `matplotlib`regorge de fonctionnalités et d'options qui permettent des mises en forme très élaborées des graphiques. Le notebook [http://laphysiquedepapa.free.fr/algorithmique/matplotlib.html](http://laphysiquedepapa.free.fr/algorithmique/matplotlib.html) en donne un aperçu pour le besoins du physicien.

# Compléments

## Représentation graphique d'une loi physique

Sous certaines hypothèses, un modèle mathématique peut décrire le comportement d'un phénomène physique. Par exemple, les oscillations amorties d'un oscillateur linéaire sont décrites par la relation suivante décrivant l'évolution d'une grandeur physique $x$ (élongation, angle) en fonction du temps $t$. Dans un intervalle de temps $[t_{min},t_{max}]$, on a :
$$ \forall t \in [t_{min},t_{max}], x(t) = x_m e^{-t / \tau} \cos(2 \pi f t + \varphi) $$
Dans cette expression :
- $x_m$ représente l'amplitude des oscillations;
- $\tau$ est un temps caractéristique associé à l'amortissement des oscillations;
- $f$ est une fréquence caractéristique d'oscillations;
- $\varphi$ est une phase liée aux conditions dans lequel le système se trouve initialement.
Pour tracer l'évolution de $x$ en fonction de $t$, il convient de définir les différents paramètres physiques de la relation. On suppose les modules `numpy`, `matplotlib.pyplot` et `pandas`chargés.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# paramètres physiques
x_m = 1.0
tau = 10.0
f = 1.0
phi = 0.0

Puis on définit les paramètres nécessaires pour le tracé de la courbe représentative de $x$ en fonction de $t$.

In [None]:
# intervalle de temps
t_min = 0.0
t_max = 3 * tau
# nombre de points de calculs
n_t = 1000

L'intervalle $[t_{min},t_{max}]$ est défini par un tableau de $n_t$ valeurs équiréparties à l'aide de la méthode `linspace` du module `numpy`.

In [None]:
t = np.linspace(t_min,t_max,n_t)
#print(t)

La variable `t` est un tableau de type `ndarray` contenant des flottants. L'une des caractéristiques de ces tableaux est qu'il est possible de leur des opérations mathématiques *en bloc*. Ainsi `cos(2*np.pi*f*t)` est un tableau qui contient autant de valeurs que `t` et dont les éléments sont tous les `cos(2*np.pi*f*t[i])`, où `i` prend les valeurs de `0` à `n_t-1`. Construire un tableau `x` des valeurs de $x$ est alors aisé.

In [None]:
omega = 2 * np.pi * f
x = x_m * np.exp(-t / tau) * np.cos(omega * t + phi)
#print(x)

Il ne reste alors plus qu'à afficher le graphe de $x$ en fonction de $t$.

In [None]:
plt.rcParams['figure.figsize'] = [15,5]
#plt.plot(t,x,'ro-')
#plt.plot(t,x,'r-',t,x,'bo')
plt.plot(t,x,'r-')
#plt.scatter(t,x,color='b')
plt.show()

## Écriture dans un fichier

Les données tabulaires contenues dans `t` et `x` peuvent être enregistrées dans un fichier *csv*. Plusieurs solutions existent. Nous proposons d'utiliser une nouvelle fois le module `pandas` pour réaliser cette opération. 

Dans un premier temps, il convient de créer un *dataframe* qui contient toutes les donneés tabulaires que l'on souhaite enregistrer. Dans notre cas, il s'agit des tableaux `t` et `x`. La méthode `DataFrame` ([http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe](http://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe)) assure cette opération. Elle reçoit en arguments les différents tableaux précédés d'une intitulé de colonne. Dans notre exemple, nous intitulons `'temps'` et `'élongation'` les deux colonnes.

In [None]:
data = pd.DataFrame({
    'temps' : t,
    'élongation' : x
})

In [None]:
data.head()

Après avoir défini le nom du fichier de sauvegarde, la méthode `to_csv` ([http://pandas.pydata.org/pandas-docs/stable/io.html](http://pandas.pydata.org/pandas-docs/stable/io.html)) assure l'écriture des données stockées dans la variable `data` dans le fichier. Parmi les options utilisées :
- `sep=';'` indique que les informations sont séparées par un point-virgule;
- `index=False` précise qu'aucun indice de colonne doit être enregistré dans le fichier;
- `encoding='utf-8'` stipule que l'encodage des données dans le fichier est *utf-8* ([https://fr.wikipedia.org/wiki/UTF-8](https://fr.wikipedia.org/wiki/UTF-8)).

In [None]:
filename = "oscillations_pseudo_periodiques.csv"
data.to_csv(filename, sep=';', index=False, encoding='utf-8')