# Point, Sample

Michaël Baudin

## Résumé

Dans cette page, nous présentons les classes `Point` et `Sample`, deux classes de base dans OpenTURNS. Nous présentons les concepts implémentés par ces classes, ainsi que la manière de créer et utiliser de tels objets. Nous montrons comment extraire une ligne ou une colonne avec l'opérateur de slicing. Nous montrons les interactions avec les types Python ainsi qu'avec le module Numpy.

## Références

http://openturns.github.io/openturns/master/user_manual/_generated/openturns.Point.html

http://openturns.github.io/openturns/master/user_manual/_generated/openturns.Sample.html

## Introduction

Deux types de données incontournables avec OpenTURNS sont :
* `Point` : un point de dimension D ($\in \mathbb{R}^D$) ;
* `Sample` : un échantillon de N points de dimension D.

Objectifs de cette séquence :
* extraire et insérer des valeurs ;
* interactions avec l’environnement Python.

In [1]:
import openturns as ot
import numpy as np

## Point

Nous allons voir comment :
* créer un point de $\mathbb{R}^3$ ;
* accéder à ses composantes ;
* modifier ses composantes.

Les points sont remplis par des zéros par défaut. 

In [2]:
p = ot.Point(3)
p

Accéder à la seconde composante (d'indice 1).

Note : La numérotation des composantes commence à 0 en Python.

In [3]:
p[1]

0.0

Modifier la seconde composante.

In [4]:
p[1] = 2.0
p

In [5]:
p.getDimension()

3

## Sample

Il s’agit d’un échantillon de $n$ points de $\mathbb{R}^p$ :
* $p$ est la dimension de l’échantillon ;
* $n$ est sa taille (en anglais "*size*").

Un `Sample` peut donc être vu comme une matrice (à $n$ lignes et $p$ colonnes plutôt que $p$ lignes et $n$ colonnes en général par les statisticiens).

*Remarque.* Il existe aussi un objet `ProcessSample` (échantillon de champs, typiquement des fonctions de l’espace ou du temps).

Créer et manipuler un Sample (n=5, p=3).

In [6]:
data = ot.Sample(5, 3)
data

0,1,2,3
,v0,v1,v2
0.0,0,0,0
1.0,0,0,0
2.0,0,0,0
3.0,0,0,0
4.0,0,0,0


In [7]:
data.getSize()

5

In [8]:
data.getDimension()

3

Modifier un `Sample`.

In [9]:
data[3, 2] = 32.0
data

0,1,2,3
,v0,v1,v2
0.0,0,0,0
1.0,0,0,0
2.0,0,0,0
3.0,0,0,32
4.0,0,0,0


## Sample : extraire une ligne ou une colonne

* Comme avec les tableaux Numpy, on peut extraire une ligne ou une colonne avec l'opérateur de slicing `:`.
* En Python, le *slicing* est l’acte d’extraire une partie d’un tableau en une seule instruction.
* Objectif : éviter les boucles `for` par vectorisation pour améliorer la performance et la lisibilité.

In [10]:
ligne = data[3, :]
ligne

In [11]:
type(ligne)

openturns.typ.Point

In [12]:
colonne = data[:, 2]
colonne

0,1
,v2
0.0,0
1.0,0
2.0,0
3.0,32
4.0,0


In [13]:
type(colonne)

openturns.typ.Sample

On observe que 
* la `ligne` est de type `Point`
* la `colonne` est de type `Sample`

C'est cohérent : dans un `Sample` en dimension p, une ligne est bien un `Point` en dimension p.

Extraire plusieurs colonnes dans un nouveau `Sample`.

In [14]:
data.getMarginal([0, 2])

0,1,2
,v0,v1
0.0,0,0
1.0,0,0
2.0,0,0
3.0,0,32
4.0,0,0


On peut extraire plusieurs lignes d'un `Sample` grâce à l'opérateur d'indexation (depuis OT1.17). La fonctionnalité est implémentée par la méthode `select` ainsi que l'opérateur d'indexation `[]`. Dans l'instruction suivante, on extrait les lignes 1, 3 et 5. 

In [15]:
indices = [1, 3, 4]
data[indices]

0,1,2,3
,v0,v1,v2
0.0,0,0,0
1.0,0,0,32
2.0,0,0,0


## Créer des Points ou Samples à partir d’une liste Python

Créer un `Point` à partir d’une liste.

In [16]:
p1 = ot.Point([2.0, 3.0])
p1

In [17]:
p2 = ot.Point(range(2))
p2

Un *Pythonisme* utile : la *list comprehension*. Elle permet de créer une liste en réalisant une boucle `for`. Cette construction est souvent utilisée dans la documentation d'OpenTURNS, dans le but d'obtenir des exemples concis.

In [18]:
p3 = ot.Point([v * v for v in p1])
p3

Un *Pythonisme* utile : la répétition avec l'opérateur `*`.

In [19]:
p4 = [5] * 3
p4

[5, 5, 5]

Créer un `Sample` à partir d’une liste de `Point`s.

In [20]:
data = ot.Sample([p1, p2, p3])
data

0,1,2
,v0,v1
0.0,2,3
1.0,0,1
2.0,4,9


Créer un `Sample` à partir d'un `Point`, répété trois fois.

In [21]:
data = ot.Sample([p4] * 5)
data

0,1,2,3
,v0,v1,v2
0.0,5,5,5
1.0,5,5,5
2.0,5,5,5
3.0,5,5,5
4.0,5,5,5


Créer un `Sample` à partir d’une liste (imbriquée).

In [22]:
data = ot.Sample([[0.0, 1.0], [2.0, 3.0], [4.0, 5.0]])
data

0,1,2
,v0,v1
0.0,0,1
1.0,2,3
2.0,4,5


## Interactions avec Numpy

* Les classes Python extérieures à OpenTURNS ne connaissent pas les classes OpenTURNS. 
* C'est pourquoi il est utile de savoir convertir vers des types Python plus classiques, en particulier les tableaux (arrays) de Numpy.

Créer un `Sample`, puis le convertir en `array` Numpy 2D.

In [23]:
X = ot.Sample(5, 3)

Xarray = np.array(X)
Xarray

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [24]:
type(Xarray)

numpy.ndarray

Dans l’autre sens : créer un `array` Numpy, puis le convertir en `Sample`.

In [25]:
Xarray = 3.14 * np.ones((5, 3))
X = ot.Sample(Xarray)
X

0,1,2,3
,v0,v1,v2
0.0,3.14,3.14,3.14
1.0,3.14,3.14,3.14
2.0,3.14,3.14,3.14
3.0,3.14,3.14,3.14
4.0,3.14,3.14,3.14


In [26]:
X.getSize()

5

In [27]:
X.getDimension()

3

Créer un `Sample` à partir de 5 valeurs est ambigu. En effet, est-ce :
* un échantillon de taille 5 en dimension 1 ou
* un échantillon de taille 1 en dimension 5 ?

Pour retirer l'ambiguïté, on utilise le second argument du constructeur de `Sample`, qui permet de spécifier la dimension.

In [28]:
u = np.linspace(0.0, 1.0, 5)
u

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

Choix A : on crée un `Sample` de taille 5 en dimension 1. Le script suivant utilise la "list comprehension" pour créer un échantillon de taille 5 en dimension 1. 

In [29]:
X = ot.Sample([[x] for x in u])
X

0,1
,v0
0.0,0
1.0,0.25
2.0,0.5
3.0,0.75
4.0,1


Choix B : on crée un `Sample` de taille 1 en dimension 5.

In [30]:
X = ot.Sample([u])
X

0,1,2,3,4,5
,v0,v1,v2,v3,v4
0.0,0,0.25,0.5,0.75,1


Si on ne spécifie rien, OpenTURNS ne peut pas se déterminer et une exception est générée :
```
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-48-8c4ed687c6a9> in <module>()
      1 # Génère une exception attendue
----> 2 X = ot.Sample(u)
[...]
TypeError: InvalidArgumentException : Invalid array dimension 1 is ambiguous, please set the dimension explicitly
```

In [31]:
# Génère une exception attendue
# X = ot.Sample(u)

## Conversion de entre Point et Sample

Dans certains cas, on souhaite convertir un `Point` en `Sample`, ou le contraire.

Dans l'exemple suivant, on convertit une liste en `Sample` grâce à la méthode `BuildFromPoint` (depuis OT1.18). 

In [32]:
data = [2.0, -3.0, 5.0]
sample = ot.Sample.BuildFromPoint(data)
sample

0,1
,v0
0.0,2
1.0,-3
2.0,5


Dans l'exemple suivant, on utilise la méthode `asPoint()` qui permet de convertir un échantillon en dimension 1 en `Point`.

In [33]:
sample = ot.Sample([[3.0], [5.0], [7.0]])
sample

0,1
,v0
0.0,3
1.0,5
2.0,7


In [34]:
point = sample.asPoint()
point

## Point/Sample : exercices

### Exercice 1 : point et norme 1
Créer la variable X contenant un `Point` en dimension 12 contenant les
valeurs numériques suivantes : 0., 1., ..., 11. 
* Utiliser la méthode `norm()` pour calculer la norme Euclidienne de X. 
* Comment calculer la norme 1 de X ?

### Exercice 2 : moyenne et minimum
Créer la variable X contenant un Sample correspondant à l’échantillon
en dimension 2 suivant :
$$
X=
\begin{pmatrix}
1 & 0 \\
3 & -2 \\
5 & -4 \\
7 & -6
\end{pmatrix}
$$
* Utiliser la méthode `computeMean` pour calculer la moyenne empirique composante par composante.
* Utiliser la méthode `getMin` pour calculer le minimum composante par composante.

### Exercice 3 : un pythonisme

Experimentez le pythonisme suivant, qui permet d’extraire les quatre
champs d’un `Point` en une seule ligne :

```
X = ot.Point([12.0, 1.680, 3.1416, 2.718])

[apotres, golden, pi, euler] = X
```

* Afficher les valeurs de `apotres`, `golden`, `pi` et `euler` et vérifier les valeurs. 
* Que se passe-t-il si on ajoute une dimension dans le `Point` ?

### Exercice 4 : matrice de corrélation

Créer la `CorrelationMatrix` correspondant à la matrice de
corrélation suivante :
$$
A=
\begin{pmatrix}
1   & 0.1 \\
0.1 & 1
\end{pmatrix}
$$
de deux manières différentes : 
* à partir d’une liste Python, 
* à partir  d’un array Numpy.

### Exercice 5 : split

La méthode `split` de la classe `Sample` permet de découper un échantillon en deux parties. Par exemple, dans le contexte de la validation d'un méta-modèle, on découpe un échantillon en deux sous-échantillon :
* un sous-échantillon d'apprentissage,
* un sous-échantillon de validation.

L'objectif de cet exercice est de faire des essais avec cette méthode. 
* Créer la variable `data` contenant un échantillon de taille 5 issu d'une loi gaussienne en dimension 2.
* Utiliser la méthode `split` pour créer la variable `reste` contenant un sous-échantillon de taille 2. 
* Observer le contenu de la variable `data`.

### Exercice 6 : types

Lorsqu'on utilise par exemple la classe `Normal`, les méthodes associées peuvent renvoyer des `Sample`, des `Point` ou des `float` en fonction des cas. Il faut donc être capable de faire cohabiter ces objets. 

* Utiliser l'instruction suivante pour calculer la moyenne d'une variable gaussienne avec les paramètres par défaut :
```
moyenne = ot.Normal().getMean()
```
* Quel est le type de la variable `moyenne` ?
* Extraire la première composante de `moyenne` : quel est son type ?
* Créer un échantillon de 5 réalisations en dimension 3 d'une variable gaussienne centrée-réduite avec l'instruction :
```
X = ot.Normal(3).getSample(5)
```
* Quel est le type de `X` ?