# Chapitre 6 : introduction à NumPy
## [Documentation NumPy](https://numpy.org)

## Types de données
Il existe 3 principaux types de données : les données structurées, les données non structurées et les données semi-structurées.

### Les données structurées
- Organisées sous forme de tableaux (lignes / colonnes).
- Contiennent des entiers, des flottants, des strings, etc.
- Idéales pour la plupart des algorithmes de traitement de données.

**Exemples :** tables excel, base de données, etc.

#### &rarr; comment transformer des données non structurées en données structurées ?

### Les données non structurées
- Facilement compréhensible par l'humain.
- Difficilement compréhensibles par une machine.

**Exemples :** livre, vidéos, images, sons, etc.

### Les données semi-structurées
- Entre structurées et non structurées.
- Pas organisées sous forme de tableaux.

**Exemples :** pages HTML, JSON, XML, etc.

## Préparation des données
### = 1) récupérer &rarr; 2) structurer &rarr; 3) transformer

## Stocker les données : les `arrays` NumPy
- Package fondamental (utilisé "partout").
- Simple et complet.
- Codé en C, puis exposé en Python  &rarr; très rapide.

### Les `ndarray`
- Structure à n dimensions.
- Ne contient qu'un seul type de données.
- Méthodes optimisées pour travailler avec les `ndarray`.
- Stockable dans des fichiers.

#### Construction : `np.array()`

**Exemples :**
```
import numpy as np

# from a list
my_list = [0, 2, 4, 6, 8, 10]
array_from_list = np.array(my_list)

# from a range: arange()
array_from_range = np.arange(0, 11, 2)

# from a number of values in an interval: linspace()
array_from_linspace = np.linspace(0, 10, 6)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Afficher à chaque fois le `ndarray` et son type.
3. Expérimenter en modifiant la liste, les paramètres de `arange()` et les paramètre de `linspace()`.
4. En Français, expliquer ce que font les fonctions `arange()` et `linspace()`.

### ==================== SOLUTION ===================

In [14]:
### ==============================================
import numpy as np

# from a list
my_list = [0, 2, 4, 6, 8, 10]
array_from_list = np.array(my_list)
print(array_from_list)

# from a range: arange()
array_from_range = np.arange(0, 11, 2)
print(array_from_range)

# from a number of values in an interval: linspace()
array_from_linspace = np.linspace(0, 10, 6)
print(array_from_linspace)


[ 0  2  4  6  8 10]
[ 0  2  4  6  8 10]
[ 0.  2.  4.  6.  8. 10.]


#### `np.array()` prédéfinis
Les fonctions `eye()`, `zeros()`, `ones()` et `full()`.

**Exemple :**
```
import numpy as np
e = np.eye(4)

z = np.zeros(4)

o = np.ones(4)

f = np.full(10, 2)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Afficher à chaque fois le `ndarray` et son type.
3. Expérimenter en modifiant les paramètres des fonctions `eye()`, `zeros()`, `ones()` et `full()`.
4. En Français, expliquer ce que font ces fonctions.

### ==================== SOLUTION ===================

In [17]:
import numpy as np

e = np.eye(4, dtype=int)

z = np.zeros(4, dtype=int)

o = np.ones(4, dtype=int)

f = np.full(10, 2, dtype=int)

print(e)

## Afficher le `dtype` d'un `ndarray`
**Exemple :**
```
import numpy as np
e = np.eye(4, dtype=bool)
print(e.dtype)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Afficher à chaque fois le `ndarray`, son type, et son `dtype`.
3. Noter la différence de type des données, avec et sans `dtype=int`.
4. Expérimenter en changeant le type des données.
5. Essayer de créer un `array` contenant 5 fois la String "Hello World". Que se passe-t-il ? Pourquoi ?

### ==================== SOLUTION ===================

In [25]:
import numpy as np
e = np.eye(4, dtype=bool)
print(e, e.dtype)

[[ True False False False]
 [False  True False False]
 [False False  True False]
 [False False False  True]] bool


### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Faites varier les différents paramètres pour `rand` et `randint`.
3. Faites varier les paramètres `mean`, `sd` et `size`. Que se passe-t-il ?

### ==================== SOLUTION ===================

In [None]:
### ==============================================

## Les propriétés d'un `ndarray` : `dtype`, `shape`, `ndim`, `size`, `itemsize`

**Exemple :**
```
import numpy as np

mean = 0
sd = 1
size = (3, 4, 5)
arr = np.random.normal(mean, sd, size)
print(arr)
print(arr.dtype)
print(arr.shape)
print(arr.ndim)
print(arr.size)
print(arr.itemsize)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Créer différents `ndarray` et afficher leurs propriétés.
3. En Français, que représente les paramètres `dtype`, `shape`, `ndim`, `size`, `itemsize` ?

### ==================== SOLUTION ===================

### ==============================================

## Changer la forme d'un `ndarray` : la fonction `reshape()`

**Exemple :**
```
import numpy as np

mean = 0
sd = 1
size = (3, 4, 5)
arr = np.random.normal(mean, sd, size)
print(arr.shape)
arr2 = arr.reshape(12, 5)
print(arr2.shape)
arr3 = arr.reshape(6, 2, 5)
print(arr3.shape)
arr4 = arr.reshape(5, 6, 2)
print(arr4.shape)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment
2. Utiliser `reshape` avec différentes valeurs.
3. Utiliser `reshape(5, 6, 3)` sur `arr` créé précédemment. Que se passe-t-il ? Pourquoi ?

### ==================== SOLUTION ===================

### ==============================================

## Accès aux données : `ndarray` à 1 dimension
### L'opérateur `[]`.
### `start:end:step` est appelée une "slice".
### Utiliser `[start:end:step]` est appelé "slicing".

**Exemple :**
```
import numpy as np

mean = 0
sd = 1
size = (6)
arr = np.random.normal(mean, sd, size)
print(arr)

# The first element
print(arr[0])

# The last element
print(arr[-1])

# The 3 last elements
print(arr[-3:]) # slicing

# Elements at even indices
print(arr[1::2]) # slicing
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Créer différents `ndarray` à 1 dimension mais de tailles différentes.
3. Afficher les premiers éléments.
4. Afficher les derniers éléments.
5. Afficher les éléments avec des pas différents.
6. Afficher les `ndarray` inversés.

### ==================== SOLUTION ===================

### ==============================================

## Accès aux données : `ndarray` à 2 dimensions (ou plus)
### Les opérateurs `[start:end:step, start:end:step, start:end:step, ... ]`
#### Pour un `ndarray` à 2 dimensions, alors on doit utiliser l'opérateur `[start:end:step, start:end:step]`
#### On peut omettre les derniers `start:end:step`, dans ce cas, c'est identique à utiliser `:` ou `::` c'est-à-dire que ça retourne tous les éléments selon cette dimension.

**Exemple :**
```
import numpy as np

mean = 0
sd = 1
size = (3, 4) # 3 lines, 4 columns
arr = np.random.normal(mean, sd, size)
print(arr)

# The first element
print(arr[0,0])

# The first row
print(arr[0])
print(arr[0,:])
print(arr[0, ::])

# The last row
print(arr[-1])
print(arr[-1, :])
print(arr[-1, ::])

# The 2 last rows
print(arr[-2:])

# First and last rows
print(arr[0::2])

# The first column
print(arr[:,0])

# The last column
print(arr[:,-1])

# The last 2 columns
print(arr[:, -2:])
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Créer différents `ndarray` à 2 dimensions mais de tailles différentes.
3. Afficher les premières lignes et colonnes.
4. Afficher les dernières lignes et colonnes.

### ==================== SOLUTION ===================

### ==============================================

## Accès aux données : les listes d'indices
### Les opérateurs `[start:end:step, start:end:step, start:end:step, ... ]` peuvent prendre des listes d'indices au lieu des `start:end:step`

**Exemple :**
```
import numpy as np

mean = 0
sd = 1
size = (3, 4) # 3 lines, 4 columns
arr = np.random.normal(mean, sd, size)
print(arr)

# The elements at (1, 2) and (2, 3)
rows_indices = [1, 2]
cols_indices = [2, 3]
print(arr[rows_indices, cols_indices])
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Créer différents `ndarray` à 2 dimensions mais de tailles différentes.
3. Afficher différents éléments en utilisant les listes d'indices.

### ==================== SOLUTION ===================

### ==============================================

## Les `Views`
### Une `View` affiche les données initiales, mais sous une autre forme
### Modifier une `View` modifie les données initiales
### Utiliser la fonction `view()`
### Les `slicing` génèrent des `Views`

**Exemple :**
```
import numpy as np

mean = 100
sd = 1
size = (3, 3) # 3 row, 3 columns
arr = np.random.normal(mean, sd, size)
print("Array BEFORE modification")
print(arr)

arr_view = arr.view()
arr_view[0,2] = 42
print("Array AFTER first modification")
print(arr)

# Slicing with :
first_line = arr[0,:]

# Modify first element
first_line[1] = 42

print("Array AFTER second modification")
print(arr)
```

### ==================== EXERCICE ====================
1. Exécuter l'exemple donné précédemment.
2. Expérimenter et bien noter le fait que si on modifie les éléments du `ndarray` obtenu par `slicing`, on modifie aussi les données initiales.

### ==================== SOLUTION ===================

### ==============================================

## `Broadcasting`
### Étendre automatiquement la taille des `ndarrays` pour autoriser les opérations

### Pour chaque dimension, vérifier si elles ont la même taille, ou 1
### Sinon, retourner une erreur.

#### Exemple
- A est un tableau à une dimension de taille 3 (3 x 1)
- B un tableau à 2 dimensions de tailles 3 (3 x 3)

Si on fait C = A+B, alors C sera un tableau à 2 dimensions de tailles 3 (3 x 3).

|ARRAY| Dimension 1 | Dimension 2 |
|----|----|----|
|A|1|3|
|B|3|3|
|C|3|3|


**Exemple :**

```
import numpy as np

A = np.array([1, 2, 3])
print(A.shape)
B = np.array([10, 20, 30])
print(B.shape)
# OK
C = A+B
print(C.shape)

B = np.ones((3, 3))
print(B.shape)
# BROADCASTING
C = A+B
print(C.shape)

B = np.ones((4, 4))
print(B.shape)
# ERROR
C = A+B
print(C.shape)
```


#### Exemple avec 3 dimensions
Avec les tableaux de dimensions suivantes :

|ARRAY| Dimension 1 | Dimension 2 | Dimension 3 |
|----|----|----|-----|
|A|4|1|2|
|B|1|3|1|
|C|4|3|2|

**Exemple :**

```
import numpy as np

A = np.ones((4, 1, 2))
print(A.shape)
B = np.ones((1, 3, 1))
print(B.shape)
# BROADCASTING
C = A+B
print(C.shape)
```


#### Exemple avec des dimensions "manquantes" : on aligne à partir de la droite (donc la dernière dimension)

Avec les tableaux de dimensions suivantes :

|ARRAY| Dimension 1 | Dimension 2 | Dimension 3 |
|----|----|----|-----|
|A|1|1|4|
|B|1|3|1|
|C|1|3|4|

**Exemple :**

```
import numpy as np

# BROADCASTING
A = np.array([1, 2, 3, 4])
print(A.shape)
B = np.ones((1, 3, 1))
print(B.shape)
C = A+B
print(C.shape)
```


### ==================== EXERCICE ====================
1. Exécuter les exemples donnés précédemment.
2. Expérimenter.

### ==================== SOLUTION ===================

### ==============================================

## La fonction `reshape()`

**ATTENTION :** le nombre d'éléments après le `reshape()` doit être le même.

**Exemple :**

```
import numpy as np

A = np.array([1, 2, 3, 4, 5, 6, 7, 8])
print(A.shape)
B = A.reshape(2, 2, 2)
print(B.shape)

# ERROR
# C = A.reshape(3, 2, 2)
# print(C.shape)
```


### ==================== EXERCICE ====================
1. Exécuter les exemples donnés précédemment.
2. Expérimenter.

### ==================== SOLUTION ===================

### ==============================================

## Les routines Numpy
### [Documentation des routines Numpy](https://numpy.org/doc/stable/reference/routines.html)
