# Manipulation de données avec Numpy

Importer numpy sous un alias.

In [1]:
import numpy as np

## Bases 

### Créer un tableau

Créer un array. Quelles conséquences s'il y a un float parmis les entiers ?

In [2]:
# tableau d'entier
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

In [3]:
# tableau avec un décimal
np.array([3.14, 4, 2, 5, 3])

array([3.14, 4.  , 2.  , 5.  , 3.  ])

Créer un tableau en précisant explicitement le type.  
Quelles conséquences si que des entiers mais dtype='float32', et inversement ?

In [6]:
# Précision explicite du type
np.array([1, 2, 3, 4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

In [5]:
# Précision explicite du type
np.array([1.2, 2, 3.1, 4], dtype='int')

array([1, 2, 3, 4])

Créer un tableau constitué d'entier.
Que se passe-t-il si on assigne une valeur non entière à un élément d'un tableau d'entier ?

In [3]:
x = np.array([1, 2, 3, 4], dtype='int')
print(x)
# Changer la première valeur de x par une valeur non entière et constater qu'elle est mise entière
x[0] = 3.14
x

[1 2 3 4]


array([3, 2, 3, 4])

Pour créer des tableaux multidimensionnels en utilisant des listes de listes.

In [12]:
np.array([[1, 2, 3], [2, 3, 4], [3, 4, 5]])

np.array([range(i, i + 3) for i in [2, 4, 6]])

np.array([[x for x in range(3)], [x*2 for x in range(3)], [x*3 for x in range(3)]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

Il existe de multiples possibilités avec numpy pour créer des tableaux différents (en jouant sur des dimensions ou des types différents).

In [13]:
# Tableau rempli de zéros
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [14]:
# Tableau rempli de uns
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [15]:
# Tableau avec la même valeur répétée
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [17]:
# Séquence linéaire (from, to, by), équivalent à la fonction basique range()
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [19]:
# Séquence de 5 valeurs comprises entre 0 et 1 également séparées
np.linspace(0, 1, 5)

array([0.        , 0.11111111, 0.22222222, 0.33333333, 0.44444444,
       0.55555556, 0.66666667, 0.77777778, 0.88888889, 1.        ])

In [20]:
# Créer une matrice identitée
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [4]:
# Un tableau vide (les valeurs dépendent de ce qui existe déjà dans la mémoire)
np.empty(3)

array([3., 2., 1.])

np.random offre également des possibilités pour créer des tableaux en tirant les valeurs aléatoires.
Créer une matrice 3x3 de valeurs tirées dans une uniforme comprise entre 0 et 1, une dans une normale centrée et réduite et une d'entiers entre 0 et 10.

In [28]:
np.random.seed(13)
# Tableau 3x3 de valeurs tirées dans une uniforme entre 0 et 1
np.random.random((3, 3))
# Normale de moyenne 0 et écart-type 1
np.random.normal(0, 1, (3, 3))
# Entiers aléatoires compris entre 0 et 10
np.random.randint(0, 10, (3, 3))

array([[7, 1, 4],
       [4, 6, 4],
       [5, 6, 6]])

### Les attributs d'un tableau de données numpy

Créer trois tableaux x1, x2, x3, respectivement de 1, 2 et 3 dimensions, constitués d'entiers aléatoires.
Déterminer la taille, la dimension, la consommation mémoire, le type d'un tableau de données. Jouer sur la taille pour voir les différences.

In [22]:
# Créer un tableau de données 
# En une dimension
x1 = np.random.randint(10, size=6)
# En deux dimensions
x2 = np.random.randint(10, size=(3, 4))
# En trois dimensions
x3 = np.random.randint(10, size=(3, 4, 5))

In [24]:
# Nombre de dimensions
x1.ndim
# Taille de chaque dimension
x3.shape
# Taille totale du tableau
x1.size
# Type de données du tableau
x3.dtype
# Taille de chaque élément du tableau et taille totale, en bytes
x3.itemsize
x3.nbytes

3

### Indexing (sélection d'un seul élément)

Sélectionner élément i du tableau de données en une dimension.

In [25]:
print(x1)
# Sélectionner élément i
print(x1[0])
# En partant de la fin
print(x1[-1])

[2 0 0 6 2 4]
2
4


En dimension supérieure à 1, on sépare les indices par une virgule.

In [26]:
print(x2)
# Sélectionner ligne 0 colonne 1
print(x2[0, 1])
# Première ligne, dernière colonne
print(x2[0, -1]) 

[[9 3 4 2]
 [6 5 9 4]
 [2 0 3 5]]
3
2


### Slicing (sélection d'un sous-ensemble)

Créer une suite de 10 entiers. En sélectionner les 5 premiers éléments, les éléments après l'indice 5, ceux du 4 au 7, un sur 2, un sur 2 à partir de l'indice 1.

In [31]:
# Création de la suite
x = np.arange(10)
print(x)
# 5 premiers éléments
x[:5]
# # Après l'indice 5
x[5:]
# # Entre l'indice 4 et 7
x[4:7]
# # Un sur deux
x[::2]
# # Un sur deux à partir de l'indice 1
x[1::2]

[0 1 2 3 4 5 6 7 8 9]


array([1, 3, 5, 7, 9])

Inverser le sens du tableau. Avoir les valeurs dans le sens inverse à partir de l'indice 5. Un sur deux à partir de l'indice 5 en sens inverse.

In [34]:
print(x)
# En sens inverse
x[::-1]
# En sens inverse à partir de l'indice 5
x[5::-1]
# Un sur deux en sens inverse à partir de l'indice 5
x[5::-2]

[0 1 2 3 4 5 6 7 8 9]


array([5, 3, 1])

Voir comment cela fonctionne en dimension supérieure à 1 (en utilisant x2 ou x3).
Sélectionner les deux premières lignes et trois premières colonnes de x2, toutes les lignes et une colonne sur deux, la table en sens inverse.

In [34]:
print(x2)
# Deux premières lignes, trois premières colonnes
print(x2[:2, :3]) 
# Toutes les lignes, une colonne sur deux
x2[:, ::2]
# Tableau en sens inverse
x2[::-1, ::-1]

x2[:, :] == x2

[[9 3 4 2]
 [6 5 9 4]
 [2 0 3 5]]
[[9 3 4]
 [6 5 9]]


array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

Sélectionner la première ligne et la première colonne de x2.
Sélectionner les premières lignes de x3, les premières colonnes, le premier tableau.

In [36]:
# Première ligne
x2[0, :]
# Première colonne
x2[:, 0]
print(x3)
# Premières lignes de x3
x3[:, 0, :]
# Premières colonnes de x3
x3[:, :, 0]
# Première matrice de x3
x3[0, :, :]

[[[0 7 2 4 9]
  [2 4 4 2 3]
  [3 3 1 1 4]
  [4 7 6 0 6]]

 [[8 3 8 9 5]
  [9 8 0 5 3]
  [6 1 6 6 3]
  [9 9 8 7 1]]

 [[4 9 0 4 8]
  [4 5 0 5 3]
  [6 0 3 6 0]
  [8 3 2 3 5]]]


array([[0, 7, 2, 4, 9],
       [2, 4, 4, 2, 3],
       [3, 3, 1, 1, 4],
       [4, 7, 6, 0, 6]])

Attention, sélectionner un sous-ensemble ne retourne pas une copie des données en question.
Sélectionner un sous-ensemble 2x2 de x2. Modifier sa première valeur. Voir l'impact sur x2 original.
Répéter avec la méthode .copy().

In [37]:
# Sélection d'un sous-ensemble de x2
x2_sub = x2[:2, :2]
# Changement de la première valeur de x2_sub
x2_sub[0, 0] = 99
# Impact sur x2  original
x2

# Sélection d'un sous-ensemble de x2
x2_sub_copy = x2[:2, :2].copy()
# Modification de la première valeur de x2_sub_copy
x2_sub_copy[0, 0] = 42
# Impact sur x2
x2

x2_sub_copy

array([[42,  3],
       [ 6,  5]])

### Reshaping

Créer une suite de 1 à 9 inclus. La mettre sous format 3x3.
Créer un tableau de dimension 1. Le transformer en vecteur ligne. En vecteur colonne.

In [45]:
grid = np.arange(1, 10)
print(grid)
grid.reshape((3, 3))

# Vecteur ligne
grid.reshape((1, 9)) # via reshape
grid[np.newaxis, :] # via newaxis
# Vecteur colonne
grid.reshape((9,1))
grid[:, np.newaxis].shape

[1 2 3 4 5 6 7 8 9]


(9, 1)

### Joining and spliting 

Créer trois vecteurs de trois entiers et les concatener.

In [48]:
# Création de trois tableaux
x = np.array([1, 2, 3])
y = np.array([3, 2, 1])
z = [99, 99, 99]
np.concatenate([x, y, z, x])

array([ 1,  2,  3,  3,  2,  1, 99, 99, 99,  1,  2,  3])

Créer une matrice 3x2, la concaténer avec elle même. Spécifier l'axe

In [40]:
# Création grid
grid = np.array([range(i, i + 3) for i in [1, 4]])
# concaténation sur le premier axe
np.concatenate([grid, grid], axis=0)
# concaténation sur le deuxième axe
np.concatenate([grid, grid], axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

Joindre un des vecteurs créés à la matrice verticalement. Essayer horizontalement. Joindre un sous-ensemble d'un vecteur à la matrice horizontalement.

In [41]:
# Jointure verticale
np.vstack([x, grid])
# Jointure horizontale
np.hstack([grid, x[:2, np.newaxis]])

array([[1, 2, 3, 1],
       [4, 5, 6, 2]])

Créer un vecteur de 8 valeurs. Le diviser aux troisième et cinquième points

In [50]:
x = np.arange(8)
print(x)
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)

[0 1 2 3 4 5 6 7]
[0 1 2] [3 4] [5 6 7]


Créer une matrice 4x4. La diviser en deux, verticalement et horizontalement.

In [8]:
grid = np.arange(16).reshape((4,4))
upper, lower = np.vsplit(grid, 2)
print(grid, end="\n\n")

print("-"*50)
print(upper, end="\n\n")
print(lower, end="\n\n")

left, right = np.hsplit(grid, [2])
print("-"*50)
print(left, end="\n\n")
print(right, end="\n\n")

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]

--------------------------------------------------
[[0 1 2 3]
 [4 5 6 7]]

[[ 8  9 10 11]
 [12 13 14 15]]

--------------------------------------------------
[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]

[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]



## Universal Functions

### Vectorisation

Reprendre la fonction programmée pour calculer une inverse via une boucle. Calculer le temps nécessaire pour calculer l'inverse d'un tableau d'un million de valeur. Comparer avec une approche vectorisée.

In [44]:
# Calcul inverse via boucle
def compute_reciprocals(values):
    """
    Calcul l'inverse de values.
    
    Parmeters
    ---------
    values : ndarray
        Vecteur de valeurs
    
    Returns
    -------
    output : ndarray
        Tbleau des inverses de values.
    """
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
        
    return output


big_array = np.random.randint(1, 100, size=1000000)
%timeit compute_reciprocals(big_array)
%timeit (1.0 / big_array)

2.18 s ± 45.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
1.67 ms ± 103 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


### Opérateurs

Créer une suite x. Lui appliquer les opérations usuelles. Calculer $-(0.5 * x + 1)^2$ pour vérifier si l'ordre des opérations est bien respecté.

In [57]:
x = np.arange(4)
print("x = ", x)
# print("x + 5 =", x + 5)
# print("x - 5 =", x - 5)
# print("x * 2 =", x * 2)
# print("x / 2 =", x / 2)
# print("x // 2 =", x // 2)
# print("-x =", -x)
# print("x ** 2 =", x ** 2)
# print("x % 2 =", x % 2)
print(-(0.5 * x + 1) ** 2)

x =  [0 1 2 3]
[-1.   -2.25 -4.   -6.25]


Définir un vecteur de trois valeurs entre 1 et $\pi$ linéairement espacées. Calculer le sinus, le cosinus et la tangente du vecteur.

In [46]:
theta = np.linspace(1, np.pi, 3)
print("theta = ", theta)
print("sin(theta) = ", np.sin(theta))
print("cos(theta) = ", np.cos(theta))
print("tan(theta) = ", np.tan(theta))

theta =  [1.         2.07079633 3.14159265]
sin(theta) =  [8.41470985e-01 8.77582562e-01 1.22464680e-16]
cos(theta) =  [ 0.54030231 -0.47942554 -1.        ]
tan(theta) =  [ 1.55740772e+00 -1.83048772e+00 -1.22464680e-16]


Calculer l'exponentiel et le  logartihme du vecteur. D'autres fonctions analogues existent, puissance, logarithme, logarithme en base 2, 10...

In [47]:
print("e^theta =", np.exp(theta))
print("3^theta =", np.power(3, theta))
print("ln(theta) =", np.log(theta))
print("log10(theta) =", np.log10(theta))

e^theta = [ 2.71828183  7.93113638 23.14069263]
3^theta = [ 3.          9.72794131 31.5442807 ]
ln(theta) = [0.         0.72793323 1.14472989]
log10(theta) = [0.         0.31613739 0.49714987]


Importer le module special de scipy. Explorer les fonctions qui existent dedans. Calculer la fonction gamma et la fonction d'erreur du vecteur.

In [48]:
from scipy import special

print("gamma(theta) =", special.gamma(theta))
print("erf(theta) = ", special.erf(theta))

gamma(theta) = [1.         1.03202658 2.2880378 ]
erf(theta) =  [0.84270079 0.99659451 0.99999112]


### Broadcasting

Créer une matrice 2x3 de 1. Quelle sera la dimension de l'output après la somme des deux ? Comment cela sera-t-il fait en suivant les règles de broadcasting ?

In [5]:
M = np.ones((2, 3))
a = np.arange(3)
print(M.shape)
print(a.shape)

(2, 3)
(3,)


In [50]:
print((M + a).shape)
M + a

(2, 3)


array([[1., 2., 3.],
       [1., 2., 3.]])

Créer un vecteur colonne qui est la transposée du vecteur précédemment créé. Quelle sera la dimension de la somme des deux ? Quelle est la logique suivie par les règles ?

In [51]:
b = a[:, np.newaxis]
print(a.shape)
print(b.shape)

(3,)
(3, 1)


In [52]:
print((a + b).shape)
a + b

(3, 3)


array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

Additioner la transposée de la matrice et le vecteur ligne précédemment créés. Quelle est la logique suivie par les règles ? La dimension de la somme des deux ? 

In [53]:
print(M.T.shape)
print(a.shape)

(3, 2)
(3,)


In [54]:
try:
    M.T + a
except ValueError as e:
    print(e)

operands could not be broadcast together with shapes (3,2) (3,) 


Modifier la taille du vecteur pour qu'il soit possible de l'additionner à la transposée de la matrice

In [55]:
print(a[:, np.newaxis].shape)
M.T + a[:, np.newaxis]

(3, 1)


array([[1., 1.],
       [2., 2.],
       [3., 3.]])

## Aggregations

Créer un vecteur de 1000000 valeurs aléatoires. Comparer le temps nécessaire pour en faire la somme avec la fonction basique et sa variante numpy. Calculer ses statistiques descriptives : moyenne, variance, minimum, maximim.

In [56]:
x = np.random.random(1000000)
%timeit sum(x)
%timeit np.sum(x)
print("Moyenne de x=", np.mean(x))
print("Variance de x=", np.var(x))
print("Minimum de x=", np.min(x))
print("Maximum de x=", np.max(x))

82.9 ms ± 2.43 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
583 µs ± 21.8 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
Moyenne de x= 0.4999229689863486
Variance de x= 0.08337244066758845
Minimum de x= 1.0370794850667053e-06
Maximum de x= 0.9999953338464682


Créer une matrice de valeurs aléatoires 3x4. En calculer la somme globale, la moyenne de chaque colonne, le maximum de chaque ligne.

In [57]:
x = np.random.random((3, 4))
print(x.sum(axis=0))
print(x.min())
print(x.max(axis=1))

[1.58393377 2.36544805 1.07540846 1.14967601]
0.03366270559374629
[0.79212184 0.8772615  0.93250739]


## Comparisons

### Opérateurs de comparaison

Créer une suite de 1 à 5. Déterminer les éléments inférieurs à 3, supérieurs à 3, inférieurs ou égaux à 3, supérieurs ou égaux à 3, différents de 3, égaux à 3.
Créer une matrice 3x4 d'entiers aléatoires inférieurs à 10. Déterminer ceux supérieurs à 2 et inférieurs à 6.

In [58]:
x = np.arange(1, 6)
print("Inférieur :", x < 3)
print("Supérieur :", x > 3)
print("Inférieur ou égal :", x <= 3)
print("Supérieur ou égal :", x >= 3)
print("Différent :", x != 3)
print("Égal :", x == 3)

y = np.random.randint(10, size=(3, 4))
print(y)
print("Supérieur à 2 et inférieur à 6 :", ((y > 2) & (y < 6)))

Inférieur : [ True  True False False False]
Supérieur : [False False False  True  True]
Inférieur ou égal : [ True  True  True False False]
Supérieur ou égal : [False False  True  True  True]
Différent : [ True  True False  True  True]
Égal : [False False  True False False]
[[8 1 3 7]
 [7 5 0 7]
 [9 5 0 9]]
Supérieur à 2 et inférieur à 6 : [[False False  True False]
 [False  True False False]
 [False  True False False]]


### Booléens comme masques

Reprendre la matrice 3x4 précédemment créée. Utiliser un masque pour déterminer les valeurs inférieures à 5. Créer un autre masque pour déterminer les valeurs supérieures à 7. Les valeurs qui sont inférieures à 5 ou supérieures à 7. La médiane des valeurs inférieures à 5. La somme des valeurs supérieures à 7 et pas inférieures à 5. Le nombre de valeurs supérieures à 7 par ligne. S'il y a des valeurs inférieures à 5 dans chaque colonne.

In [59]:
print(y)
# Masque pour les valeurs inférieures à 5
mask_inf = (y < 5)
print("Inférieur à 5:", y[mask_inf])
# Masque supérieur à 7
mask_sup = (y > 7)
print("Supérieur à 7:", y[mask_sup])
# Associer deux masques
print("Inférieur à 5 ou supérieur à 7:", y[mask_inf | mask_sup])
# Médiane des valeurs inférieures à 5
print("Médiane des inférieurs à 5 :", np.median(y[mask_inf]))
# Somme des valeurs supérieures à 7 et pas inférieures à 5
print("Somme des supérieures à 7 et pas inférieures à 5:", np.sum(y[mask_sup & ~mask_inf]))
# Nombre de valeurs supérieures à 7 par ligne
print("Nombre de valeurs supérieures à 7 par ligne :", np.sum(mask_sup, axis=1))
# Des valeurs inférieures à 5 dans chaque colonne 
print("Y a-t-il des valeurs inférieures à 5 dans chaque colonne :", np.any(mask_inf, axis=0))

[[8 1 3 7]
 [7 5 0 7]
 [9 5 0 9]]
Inférieur à 5: [1 3 0 0]
Supérieur à 7: [8 9 9]
Inférieur à 5 ou supérieur à 7: [8 1 3 0 9 0 9]
Médiane des inférieurs à 5 : 0.5
Somme des supérieures à 7 et pas inférieures à 5: 26
Nombre de valeurs supérieures à 7 par ligne : [1 0 2]
Y a-t-il des valeurs inférieures à 5 dans chaque colonne : [False  True  True False]


## Fancing Indexing

Créer un vecteur de 10 entiers tirés dans une uniforme $\left[0,100\right]$. Sélectionner les indices 2, 3 et 7 en une seule ligne.

In [2]:
# Créer un vecteur 
x = np.random.randint(100, size=10)
print(x)
# Les indices à sélectionner
ind = [2, 3, 7]
print(x[ind])

[93 12 13 46 62 84 29 66 73 32]
[13 46 66]


Transformer le vecteur en une matrice 2x2, où $(1,1)=i_3, (1,2)=i_7, (2,1)=i_4\ et\ (2,2)=i_5$.

In [3]:
print(x)
# Les indices sélectionnés, dans la dimension de la sortie voulue
ind = np.array([[x[3], x[7]], [x[4], x[5]]])
x[ind]

[93 12 13 46 62 84 29 66 73 32]


array([[46, 66],
       [62, 84]])

Créer une matrice 3x4 dont les valeurs sont une suite. Sélectionner les éléments (0,2) (1,1) et (2,3).

In [4]:
# Création de la matrice
x = np.arange(12).reshape((3, 4))
print(x)

# Les lignes à sélectionner
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
x[row, col]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


array([ 2,  5, 11])

Sélectionner la première, deuxième et quatrième colonne de la troisième ligne. Faire de même pour toutes les lignes sauf la première. Sélectionner une colonne sur deux en utilisant un masque booléen pour les colonnes.

In [65]:
# Première, deuxième et quatrième colonnes de la troisième ligne
x[2, [0, 1, 3]]
# Première, deuxième et quatrième colonnes des deux dernières lignes
x[1:, [0, 1, 3]]
# Sélectionner une colonne sur deux
# créer le masque des colonnes
mask = np.array([1, 0, 1, 0], dtype=bool)
x[:, mask]

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

Créer une suite de 10 valeurs. Pour i=1,2,4,8, changer pour $x_i=99$. Soustraire 10 à ces indices.

In [66]:
x = np.arange(10)
print(x)
i = np.array([1, 2, 4, 8])
x[i] = 99
print(x)
x[i] -= 10
print(x)

[0 1 2 3 4 5 6 7 8 9]
[ 0 99 99  3 99  5  6  7 99  9]
[ 0 89 89  3 89  5  6  7 89  9]


Tirer 100 valeurs dans une loi normale en dimension 2, avec $M = (0, 0)$ et $\Sigma = \begin{pmatrix} 1 & 2 \\ 2 & 5 \end{pmatrix}$. Faire une partition train/test de 80/20.

In [67]:
# Matrice des moyennes
mean = [0, 0]
# Matrice de variance-covariance
cov = [[1, 2], [2, 5]]
# Matrice NxD avec N=100 et D=2 tirée dans une normale multivariée
x = np.random.multivariate_normal(mean, cov, 100)
print(x.shape)

# On sélectionne les indices qui formeront les exemples de test par un tirage sans remise
indices = np.random.choice(x.shape[0], 20, replace=False)
# On prend ceux qui seront l'ensemble d'entrainement
mask = np.ones(len(x), dtype=bool)
mask[indices] = False
print(indices)
print(mask)

# On fait la partition
train, test = x[mask], x[indices]
print(train.shape, test.shape)


def partition(x, ratio):
    """
    blabliblo
    
    
    Arguments
    ----------
    x
    
    Returns
    -------
    train
    test
    """
    # sélection des indices
    indices = np.random.choice(x.shape[0], ratio, replace=False)
    # On prend ceux qui seront l'ensemble d'entrainement
    mask = np.ones(len(x), dtype=bool)
    mask[indices] = False
    print(indices)
    print(mask)

    # On fait la partition
    return train, test, x[mask], x[indices]


(100, 2)
[ 6 79  5 92 29 21 80 67 68 94 36 41 16  3 63 45 93 90 84 69]
[ True  True  True False  True False False  True  True  True  True  True
  True  True  True  True False  True  True  True  True False  True  True
  True  True  True  True  True False  True  True  True  True  True  True
 False  True  True  True  True False  True  True  True False  True  True
  True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True False  True  True  True False False False  True  True
  True  True  True  True  True  True  True False False  True  True  True
 False  True  True  True  True  True False  True False False False  True
  True  True  True  True]
(80, 2) (20, 2)


## Sorting Arrays

### Algorithme de tri

Proposer un algorithme de tri.

In [68]:
def selection_sort(x):
    for i in range(len(x)):
        # On prend l'indice de la valeur minimim sur les i restants
        swap = i + np.argmin(x[i:])
        # On échange la position i par le minimum restant
        (x[i], x[swap]) = (x[swap], x[i])
    return x


x = np.random.randint(50, size=20)
print(x)
selection_sort(x)

[32 44 17 23 20 13 17  5 46 46 13 10 24 17 38 10 44 19 16 36]


array([ 5, 10, 10, 13, 13, 16, 17, 17, 17, 19, 20, 23, 24, 32, 36, 38, 44,
       44, 46, 46])

Comparer le temps pour trier un tableau avec la fonction proposée et la version numpy.

In [69]:
x = np.random.randint(50, size=2000)
%timeit selection_sort(x)
x = np.random.randint(50, size=2000)
%timeit np.sort(x)

5.88 ms ± 119 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
20.9 µs ± 674 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Créer une matrice X 4x6 d'entiers aléatoires inférieurs à 10. Classer les colonnes de X. Classer les lignes de X.

In [19]:
np.random.seed(13)
X = np.random.randint(0, 10, (4, 6))
print(X, end="\n\n")
print(np.sort(X, axis=0), end="\n\n")
print(np.sort(X, axis=1), end="\n\n")

[[2 0 0 6 2 4]
 [9 3 4 2 6 5]
 [9 4 2 0 3 5]
 [3 6 5 1 2 8]]

[[2 0 0 0 2 4]
 [3 3 2 1 2 5]
 [9 4 4 2 3 5]
 [9 6 5 6 6 8]]

[[0 0 2 2 4 6]
 [2 3 4 5 6 9]
 [0 2 3 4 5 9]
 [1 2 3 5 6 8]]



### Partition

Donner les 2 valeurs les plus basses de X. Les indices des valeurs les plus basses pour chaque ligne. Pour chaque colonne.

In [71]:
print(X)
# les valeurs les plus basses de X
print(np.partition(X, 2))
# les indices des valeurs les plus basses par ligne
print(np.argpartition(X, 2, axis=1))
# les indices des valeurs les plus basses par colonne
np.argpartition(X, 2, axis=0)

[[9 1 1 7 7 8]
 [9 0 8 4 2 4]
 [4 1 1 5 4 3]
 [2 4 3 6 8 7]]
[[1 1 7 9 7 8]
 [0 2 4 8 9 4]
 [1 1 3 5 4 4]
 [2 3 4 6 8 7]]
[[1 2 3 0 4 5]
 [1 4 3 2 0 5]
 [1 2 5 3 4 0]
 [0 2 1 3 4 5]]


array([[3, 1, 0, 1, 1, 2],
       [2, 0, 2, 2, 2, 1],
       [1, 2, 3, 3, 0, 3],
       [0, 3, 1, 0, 3, 0]])

## Numpy's Strutured Arrays

### Créer un tableau structuré

Soient 4 individus, Alice, Bob, Cathy et Doug, de respectivement 25, 45, 37 et 19 ans, pesant 55, 85.5, 68 et 61.5 kilos.
Créer trois listes reprenant chacunes les infos précédemment citées, une pour les noms, une pour l'âge, une pour les poids.
Créer une structured arrays reprenant l'ensemble de ces infos.

In [72]:
# Création des listes de données
name = ['Alice', 'Bob', 'Cathy', 'Doug']
age = [25, 45, 37, 19]
weight = [55.0, 85.5, 68, 61.5]

# Création d'un tableau de données numpy hétérogène
data = np.zeros(4, dtype={'names':('name', 'age', 'weight'), 'formats':('U10', 'i4', 'f8')})
print(data.dtype)

# Ajouter les données
data['name'] = name
data['age'] = age
data['weight'] = weight
print(data)

[('name', '<U10'), ('age', '<i4'), ('weight', '<f8')]
[('Alice', 25, 55. ) ('Bob', 45, 85.5) ('Cathy', 37, 68. )
 ('Doug', 19, 61.5)]
