# Charger le module numpy

In [1]:
import numpy as np

# Créons notre premier tableau

## Manuellement

In [2]:
first_tab = np.array([1, 4, 6, 3])

In [3]:
first_tab

array([1, 4, 6, 3])

## Automatiquement

Néanmoins, nous pouvons utiliser toute une suite de méthodes qui vont nous faciliter la vie.

In [4]:
np.arange(0, 100, 5)

array([ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80,
       85, 90, 95])

In [5]:
np.linspace(0, 100, 5)

array([  0.,  25.,  50.,  75., 100.])

In [6]:
np.ones([2, 4])

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [7]:
np.zeros([4, 2])

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

# Les axes

Créons d'abord un tableau pour expérimenter les axes.

In [8]:
axe_exp = np.linspace(10, 100, 10)
axe_exp
axe_exp = axe_exp.reshape(5, -1)
axe_exp

array([[ 10.,  20.],
       [ 30.,  40.],
       [ 50.,  60.],
       [ 70.,  80.],
       [ 90., 100.]])

Imaginons que je souhaite obtenir la somme de chaque colonne. Je vais devoir additionner mes variables selon leur colonne respective.

In [9]:
axe_exp.sum(axis = 0)

array([250., 300.])

À l'inverse, si je souhaite avoir les sommes de chaque ligne :

In [10]:
axe_exp.sum(axis = 1)

array([ 30.,  70., 110., 150., 190.])

# Charger nos données dans une variable

1. Nous utilisons pour cela la méthode *genfromtxt* du module numpy ;
2. Nous devons d'abord spécifier le nom de notre fichier ;
3. Ensuite le caractère qui délimite nos données ;
4. Enfin, skip_header indique le nombre de lignes que la méthode doit ignorer (la première ligne de notre fichier indique les titres, donc, on lui demande d'ignorer la première ligne).

In [11]:
# pour le chemin de votre fichier, veuillez indiquer le vôtre !
data = np.genfromtxt('../data.csv', delimiter=';', skip_header=1)

Nos données sont chargées en mémoire. On peut connaître la dimension de notre matrice en faisant :

In [12]:
data.shape

(360, 3)

Ainsi, nous savons qu'il y a *360* lignes et *3* colonnes.

Autre point, on peut connaître sa dimension (1 dimension = array, 2 dimensions = une matrice, ...)

In [13]:
data.ndim

2

Afin de conclure avec ces éléments descriptifs, il ne nous reste plus qu'à voir *size*.

In [14]:
data.size

1080

Le chiffre qui se trouve ci-dessus provient juste du nombre de lignes multiplié par le nombre de colonnes.

Le fichier est constitué de la manière suivante : le titre des vidéos, le nombre de vues, le nombre de commentaires.

Pour apprendre l'utilisation de numpy, nous n'avons pas besoin des titres des vidéos, par conséquent nous écrasons notre variable.
Néanmoins, **IL EST NORMAL** que vous ne compreniez pas cette ligne maintenant !

In [15]:
data = data[:,1:]

Nous affichons toutes nos données.

In [16]:
data

array([[6.890570e+05, 3.100000e+01],
       [7.406850e+05, 3.900000e+01],
       [5.385720e+05, 3.700000e+01],
       [7.761470e+05, 2.400000e+01],
       [5.850290e+05, 1.000000e+01],
       [5.807260e+05, 1.100000e+01],
       [9.176510e+05, 3.700000e+01],
       [1.260880e+05, 4.000000e+00],
       [8.568480e+05, 1.380000e+02],
       [6.200350e+05, 6.000000e+00],
       [7.958160e+05, 1.500000e+01],
       [7.336220e+05, 1.900000e+01],
       [6.400560e+05, 1.000000e+01],
       [4.478110e+05, 1.300000e+01],
       [1.362420e+05, 6.000000e+00],
       [7.576060e+05, 5.500000e+01],
       [6.195300e+05, 2.600000e+01],
       [6.363360e+05, 2.500000e+01],
       [6.501210e+05, 1.700000e+01],
       [5.770730e+05, 1.000000e+00],
       [8.552420e+05, 7.000000e+00],
       [8.894340e+05, 1.200000e+01],
       [9.121840e+05, 4.900000e+01],
       [7.049190e+05, 4.100000e+01],
       [7.553330e+05, 2.200000e+01],
       [7.515870e+05, 1.300000e+01],
       [9.166520e+05, 3.300000e+01],
 

Dans le cas où on fait encore appel à *shape*, nous obtiendrons :

In [17]:
data.shape

(360, 2)

Finalement, il ne nous reste plus que 2 colonnes.

Nous affichons par curiosité le type d'objet qu'est notre variable *data* :

In [18]:
type(data)

numpy.ndarray

Nous obtenons un *ndarray*. Cela signifie n-dimensional array. Soit un tableau a 'n dimensions' (voir l'attribut *ndim* pour plus d'informations).

# Manipuler les données de notre ndarray

Lorsque vous utiliserez numpy, vous verrez très souvent une syntaxe très proche de celle des tableaux. C'est-à-dire celui des fameux crochets [ ].

Cependant, numpy propose une syntaxe qui permet de manipuler à la fois les lignes et les colonnes.
À titre d'exemple, en Java il n'est pas rare de voir la syntaxe suivante pour obtenir la 2e colonne de la 1ère ligne : data[0][1].

Ici, pour obtenir le même résultat, nous réaliserons :

In [19]:
data[0,1]

31.0

Vous avez bien vu : nous **séparons** juste l'information de la ligne et de la colonne **par une virgule** ! Au cas où, on spécifie d'abord les informations qui sont relatives aux lignes puis celles des colonnes.

## Manipulation des lignes

Si l'on souhaite la 1ère ligne :

In [20]:
data[0]

array([6.89057e+05, 3.10000e+01])

Si l'on souhaite la 5e ligne :

In [21]:
data[4]

array([5.85029e+05, 1.00000e+01])

Si l'on souhaite les 10 premières lignes :

In [22]:
data[:10]

array([[6.89057e+05, 3.10000e+01],
       [7.40685e+05, 3.90000e+01],
       [5.38572e+05, 3.70000e+01],
       [7.76147e+05, 2.40000e+01],
       [5.85029e+05, 1.00000e+01],
       [5.80726e+05, 1.10000e+01],
       [9.17651e+05, 3.70000e+01],
       [1.26088e+05, 4.00000e+00],
       [8.56848e+05, 1.38000e+02],
       [6.20035e+05, 6.00000e+00]])

Si l'on souhaite sélectionner les informations de la 4e ligne jusqu'à la 10 ligne :

In [23]:
data[3:10]

array([[7.76147e+05, 2.40000e+01],
       [5.85029e+05, 1.00000e+01],
       [5.80726e+05, 1.10000e+01],
       [9.17651e+05, 3.70000e+01],
       [1.26088e+05, 4.00000e+00],
       [8.56848e+05, 1.38000e+02],
       [6.20035e+05, 6.00000e+00]])

Si l'on souhaite la 1ère, la 4e, la 7e et la 10 ligne :

In [24]:
lignes = [0, 3, 6, 9]
data[lignes, :]

array([[6.89057e+05, 3.10000e+01],
       [7.76147e+05, 2.40000e+01],
       [9.17651e+05, 3.70000e+01],
       [6.20035e+05, 6.00000e+00]])

## Manipulation des colonnes

Bonne nouvelle ! Toutes les connaissances sur les lignes sont également applicables sur les colonnes ! Voyons cela ensemble.

Si l'on souhaite la 1ère colonne :

In [25]:
data[:,0]

array([ 689057.,  740685.,  538572.,  776147.,  585029.,  580726.,
        917651.,  126088.,  856848.,  620035.,  795816.,  733622.,
        640056.,  447811.,  136242.,  757606.,  619530.,  636336.,
        650121.,  577073.,  855242.,  889434.,  912184.,  704919.,
        755333.,  751587.,  916652.,  830674., 1153577.,  685583.,
        764922.,  752454.,  750948., 2221384.,  680980., 1074334.,
        780673.,  913620., 1203146.,  242677., 1315298.,  714624.,
        796762.,  819639., 1012044.,  947232.,  133796.,  135037.,
       1499196.,  114079.,   86995.,  157171.,  129258.,  866942.,
        838138.,  777909.,  789409., 1050569.,  758378.,  743220.,
       1144150.,  853620.,  823878.,  970860., 1034250.,  793434.,
        919906.,  921653., 1167457., 1260429.,  708958.,  735039.,
       1398030., 1153891.,  327100.,  775791.,  832974.,  846316.,
        795722., 1051829., 1377568.,  135743.,  928987., 2013732.,
        840194.,  681702.,  933408., 1571248.,   54404., 19771

Si l'on souhaite la 2e colonne :

In [26]:
data[:,1]

array([ 31.,  39.,  37.,  24.,  10.,  11.,  37.,   4., 138.,   6.,  15.,
        19.,  10.,  13.,   6.,  55.,  26.,  25.,  17.,   1.,   7.,  12.,
        49.,  41.,  22.,  13.,  33.,  39.,  28.,  25.,  37.,   3.,  12.,
        34.,   9.,   9.,  19.,  48.,  20.,   4.,  64.,   6.,  11.,  36.,
        33.,  27.,   5.,  15.,  28.,   7.,   1.,   3.,   5.,  16.,  99.,
        22.,  14., 104.,  16.,   7.,  46.,  17.,  19.,  22.,  23.,   3.,
        19.,  13.,  18.,  24.,  12.,   9.,  34.,  46.,   2.,   6.,   7.,
        33.,   4.,  91.,  27.,   5.,  11.,  48.,  22.,   6.,  28.,  39.,
         2.,  19.,   2.,  13.,   8.,  29.,  44.,  68.,   8.,   5.,  40.,
         3.,   5.,  48.,  35.,  49.,   7.,  16.,  11.,  26.,  20.,  45.,
         5.,  79.,  14.,  10.,   6.,  41.,  14.,  19.,   9.,  21.,  21.,
         4.,  13.,  17.,  31.,   5.,  13.,  36.,  75.,   1.,   2.,  15.,
         3.,   6.,  14.,   1.,  10.,  31.,   5.,  24.,  10.,   5.,   1.,
         1.,   1.,   2.,   8.,   6.,  10.,  39.,  2

Si l'on souhaite avoir les deux premières colonnes :

In [27]:
data[:,0:2]

array([[6.890570e+05, 3.100000e+01],
       [7.406850e+05, 3.900000e+01],
       [5.385720e+05, 3.700000e+01],
       [7.761470e+05, 2.400000e+01],
       [5.850290e+05, 1.000000e+01],
       [5.807260e+05, 1.100000e+01],
       [9.176510e+05, 3.700000e+01],
       [1.260880e+05, 4.000000e+00],
       [8.568480e+05, 1.380000e+02],
       [6.200350e+05, 6.000000e+00],
       [7.958160e+05, 1.500000e+01],
       [7.336220e+05, 1.900000e+01],
       [6.400560e+05, 1.000000e+01],
       [4.478110e+05, 1.300000e+01],
       [1.362420e+05, 6.000000e+00],
       [7.576060e+05, 5.500000e+01],
       [6.195300e+05, 2.600000e+01],
       [6.363360e+05, 2.500000e+01],
       [6.501210e+05, 1.700000e+01],
       [5.770730e+05, 1.000000e+00],
       [8.552420e+05, 7.000000e+00],
       [8.894340e+05, 1.200000e+01],
       [9.121840e+05, 4.900000e+01],
       [7.049190e+05, 4.100000e+01],
       [7.553330e+05, 2.200000e+01],
       [7.515870e+05, 1.300000e+01],
       [9.166520e+05, 3.300000e+01],
 

## On mixe les lignes et les colonnes

Si l'on souhaite les 10 premières lignes de la 2e colonne :

In [28]:
data[:10,1]

array([ 31.,  39.,  37.,  24.,  10.,  11.,  37.,   4., 138.,   6.])

Si l'on souhaite les 5 dernières lignes de la 1ère colonne

In [29]:
data[-5:,0]

array([1142604.,  817918., 2296503., 1092249., 1251478.])

# Trier nos informations

Nous pouvons trier nos données avec l'aide d'un tri par indices

In [30]:
sorted_indices = np.argsort(data[:,1])

In [31]:
sorted_indices

array([ 50, 144, 143, 142, 135, 129,  19,  74, 130, 145,  90,  88, 184,
        31,  99, 172,  51, 168, 132,  65,   7, 193, 325, 162, 121,  78,
       178, 238,  39, 302, 138,  52, 110, 141,  46,  97, 196,  81, 125,
       294, 100, 166, 160, 159, 220, 188, 339, 218, 333,  14,  41,  75,
       285,  85, 114, 147, 210,   9, 133, 177, 308, 104,  76, 237,  20,
       262, 216,  59,  49, 152, 185, 146,  96, 292, 284, 212, 157,  92,
       304, 291, 246, 265, 288, 290, 329,  71, 260, 321,  34,  35, 171,
       118, 229, 280, 275, 164, 136, 140, 148, 189, 192, 113, 240,  12,
         4, 230, 106, 211,   5,  82, 309,  42, 202, 154, 233,  21, 270,
        32, 334, 343, 223,  70, 203, 206, 282, 313, 256, 191, 241, 345,
       217, 170,  25, 156,  13, 266,  91,  67, 122, 126, 134,  56, 297,
       116, 112, 324, 250, 279,  10, 346, 207, 252, 243, 242, 254, 268,
        47, 131, 355, 105,  53,  58, 222, 163, 348, 337, 310, 175,  61,
       214, 312, 123,  18, 204,  68, 234, 155, 332, 340, 264, 32

In [32]:
data_sorted_via_comments = data[sorted_indices]

In [33]:
data_sorted_via_comments

array([[8.699500e+04, 1.000000e+00],
       [2.081050e+05, 1.000000e+00],
       [2.203450e+05, 1.000000e+00],
       [1.702330e+05, 1.000000e+00],
       [8.222100e+05, 1.000000e+00],
       [2.103500e+05, 1.000000e+00],
       [5.770730e+05, 1.000000e+00],
       [3.271000e+05, 2.000000e+00],
       [7.929550e+05, 2.000000e+00],
       [2.030570e+05, 2.000000e+00],
       [8.349820e+05, 2.000000e+00],
       [5.440400e+04, 2.000000e+00],
       [1.844010e+05, 3.000000e+00],
       [7.524540e+05, 3.000000e+00],
       [7.533020e+05, 3.000000e+00],
       [1.109565e+06, 3.000000e+00],
       [1.571710e+05, 3.000000e+00],
       [1.116473e+06, 3.000000e+00],
       [7.954130e+05, 3.000000e+00],
       [7.934340e+05, 3.000000e+00],
       [1.260880e+05, 4.000000e+00],
       [1.103811e+06, 4.000000e+00],
       [1.044133e+06, 4.000000e+00],
       [8.170530e+05, 4.000000e+00],
       [8.851770e+05, 4.000000e+00],
       [7.957220e+05, 4.000000e+00],
       [8.247050e+05, 4.000000e+00],
 

# Filtrer à travers des boolean

Imaginons un cas concret : comment obtenir la moyenne des vues des vidéos qui ont été commentées plus de 30 fois ?

numpy propose une solution extrêmement facile d'emploi et que vous connaissez tous : les conditions.

Allons étape par étape. Nous allons filtrer notre matrice en sélectionnant uniquement les vidéos qui ont été commentées plus de 30 fois.

In [34]:
condition_commentaire_plus_30_fois = data[:,1] > 30

Nous venons de sauvegarder notre condition. Il ne manque plus qu'a l'appliquer à notre ndarray :

In [35]:
data_commentaire_plus_30_fois = data[condition_commentaire_plus_30_fois]
print(data_commentaire_plus_30_fois)
data_commentaire_plus_30_fois.shape

[[6.890570e+05 3.100000e+01]
 [7.406850e+05 3.900000e+01]
 [5.385720e+05 3.700000e+01]
 [9.176510e+05 3.700000e+01]
 [8.568480e+05 1.380000e+02]
 [7.576060e+05 5.500000e+01]
 [9.121840e+05 4.900000e+01]
 [7.049190e+05 4.100000e+01]
 [9.166520e+05 3.300000e+01]
 [8.306740e+05 3.900000e+01]
 [7.649220e+05 3.700000e+01]
 [2.221384e+06 3.400000e+01]
 [9.136200e+05 4.800000e+01]
 [1.315298e+06 6.400000e+01]
 [8.196390e+05 3.600000e+01]
 [1.012044e+06 3.300000e+01]
 [8.381380e+05 9.900000e+01]
 [1.050569e+06 1.040000e+02]
 [1.144150e+06 4.600000e+01]
 [1.398030e+06 3.400000e+01]
 [1.153891e+06 4.600000e+01]
 [8.463160e+05 3.300000e+01]
 [1.051829e+06 9.100000e+01]
 [2.013732e+06 4.800000e+01]
 [1.571248e+06 3.900000e+01]
 [1.649317e+06 4.400000e+01]
 [1.179374e+06 6.800000e+01]
 [1.107344e+06 4.000000e+01]
 [1.711317e+06 4.800000e+01]
 [1.008740e+06 3.500000e+01]
 [1.409735e+06 4.900000e+01]
 [1.171413e+06 4.500000e+01]
 [2.782805e+06 7.900000e+01]
 [1.018672e+06 4.100000e+01]
 [8.341730e+05

(97, 2)

Nous voyons déjà qu'il ne nous reste plus que 97 vidéos. Maintenant, concentrons-nous sur la moyenne :

In [36]:
data_commentaire_plus_30_fois[0].mean()

344544.0

L'emploi de la méthode mean permet d'obtenir la moyenne. Vous pouvez voir d'autres informations sur les méthodes similaires juste en dessous.

# Quelques méthodes pour faire des statistiques

Une fois de plus, numpy propose quelques méthodes sympathiques pour nous faciliter la tâche lors de calculs de statistiques.

Examinons quelques exemples :

Si l'on souhaite savoir le plus grand nombre de vues sur une vidéo :

In [37]:
data[:,0].max()

4983796.0

Si l'on souhaite justement connaître le minimum :

In [38]:
data[:, 0].min()

54404.0

Ou encore la moyenne :

In [39]:
data[:, 0].mean()

1092165.425

Ou si l'on souhaite connaître le nombre total de commentaires postés :

In [40]:
data[:,1].sum()

8720.0

# Références

https://docs.scipy.org/doc/numpy/user/quickstart.html : site montrant les bases de numpy à travers des exemples.

https://www.dataquest.io/blog/numpy-tutorial-python/ : même objectif que le précédent lien.

https://s3.amazonaws.com/dq-blog-files/numpy-cheat-sheet.pdf : document permettant de voir rapidement les différentes méthodes et attributs de numpy.