# Introduction à Numpy

Numpy, pour numerical Python est un package de base contenant des fonctions et des objets essentiels au traitement de données en Python. 

Dans cette partie, vous apprendrez :

- Ce qu'est l'objet ndarray
- Comment sélectionner des éléments
- Comment appliquer des calculs vectorisés 

In [1]:
import numpy as np

## ndarray (Objet)

ndarray est un tableau à n-dimensions d'éléments de même type. 

In [2]:
np.random.randn(2)

array([ 0.86371998, -0.489889  ])

In [3]:
#On crée ici un tableau (ndarray) de 2 lignes et 3 colonnes

data = np.random.randn(2,3)
type(data)

numpy.ndarray

ndarray permet de réaliser des opérations mathématiques en bloc. 

In [5]:
#Multiplier tous les éléments par 10 

print(data*10)

[[-10.54440229  -0.45796758  -1.23249903]
 [-13.2105752    9.36495361   3.56918449]]


La méthode ***array*** permet de créer un ndarray :

In [6]:
# A partir d'une liste

data1 = [1,2,3,4]

arr1 = np.array(data1)

# A partir d'une liste de liste 

data2 = [[1,2,3],[4,5,6]]

arr2 = np.array(data2)

In [7]:
arr2

array([[1, 2, 3],
       [4, 5, 6]])

Il existe d'autres fonctions pour créer facilement des ***ndarrays*** :

In [8]:
# créer des listes de 0

np.zeros(15)

# créer des listes de 1

np.ones(15)

# créer une séquence 

np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [9]:
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

Les types de données (DataTypes) sont clés dans la performance des ndarray. On peut afficher les types de données avec la méthode ***dtype***

In [10]:
# Il existe plusieurs types de données int (integer), float (floating number) etc..

arr = np.arange(15)

arr.dtype

dtype('int64')

On peut changer les types de données d'un ndarray en utilisant la méthode ***astype***

In [11]:
float_arr = arr.astype(np.float64)

float_arr.dtype

dtype('float64')

Changer les types de données peut être utile lorqu'on veut transformer du texte en nombre :

In [12]:
arr_string = np.array(['1.2','2.3','3.5'])

arr_string.astype(np.float64).dtype

dtype('float64')

### Indexing

Il existe plusieurs façons de sélectionner des éléments au sein d'un array à 1 dimension :

In [13]:
# Sélection d'un élément 

arr[5]

5

In [14]:
arr[5:9]

array([5, 6, 7, 8])

La sélection pour les array à deux dimensions fonctionne comme ceci :

In [15]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

In [16]:
arr2d[:,1]

array([2, 5, 8])

<img src='files/images/matrice.png'>

In [None]:
# Sélectionner la première ligne de arr2d

arr2d[0]

# Sélectionner la première colonne de arr2d 

arr2d[:,0]

# Sélectionner l'élément à la deuxième ligne, troisième colonne

arr2d[1][2]
arr2d[1,2]

# Tous les éléments entre la deuxième et troisième ligne

arr2d[1:]

### A vous :

1) Créez à partir des 4 listes suivantes un ndarray :  <br /> 
     [19.23, 39.14, 67.78, 98.49],  <br /> 
     [56.78, 88.78, 99.01, 99.99],  <br /> 
     [12.00, 76.87, 91.09, 10.01],  <br /> 
     [99.01, 70.32, 64.89, 36.68]

2) Sélectionnez les lignes 2 et 3

3) Séléctionnez la colonne 4

### Boolean Indexing 

La sélection d'un ndarray peut également se faire en intégrant des conditions : 

In [54]:
arr = np.arange(-10,10,0.5)

arr[arr > 0]

array([ 0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,  5.5,
        6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5])

In [None]:
# Renvoyer tous les éléments de arr positifs

arr > 0 # renvoie un array de type booléen comparant chacun des éléments à la condition 

arr[arr > 0] # renvoie tous les éléments de arr vérifiant la condition. On appelle cela le boolean indexing. 

La sélection par opérateur booléen crée une copie d'un array. On peut bien entendu modifier les valeurs en utilisant la même logique : 

In [None]:
# Remplacer tous les éléments négatifs par 0 

arr[arr < 0] = 0

print arr

## Universal functions

Les universal functions ou ***ufunc*** permettent de réaliser des opérations de manière rapide sur un ndarray. 

Numpy permet de réaliser des traitements de données sans passer par des boucles Python. 

Cette façon de traiter des données, aussi appelée ***Vectorization***, est plus performante (et plus élégante ;) )

In [55]:
# Renvoyer la racine carré pour chaque élément 

arr = np.arange(1,10,1)

np.sqrt(arr)

array([ 1.        ,  1.41421356,  1.73205081,  2.        ,  2.23606798,
        2.44948974,  2.64575131,  2.82842712,  3.        ])

D'autres fonctions peuvent prendre deux tableaux en argument :

In [56]:
# Comparer deux tableaux et obtenir le maximum 

a = np.random.randn(10)
b = np.random.randn(10)

max = np.maximum(a,b)

print max

[-0.57950721 -1.40774484  0.89523124  0.03423231  1.0052835   1.26571315
  1.55850675 -0.86162712  0.88188055 -0.01713979]


### A vous :

- Renvoyer tous les éléments de arr négatifs 
- Renvoyer les éléments différents de 2
- Renvoyer les éléments égaux à 2 ou 3