## Introduction à NumPy
NumPy est une bibliothèque de calcul numérique pour Python. NumPy permet de manipuler des tableaux multidimensionnels de manière efficace et offre une large gamme de fonctions mathématiques pour effectuer des opérations sur ces tableaux.

**Pourquoi utiliser NumPy?**
* **Performance :** NumPy est bien plus rapide que les listes Python natives pour les opérations mathématiques, grâce à sa gestion optimisée des tableaux en mémoire et à son implémentation en C.
* **Fonctionnalités étendues :** Il offre un vaste ensemble d'opérations mathématiques, algébriques, statistiques, et logiques.
* **Compatibilité :** NumPy est le fondement de nombreuses autres bibliothèques de machine learning et de traitement des données.

## 1. Création de Tableaux NumPy

Vous pouvez créer des tableaux NumPy à partir de listes Python ou en utilisant des fonctions spécifiques pour générer des tableaux de manière plus contrôlée.

In [271]:
pip install numpy

Note: you may need to restart the kernel to use updated packages.


La fonction **alias.array()** est utilisée pour créer un tableau NumPy

In [272]:
import numpy as np

# tableau à une dimension
array_1d = np.array([1, 2, 3, 4, 5])
print(array_1d)

[1 2 3 4 5]


In [273]:
# Tableau à deux dimensions
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(array_2d)

[[1 2 3]
 [4 5 6]]


La fonction **alias.zeros()** est utilisée pour créer un tableau NumPy rempli de zéros

In [274]:
# Tableau 2x3 rempli de zéros
zeros_array = np.zeros((2, 3))       
print(zeros_array)

[[0. 0. 0.]
 [0. 0. 0.]]


La fonction **alias.ones()** est utilisée pour créer un tableau NumPy rempli de uns

In [275]:
 # Tableau 3x4 rempli de uns
ones_array = np.ones((3, 4))
print(ones_array)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


La fonction **alias.random.random()** est utilisée pour créer un tableau NumPy contenant des valeurs aléatoire entre 0 et 1

In [276]:
# Tableau 2x2 avec des valeurs aléatoires entre 0 et 1
random_array = np.random.random((2, 2))
print(random_array)

[[0.34492472 0.01851647]
 [0.23927557 0.2320051 ]]


**Propriétés des Tableaux NumPy**

Un tableau NumPy possède plusieurs propriétés importantes :

In [277]:
array = np.array([[1, 2, 3], [4, 5, 6]])

print("Shape:", array.shape)        # Dimensions du tableau
print("Size:", array.size)          # Nombre total d'éléments
print("Data type:", array.dtype)    # Type des éléments
print("Number of dimensions:", array.ndim)  # Nombre de dimensions


Shape: (2, 3)
Size: 6
Data type: int32
Number of dimensions: 2


**Indexation et Slicing**

L'indexation et le slicing permettent d'accéder aux éléments d'un tableau ou d'en extraire des sous-tableaux.

In [278]:
array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(array[0, 1])    # Accès à l'élément de la première ligne, deuxième colonne
print(array[:, 1])    # Extraction de la deuxième colonne
print(array[1:, :2])  # Extraction d'un sous-tableau


2
[2 5 8]
[[4 5]
 [7 8]]


**Manipulation de la Forme**

Il est possible de changer la forme (shape) d'un tableau sans modifier les données sous-jacentes.

In [279]:
array = np.array([[1, 2, 3], [4, 5, 6]])

reshaped_array = array.reshape((3, 2))  # Reshape en 3x2
flattened_array = array.flatten()       # Aplatissement en 1D

print(reshaped_array)
print(flattened_array)


[[1 2]
 [3 4]
 [5 6]]
[1 2 3 4 5 6]


**Fusion et Division de Tableaux**

NumPy permet de fusionner ou de diviser des tableaux en utilisant différentes fonctions de concatenation.

In [295]:
array1 = np.array([[1, 2], [3, 4]])
array2 = np.array([[5, 6], [7, 8]])

# Concatenation horizontale
concat_h = np.hstack((array1, array2))
print(concat_h)

[[1 2 5 6]
 [3 4 7 8]]


In [296]:
# Concatenation verticale
concat_v = np.vstack((array1, array2))
print(concat_v)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]


In [297]:
# Division du tableau en sous-tableaux
split_array = np.hsplit(concat_h, 2)
print(split_array)

[array([[1, 2],
       [3, 4]]), array([[5, 6],
       [7, 8]])]


## 2. Opérations Mathématiques et Statistiques
NumPy offre des fonctions pour effectuer des opérations mathématiques élémentaires, de l'algèbre linéaire et des statistiques.

**Opérations Élémentaires**

Les opérations sur les tableaux NumPy sont élément par élément par défaut.

In [298]:
array1 = np.array([1, 2, 3])
array2 = np.array([4, 5, 6])

add_result = array1 + array2  # Addition
print(add_result)

[5 7 9]


In [299]:
mul_result = array1 * array2  # Multiplication
print(mul_result)

[ 4 10 18]


**Algèbre Linéaire**

NumPy intègre des fonctions pour effectuer des opérations d'algèbre linéaire comme les produits matriciels.

In [300]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

# La fonction dot permet de faire le produit matriciel
dot_product = np.dot(A, B)  # Produit matriciel
print(dot_product)

[[19 22]
 [43 50]]


**Statistiques Descriptives**

NumPy propose des fonctions pour calculer des statistiques descriptives sur les tableaux.

In [283]:
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

mean = np.mean(data)          # Moyenne
median = np.median(data)      # Médiane
std_dev = np.std(data)        # Écart-type
variance = np.var(data)       # Variance
quartiles = np.percentile(data, [25, 50, 75])  # Quartiles

print("Mean:", mean)
print("Median:", median)
print("Standard Deviation:", std_dev)
print("Variance:", variance)
print("Quartiles:", quartiles)


Mean: 5.5
Median: 5.5
Standard Deviation: 2.8722813232690143
Variance: 8.25
Quartiles: [3.25 5.5  7.75]


## 3. Manipulation des Données
**Traitement des Données Manquantes**

En science des données, il est fréquent de devoir traiter des valeurs manquantes dans un jeu de données.

In [303]:
data = np.array([1, 2, np.nan, 4, np.nan, 6])

nan_mask = np.isnan(data)
filled_data = np.where(nan_mask, np.nanmean(data), data)  # Remplacement des NaN par la moyenne

print("Données avant remplissage:", data)
print("Données après remplissage:", filled_data)

Données avant remplissage: [ 1.  2. nan  4. nan  6.]
Données après remplissage: [1.   2.   3.25 4.   3.25 6.  ]


**Génération de Données Aléatoires**

NumPy permet de générer des données aléatoires, ce qui est essentiel pour la modélisation et la simulation.

In [306]:
random_integers = np.random.randint(1, 10, size=(2, 3))  # Entiers aléatoires entre 1 et 9
print(random_integers)

[[5 8 5]
 [9 9 2]]


In [307]:
random_floats = np.random.random((3, 3))                 # Flottants aléatoires entre 0 et 1
print(random_floats)

[[0.97178586 0.27001635 0.97088395]
 [0.72630274 0.70229408 0.05597308]
 [0.5200717  0.07846989 0.37073914]]


In [309]:
normal_distribution = np.random.normal(0, 1, 10)       # Distribution normale
print(normal_distribution)

[ 0.60525215  0.38907137 -0.33792437  0.93723438  1.44315835  0.15258538
 -0.05107028 -0.78377719 -1.00204305  0.413223  ]


## 4. Applications Avancées en Science des Données
**Manipulation de Données Multidimensionnelles**

Pour les jeux de données multidimensionnels, la manipulation des axes est cruciale.

In [315]:
array = np.arange(24).reshape((2, 3, 4))  # Tableau 3D

# Transposition des axes
transposed_array1 = np.transpose(array)

transposed_array2 = np.transpose(array, (1, 2, 0))


print("Original array shape:", array.shape)
print("Transposed array shape 1:", transposed_array1.shape)
print("Transposed array shape 2:", transposed_array2.shape)

Original array shape: (2, 3, 4)
Transposed array shape 1: (4, 3, 2)
Transposed array shape 2: (3, 4, 2)


## 5. Exercices Pratiques

**Exercice 1 : Création et Manipulation de Tableaux**

Créer et manipuler des tableaux NumPy de manière efficace.
Énoncé :

* Créez un tableau 1D de 20 éléments contenant des valeurs aléatoires entières entre 1 et 100.
* Reshapez ce tableau en un tableau 2D de 4x5.
* Extrayez la deuxième ligne et la troisième colonne du tableau 2D.
* Multipliez chaque élément du tableau par 10.
* Calculez la somme de tous les éléments du tableau.

In [316]:
import numpy as np

# Étape 1 : Création du tableau 1D
array_1d = np.random.randint(1, 101, size=20)
print("Tableau 1D :", array_1d)

Tableau 1D : [51 29 12 20 87 22 72  5  9 50 85 20 46 70 51 16 71 78 47  9]


In [317]:
# Étape 2 : Reshape en tableau 2D de 4x5
array_2d = array_1d.reshape(4, 5)
print("Tableau 2D :\n", array_2d)

Tableau 2D :
 [[51 29 12 20 87]
 [22 72  5  9 50]
 [85 20 46 70 51]
 [16 71 78 47  9]]


In [318]:
# Étape 3 : Extraction de la deuxième ligne et troisième colonne
second_row = array_2d[1, :]
third_column = array_2d[:, 2]
print("Deuxième ligne :", second_row)
print("Troisième colonne :", third_column)

Deuxième ligne : [22 72  5  9 50]
Troisième colonne : [12  5 46 78]


In [319]:
# Étape 4 : Multiplication par 10
multiplied_array = array_2d * 10
print("Tableau multiplié par 10 :\n", multiplied_array)

Tableau multiplié par 10 :
 [[510 290 120 200 870]
 [220 720  50  90 500]
 [850 200 460 700 510]
 [160 710 780 470  90]]


In [320]:
# Étape 5 : Somme de tous les éléments
total_sum = np.sum(multiplied_array)
print("Somme totale des éléments :", total_sum)

Somme totale des éléments : 8500


**Exercice 2 : Statistiques Descriptives**

Calculer des statistiques descriptives simples à partir d'un tableau NumPy.
Énoncé :

* Créez un tableau 1D de 50 éléments contenant des valeurs aléatoires flottantes entre 0 et 1.
* Calculez la moyenne, la médiane, et l'écart-type des valeurs du tableau.
* Identifiez l'élément maximum et minimum dans le tableau.
* Calculez les quartiles (Q1, Q2, Q3) du tableau.

In [321]:
import numpy as np

# Étape 1 : Création du tableau 1D
data = np.random.random(50)
print("Données :\n", data)

Données :
 [0.9379817  0.36197065 0.91845554 0.86056814 0.85602111 0.67355654
 0.83172407 0.55182808 0.12979183 0.49218439 0.76263699 0.49580186
 0.17541321 0.28413728 0.05083366 0.1208654  0.38788876 0.04047075
 0.94057927 0.88502152 0.44127844 0.49003836 0.75102594 0.43768994
 0.5071933  0.4530313  0.11817836 0.3391772  0.19330129 0.14537148
 0.83923579 0.34455065 0.5597985  0.01982841 0.38743691 0.97756988
 0.42390686 0.51642605 0.51534408 0.26633318 0.84962905 0.28926186
 0.95115876 0.55388588 0.92800969 0.88720342 0.13724852 0.51798337
 0.42418869 0.35255676]


In [322]:
# Étape 2 : Calcul des statistiques descriptives
mean_value = np.mean(data)
median_value = np.median(data)
std_dev_value = np.std(data)
print("Moyenne :", mean_value)
print("Médiane :", median_value)
print("Écart-type :", std_dev_value)

Moyenne : 0.5075114540358358
Médiane : 0.4911113715324666
Écart-type : 0.2848592474286731


In [None]:
# Étape 3 : Identification des éléments maximum et minimum
max_value = np.max(data)
min_value = np.min(data)
print("Maximum :", max_value)
print("Minimum :", min_value)

In [None]:
# Étape 4 : Calcul des quartiles
q1 = np.percentile(data, 25)
q2 = np.percentile(data, 50)  # Q2 est la médiane
q3 = np.percentile(data, 75)
print("1er Quartile (Q1) :", q1)
print("2ème Quartile (Q2) :", q2)
print("3ème Quartile (Q3) :", q3)

**Exercice 3 : Manipulation de Données Multidimensionnelles**

Travailler avec des tableaux multidimensionnels, en utilisant des opérations de slicing, reshaping, et de calcul sur les axes.
Énoncé :

* Créez un tableau 3D de taille 3x4x5 avec des valeurs aléatoires entières entre 1 et 50.
* Accédez et imprimez le sous-tableau constitué des deux premières "tranches" du tableau original (axe 0).
* Calculez la somme des éléments le long de l'axe 1 (pour chaque "tranche").
* Reshapez le tableau en 2D tout en préservant l'ordre des éléments.

In [323]:
import numpy as np

# Étape 1 : Création du tableau 3D
array_3d = np.random.randint(1, 51, size=(3, 4, 5))
print("Tableau 3D :\n", array_3d)

Tableau 3D :
 [[[35 11 29 27 26]
  [ 7  1 39 31 22]
  [33 44 12 46 40]
  [32 13  5 18 30]]

 [[30  9 43 11 40]
  [34 32 30 49  9]
  [28 25 38 44 34]
  [ 2 46 13  4 43]]

 [[38 10  1 32 14]
  [23 42 29 19 32]
  [21 34  9 22 39]
  [ 7  1 42 29 43]]]


In [324]:
# Étape 2 : Extraction du sous-tableau
sub_array = array_3d[:2, :, :]
print("Sous-tableau (2 premières tranches) :\n", sub_array)

Sous-tableau (2 premières tranches) :
 [[[35 11 29 27 26]
  [ 7  1 39 31 22]
  [33 44 12 46 40]
  [32 13  5 18 30]]

 [[30  9 43 11 40]
  [34 32 30 49  9]
  [28 25 38 44 34]
  [ 2 46 13  4 43]]]


In [325]:
# Étape 3 : Somme le long de l'axe 1
sum_along_axis1 = np.sum(array_3d, axis=1)
print("Somme le long de l'axe 1 :\n", sum_along_axis1)

Somme le long de l'axe 1 :
 [[107  69  85 122 118]
 [ 94 112 124 108 126]
 [ 89  87  81 102 128]]


In [326]:
# Étape 4 : Reshape en 2D
reshaped_array_2d = array_3d.reshape(12, 5)
print("Tableau reshaped en 2D :\n", reshaped_array_2d)

Tableau reshaped en 2D :
 [[35 11 29 27 26]
 [ 7  1 39 31 22]
 [33 44 12 46 40]
 [32 13  5 18 30]
 [30  9 43 11 40]
 [34 32 30 49  9]
 [28 25 38 44 34]
 [ 2 46 13  4 43]
 [38 10  1 32 14]
 [23 42 29 19 32]
 [21 34  9 22 39]
 [ 7  1 42 29 43]]


**Exercice 4 : Génération de Données Synthétiques**

Générer des données synthétiques pour des analyses ou des simulations.
Énoncé :

* Générez un tableau de 1000 valeurs suivant une distribution normale avec une moyenne de 0 et un écart-type de 1.
* Créez un autre tableau de 1000 valeurs suivant une distribution uniforme entre -1 et 1.
* Combinez ces deux tableaux en une seule matrice 2D de taille 1000x2.
* Calculez la covariance entre les deux colonnes de la matrice.

In [327]:
import numpy as np

# Étape 1 : Génération des données suivant une distribution normale
normal_data = np.random.normal(0, 1, 1000)

In [328]:
# Étape 2 : Génération des données suivant une distribution uniforme
uniform_data = np.random.uniform(-1, 1, 1000)

In [329]:
# Étape 3 : Combinaison des deux tableaux en une matrice 2D
combined_data = np.column_stack((normal_data, uniform_data))
print("Matrice combinée :\n", combined_data)

Matrice combinée :
 [[ 2.02428506  0.00357882]
 [ 0.09699588  0.91219585]
 [ 0.35668533 -0.71042537]
 ...
 [-0.51451461  0.06843799]
 [-0.01269637  0.66114447]
 [-0.08670875 -0.92750201]]


In [330]:
# Étape 4 : Calcul de la covariance
covariance_matrix = np.cov(combined_data, rowvar=False)
print("Matrice de covariance :\n", covariance_matrix)

Matrice de covariance :
 [[ 0.93114868 -0.01664916]
 [-0.01664916  0.34303043]]


**Exercice 5 : Opérations Avancées sur les Tableaux**

Effectuer des opérations avancées comme la création de masques booléens et l'application de fonctions mathématiques.
Énoncé :

* Créez un tableau 1D de 20 valeurs aléatoires entières entre 10 et 50.
* Utilisez un masque booléen pour extraire tous les éléments du tableau qui sont des multiples de 5.
* Appliquez la fonction sinus (np.sin()) sur tous les éléments du tableau.
* Calculez la somme de tous les éléments du tableau après application de la fonction sinus.

In [331]:
import numpy as np

# Étape 1 : Création du tableau 1D
array = np.random.randint(10, 51, size=20)
print("Tableau 1D :\n", array)

Tableau 1D :
 [10 35 30 11 34 46 21 25 20 41 45 42 47 23 30 44 42 19 28 48]


In [332]:
# Étape 2 : Extraction des multiples de 5
multiples_of_5 = array[array % 5 == 0]
print("Multiples de 5 :", multiples_of_5)

Multiples de 5 : [10 35 30 25 20 45 30]


In [333]:
# Étape 3 : Application de la fonction sinus
sin_array = np.sin(array)
print("Tableau après application de sin :\n", sin_array)

Tableau après application de sin :
 [-0.54402111 -0.42818267 -0.98803162 -0.99999021  0.52908269  0.90178835
  0.83665564 -0.13235175  0.91294525 -0.15862267  0.85090352 -0.91652155
  0.12357312 -0.8462204  -0.98803162  0.01770193 -0.91652155  0.14987721
  0.27090579 -0.76825466]


In [334]:
# Étape 4 : Somme des éléments après application de sin
sum_sin_array = np.sum(sin_array)
print("Somme après application de sin :", sum_sin_array)

Somme après application de sin : -3.0933163219664404
