## Introduction à NumPy
NumPy est une bibliothèque de calcul numérique pour Python. NumPy permet de manipuler des tableaux multidimensionnels de manière efficace et offre une large gamme de fonctions mathématiques pour effectuer des opérations sur ces tableaux.

**Pourquoi utiliser NumPy?**
* **Performance :** NumPy est bien plus rapide que les listes Python natives pour les opérations mathématiques, grâce à sa gestion optimisée des tableaux en mémoire et à son implémentation en C.
* **Fonctionnalités étendues :** Il offre un vaste ensemble d'opérations mathématiques, algébriques, statistiques, et logiques.
* **Compatibilité :** NumPy est le fondement de nombreuses autres bibliothèques de machine learning et de traitement des données.

## 1. Création de Tableaux NumPy

Vous pouvez créer des tableaux NumPy à partir de listes Python ou en utilisant des fonctions spécifiques pour générer des tableaux de manière plus contrôlée.

In [271]:
pip install numpy

Note: you may need to restart the kernel to use updated packages.


In [272]:
import numpy as np

# tableau à une dimension
array_1d = np.array([1, 2, 3, 4, 5])
print(array_1d)

[1 2 3 4 5]


In [273]:
# Tableau à deux dimensions
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(array_2d)

[[1 2 3]
 [4 5 6]]


In [274]:
# Tableau 2x3 rempli de zéros
zeros_array = np.zeros((2, 3))       
print(zeros_array)

[[0. 0. 0.]
 [0. 0. 0.]]


In [275]:
 # Tableau 3x4 rempli de uns
ones_array = np.ones((3, 4))
print(ones_array)

[[1. 1. 1. 1.]
 [1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [276]:
# Tableau 2x2 avec des valeurs aléatoires entre 0 et 1
random_array = np.random.random((2, 2))
print(random_array)

[[0.34492472 0.01851647]
 [0.23927557 0.2320051 ]]


**Propriétés des Tableaux NumPy**

Un tableau NumPy possède plusieurs propriétés importantes :

In [277]:
array = np.array([[1, 2, 3], [4, 5, 6]])

print("Shape:", array.shape)        # Dimensions du tableau
print("Size:", array.size)          # Nombre total d'éléments
print("Data type:", array.dtype)    # Type des éléments
print("Number of dimensions:", array.ndim)  # Nombre de dimensions


Shape: (2, 3)
Size: 6
Data type: int32
Number of dimensions: 2


**Indexation et Slicing**

L'indexation et le slicing permettent d'accéder aux éléments d'un tableau ou d'en extraire des sous-tableaux.

In [278]:
array = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print(array[0, 1])    # Accès à l'élément de la première ligne, deuxième colonne
print(array[:, 1])    # Extraction de la deuxième colonne
print(array[1:, :2])  # Extraction d'un sous-tableau


2
[2 5 8]
[[4 5]
 [7 8]]


**Manipulation de la Forme**

Il est possible de changer la forme (shape) d'un tableau sans modifier les données sous-jacentes.

In [279]:
array = np.array([[1, 2, 3], [4, 5, 6]])

reshaped_array = array.reshape((3, 2))  # Reshape en 3x2
flattened_array = array.flatten()       # Aplatissement en 1D

print(reshaped_array)
print(flattened_array)


[[1 2]
 [3 4]
 [5 6]]
[1 2 3 4 5 6]


**Fusion et Division de Tableaux**

NumPy permet de fusionner ou de diviser des tableaux en utilisant différentes fonctions de concatenation.

In [280]:
array1 = np.array([[1, 2], [3, 4]])
array2 = np.array([[5, 6], [7, 8]])

# Concatenation horizontale et verticale
concat_h = np.hstack((array1, array2))
concat_v = np.vstack((array1, array2))

print(concat_h)
print(concat_v)

# Division du tableau en sous-tableaux
split_array = np.hsplit(concat_h, 2)
print(split_array)


[[1 2 5 6]
 [3 4 7 8]]
[[1 2]
 [3 4]
 [5 6]
 [7 8]]
[array([[1, 2],
       [3, 4]]), array([[5, 6],
       [7, 8]])]


## 2. Opérations Mathématiques et Statistiques
NumPy offre des fonctions pour effectuer des opérations mathématiques élémentaires, de l'algèbre linéaire et des statistiques.

**Opérations Élémentaires**

Les opérations sur les tableaux NumPy sont élément par élément par défaut.

In [281]:
array1 = np.array([1, 2, 3])
array2 = np.array([4, 5, 6])

add_result = array1 + array2  # Addition
mul_result = array1 * array2  # Multiplication

print(add_result)
print(mul_result)


[5 7 9]
[ 4 10 18]


**Algèbre Linéaire**

NumPy intègre des fonctions pour effectuer des opérations d'algèbre linéaire comme les produits matriciels.

In [282]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

dot_product = np.dot(A, B)  # Produit matriciel

print(dot_product)


[[19 22]
 [43 50]]


**Statistiques Descriptives**

NumPy propose des fonctions pour calculer des statistiques descriptives sur les tableaux.

In [283]:
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

mean = np.mean(data)          # Moyenne
median = np.median(data)      # Médiane
std_dev = np.std(data)        # Écart-type
variance = np.var(data)       # Variance
quartiles = np.percentile(data, [25, 50, 75])  # Quartiles

print("Mean:", mean)
print("Median:", median)
print("Standard Deviation:", std_dev)
print("Variance:", variance)
print("Quartiles:", quartiles)


Mean: 5.5
Median: 5.5
Standard Deviation: 2.8722813232690143
Variance: 8.25
Quartiles: [3.25 5.5  7.75]


## 3. Manipulation des Données
**Traitement des Données Manquantes**

En science des données, il est fréquent de devoir traiter des valeurs manquantes dans un jeu de données.

In [284]:
data = np.array([1, 2, np.nan, 4, np.nan, 6])

nan_mask = np.isnan(data)
filled_data = np.where(nan_mask, np.nanmean(data), data)  # Remplacement des NaN par la moyenne

print("Données après remplissage:", filled_data)


Données après remplissage: [1.   2.   3.25 4.   3.25 6.  ]


**Génération de Données Aléatoires**

NumPy permet de générer des données aléatoires, ce qui est essentiel pour la modélisation et la simulation.

In [285]:
random_integers = np.random.randint(1, 10, size=(2, 3))  # Entiers aléatoires entre 1 et 9
random_floats = np.random.random((3, 3))                 # Flottants aléatoires entre 0 et 1
normal_distribution = np.random.normal(0, 1, 1000)       # Distribution normale

print(random_integers)
print(random_floats)


[[4 3 8]
 [1 8 8]]
[[0.30855773 0.37719782 0.74566556]
 [0.54682062 0.656457   0.15707378]
 [0.84278834 0.52166932 0.31352583]]


## 4. Applications Avancées en Science des Données
**Manipulation de Données Multidimensionnelles**

Pour les jeux de données multidimensionnels, la manipulation des axes est cruciale.

In [286]:
array = np.arange(24).reshape((2, 3, 4))  # Tableau 3D

# Transposition des axes
transposed_array = np.transpose(array, (1, 2, 0))

print("Original array shape:", array.shape)
print("Transposed array shape:", transposed_array.shape)


Original array shape: (2, 3, 4)
Transposed array shape: (3, 4, 2)


## 5. Exercices Pratiques

**Exercice 1 : Création et Manipulation de Tableaux**

Créer et manipuler des tableaux NumPy de manière efficace.
Énoncé :

* Créez un tableau 1D de 20 éléments contenant des valeurs aléatoires entières entre 1 et 100.
* Reshapez ce tableau en un tableau 2D de 4x5.
* Extrayez la deuxième ligne et la troisième colonne du tableau 2D.
* Multipliez chaque élément du tableau par 10.
* Calculez la somme de tous les éléments du tableau.

In [287]:
import numpy as np

# Étape 1 : Création du tableau 1D
array_1d = np.random.randint(1, 101, size=20)
print("Tableau 1D :", array_1d)

# Étape 2 : Reshape en tableau 2D de 4x5
array_2d = array_1d.reshape(4, 5)
print("Tableau 2D :\n", array_2d)

# Étape 3 : Extraction de la deuxième ligne et troisième colonne
second_row = array_2d[1, :]
third_column = array_2d[:, 2]
print("Deuxième ligne :", second_row)
print("Troisième colonne :", third_column)

# Étape 4 : Multiplication par 10
multiplied_array = array_2d * 10
print("Tableau multiplié par 10 :\n", multiplied_array)

# Étape 5 : Somme de tous les éléments
total_sum = np.sum(multiplied_array)
print("Somme totale des éléments :", total_sum)


Tableau 1D : [ 8 32 91 17 10 68 70  2 68 65 90 40 86 32 24 89 16 56 33 24]
Tableau 2D :
 [[ 8 32 91 17 10]
 [68 70  2 68 65]
 [90 40 86 32 24]
 [89 16 56 33 24]]
Deuxième ligne : [68 70  2 68 65]
Troisième colonne : [91  2 86 56]
Tableau multiplié par 10 :
 [[ 80 320 910 170 100]
 [680 700  20 680 650]
 [900 400 860 320 240]
 [890 160 560 330 240]]
Somme totale des éléments : 9210


**Exercice 2 : Statistiques Descriptives**

Calculer des statistiques descriptives simples à partir d'un tableau NumPy.
Énoncé :

* Créez un tableau 1D de 50 éléments contenant des valeurs aléatoires flottantes entre 0 et 1.
* Calculez la moyenne, la médiane, et l'écart-type des valeurs du tableau.
* Identifiez l'élément maximum et minimum dans le tableau.
* Calculez les quartiles (Q1, Q2, Q3) du tableau.

In [288]:
import numpy as np

# Étape 1 : Création du tableau 1D
data = np.random.random(50)
print("Données :\n", data)

# Étape 2 : Calcul des statistiques descriptives
mean_value = np.mean(data)
median_value = np.median(data)
std_dev_value = np.std(data)
print("Moyenne :", mean_value)
print("Médiane :", median_value)
print("Écart-type :", std_dev_value)

# Étape 3 : Identification des éléments maximum et minimum
max_value = np.max(data)
min_value = np.min(data)
print("Maximum :", max_value)
print("Minimum :", min_value)

# Étape 4 : Calcul des quartiles
q1 = np.percentile(data, 25)
q2 = np.percentile(data, 50)  # Q2 est la médiane
q3 = np.percentile(data, 75)
print("1er Quartile (Q1) :", q1)
print("2ème Quartile (Q2) :", q2)
print("3ème Quartile (Q3) :", q3)


Données :
 [0.49261534 0.54395029 0.95742755 0.15687059 0.75001894 0.6644093
 0.90125635 0.1750321  0.01766401 0.72857934 0.64427849 0.68277385
 0.9747353  0.31604343 0.36379951 0.93465994 0.16826535 0.7408171
 0.83193869 0.78997824 0.11987087 0.06167251 0.58798662 0.91349173
 0.78866088 0.02607756 0.32883993 0.58322262 0.68712852 0.40546377
 0.00280978 0.55867655 0.52029884 0.35661348 0.95929186 0.28759159
 0.5580964  0.63440532 0.9713092  0.89463074 0.24624203 0.91237538
 0.38502867 0.461408   0.75251837 0.96483997 0.2769434  0.04091381
 0.92022354 0.91030678]
Moyenne : 0.5590410485702513
Médiane : 0.5856046182711425
Écart-type : 0.3047566517141641
Maximum : 0.9747353028566542
Minimum : 0.0028097764220431642
1er Quartile (Q1) : 0.31924255602859536
2ème Quartile (Q2) : 0.5856046182711425
3ème Quartile (Q3) : 0.821448575267923


**Exercice 3 : Manipulation de Données Multidimensionnelles**

Travailler avec des tableaux multidimensionnels, en utilisant des opérations de slicing, reshaping, et de calcul sur les axes.
Énoncé :

* Créez un tableau 3D de taille 3x4x5 avec des valeurs aléatoires entières entre 1 et 50.
* Accédez et imprimez le sous-tableau constitué des deux premières "tranches" du tableau original (axe 0).
* Calculez la somme des éléments le long de l'axe 1 (pour chaque "tranche").
* Reshapez le tableau en 2D tout en préservant l'ordre des éléments.

In [289]:
import numpy as np

# Étape 1 : Création du tableau 3D
array_3d = np.random.randint(1, 51, size=(3, 4, 5))
print("Tableau 3D :\n", array_3d)

# Étape 2 : Extraction du sous-tableau
sub_array = array_3d[:2, :, :]
print("Sous-tableau (2 premières tranches) :\n", sub_array)

# Étape 3 : Somme le long de l'axe 1
sum_along_axis1 = np.sum(array_3d, axis=1)
print("Somme le long de l'axe 1 :\n", sum_along_axis1)

# Étape 4 : Reshape en 2D
reshaped_array_2d = array_3d.reshape(12, 5)
print("Tableau reshaped en 2D :\n", reshaped_array_2d)


Tableau 3D :
 [[[21 48  4 27 45]
  [ 1 46 10 12 26]
  [34 48 47 36 27]
  [10  8 22 34 45]]

 [[43 29 33 38 42]
  [36  6 37 15 46]
  [37 38 49 28  5]
  [17 50  6 36 33]]

 [[34 22 19 34 43]
  [32 32  2 42 17]
  [ 9  9 33 19 25]
  [46 23 48 40 15]]]
Sous-tableau (2 premières tranches) :
 [[[21 48  4 27 45]
  [ 1 46 10 12 26]
  [34 48 47 36 27]
  [10  8 22 34 45]]

 [[43 29 33 38 42]
  [36  6 37 15 46]
  [37 38 49 28  5]
  [17 50  6 36 33]]]
Somme le long de l'axe 1 :
 [[ 66 150  83 109 143]
 [133 123 125 117 126]
 [121  86 102 135 100]]
Tableau reshaped en 2D :
 [[21 48  4 27 45]
 [ 1 46 10 12 26]
 [34 48 47 36 27]
 [10  8 22 34 45]
 [43 29 33 38 42]
 [36  6 37 15 46]
 [37 38 49 28  5]
 [17 50  6 36 33]
 [34 22 19 34 43]
 [32 32  2 42 17]
 [ 9  9 33 19 25]
 [46 23 48 40 15]]


**Exercice 4 : Génération de Données Synthétiques**

Générer des données synthétiques pour des analyses ou des simulations.
Énoncé :

* Générez un tableau de 1000 valeurs suivant une distribution normale avec une moyenne de 0 et un écart-type de 1.
* Créez un autre tableau de 1000 valeurs suivant une distribution uniforme entre -1 et 1.
* Combinez ces deux tableaux en une seule matrice 2D de taille 1000x2.
* Calculez la covariance entre les deux colonnes de la matrice.

In [290]:
import numpy as np

# Étape 1 : Génération des données suivant une distribution normale
normal_data = np.random.normal(0, 1, 1000)

# Étape 2 : Génération des données suivant une distribution uniforme
uniform_data = np.random.uniform(-1, 1, 1000)

# Étape 3 : Combinaison des deux tableaux en une matrice 2D
combined_data = np.column_stack((normal_data, uniform_data))
print("Matrice combinée :\n", combined_data)

# Étape 4 : Calcul de la covariance
covariance_matrix = np.cov(combined_data, rowvar=False)
print("Matrice de covariance :\n", covariance_matrix)


Matrice combinée :
 [[-1.8865517  -0.66211988]
 [ 0.03223021  0.30655096]
 [-0.43888618  0.35627818]
 ...
 [ 0.98445313  0.71011648]
 [ 0.63354531  0.72410609]
 [-1.29306908 -0.94398835]]
Matrice de covariance :
 [[ 0.99259449 -0.00963987]
 [-0.00963987  0.34132758]]


**Exercice 5 : Opérations Avancées sur les Tableaux**

Effectuer des opérations avancées comme la création de masques booléens et l'application de fonctions mathématiques.
Énoncé :

* Créez un tableau 1D de 20 valeurs aléatoires entières entre 10 et 50.
* Utilisez un masque booléen pour extraire tous les éléments du tableau qui sont des multiples de 5.
* Appliquez la fonction sinus (np.sin()) sur tous les éléments du tableau.
* Calculez la somme de tous les éléments du tableau après application de la fonction sinus.

In [291]:
import numpy as np

# Étape 1 : Création du tableau 1D
array = np.random.randint(10, 51, size=20)
print("Tableau 1D :\n", array)

# Étape 2 : Extraction des multiples de 5
multiples_of_5 = array[array % 5 == 0]
print("Multiples de 5 :", multiples_of_5)

# Étape 3 : Application de la fonction sinus
sin_array = np.sin(array)
print("Tableau après application de sin :\n", sin_array)

# Étape 4 : Somme des éléments après application de sin
sum_sin_array = np.sum(sin_array)
print("Somme après application de sin :", sum_sin_array)


Tableau 1D :
 [48 35 17 40 27 20 50 40 48 26 28 10 18 39 18 13 49 19 33 26]
Multiples de 5 : [35 40 20 50 40 10]
Tableau après application de sin :
 [-0.76825466 -0.42818267 -0.96139749  0.74511316  0.95637593  0.91294525
 -0.26237485  0.74511316 -0.76825466  0.76255845  0.27090579 -0.54402111
 -0.75098725  0.96379539 -0.75098725  0.42016704 -0.95375265  0.14987721
  0.99991186  0.76255845]
Somme après application de sin : 1.5011090873196868
