Introduction à NumPy


NumPy est une bibliothèque Python essentielle pour le calcul scientifique. Elle fournit des tableaux multidimensionnels rapides, efficaces et optimisés, ainsi que des fonctions mathématiques pour travailler avec ces tableaux. NumPy est souvent utilisée comme base pour de nombreuses autres bibliothèques de science des données.

In [None]:
# installation de numpy 
pip install numpy


In [1]:
import numpy as np

Création de tableaux NumPy

In [5]:
# Créer un tableau à partir d'une liste
data_list = [1, 2, 3, 4, 5]
numpy_array = np.array(data_list)
print(numpy_array)

# Créer un tableau vide de dimension donnée
empty_array = np.empty((3, 3))
print(empty_array)

# Créer un tableau de valeurs allant de 0 à 9
arr = np.arange(10)
print(arr)

# Créer un tableau de zéros de dimension donnée
zeros_array = np.zeros((2, 4))
print(zeros_array)

# Créer un tableau de uns de dimension donnée
ones_array = np.ones((3, 2))
print(ones_array)


# Créer un tableau de 5 valeurs équidistantes entre 0 et 1
linspace_arr = np.linspace(0, 1, 5)
print(linspace_arr)



# Créer un tableau de valeurs équidistantes
start = 0
end = 10
step = 2
range_array = np.arange(start, end, step)
print(range_array)


[1 2 3 4 5]
[[0.00000000e+000 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 6.64024228e-321]
 [9.33678148e-312 2.00485144e-307 0.00000000e+000]]
[0 1 2 3 4 5 6 7 8 9]
[[0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[[1. 1.]
 [1. 1.]
 [1. 1.]]
[0.   0.25 0.5  0.75 1.  ]
[0 2 4 6 8]


Opérations avec les tableaux NumPy

In [4]:
import numpy as np

array1 = np.array([1, 2, 3])
array2 = np.array([4, 5, 6])

# Opérations mathématiques
result_add = array1 + array2
print("Addition:", result_add)

result_sub = array1 - array2
print("Soustraction:", result_sub)

result_mul = array1 * array2
print("Multiplication:", result_mul)

result_div = array1 / array2
print("Division:", result_div)

# Produit scalaire (dot product)
dot_product = np.dot(array1, array2)
print("Produit scalaire:", dot_product)


Addition: [5 7 9]
Soustraction: [-3 -3 -3]
Multiplication: [ 4 10 18]
Division: [0.25 0.4  0.5 ]
Produit scalaire: 32


In [6]:
# Création d'un tableau NumPy à partir d'une liste
data_list = [1, 2, 3, 4, 5]
data_np = np.array(data_list)
print("Tableau NumPy :", data_np)

# Création d'un tableau NumPy de valeurs aléatoires
random_data = np.random.rand(5)  # Crée un tableau 1D de 5 valeurs aléatoires entre 0 et 1
print("Données aléatoires :", random_data)

# Rôle : NumPy est utilisé pour manipuler des tableaux multidimensionnels (appelés ndarray) et effectuer des opérations mathématiques rapides sur ces tableaux.


Tableau NumPy : [1 2 3 4 5]
Données aléatoires : [0.96496481 0.53128595 0.98136877 0.87907442 0.96472968]


Opérations statistiques avec NumPy

In [7]:

data = np.array([10, 20, 30, 40, 50])

# Calcul de la moyenne
mean_value = np.mean(data)
print("Moyenne :", mean_value)

# Calcul de la somme cumulée
cumulative_sum = np.cumsum(data)
print("Somme cumulée :", cumulative_sum)

# Trouver l'indice du maximum
max_index = np.argmax(data)
print("Indice du maximum :", max_index)

# Rôle : NumPy fournit des fonctions pour effectuer des opérations statistiques et mathématiques rapides sur les tableaux de données.



Moyenne : 30.0
Somme cumulée : [ 10  30  60 100 150]
Indice du maximum : 4


In [16]:
#shape : Il s'agit d'un attribut d'un tableau NumPy qui renvoie un tuple contenant les dimensions du tableau
data_np = np.array([[1, 2, 3], [4, 5, 6]])
print("Shape du tableau :", data_np.shape)  # Affiche (2, 3) car le tableau a 2 lignes et 3 colonnes



# reshape : Cette fonction permet de modifier la forme d'un tableau NumPy en lui donnant de nouvelles dimensions.
data_np = np.array([1, 2, 3, 4, 5, 6])
reshaped_data = data_np.reshape(2, 3)
print("Nouveau tableau reshape :\n", reshaped_data)


Shape du tableau : (2, 3)
Nouveau tableau reshape :
 [[1 2 3]
 [4 5 6]]


Introduction à Pandas


Pandas est une bibliothèque Python populaire pour la manipulation et l'analyse de données. Elle offre des structures de données puissantes et faciles à utiliser, comme les DataFrame, pour travailler efficacement avec des données tabulaires.

In [None]:
# installation de pandas 
pip install pandas


Travaux pratiques avec Pandas :

In [8]:
import pandas as pd

# Création d'un DataFrame à partir d'un dictionnaire
data_dict = {
    'Nom': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Âge': [25, 30, 22, 35, 28],
    'Ville': ['Paris', 'Lyon', 'Marseille', 'Bordeaux', 'Lille']
}

data_df = pd.DataFrame(data_dict)
print("DataFrame Pandas :")
print(data_df)

# Afficher les informations sur le DataFrame
print("\nInformations sur le DataFrame :")
print(data_df.info())

# Rôle : Pandas est utilisé pour travailler avec des données tabulaires sous forme de DataFrame, permettant de stocker, nettoyer et explorer facilement les données.



DataFrame Pandas :
       Nom  Âge      Ville
0    Alice   25      Paris
1      Bob   30       Lyon
2  Charlie   22  Marseille
3    David   35   Bordeaux
4      Eva   28      Lille

Informations sur le DataFrame :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nom     5 non-null      object
 1   Âge     5 non-null      int64 
 2   Ville   5 non-null      object
dtypes: int64(1), object(2)
memory usage: 248.0+ bytes
None


Sélection et filtrage des données

In [9]:
data_dict = {
    'Nom': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Âge': [25, 30, 22, 35, 28],
    'Ville': ['Paris', 'Lyon', 'Marseille', 'Bordeaux', 'Lille']
}

data_df = pd.DataFrame(data_dict)

# Sélection d'une colonne spécifique
ages = data_df['Âge']
print("Colonnes 'Âge' : ")
print(ages)

# Sélection de lignes basées sur une condition
filtered_data = data_df[data_df['Âge'] > 25]
print("Personnes de plus de 25 ans : ")
print(filtered_data)

# Rôle : Pandas offre des fonctionnalités de sélection et de filtrage puissantes pour extraire les données pertinentes d'un DataFrame.



Colonnes 'Âge' : 
0    25
1    30
2    22
3    35
4    28
Name: Âge, dtype: int64
Personnes de plus de 25 ans : 
     Nom  Âge     Ville
1    Bob   30      Lyon
3  David   35  Bordeaux
4    Eva   28     Lille


In [11]:
#iloc : Permet d'accéder aux données dans un DataFrame en utilisant les index numériques des lignes et des colonnes.

data_dict = {
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Âge': [25, 30, 22],
    'Ville': ['Paris', 'Lyon', 'Marseille']
}

data_df = pd.DataFrame(data_dict)

# Accéder à la première ligne
row_iloc = data_df.iloc[0]
print("Première ligne (iloc) :\n", row_iloc)

# Accéder à un élément spécifique
element_iloc = data_df.iloc[1, 2]  # Ligne 1, Colonne 2
print("Élément à la position (1, 2) (iloc) :", element_iloc)


Première ligne (iloc) :
 Nom      Alice
Âge         25
Ville    Paris
Name: 0, dtype: object
Élément à la position (1, 2) (iloc) : Lyon


In [12]:
#loc : Permet d'accéder aux données dans un DataFrame en utilisant les index label des lignes et des colonnes.



data_dict = {
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Âge': [25, 30, 22],
    'Ville': ['Paris', 'Lyon', 'Marseille']
}

data_df = pd.DataFrame(data_dict, index=['a', 'b', 'c'])

# Accéder à la ligne avec l'index 'b'
row_loc = data_df.loc['b']
print("Ligne avec index 'b' (loc) :\n", row_loc)

# Accéder à un élément spécifique
element_loc = data_df.loc['c', 'Ville']  # Ligne 'c', Colonne 'Ville'
print("Élément à la position ('c', 'Ville') (loc) :", element_loc)


Ligne avec index 'b' (loc) :
 Nom       Bob
Âge        30
Ville    Lyon
Name: b, dtype: object
Élément à la position ('c', 'Ville') (loc) : Marseille


In [13]:
# insert : Cette fonction permet d'insérer une nouvelle colonne dans un DataFrame à une position spécifique.

data_dict = {
    'Nom': ['Alice', 'Bob', 'Charlie'],
    'Âge': [25, 30, 22],
}

data_df = pd.DataFrame(data_dict)

data_df.insert(1, 'Ville', ['Paris', 'Lyon', 'Marseille'])
print("DataFrame avec colonne insérée :\n", data_df)



DataFrame avec colonne insérée :
        Nom      Ville  Âge
0    Alice      Paris   25
1      Bob       Lyon   30
2  Charlie  Marseille   22


In [17]:
# map et replace : Ces méthodes permettent de remplacer les valeurs dans une colonne d'un DataFrame en utilisant une correspondance prédéfinie.

data_dict = {
    'Note': ['A', 'B', 'C', 'A', 'D']
}

data_df = pd.DataFrame(data_dict)

# Utiliser map pour remplacer les notes par des scores numériques
grade_to_score = {'A': 90, 'B': 80, 'C': 70, 'D': 60}
data_df['Score'] = data_df['Note'].map(grade_to_score)

# Utiliser replace pour remplacer les notes spécifiques
data_df['Note'] = data_df['Note'].replace({'D': 'F'})

print("DataFrame avec colonnes modifiées :\n", data_df)



DataFrame avec colonnes modifiées :
   Note  Score
0    A     90
1    B     80
2    C     70
3    A     90
4    F     60
