# Partie 1 : Préparation des données

1-Nettoyage des données
a- Visualisation des propriétés de données

In [45]:
import pandas as pd
df = pd.DataFrame({'A': [0,0,0,0,0,1,1],
 'B': [1,2,3,5,4,2,5],
 'C': [5,3,4,1,1,2,3]})
# Groupement des données en fonction de la colonne 'B' et application de la méthode describe pour obtenir des statistiques descriptives
a_group_desc = df.groupby('B').describe()
# Réorganisation des données pour une meilleure visualisation à l'aide de la méthode unstack
unstacked = a_group_desc.unstack()
print(unstacked)

          B
A  count  1    1.0
          2    2.0
          3    1.0
          4    1.0
          5    2.0
              ... 
C  max    1    5.0
          2    3.0
          3    4.0
          4    1.0
          5    3.0
Length: 80, dtype: float64


b- Détection et suppression des données redondantes

In [11]:
import pandas as pd

df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],
    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],
    'rating': [4, 4, 3.5, 15, 5]
})
# Recherche des données en double dans le DataFrame
search = df.duplicated()
print("Data : \n")
print(df)
    # Affichage des données en double dans le DataFrame
print("\n Les données doublons : \n")
print(search[search == True])
#Affichage du nombre de lignes en double dans le DataFrame
print(search.sum())
#Suppression des lignes en double dans le DataFrame
print("\n Après suppression des données doublons : \n")
df_no_duplicates = df.drop_duplicates()
print(df_no_duplicates)


Data : 

     brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

 Les données doublons : 

1    True
dtype: bool
1

 Après suppression des données doublons : 

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0


c- Détection et traitement des données manquantes (missing data)

In [46]:
import pandas as pd
import numpy as np

# Création des DataFrames d'exemple
s = pd.DataFrame([1, 2, 3, np.NaN, 5, 6, None])
df = pd.DataFrame({
    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', None],
    'style': ['cup', None, 'cup', 'pack', 'pack'],
    'rating': [4, 4, np.NaN, 15, 5]
})

# Visualisation des données manquantes
print("Visualiser les données manquantes :")
print(df.isnull())

# Isoler les données manquantes
print("\nIsoler les données manquantes :")
print(df[df.isnull().any(axis=1)])

# Nombre de données manquantes par colonne et au total
print("\nNombre de données manquantes par colonne :")
print(df.isnull().sum())
print("Nombre total de données manquantes :", df.isnull().values.sum())

# Remplacement des données manquantes par la moyenne
df['rating'] = df['rating'].fillna(df['rating'].mean())
print("\nAprès le remplacement des données manquantes par la moyenne :")
print(df)

# Suppression des données manquantes
df_dropped = df.dropna()
print("\nAprès la suppression des données manquantes :")
print(df_dropped)


Visualiser les données manquantes :
   brand  style  rating
0  False  False   False
1  False   True   False
2  False  False    True
3  False  False   False
4   True  False   False

Isoler les données manquantes :
     brand style  rating
1  Yum Yum  None     4.0
2  Indomie   cup     NaN
4     None  pack     5.0

Nombre de données manquantes par colonne :
brand     1
style     1
rating    1
dtype: int64
Nombre total de données manquantes : 3

Après le remplacement des données manquantes par la moyenne :
     brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum  None     4.0
2  Indomie   cup     7.0
3  Indomie  pack    15.0
4     None  pack     5.0

Après la suppression des données manquantes :
     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     7.0
3  Indomie  pack    15.0


In [9]:
!pip install -U scikit-learn

Collecting scikit-learn
  Obtaining dependency information for scikit-learn from https://files.pythonhosted.org/packages/8e/45/1d6c34f0a4db820968e35ca872e2a553f4d1015e7437f04128496c046034/scikit_learn-1.3.1-cp38-cp38-win_amd64.whl.metadata
  Downloading scikit_learn-1.3.1-cp38-cp38-win_amd64.whl.metadata (11 kB)
Collecting scipy>=1.5.0 (from scikit-learn)
  Downloading scipy-1.10.1-cp38-cp38-win_amd64.whl (42.2 MB)
     ---------------------------------------- 0.0/42.2 MB ? eta -:--:--
     ---------------------------------------- 0.0/42.2 MB ? eta -:--:--
     --------------------------------------- 0.0/42.2 MB 487.6 kB/s eta 0:01:27
     --------------------------------------- 0.1/42.2 MB 751.6 kB/s eta 0:00:57
     --------------------------------------- 0.2/42.2 MB 952.6 kB/s eta 0:00:45
     ---------------------------------------- 0.2/42.2 MB 1.0 MB/s eta 0:00:41
     ---------------------------------------- 0.2/42.2 MB 1.0 MB/s eta 0:00:41
     ----------------------------------

d- Imputation des données manquantes

In [12]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer

# Créer un DataFrame vide
df = pd.DataFrame()

# Créer deux variables x0 et x1. Mettre la première valeur de x1 comme une valeur manquante
df['x0'] = [0.3051, 0.4949, 0.6974, 0.3769, 0.2231, 0.341, 0.4436, 0.5897, 0.6308, 0.5]
df['x1'] = [np.nan, 0.2654, 0.2615, 0.5846, 0.4615, 0.8308, 0.4962, 0.3269, 0.5346, 0.6731]

# Afficher le DataFrame initial
print("Données :")
print(df)

# Créer un objet imputer qui cherche les valeurs 'NaN' et les remplace par la moyenne le long des colonnes (axis=0)
print("Recherche des valeurs manquantes et remplacement par la moyenne de la colonne")
mean_imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

# Appliquer l'imputation sur le DataFrame
imputed_df = pd.DataFrame(mean_imputer.fit_transform(df), columns=df.columns)

# Afficher le DataFrame après l'imputation
print("Données après imputation par la moyenne :")
print(imputed_df)

# Changer la stratégie d'imputation et analyser les résultats

# Stratégie d'imputation par la médiane
median_imputer = SimpleImputer(missing_values=np.nan, strategy='median')
imputed_df_median = pd.DataFrame(median_imputer.fit_transform(df), columns=df.columns)
print("\nDonnées après imputation par la médiane :")
print(imputed_df_median)

# Stratégie d'imputation par la valeur la plus fréquente
most_frequent_imputer = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
imputed_df_most_frequent = pd.DataFrame(most_frequent_imputer.fit_transform(df), columns=df.columns)
print("\nDonnées après imputation par la valeur la plus fréquente :")
print(imputed_df_most_frequent)

Données :
       x0      x1
0  0.3051     NaN
1  0.4949  0.2654
2  0.6974  0.2615
3  0.3769  0.5846
4  0.2231  0.4615
5  0.3410  0.8308
6  0.4436  0.4962
7  0.5897  0.3269
8  0.6308  0.5346
9  0.5000  0.6731
Recherche des valeurs manquantes et remplacement par la moyenne de la colonne
Données après imputation par la moyenne :
       x0        x1
0  0.3051  0.492733
1  0.4949  0.265400
2  0.6974  0.261500
3  0.3769  0.584600
4  0.2231  0.461500
5  0.3410  0.830800
6  0.4436  0.496200
7  0.5897  0.326900
8  0.6308  0.534600
9  0.5000  0.673100

Données après imputation par la médiane :
       x0      x1
0  0.3051  0.4962
1  0.4949  0.2654
2  0.6974  0.2615
3  0.3769  0.5846
4  0.2231  0.4615
5  0.3410  0.8308
6  0.4436  0.4962
7  0.5897  0.3269
8  0.6308  0.5346
9  0.5000  0.6731

Données après imputation par la valeur la plus fréquente :
       x0      x1
0  0.3051  0.2615
1  0.4949  0.2654
2  0.6974  0.2615
3  0.3769  0.5846
4  0.2231  0.4615
5  0.3410  0.8308
6  0.4436  0.4962
7  0.58

e- Sorting et Shuffling

In [13]:
import pandas as pd
import numpy as np

# Création du DataFrame initial
df = pd.DataFrame({'A': [2,1,2,3,3,5,4],'B': [1,2,3,5,4,2,5], 'C': [5,3,4,1,1,2,3]})
print("Dataframe initial :")
print(df)

# Tri du DataFrame en fonction de la colonne 'A'
print("\nLe jeu de données est trié selon la colonne 'A' :")
df = df.sort_values(by='A', ascending=True)
print(df)

# Mélange aléatoire des données du DataFrame
print("\nLe jeu de données est mélangé :")
index = df.index.tolist()
np.random.shuffle(index)
df = df.iloc[index]

# Réinitialisation de l'indice pour refléter le nouveau DataFrame mélangé
df = df.reset_index(drop=True)
print(df)



Dataframe initial :
   A  B  C
0  2  1  5
1  1  2  3
2  2  3  4
3  3  5  1
4  3  4  1
5  5  2  2
6  4  5  3

Le jeu de données est trié selon la colonne 'A' :
   A  B  C
1  1  2  3
0  2  1  5
2  2  3  4
3  3  5  1
4  3  4  1
6  4  5  3
5  5  2  2

Le jeu de données est mélangé :
   A  B  C
0  5  2  2
1  2  3  4
2  2  1  5
3  3  4  1
4  4  5  3
5  3  5  1
6  1  2  3


2- Transformation des données
a- Normalisation

In [17]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Définir l'URL du jeu de données et les noms de colonnes
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/cpu-performance/machine.data'
names = ['constructor', 'Model', 'MYCT', 'MMIN', 'MMAX', 'CACH', 'CHMIN', 'CHMAX', 'PRP', 'ERP']

# Lire le jeu de données depuis l'URL
dataset = pd.read_csv(url, names=names)

# Afficher le jeu de données initial
print("Données :")
print(dataset)

# Créer un objet MinMaxScaler pour normaliser MYCT et MMAX
minmax_scale = MinMaxScaler()

# Appliquer la normalisation Min-Max à MYCT et MMAX
dataset[['MYCT', 'MMAX']] = minmax_scale.fit_transform(dataset[['MYCT', 'MMAX']])

# Afficher les statistiques après la normalisation
print("\n********** Normalisation Min-Max *********\n")
print('Moyenne après la normalisation :\nMYCT={:.2f}, MMAX={:.2f}'
      .format(dataset['MYCT'].mean(), dataset['MMAX'].mean()))
print('\n')
print('Valeur minimale et maximale pour la feature MYCT après la normalisation : \nMIN={:.2f}, MAX={:.2f}'
      .format(dataset['MYCT'].min(), dataset['MYCT'].max()))
print('\n')
print('Valeur minimale et maximale pour la feature MMAX après la normalisation : \nMIN={:.2f}, MAX={:.2f}'
      .format(dataset['MMAX'].min(), dataset['MMAX'].max()))

# Afficher le DataFrame après la normalisation
print("\nDonnées après normalisation Min-Max :")
print(dataset)


Données :
    constructor          Model  MYCT  MMIN   MMAX  CACH  CHMIN  CHMAX  PRP  \
0       adviser          32/60   125   256   6000   256     16    128  198   
1        amdahl         470v/7    29  8000  32000    32      8     32  269   
2        amdahl        470v/7a    29  8000  32000    32      8     32  220   
3        amdahl        470v/7b    29  8000  32000    32      8     32  172   
4        amdahl        470v/7c    29  8000  16000    32      8     16  132   
..          ...            ...   ...   ...    ...   ...    ...    ...  ...   
204      sperry           80/8   124  1000   8000     0      1      8   42   
205      sperry  90/80-model-3    98  1000   8000    32      2      8   46   
206      sratus             32   125  2000   8000     0      2     14   52   
207        wang         vs-100   480   512   8000    32      0      0   67   
208        wang          vs-90   480  1000   4000     0      0      0   45   

     ERP  
0    199  
1    253  
2    253  
3    253 

b- Standardisation

In [20]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Définir l'URL du jeu de données et les noms de colonnes
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/cpu-performance/machine.data'
names = ['constructor', 'Model', 'MYCT', 'MMIN', 'MMAX', 'CACH', 'CHMIN', 'CHMAX', 'PRP', 'ERP']

# Lire le jeu de données depuis l'URL
dataset = pd.read_csv(url, names=names)

# Afficher le jeu de données initial
print("Données :")
print(dataset)

# Créer un objet StandardScaler pour la standardisation des colonnes
std_scaler = StandardScaler()

# Appliquer la standardisation aux colonnes MYCT et MMAX
dataset[['MYCT', 'MMAX']] = std_scaler.fit_transform(dataset[['MYCT', 'MMAX']])

# Afficher les statistiques après la standardisation
print("\n********** Standardisation (Z-Score) *********\n")
print('Moyenne et Écart type après la standardisation de la feature MYCT :')
print('MYCT Moyenne : {:.2f}, Écart type : {:.2f}'.format(dataset['MYCT'].mean(), dataset['MYCT'].std()))
print('\n')
print('Moyenne et Écart type après la standardisation de la feature MMAX :')
print('MMAX Moyenne : {:.2f}, Écart type : {:.2f}'.format(dataset['MMAX'].mean(), dataset['MMAX'].std()))

# Afficher le DataFrame après la standardisation
print('\nAffichage des valeurs après la standardisation (Z-Score) :')
print(dataset)

Données :
    constructor          Model  MYCT  MMIN   MMAX  CACH  CHMIN  CHMAX  PRP  \
0       adviser          32/60   125   256   6000   256     16    128  198   
1        amdahl         470v/7    29  8000  32000    32      8     32  269   
2        amdahl        470v/7a    29  8000  32000    32      8     32  220   
3        amdahl        470v/7b    29  8000  32000    32      8     32  172   
4        amdahl        470v/7c    29  8000  16000    32      8     16  132   
..          ...            ...   ...   ...    ...   ...    ...    ...  ...   
204      sperry           80/8   124  1000   8000     0      1      8   42   
205      sperry  90/80-model-3    98  1000   8000    32      2      8   46   
206      sratus             32   125  2000   8000     0      2     14   52   
207        wang         vs-100   480   512   8000    32      0      0   67   
208        wang          vs-90   480  1000   4000     0      0      0   45   

     ERP  
0    199  
1    253  
2    253  
3    253 

3- Reduction des données
a- Les variables catégorielles (qualitative)

In [23]:
import pandas as pd
car_colors = pd.Series(['Blue', 'Red', 'Green'],
dtype='category')
car_data = pd.Series(
pd.Categorical(['Yellow', 'Green', 'Red', 'Blue',
'Purple'],
categories=car_colors, ordered=False))
find_entries = pd.isnull(car_data)
print(car_colors)
print
print(car_data)
print
print(find_entries[find_entries == True])


0     Blue
1      Red
2    Green
dtype: category
Categories (3, object): ['Blue', 'Green', 'Red']
0      NaN
1    Green
2      Red
3     Blue
4      NaN
dtype: category
Categories (3, object): ['Blue', 'Green', 'Red']
0    True
4    True
dtype: bool


b- Combinaison des catégories 

In [35]:
import pandas as pd

# Créer une variable catégorielle car_colors avec des couleurs
car_colors = pd.Series(['Blue', 'Green', 'Red'], dtype='category')

# Créer une série car_data avec des couleurs de voitures
car_data = pd.Series(pd.Categorical(
    ['Blue', 'Green', 'Red', 'Green', 'Red', 'Green'],
    categories=car_colors, ordered=False
))

# Ajouter la catégorie "Blue_Red" aux catégories existantes
car_data = car_data.cat.add_categories("Blue_Red")

# Remplacer les entrées de couleur "Red" par "Blue_Red"
car_data.loc[car_data.isin(['Red'])] = 'Blue_Red'

# Afficher la série car_data après la combinaison des catégories
print("Série car_data après combinaison des catégories :")
print(car_data)


Série car_data après combinaison des catégories :
0        Blue
1       Green
2    Blue_Red
3       Green
4    Blue_Red
5       Green
dtype: category
Categories (4, object): ['Blue', 'Green', 'Red', 'Blue_Red']


c- Concaténation et transformation des données

In [33]:
import pandas as pd

# Créer un DataFrame df
df = pd.DataFrame({'A': [2, 3, 1], 'B': [1, 2, 3], 'C': [5, 3, 4]})

# Créer un DataFrame df1 à ajouter
df1 = pd.DataFrame({'A': [4], 'B': [4], 'C': [4]})

# Utiliser la méthode concat pour ajouter df1 à df
df = pd.concat([df, df1], ignore_index=True)

# Afficher le DataFrame après l'ajout
print("DataFrame après ajout :")
print(df)

# Ajouter une nouvelle ligne de données
df.loc[df.last_valid_index() + 1] = [5, 5, 5]

# Afficher le DataFrame après l'ajout de la nouvelle ligne
print("\nDataFrame après ajout de la nouvelle ligne :")
print(df)

# Créer un DataFrame df2 avec une nouvelle colonne 'D'
df2 = pd.DataFrame({'D': [1, 2, 3, 4, 5]})

# Utiliser la méthode concat pour ajouter la colonne 'D' à df
df = pd.concat([df, df2], axis=1)

# Afficher le DataFrame final après l'ajout de la colonne 'D'
print("\nDataFrame après ajout de la colonne 'D' :")
print(df)


DataFrame après ajout :
   A  B  C
0  2  1  5
1  3  2  3
2  1  3  4
3  4  4  4

DataFrame après ajout de la nouvelle ligne :
   A  B  C
0  2  1  5
1  3  2  3
2  1  3  4
3  4  4  4
4  5  5  5

DataFrame après ajout de la colonne 'D' :
   A  B  C  D
0  2  1  5  1
1  3  2  3  2
2  1  3  4  3
3  4  4  4  4
4  5  5  5  5


d- Agrégation des données

In [39]:
import pandas as pd
import numpy as np

# Création d'un DataFrame avec des colonnes 'Map' et 'Values'
df = pd.DataFrame({'Map': [0,0,0,1,1,2,2], 'Values': [1,2,3,5,4,2,5]})

# Utilisation de la méthode groupby pour regrouper les valeurs par la colonne 'Map'
# Utilisation de la fonction d'agrégation np.sum pour calculer la somme des valeurs pour chaque groupe 'Map'
# La méthode transform applique la somme à chaque groupe 'Map'
df['Sum'] = df.groupby('Map')['Values'].transform(np.sum)

# Utilisation de la méthode groupby pour regrouper les valeurs par la colonne 'Map'
# Utilisation de la fonction d'agrégation np.mean pour calculer la moyenne des valeurs pour chaque groupe 'Map'
# La méthode transform applique la moyenne à chaque groupe 'Map'
df['Moy'] = df.groupby('Map')['Values'].transform(np.mean)

# Affichage du DataFrame résultant
print(df)


   Map  Values  Sum  Moy
0    0       1    6  2.0
1    0       2    6  2.0
2    0       3    6  2.0
3    1       5    9  4.5
4    1       4    9  4.5
5    2       2    7  3.5
6    2       5    7  3.5


e. Data encoding

In [41]:
import pandas as pd

# Définition d'un DataFrame avec des variables catégoriques
data = {'category': ['A', 'B', 'C', 'A', 'B', 'C']}
df = pd.DataFrame(data)

# Transformation des données catégoriques en variables indicatrices
df_encoded = pd.get_dummies(df, columns=['category'], prefix=['category'])

# Affichage du DataFrame
print(df_encoded)



   category_A  category_B  category_C
0        True       False       False
1       False        True       False
2       False       False        True
3        True       False       False
4       False        True       False
5       False       False        True


4- Discrétisation des données

In [44]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

# Charger le jeu de données Iris
iris = load_iris()
iris_dataframe = pd.DataFrame(iris.data, columns=iris.feature_names)

# Discrétisation basée sur des effectifs égaux (ou quantiles)
quantiles = np.array([0, 0.25, 0.50, 0.75, 1])
quantile_values = iris_dataframe.quantile(quantiles, axis=0)

# Le binning transforme les variables numériques en variables catégoriques
iris_binned = pd.qcut(iris_dataframe['sepal length (cm)'], q=3, labels=["Low", "Medium", "High"])
iris_dataframe['sepal_length_category'] = iris_binned

# Obtenir une fréquence pour chaque variable catégorique de l'ensemble de données
category_counts = iris_dataframe['sepal_length_category'].value_counts()

# Afficher les statistiques
print("IRIS data values:")
print(iris_dataframe)
print("\nQuantiles:")
print(quantile_values)
print("\nBinning Iris Data:")
print(iris_dataframe[['sepal length (cm)', 'sepal_length_category']])
print("\nFrequency in each category:")
print(category_counts)


IRIS data values:
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                  5.1               3.5                1.4               0.2   
1                  4.9               3.0                1.4               0.2   
2                  4.7               3.2                1.3               0.2   
3                  4.6               3.1                1.5               0.2   
4                  5.0               3.6                1.4               0.2   
..                 ...               ...                ...               ...   
145                6.7               3.0                5.2               2.3   
146                6.3               2.5                5.0               1.9   
147                6.5               3.0                5.2               2.0   
148                6.2               3.4                5.4               2.3   
149                5.9               3.0                5.1               1.8   

    sepal