In [33]:
# Imports

import pandas as pd
import numpy as np 
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler 
from sklearn.datasets import load_iris
from sklearn.feature_selection import f_classif, chi2, mutual_info_classif
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
iris = load_iris() 
import matplotlib.pyplot as plt
import seaborn as sns

In [34]:
# Part 1
# Préparation des données

In [35]:
# 1. Nettoyage des données
# 1.1. Visualisation des propriétés de données

df = pd.DataFrame({'A': [0,0,0,0,0,1,1],
 'B': [1,2,3,5,4,2,5],
 'C': [5,3,4,1,1,2,3]})

print('\n**** original dataframe ****')
print(df)

print('\n**** group by ****')
print(df.groupby('B'))

print("\nGroups and their contents:")
for key, group in df.groupby('B'):
    print(f"\nGroup {key}:\n{group}")

print('\n**** describe ****')
a_group_desc = df.groupby('B').describe()
print(a_group_desc)

print('\n**** unstack ****')
unstacked = a_group_desc.unstack()
print(unstacked)


**** original dataframe ****
   A  B  C
0  0  1  5
1  0  2  3
2  0  3  4
3  0  5  1
4  0  4  1
5  1  2  2
6  1  5  3

**** group by ****
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000021389337AD0>

Groups and their contents:

Group 1:
   A  B  C
0  0  1  5

Group 2:
   A  B  C
1  0  2  3
5  1  2  2

Group 3:
   A  B  C
2  0  3  4

Group 4:
   A  B  C
4  0  4  1

Group 5:
   A  B  C
3  0  5  1
6  1  5  3

**** describe ****
      A                                               C                      \
  count mean       std  min   25%  50%   75%  max count mean       std  min   
B                                                                             
1   1.0  0.0       NaN  0.0  0.00  0.0  0.00  0.0   1.0  5.0       NaN  5.0   
2   2.0  0.5  0.707107  0.0  0.25  0.5  0.75  1.0   2.0  2.5  0.707107  2.0   
3   1.0  0.0       NaN  0.0  0.00  0.0  0.00  0.0   1.0  4.0       NaN  4.0   
4   1.0  0.0       NaN  0.0  0.00  0.0  0.00  0.0   1.0  1.0       NaN  1.0   
5  

In [36]:
# Qst 1: Déduire le rôle des méthodes : groupby(), describe() et unstack()

# groupby(): Groups the DataFrame by the unique values of column B, allowing for aggregation or descriptive statistics for each group.
# describe(): Computes summary statistics (like count, mean, std, min, 25%, 50%, 75%, max) for each group created by groupby().
# unstack(): Transforms the hierarchical index created by groupby() and describe() into a flat format, making the DataFrame easier to read.

In [37]:
# 1.2. Détection et suppression des données redondantes

# Exemple de jeu de données
data = {
 'Nom': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
 'Age': [25, 30, 35, 25, 30],
 'Ville': ['Paris', 'Lyon', 'Marseille', 'Paris', 'Lyon']
}

# Création d'un DataFrame
df = pd.DataFrame(data)

# Affichage du DataFrame original
print("DataFrame original :")
print(df)

db = df.duplicated()
print(df[db])

df_new = df.drop_duplicates()
print(df_new) 

DataFrame original :
       Nom  Age      Ville
0    Alice   25      Paris
1      Bob   30       Lyon
2  Charlie   35  Marseille
3    Alice   25      Paris
4      Bob   30       Lyon
     Nom  Age  Ville
3  Alice   25  Paris
4    Bob   30   Lyon
       Nom  Age      Ville
0    Alice   25      Paris
1      Bob   30       Lyon
2  Charlie   35  Marseille


In [38]:
# Qst 2
# a) Déduire le rôle des méthodes : duplicated() et drop_duplicates().
    # duplicated():
        # Identifies duplicate rows in the DataFrame.
        # Returns a boolean Series where True indicates a duplicate row (excluding the first occurrence).
    
    # drop_duplicates():
        # Removes duplicate rows from the DataFrame.
        # By default, keeps the first occurrence of each duplicate row.

# b) Supprimer les doublons en fonction de la colonne 'Nom'.
df_no_duplicates = df.drop_duplicates(subset=['Nom'])
print(df_no_duplicates)

       Nom  Age      Ville
0    Alice   25      Paris
1      Bob   30       Lyon
2  Charlie   35  Marseille


In [39]:
# 1.3. Détection et traitement des données manquantes (missing data)

# Crée une série Pandas avec des données comprenant des valeurs manquantes
s = pd.Series([1, 2, 3, np.nan, 5, 6, None])

print("Visualiser les données manquantes : True signifie la détection d'une donnée manquante")
print(s.isnull())  # Affiche une série de booléens, où True indique une donnée manquante

print("Isoler les données manquantes")
print(s[s.isnull()])  # Renvoie une série contenant uniquement les données manquantes

# Remplir les données manquantes avec la moyenne des valeurs existantes (après conversion en entier)
print(s.fillna(int(s.mean())))

# Supprimer les données manquantes de la série
print(s.dropna())

Visualiser les données manquantes : True signifie la détection d'une donnée manquante
0    False
1    False
2    False
3     True
4    False
5    False
6     True
dtype: bool
Isoler les données manquantes
3   NaN
6   NaN
dtype: float64
0    1.0
1    2.0
2    3.0
3    3.0
4    5.0
5    6.0
6    3.0
dtype: float64
0    1.0
1    2.0
2    3.0
4    5.0
5    6.0
dtype: float64


In [40]:
# Qst 3

# fillna():
    # Fills missing values (NaN or None) in the Series with a specified value (e.g., mean, median, constant).
    # In this case, it fills the missing values with the mean of the existing values, converted to an integer.

# dropna():
    # Removes all entries in the Series that have missing values (NaN or None).
    # This method returns a new Series without the missing data.

In [41]:
# 1.4. Imputation des données manquantes

# Create an empty dataset
df = pd.DataFrame()

# Create two variables called x0 and x1. Make the first value of x1 a missing value
df['x0'] = [0.3051,0.4949,0.6974,0.3769,0.2231,0.341,0.4436,0.5897,0.6308,0.5]
df['x1'] = [np.nan,0.2654,0.2615,0.5846,0.4615,0.8308,0.4962,0.3269,0.5346,0.6731]

# View the dataset
print("Data :")
print(df)

# Create an imputer object that looks for 'Nan' values, then replaces them with the mean value of the feature
print("chercher les valeurs manquantes par la moyenne de la colonne")
mean_imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

# Apply the imputor on the df dataset
mean_imputer = mean_imputer.fit(df)
imputed_data = mean_imputer.transform(df)
imputed_df = pd.DataFrame(imputed_data, columns=df.columns)

# View the dataset
print("data après imputation")
print(imputed_df)

Data :
       x0      x1
0  0.3051     NaN
1  0.4949  0.2654
2  0.6974  0.2615
3  0.3769  0.5846
4  0.2231  0.4615
5  0.3410  0.8308
6  0.4436  0.4962
7  0.5897  0.3269
8  0.6308  0.5346
9  0.5000  0.6731
chercher les valeurs manquantes par la moyenne de la colonne
data après imputation
       x0        x1
0  0.3051  0.492733
1  0.4949  0.265400
2  0.6974  0.261500
3  0.3769  0.584600
4  0.2231  0.461500
5  0.3410  0.830800
6  0.4436  0.496200
7  0.5897  0.326900
8  0.6308  0.534600
9  0.5000  0.673100


In [42]:
# Qst 4

# Imputer is now deprecated in sklearn.preprocessing
# We are using SimpleImputer now
# However SimpleImputer doesn't accept an 'axis' parameter

# axis — This can take one of two values — 0 and 1. This will decide if the Imputer will apply the strategy along the rows or along the columns. 0 for columns, and 1 for rows.

In [43]:
# 1.5. Sorting et Shuffling

df = pd.DataFrame({'A': [2,1,2,3,3,5,4],'B': [1,2,3,5,4,2,5], 'C': [5,3,4,1,1,2,3]})
print(df)

print("Le jeu de données est trié selon la colonne 'A'")
df = df.sort_values(by=['A'], ascending=[True])
df = df.reset_index(drop=True)
print (df)

index = df.index.tolist()
np.random.shuffle(index)
df = df.loc[index]
df = df.reset_index(drop=True)
print("Le jeu de données est mélangé")
print (df) 

   A  B  C
0  2  1  5
1  1  2  3
2  2  3  4
3  3  5  1
4  3  4  1
5  5  2  2
6  4  5  3
Le jeu de données est trié selon la colonne 'A'
   A  B  C
0  1  2  3
1  2  1  5
2  2  3  4
3  3  5  1
4  3  4  1
5  4  5  3
6  5  2  2
Le jeu de données est mélangé
   A  B  C
0  4  5  3
1  3  5  1
2  5  2  2
3  3  4  1
4  2  3  4
5  1  2  3
6  2  1  5


In [44]:
# Qst 5

# The reset_index() method resets the index of the DataFrame: It creates a new default integer index (starting from 0) and optionally drops the old index, which would otherwise become a new column in the DataFrame.
# drop=True: Prevents the old index from being added as a column.

# Example
        # # Original DataFrame
        # df = pd.DataFrame({'A': [2,1,2,3,3,5,4],'B': [1,2,3,5,4,2,5], 'C': [5,3,4,1,1,2,3]})
        
        # # Sorting the DataFrame
        # df = df.sort_values(by=['A'], ascending=[True])
        
        # # Resetting the index (old index is dropped)
        # df_reset = df.reset_index(drop=True)
        
        # print(df_reset)

    # In this example:
        # After sorting, the index might no longer be in sequential order.
        # reset_index(drop=True) restores the DataFrame to have a fresh index from 0 while discarding the original index.

In [45]:
# 2. Transformation des données (Normalisation)

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/cpu-performance/machine.data'
names= ['constructor','Model','MYCT','MMIN','MMAX','CACH','CHMIN','CHMAX','PRP','ERP']

dataset = pd.read_csv(url, names=names)
print("data:")
print(dataset)

# MIN MAX SCALING
minmax_scale = MinMaxScaler().fit(dataset[['MYCT', 'MMAX']])
df_minmax = minmax_scale.transform(dataset[['MYCT', 'MMAX']])

print('\n********** Normalisation*********\n')

print('Moyenne apres le Min max Scaling :\nMYCT={:.2f}, MMAX={:.2f}'
.format(df_minmax[:,0].mean(), df_minmax[:,1].mean()))

print('\n')

print('Valeur minimale et maximale pour la feature MYCT apres min max scaling: \nMIN={:.2f}, MAX={:.2f}'.format(df_minmax[:,0].min(), df_minmax[:,0].max()))

print('\n')

print('Valeur minimale et maximale pour la feature MMAX apres min max scaling : \nMIN={:.2f}, MAX={:.2f}'.format(df_minmax[:,1].min(), df_minmax[:,1].max()))
print("data après normalisation")
print(df_minmax)

data:
    constructor          Model  MYCT  MMIN   MMAX  CACH  CHMIN  CHMAX  PRP  \
0       adviser          32/60   125   256   6000   256     16    128  198   
1        amdahl         470v/7    29  8000  32000    32      8     32  269   
2        amdahl        470v/7a    29  8000  32000    32      8     32  220   
3        amdahl        470v/7b    29  8000  32000    32      8     32  172   
4        amdahl        470v/7c    29  8000  16000    32      8     16  132   
..          ...            ...   ...   ...    ...   ...    ...    ...  ...   
204      sperry           80/8   124  1000   8000     0      1      8   42   
205      sperry  90/80-model-3    98  1000   8000    32      2      8   46   
206      sratus             32   125  2000   8000     0      2     14   52   
207        wang         vs-100   480   512   8000    32      0      0   67   
208        wang          vs-90   480  1000   4000     0      0      0   45   

     ERP  
0    199  
1    253  
2    253  
3    253  
4 

In [46]:
# In this example, we used the MinMaxScaler to normalize the 'MYCT' 
# and 'MMAX' columns in the dataset, after normalizing the data, the 
# minimum and maximum values of the 'MYCT' and 'MMAX' columns are
# 0.0 and 1.0, respectively.

In [47]:
# 3. Reduction des données (Agrégation des données)

df = pd.DataFrame({'Map': [0,0,0,1,1,2,2], 'Values': [1,2,3,5,4,2,5]})
print(df)

df['Sum'] = df.groupby('Map')['Values'].transform('sum')
df['Moy'] = df.groupby('Map')['Values'].transform('mean')
print(df) 

   Map  Values
0    0       1
1    0       2
2    0       3
3    1       5
4    1       4
5    2       2
6    2       5
   Map  Values  Sum  Moy
0    0       1    6  2.0
1    0       2    6  2.0
2    0       3    6  2.0
3    1       5    9  4.5
4    1       4    9  4.5
5    2       2    7  3.5
6    2       5    7  3.5


In [48]:
# Qst 6

# The Map column acts as a group identifier, dividing the rows into groups (e.g., 0, 1, 2).
# Operations like groupby('Map') calculate statistics (sum, mean, etc ...) separately for each group and apply the results to the corresponding rows.

In [49]:
# 4. Discrétisation des données

# Convertir les données Iris en un tableau numpy et un DataFrame pandas
iris_nparray = iris.data
iris_dataframe = pd.DataFrame(iris.data, columns=iris.feature_names)

# Ajouter une colonne catégorique 'group'
iris_dataframe['group'] = pd.Series([iris.target_names[k] for k in iris.target], dtype="category")

print("IRIS data values:")
print(iris_dataframe)

print("Mean value :")
print (iris_dataframe.mean(numeric_only=True))

print("Median value :")
print (iris_dataframe.median(numeric_only=True))

# Sélectionner uniquement les colonnes numériques
numerical_columns = iris_dataframe.select_dtypes(include=[np.number])

# Calculer et afficher les quantiles (0%, 25%, 50%, 75%, 100%) pour les colonnes numériques
print("Discrétisation basée sur des effectifs égaux (ou quantiles) :")
print(numerical_columns.quantile(np.array([0,.25,.50,.75,1])))

#Le binning transforme les variables numériques en variables catégoriques (discrétisation) pour chaque colonne numérique
iris_binned = pd.concat([
 pd.qcut(iris_dataframe.iloc[:,0], [0, .25, .5, .75, 1]),
 pd.qcut(iris_dataframe.iloc[:,1], [0, .25, .5, .75, 1]),
 pd.qcut(iris_dataframe.iloc[:,2], [0, .25, .5, .75, 1]),
 pd.qcut(iris_dataframe.iloc[:,3], [0, .25, .5, .75, 1]),
 ], join='outer', axis = 1)

print("Bining IrisData")
print(iris_binned)

# Calculer et afficher la fréquence pour chaque catégorie dans la colonne 'group'
print("Fréquence dans chanque catégorie")
print (iris_dataframe['group'].value_counts())

# Calculer et afficher la fréquence pour chaque intervalle de valeurs discrétisées dans la colonne 'petal length (cm)'
print("Fréquence pour chaque marge de valeurs")
print (iris_binned['petal length (cm)'].value_counts()) 

IRIS data values:
     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                  5.1               3.5                1.4               0.2   
1                  4.9               3.0                1.4               0.2   
2                  4.7               3.2                1.3               0.2   
3                  4.6               3.1                1.5               0.2   
4                  5.0               3.6                1.4               0.2   
..                 ...               ...                ...               ...   
145                6.7               3.0                5.2               2.3   
146                6.3               2.5                5.0               1.9   
147                6.5               3.0                5.2               2.0   
148                6.2               3.4                5.4               2.3   
149                5.9               3.0                5.1               1.8   

         

In [50]:
# Qst 7

# qcut() discretizes continuous data into categories (bins) based on quantiles. 
# It divides the data into bins of equal observations.
# t’s useful when you want balanced groups.

# We can use cut() but it divides the data into equal-width intervals
# based on the range of the data, regardless of how many data points fall into each bin.

# Another alternative
# Yes, but only if equal-sized intervals (by value range) are acceptable. pd.cut divides data into fixed-width bins, not based on equal counts.
# To replace qcut with cut
quantiles = numerical_columns.quantile([0, 0.25, 0.5, 0.75, 1])
binned_data = pd.cut(numerical_columns['petal length (cm)'], bins=quantiles, labels=False)

ValueError: Index data must be 1-dimensional

In [None]:
# Part 2
# Réduction de dimension

In [None]:
# 1. Réduction basée sur une sélection des caractéristiques (Méthode Filter)

X,y = iris.data, iris.target # X = données des features, y = cibles (classes)

# Calcul des scores de corrélation pour sélectionner les features les plus pertinentes
chi2_score, chi_2_p_value = chi2(X,y)  # Test Chi-square
f_score, f_p_value = f_classif(X,y) # Test ANOVA F-score
mut_info_score = mutual_info_classif(X,y) # Information mutuelle pour mesurer la dépendance

features = ['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width']
# Création d'un DataFrame pour afficher les scores calculés
print("Les scores de corrélation des features :")
scores_df = pd.DataFrame({
    'Feature': features,
    'Chi-Square': chi2_score,
    'F-Score': f_score,
    'Mutual Information': mut_info_score
})
print(scores_df)

# Calcul de la matrice de corrélation des features
dataframe = pd.DataFrame(iris.data, columns=iris.feature_names)
corr = dataframe.corr() # Corrélations entre les colonnes (features)

# Visualisation de la matrice de corrélation avec un heatmap
sns.heatmap(corr,
 xticklabels=corr.columns.values,
 yticklabels=corr.columns.values)
plt.show()

In [None]:
# Qst 8

# Interpretation of the scores
    # Petal Length and Petal Width have high scores in all three methods:
        # Chi-Square: Measures the dependence between the feature and the target.
            # Petal Length and Petal Width have high scores meaning they are strongly
            # related with the target et vice versa.
        # F-Score: Measures the correlation between the feature and the target.
            # Petal Length and Petal Width (with the highest scores) are the most
            # correlated with the target (best discriminators).
        # Mutual Information: Measures the amount of information shared between 
            # the feature and the target.
            # Petal Length and Petal Width are highly informative about the species 
            # and strongly help in distinguishing between the iris classes.
            # Sepal Width (0.24) is the least informative feature.

# Interpretation of the heatmap
    # The heatmap shows the correlation between the features in the iris dataset.
    # Petal Length and Petal Width have a high positive correlation (0.9) 
    # while sepal features show no correlations with each other.

In [None]:
# 2. Réduction basée sur une transformation des données (PCA)

# Charger un jeu de données Iris
data = load_iris()
X = data.data # Caractéristiques
y = data.target # Étiquettes

# Étape 1 : Standardiser les données
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Étape 2 : Appliquer la PCA
pca = PCA(n_components=2) # Choisir le nombre de composantes principales
X_pca = pca.fit_transform(X_scaled)

# Étape 3 : Afficher la variance expliquée par chaque composante
print("Variance expliquée par chaque composante :", pca.explained_variance_ratio_)

# Étape 4 : Convertir en DataFrame pour visualiser les nouvelles caractéristiques
df_pca = pd.DataFrame(X_pca, columns=['Composante 1', 'Composante 2'])
df_pca['Classe'] = y
print(df_pca.head())

#plot graphique d’observation des données
with plt.style.context('seaborn-v0_8-whitegrid'):
 plt.figure(figsize=(6, 4))
 for lab, col in zip((0, 1, 2), ('blue', 'red', 'green')):
     plt.scatter(X_pca[y==lab, 0],
     X_pca[y==lab, 1],
     label=lab, c=col)
     plt.xlabel('Principal Component 1')
     plt.ylabel('Principal Component 2')
     plt.legend(loc='lower center')
     plt.tight_layout()
     plt.show()

with plt.style.context('seaborn-v0_8-whitegrid'):
    plt.figure(figsize=(6, 4)) 
    for lab, col in zip((0, 1, 2), ('blue', 'red', 'green')):
        plt.scatter(X_pca[y == lab, 0], 
                    X_pca[y == lab, 1],
                    label=f'Classe {lab}', 
                    c=col) 
    plt.xlabel('Composante Principale 1')
    plt.ylabel('Composante Principale 2')
    plt.legend(loc='lower center')
    plt.tight_layout()
    plt.show()

# Gaphique de la variance expliquée cumulative
pca_full = PCA().fit(X_scaled)
plt.plot(range(1, len(pca_full.explained_variance_ratio_) + 1), pca_full.explained_variance_ratio_.cumsum(), marker='o')
plt.xlabel('Nombre de Composantes')
plt.ylabel('Variance expliquée cumulée')
plt.title('Sélection du nombre de composantes')
plt.show()

In [None]:
# Variance expliquée par chaque composante : [0.72962445 0.22850762]
# La première composante explique 73% de la variance totale, 
# tandis que la deuxième composante explique 23% ce qui donne un total de 96%
# d'où la réduction de la dimensionnalité avec maximum d'information.

# La classe 0 (bleue) est bien séparée des classes 1 et 2 (rouge et verte)
# qui se chevauchent légèrement. Cela montre que la PCA a bien réduit la
# dimensionnalité tout en conservant les informations importantes pour la
# classification.

# Le graphe de la variance expliquée cumulée aide à déterminer combien de 
# composantes sont nécessaires pour expliquer une part donnée de la variance totale
# ce qui est égal à deux dans notre cas (96%).