# Comprendre les bases avant d'appliquer l'apprentissage automatique

In [1]:
# Importer les bibliothèques nécessaires
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder, StandardScaler

Data Preprocessing

In [2]:
# Créer un ensemble de données aléatoire

np.random.seed(42)

data = {
    'Feature1': np.random.randint(0, 100, 100),
    'Feature2': np.random.choice(['A', 'B', 'C', np.nan], 100),
    'Feature3': np.random.uniform(0, 1, 100),
    'Target': np.random.choice([0, 1], 100)
}

In [3]:
# Création d'un Dataframe pandas avec "data"
df = pd.DataFrame(data)

In [5]:
# Afficher les données
display(df)

Unnamed: 0,Feature1,Feature2,Feature3,Target
0,51,B,0.808120,0
1,92,A,0.633404,1
2,14,,0.871461,0
3,71,,0.803672,1
4,60,,0.186570,0
...,...,...,...,...
95,84,C,0.005062,0
96,79,B,0.160808,1
97,81,,0.548734,0
98,52,B,0.691895,1


In [6]:
# informations sur l'ensemble de données
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Feature1  100 non-null    int64  
 1   Feature2  100 non-null    object 
 2   Feature3  100 non-null    float64
 3   Target    100 non-null    int64  
dtypes: float64(1), int64(2), object(1)
memory usage: 3.3+ KB


In [7]:
# Afficher le résumé statistique des colonnes numériques
df_describe = df.describe()
df_describe

Unnamed: 0,Feature1,Feature3,Target
count,100.0,100.0,100.0
mean,50.54,0.495086,0.52
std,29.425963,0.295744,0.502117
min,1.0,0.005062,0.0
25%,22.5,0.239081,0.0
50%,53.0,0.515442,1.0
75%,75.5,0.736567,1.0
max,99.0,0.98565,1.0


In [8]:
# Nombre de colonnes
num_columns = len(df.columns)

# Identifier les colonnes numériques int, float et catégorielles
numerical_int_columns = df.select_dtypes(include=['int32', 'int64']).columns
numerical_float_columns = df.select_dtypes(include=[ 'float32', 'float64']).columns
categorical_columns = df.select_dtypes(include='object').columns

# Afficher les informations
print(f"Total columns: {num_columns}")

if len(numerical_int_columns) > 0:
    print(f"Numerical integer columns ({len(numerical_int_columns)}): {', '.join(numerical_int_columns)}")
else:
    print("No numerical integer columns found.")

if len(numerical_float_columns) > 0:
    print(f"Numerical float columns ({len(numerical_float_columns)}): {', '.join(numerical_float_columns)}")
else:
    print("No numerical float columns found.")

if len(categorical_columns) > 0:
    print(f"Categorical columns ({len(categorical_columns)}): {', '.join(categorical_columns)}")
else:
    print("No categorical columns found.")


Total columns: 4
Numerical integer columns (2): Feature1, Target
Numerical float columns (1): Feature3
Categorical columns (1): Feature2


In [9]:
# Vérifier les valeurs nulles, NaN ou vides dans l'ensemble de données
missing_values = df.isnull().sum()

# Afficher le nombre de valeurs manquantes
if missing_values.sum() > 0:
    print("\nCount of missing values per column:")
    print(missing_values)
else:
    print("\nDataset does not have any null or NaN values.")


# NOTE :  Il semble que les valeurs nan dans la colonne « Feature2 » sont stockées sous forme de chaine de caractère, et non sous forme de valeurs NaN réelles. Il est donc incapable de compter les valeurs NaN.


Dataset does not have any null or NaN values.


In [10]:
# Compter les occurrences de 'nan' (chaine de caractère)
nan_count = (df == 'nan').sum()

# Afficher le nombre de valeurs « nan » par colonne
print("\nCount of 'nan' as string values per column:")
print(nan_count)

# REMARQUE : les valeurs NaN seront désormais comptées comme une chaine de caractère.


Count of 'nan' as string values per column:
Feature1     0
Feature2    23
Feature3     0
Target       0
dtype: int64


In [11]:
# Remplacer les chaines de caractères « nan » par les valeurs NaN réelles
df.replace({'nan': np.nan}, inplace=True)

In [11]:
display(df)

Unnamed: 0,Feature1,Feature2,Feature3,Target
0,51,B,0.808120,0
1,92,A,0.633404,1
2,14,,0.871461,0
3,71,,0.803672,1
4,60,,0.186570,0
...,...,...,...,...
95,84,C,0.005062,0
96,79,B,0.160808,1
97,81,,0.548734,0
98,52,B,0.691895,1


In [12]:
# REMARQUE : les données ont des valeurs NaN réelles, afin que nous puissions les nettoyer ou les imputer en fonction de nos besoins.


# Rechercher les valeurs nulles, NaN ou vides dans l'ensemble de données
missing_values = df.isnull().sum()

# Afficher le nombre de valeurs manquantes
if missing_values.sum() > 0:
    print("\nCount of missing values per column:")
    print(missing_values)
else:
    print("\nDataset does not have any null or NaN values.")


Count of missing values per column:
Feature1     0
Feature2    23
Feature3     0
Target       0
dtype: int64


Méthode 1 : imputer les valeurs à la place de « nan »

In [12]:
 # Importer les bibliothèques nécessaires
from sklearn.impute import SimpleImputer

# Identifier les colonnes catégorielles
categorical_columns = df.select_dtypes(include=['object']).columns

# Créer une instance SimpleImputer pour les colonnes catégorielles
imputer_categorical = SimpleImputer(strategy='most_frequent')

# Ajuster et transformer l'ordinateur sur l'ensemble de données pour les colonnes catégorielles
df_imputed_categorical = pd.DataFrame(imputer_categorical.fit_transform(df[categorical_columns]), columns=categorical_columns)

# Afficher l'ensemble de données après imputation pour les colonnes catégorielles
print("Dataset after imputation for categorical columns:")
print(df_imputed_categorical.head())

# Combinez les colonnes catégorielles imputées avec les colonnes numériques d'origine
df_combined = pd.concat([df_imputed_categorical, df.drop(columns=categorical_columns)], axis=1)

# Afficher l'ensemble de données complet après imputation
print("\nComplete dataset after imputation:")
display(df_combined)


Dataset after imputation for categorical columns:
  Feature2
0        B
1        A
2        C
3        C
4        C

Complete dataset after imputation:


Unnamed: 0,Feature2,Feature1,Feature3,Target
0,B,51,0.808120,0
1,A,92,0.633404,1
2,C,14,0.871461,0
3,C,71,0.803672,1
4,C,60,0.186570,0
...,...,...,...,...
95,C,84,0.005062,0
96,B,79,0.160808,1
97,C,81,0.548734,0
98,B,52,0.691895,1


In [13]:
# Vérifier les valeurs nulles, NaN ou vides dans l'ensemble de données
missing_values = df_combined.isnull().sum()

# Afficher le nombre de valeurs manquantes
if missing_values.sum() > 0:
    print("\nCount of missing values per column:")
    print(missing_values)
else:
    print("\nDataset does not have any null or NaN values.")


Dataset does not have any null or NaN values.


In [14]:
# Features et variable cible
X = df_combined.drop('Target', axis=1)
y = df_combined['Target']

In [15]:
display(X)

Unnamed: 0,Feature2,Feature1,Feature3
0,B,51,0.808120
1,A,92,0.633404
2,C,14,0.871461
3,C,71,0.803672
4,C,60,0.186570
...,...,...,...
95,C,84,0.005062
96,B,79,0.160808
97,C,81,0.548734
98,B,52,0.691895


In [16]:
display(y)

0     0
1     1
2     0
3     1
4     0
     ..
95    0
96    1
97    0
98    1
99    0
Name: Target, Length: 100, dtype: int64

In [17]:
# Encodage d'étiquette pour la variable catégorielle 'Feature2'
encoder = LabelEncoder()
X['Feature2'] = encoder.fit_transform(X['Feature2'])


In [18]:
display(X)

Unnamed: 0,Feature2,Feature1,Feature3
0,1,51,0.808120
1,0,92,0.633404
2,2,14,0.871461
3,2,71,0.803672
4,2,60,0.186570
...,...,...,...
95,2,84,0.005062
96,1,79,0.160808
97,2,81,0.548734
98,1,52,0.691895


In [19]:
# Diviser l'ensemble de données en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [20]:
print("X_train:")
print(X_train)


X_train:
    Feature2  Feature1  Feature3
55         2         8  0.040775
88         2        47  0.084140
26         0        57  0.971782
42         2        54  0.242055
69         1        35  0.924694
..       ...       ...       ...
60         1        91  0.226496
71         2         3  0.257942
14         2        21  0.860731
92         2        86  0.009197
51         2         3  0.090290

[80 rows x 3 columns]


In [21]:
print("X_test:")
print(X_test)

X_test:
    Feature2  Feature1  Feature3
83         0        73  0.725956
53         2        59  0.320780
70         1        49  0.877339
45         0        50  0.237638
44         2         2  0.761620
39         0        46  0.144895
22         0        59  0.323203
80         2        89  0.633101
10         0        87  0.110052
0          1        51  0.808120
18         2        29  0.222108
30         2        90  0.300878
73         2         5  0.817222
33         2        91  0.609564
90         2        71  0.898554
4          2        60  0.186570
76         2        53  0.241852
77         0        92  0.093103
12         2        23  0.427108
31         1        58  0.284840


In [22]:
print("y_train:")
print(y_train)

y_train:
55    1
88    1
26    1
42    0
69    0
     ..
60    0
71    1
14    0
92    1
51    1
Name: Target, Length: 80, dtype: int64


In [23]:
print("y_test:")
print(y_test)

y_test:
83    1
53    1
70    0
45    1
44    0
39    0
22    0
80    1
10    1
0     0
18    1
30    1
73    1
33    0
90    1
4     0
76    0
77    1
12    0
31    1
Name: Target, dtype: int64


Modeling

In [24]:
# Importer les bibliothèques ML nécessaires
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [26]:
# Créer un modèle de régression linéaire
model = LinearRegression()

# Ajuster le modèle sur les données d'entraînement
model.fit(X_train, y_train)

# Prédire sur les données d'entraînement
y_pred = model.predict(X_test)

# Évaluer le modèle
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Afficher les métriques d'évaluation
print("Mean Squared Error:", mse)
print("R-squared:", r2)

Mean Squared Error: 0.2327210088675704
R-squared: 0.05971309548456383


Méthode 2 : supprimer les valeurs « nan »

In [27]:
# Supprimer les lignes avec des valeurs NaN
df_cleaned = df.dropna()

# Afficher l'ensemble de données nettoyées
print("Dataset after removing rows with NaN values:")
print(df_cleaned.head())

Dataset after removing rows with NaN values:
   Feature1 Feature2  Feature3  Target
0        51        B  0.808120       0
1        92        A  0.633404       1
5        20        A  0.892559       1
6        82        A  0.539342       0
7        86        A  0.807440       1


In [28]:
# Séparer les features et variable cible
M2_X = df_cleaned.drop('Target', axis=1)
M2_y = df_cleaned['Target']

In [29]:
# Encodage d'étiquette pour la variable catégorielle 'Feature2'
encoder = LabelEncoder()
M2_X['Feature2'] = encoder.fit_transform(M2_X['Feature2'])

In [30]:
# Diviser l'ensemble de données en train et test


M2_X_train, M2_X_test, M2_y_train, M2_y_test = train_test_split(M2_X, M2_y, test_size=0.2, random_state=42)


# La modélisation:

In [31]:
# Créer un modèle de régression linéaire
model = LinearRegression()

# Ajuster le modèle sur les données d'entraînement
model.fit(M2_X, M2_y)

# Prédire sur les données d'entraînement
M2_y_pred = model.predict(M2_X)

# Évaluer le modèle
M2_mse = mean_squared_error(M2_y, M2_y_pred)
M2_r2 = r2_score(M2_y, M2_y_pred)

# Afficher les métriques d'évaluation
print("Mean Squared Error:", M2_mse)
print("R-squared:", r2)

Mean Squared Error: 0.23452206469448297
R-squared: 0.05971309548456383


In [32]:
# Obtenir nos paramètres de modèle
print('Intercept value:', model.intercept_) #b
print('Regression coefficients:', model.coef_) #m

Intercept value: 0.25183153799322383
Regression coefficients: [0.00401039 0.0560522  0.02562945]


# Exercise:

1) Vérifier les techniques de transformation de données ci-dessous et appliquez-en au minimum trois autres méthodes.

https://scikit-learn.org/stable/data_transforms.html

2) Vous pouvez également ajouter plus de colonnes

3) Verifier et comparer les performances des modèles après avoir appliqué l'ensemble des transformation de données

4) Verfier et tester d'autres methodes de régression:  Ridge, Lasso et Elastic Net et comparer les performances des modèles

https://scikit-learn.org/stable/modules/classes.html#module-sklearn.linear_model
