In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
# Séparation en train et test avec un ratio de 70/30
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)


Ici, on utilise la fonction train_test_split de la bibliothèque sklearn.model_selection pour séparer les données en deux ensembles: un ensemble d'entraînement (X_train, y_train) et un ensemble de test (X_test, y_test). Le paramètre test_size permet de spécifier la taille de l'ensemble de test (ici, 30% des données), et le paramètre random_state permet de fixer la graine aléatoire pour des résultats reproductibles.

Dans ce notebook, les données de l'ensemble Iris sont chargées à l'aide de la fonction load\_iris() de la bibliothèque sklearn.datasets. Ensuite, ces données sont divisées en deux ensembles: un ensemble d'entraînement et un ensemble de test, en utilisant la fonction train\_test\_split() de la bibliothèque sklearn.model\_selection. Le ratio de division est de 70% pour l'ensemble d'entraînement et 30% pour l'ensemble de test. Le paramètre random\_state est défini sur 42 pour obtenir des résultats reproductibles. Les données d'entraînement sont représentées par X\_train et y\_train, tandis que les données de test sont représentées par X\_test et y\_test.

# Importance of Train-Test Split

The train-test split is a fundamental technique in machine learning that helps to evaluate the performance of a model and prevent overfitting. By dividing the dataset into two separate sets, one for training and one for testing, we can assess how well our model generalizes to new, unseen data. This split ensures that the model is not simply memorizing the training data, but is instead learning patterns and relationships that can be applied to future observations. By using a separate test set, we can have confidence that our model's performance is not artificially inflated and is instead robust and reliable.

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train) # centering and reduction on the training data
X_test = scaler.transform(X_test) # only reduction on the test data, using the same parameters as calculated with the training data

Cette courte section de code utilise la bibliothèque matplotlib de Python pour créer un graphique de dispersion des données d'entraînement X\_train du jeu de données iris. Il importe matplotlib sous le nom plt et trace un scatter plot en utilisant les deux premières colonnes de X\_train pour les axes x et y. Le dernier point de X\_train est mis en évidence en rouge. Le graphique est affiché avec la méthode show().

In [None]:
from sklearn.metrics import roc_curve, auc
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression()
clf.fit(X_train, y_train)

prob_pos = clf.predict_proba(X_test)[:, 1]

fpr, tpr, thresholds = roc_curve(y_test, prob_pos)

import seaborn as sns
sns.set()

sns.plotroc(fpr, tpr)
plt.title('ROC Curve')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.show()

Dans ce notebook, les données de l'ensemble Iris sont chargées à l'aide de la fonction load\_iris() de la bibliothèque sklearn.datasets. Ensuite, les données sont divisées en un ensemble d'entraînement et un ensemble de test à l'aide de la fonction train\_test\_split() de la bibliothèque sklearn.model\_selection, avec un ratio de 70/30. Les données sont ensuite normalisées à l'aide de la fonction StandardScaler() de la bibliothèque sklearn.preprocessing. Un classifieur logistique est entraîné sur les données d'entraînement à l'aide de la fonction LogisticRegression() de la bibliothèque sklearn.linear\_model. Les probabilités prédites pour l'ensemble de test sont ensuite calculées à l'aide de la méthode predict\_proba() du classifieur logistique. La courbe ROC (Receiver Operating Characteristic) est tracée en utilisant les fonctions roc\_curve() et auc() de la bibliothèque sklearn.metrics, et la bibliothèque seaborn est utilisée pour afficher la courbe ROC.