# `Scikit-learn`, introduction à l'apprentissage supervisé et non supervisé.

`Scikit-learn` est une biliothèque `Python` largement utilisée pour le machine learning, offrant un large éventail d'outils pour le traitement, l'analyse et la modélisation des données. Parmi ses nombreuses fonctionnalités, les algorithmes d'apprentissage supervisé et non supervisé sont fondamentaux pour la construction de modèles prédictifs.

## 1. Apprentissage supervisé.

L'apprentissage supervisé est une méthode où le modèle est formé sur un ensemble de données étiquetées. Cela signifie que pour chaque exemple d'entrée, il existe une sortie correspondantes connue. L'objectif est d'apprendre une fonction capable de prédire les étiquettes de nouvelles données. Les types courants d'algorithmes d'apprentissage supervisé incluent :

- Régression : Utilisée lorsque la sortie est continue. Par exemple, prédire le prix d'une maison en fonction de ses caractéristiques.
- Classification : Utilisée lorsque la sortie est discrète. Par exemple, classer des emails en tant que spam ou non-spam.

Les algorithmes populaires incluent :
- Régression linéaire.
- Arbres de décision.
- Forêts aléatoires.
- Support vector machines (SVM).
- Réseaux neuronaux.

### Exemple 1, classification, prédire le type d'Iris.

Objectif, utiliser le dataset `Iris` pour prédire la catégorie d'une fleur en fonction de ses dimensions.

In [4]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

Chargement des données `Iris`.

In [6]:
iris = load_iris()

Afficher les informations du `dataset`.

In [8]:
print("catégories (target) : ", iris.target_names)
print("Premières données : ", iris.data[:5])
print("Premières cible : ", iris.target[:5])

catégories (target) :  ['setosa' 'versicolor' 'virginica']
Premières données :  [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
Premières cible :  [0 0 0 0 0]


Diviser les données en ensembles d'entraînement et de test.

In [11]:
x, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

Vérifier les tailles des ensembles.

In [12]:
print("taille de l'ensemble d'entraînement : ", X_train.shape)
print("taille de l'ensemble de test : ", X_test.shape)

taille de l'ensemble d'entraînement :  (120, 4)
taille de l'ensemble de test :  (30, 4)


Choisir un modèle (`Random Forest Classifier`).

In [13]:
model = RandomForestClassifier(n_estimators=100, random_state=42)

Entraîner le modèle.

In [15]:
model.fit(X_train, y_train)

RandomForestClassifier(random_state=42)

Faire des prédictions.

In [16]:
y_pred = model.predict(X_test)

Afficher les prédictions et les vraies valeurs.

In [17]:
print("predictions : ", y_pred)
print("vraies valeurs : ", y_test)

predictions :  [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]
vraies valeurs :  [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]


Évaluer le modèle.

In [18]:
print("accuracy : ", accuracy_score(y_test, y_pred))
print("classification report : \n", classification_report(y_test, y_pred))

accuracy :  1.0
classification report : 
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



## Utilité du modèle entraîné (Classification `Iris`).

### 1.Prédire la catéforie d'une nouvelle fleur.

Une fois que le modèle est entraîné, il peut répondre à une question centrale :
- Question, à quelle espèce appartient une fleur, donnée ses caractéristiques (longueur/largeur des sépales et pétales) ?
- Cela permet une classification raide et automatisée des fleurs.

**Exemple concret.**
- Un botaniste mesure une nouvelle fleur avec les caractéristiques suivantes :
    - Longueur de sépale 5.0 cm
    - Largeur du sépale 3.5 cm
    - Longueur du pétale 0.2 cm
    - Largeur du pétale 0.2 cm
- Le modèle peut prédire qu'il s'agit d'une `Iris Setosa`.

In [21]:
# nouvelle fleur à classer
nouvelle_fleur = [[5.0, 3.5, 1.4, 0.2]]

# prédiction avec le modèle
prediction = model.predict(nouvelle_fleur)
print("espèce prédite : ", iris.target_names[prediction[0]])

espèce prédite :  setosa


### 2.Classification automatisée dans un processus industriel.