In [1]:
import datetime
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

In [2]:
heart_disease = pd.read_csv("../data/heart-disease.csv")
heart_disease.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [3]:
# Obtenez l'ensemble de données sur le logement en Californie
from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()
housing; # est téléchargé sous forme de dictionnaire

KeyError: 194

In [None]:
housing_df = pd.DataFrame(housing["data"], columns=housing["feature_names"])
housing_df["target"] = pd.Series(housing["target"])
housing_df.head()

## 3. Ajuster le modèle aux données et l'utiliser pour faire des prédictions

Maintenant que vous avez choisi un modèle, l'étape suivante consiste à lui faire apprendre des données afin qu'il puisse être utilisé pour des prédictions futures.

Si vous avez suivi, vous en avez déjà vu quelques exemples.

### 3.1 Ajuster un modèle aux données

Dans Scikit-Learn, le processus permettant à un modèle d'apprentissage automatique d'apprendre des modèles à partir d'un ensemble de données implique d'appeler la méthode « fit() » et de lui transmettre des données, telles que « fit(X, y) ».

Où « X » est un tableau de fonctionnalités et « y » est un tableau cible.

Les autres noms pour « X » incluent :
* Données
* Variables de fonctionnalités
* Caractéristiques

Les autres noms pour « y » incluent :
* Étiquettes
* Variable cible

Pour l'apprentissage supervisé, il y a généralement un « X » et un « y ».

Pour l'apprentissage non supervisé, il n'y a pas de « y » (pas d'étiquettes).

Reprenons l'exemple de l'utilisation des données des patients (`X`) pour prédire s'ils souffrent ou non d'une maladie cardiaque (`y`).

In [None]:
# Importez la classe modèle RandomForestClassifier depuis le module ensemble
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

# Configurer une graine aléatoire
np.random.seed(42)

# Divisez les données en X (caractéristiques/données) et y (cible/labels)
X = heart_disease.drop("target", axis=1)
y = heart_disease["target"]

# Divisé en ensembles de train et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Instancier le modèle (sur l'ensemble d'entraînement)
clf = RandomForestClassifier(n_estimators=100)

# Appelez la méthode d'ajustement sur le modèle et transmettez-lui les données d'entraînement
clf.fit(X_train, y_train)

# Vérifier le score du modèle (sur l'ensemble de test)
clf.score(X_test, y_test)

Qu'est-ce qu'il se passe ici?

L'appel de la méthode `fit()` amènera l'algorithme d'apprentissage automatique à tenter de trouver des modèles entre `X` et `y`. Ou s'il n'y a pas de « y », il ne trouvera que les modèles contenus dans « X ».

Voyons « X ».

In [None]:
X.head()

And `y`.

In [None]:
y.head()

Passer `X` et `y` à `fit()` amènera le modèle à parcourir tous les exemples dans `X` (données) et à voir quel est leur `y` (étiquette) correspondant.

La manière dont le modèle procède est différente selon le modèle que vous utilisez.

Expliquer les détails de chacun prendrait un manuel entier.

Pour l’instant, vous pouvez imaginer que cela ressemble à la façon dont vous découvririez des modèles si vous aviez suffisamment de temps.

Vous examineriez les variables caractéristiques, « X », « l'âge », « sexe », « chol » (cholestérol) et verriez quelles différentes valeurs ont conduit aux étiquettes « y », « 1 » pour les maladies cardiaques, « 0` pour aucune maladie cardiaque.

Ce concept, quel que soit le problème, est similaire dans tout l’apprentissage automatique.

**Pendant l'entraînement (recherche de modèles dans les données) :**

Un algorithme d'apprentissage automatique examine un ensemble de données, trouve des modèles, essaie d'utiliser ces modèles pour prédire quelque chose et se corrige du mieux qu'il peut avec les données et les étiquettes disponibles. Il stocke ces modèles pour une utilisation ultérieure.

**Pendant les tests ou en production (en utilisant des modèles appris) :**

Un algorithme d'apprentissage automatique utilise les modèles précédemment appris dans un ensemble de données pour faire une prédiction sur certaines données invisibles.

### 3.2 Faire des prédictions à l'aide d'un modèle d'apprentissage automatique
Maintenant que nous disposons d'un modèle entraîné, qui, espérons-le, a appris des modèles dans les données, vous souhaiterez l'utiliser pour faire des prédictions.

Scikit-Learn permet cela de plusieurs manières.

Deux des plus courants et utiles sont [`predict()`](https://github.com/scikit-learn/scikit-learn/blob/5f3c3f037/sklearn/multiclass.py#L299) et [`predict_proba() `](https://github.com/scikit-learn/scikit-learn/blob/5f3c3f037/sklearn/linear_model/_logistic.py#L1617).

Voyons-les en action.

In [None]:
# Utilisez un modèle entraîné pour faire des prédictions
clf.predict(X_test)

Étant donné les données sous la forme de « X », la fonction « predict() » renvoie des étiquettes sous la forme de « y ».

> **Remarque :** Pour que la fonction `predict()` fonctionne, elle doit être transmise `X` (données) dans le même format sur lequel le modèle a été entraîné. Par exemple, si un modèle a été formé sur 10 fonctionnalités formatées d'une certaine manière, les prédictions doivent être faites sur des données avec 10 fonctionnalités formatées d'une certaine manière. Tout ce qui est différent et cela renverra une erreur.

Il est courant de sauvegarder ces prédictions dans une variable nommée quelque chose comme « y_preds » pour une comparaison ultérieure avec « y_test » ou « y_true » (généralement identique à « y_test », juste un autre nom).

In [None]:
# Comparez les prédictions à la vérité
y_preds = clf.predict(X_test)
np.mean(y_preds == y_test)

Une autre façon d'évaluer les prédictions (en les comparant aux étiquettes de vérité) consiste à utiliser le [module `sklearn.metrics`] de Scikit-Learn (http://scikit-learn.org/stable/modules/model_evaluation.html).

À l'intérieur, vous trouverez une méthode telle que [`accuracy_score()`](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html), qui est la métrique d'évaluation par défaut pour la classification. problèmes.

In [None]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_preds)

`predict_proba()` returns the probabilities (proba is short for probability) of a classification label.

In [None]:
# Renvoie les probabilités plutôt que labels
clf.predict_proba(X_test[:5])

Voyons la différence.

In [None]:
# Renvoyez les labels
clf.predict(X_test[:5])

`predict_proba()` renvoie un tableau de cinq tableaux contenant chacun deux valeurs.

Chaque nombre est la probabilité qu'une étiquette soit donnée à un échantillon.

In [None]:
# Trouver les probabilités de prédiction pour 1 exemple
clf.predict_proba(X_test[:1])

Cette sortie signifie que pour l'échantillon « X_test[:1] », le modèle prédit l'étiquette 0 (indice 0) avec un score de probabilité de 0,89.

Étant donné que le score de probabilité le plus élevé se situe à l'indice « 0 » (et qu'il est supérieur à 0,5), lors de l'utilisation de « predict() », une étiquette « 0 » est attribuée.

In [None]:
# Renvoyez le label pour 1 exemple
clf.predict(X_test[:1])

D'où vient 0,5 ?

Parce que notre problème est une tâche de classification binaire (maladie cardiaque ou non), prédire une étiquette avec une probabilité de 0,5 à chaque fois équivaudrait à tirer à pile ou face (deviner 50/50 à chaque fois).

Par conséquent, une fois que la probabilité de prédiction d’un échantillon dépasse 0,5 pour une certaine étiquette, cette étiquette lui est attribuée.

`predict()` peut également être utilisé pour les modèles de régression.

In [None]:
# Importez la classe modèle RandomForestRegressor depuis le module ensemble
from sklearn.ensemble import RandomForestRegressor

# Configurer une graine aléatoire
np.random.seed(42)

# Divisez les données en fonctionnalités/features (X) et labels (y)
X = housing_df.drop("target", axis=1)
y = housing_df["target"]

# Divisé en ensembles de train et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Instaurer et ajuster le modèle (sur l'ensemble d'entraînement)
model = RandomForestRegressor()
model.fit(X_train, y_train)

# Faire des prédictions
y_preds = model.predict(X_test)

Nous pouvons maintenant évaluer notre modèle de régression en utilisant [`sklearn.metrics.mean_absolute_error`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html) qui renvoie l'erreur moyenne sur tous des échantillons.

In [None]:
# Comparez les prédictions à la vérité
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_preds)

Maintenant, nous avons vu comment obtenir un modèle, comment trouver des modèles dans les données à l'aide de la fonction `fit()` et faire des prédictions en utilisant ce qu'il a appris à l'aide des fonctions `predict()` et `predict_proba()`, il est temps d'évaluer ces prédictions.