<a href="https://colab.research.google.com/github/Baldezo313/Some-real-world-machine-learning-project/blob/main/PROJET_4_CONSTRUCTION_D%E2%80%99UN_MODELE_DE_PREDICTION_DU_CANCER_DU_SEIN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PROJET 4 : CONSTRUCTION D’UN MODELE DE PREDICTION DU CANCER DU SEIN  

Selon l’Organisation Mondiale de la Santé (OMS), le cancer du sein est le cancer le plus
fréquent chez les femmes dans les pays développés et les moins développés. En 2018, près de
2 millions de nouveaux cas de cancer du sein ont été diagnostiqués. Les médecins savent que
le cancer du sein survient lorsque certaines cellules mammaires commencent à se développer
anormalement. Ces cellules se divisent plus rapidement que les cellules saines et continuent de
s'accumuler, formant une masse. Le problème avec ces cellules cancérigènes est qu’elles ne
causent pas de douleur ou d'inconfort jusqu'à ce qu'elles se soient propagées aux tissus voisins.
Dès lors, la détection d’un cancer du sein à un stade peu avancé de son développement peut
permettre de soigner plus facilement mais aussi de limiter les séquelles liées à certains
traitements.  

Dans cette optique d’amélioration des diagnostics et des soins préventifs, l’Intelligence
Artificielle peut aider les professionnels de Santé dans leur prise de décisions et permettre aux patients d’être traités rapidement. Les hôpitaux collectent de plus en plus de données dont
l’analyse est un défi et une opportunité. Plusieurs Organisations (Centres de recherche, Startups,
Entreprises, etc.) à travers le monde travaillent sur le développement d’algorithmes
d'apprentissage automatique qui sont entraînés par les données collectées. Les modèles ainsi
créés sont ensuite utilisés pour prédire par exemple quand une insuffisance respiratoire, une
septicémie ou d'autres problèmes tels que le cancer du sein sont susceptibles de se produire.  

Dans ce projet, nous verrons un cas d’utilisation du Machine Learning dans la Santé. Notre
objectif est de construire un modèle capable de prédire si une patiente, sur la base de ses
données, sera atteinte d’un cancer du sein ou pas.

**LIBRAIRIES**

In [1]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import cross_val_score, GridSearchCV

**DONNEES**  

Les données utilisées dans le cadre de ce projet, proviennent de  [UCI Machine Learning](https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic) Repository. Il s’agit de la base de données diagnostic du cancer du sein du Wisconsin aux
USA. Ces données sont également disponibles dans le module `datasets.load_breast_cancer de sklearn`. Veuillez consulter la  [page descriptive](https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic) de ces données pour une meilleure
compréhension.  

In [3]:
# Importation des données
df = load_breast_cancer()

# Affichage de df
df

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0

df est un dictionnaire contenant plusieurs paires clés-valeurs. La clé « data » a pour valeurs un
tableau numpy des données des variables indépendantes. La clé « target » a pour valeur un
tableau numpy représentant la variable cible. Cette variable cible a deux modalités : 'malignant'
(1) et 'benign' (0). La clé « features_names » contient un tableau numpy des noms des variables
indépendantes.

In [4]:
# Variable cible
y = df.target
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

In [5]:
# variables indépendantes
X = df.data
X

array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

In [6]:
X.shape

(569, 30)

## MODELISATION

Nous sommes face à un problème de classification. Parmi les algorithmes de classification les plus utilisés en Data Science, il y a l’algorithme des k plus proches voisins (K Nearest
Neighbor ou KNN en Anglais). KNN est un algorithme d’apprentissage automatique supervisé particulièrement simple et facile à implémenter.

Commençons d’abord par l’initialisation de l’algorithme KNN avec le module sklearn.neighbors.KNeighborsClassifier et ses paramètres par défaut :

In [7]:
# Initialisation de KNN avec ses hyperparamètres par défaut
knn = KNeighborsClassifier()

Réalisons ensuite une validation croisée avec 5 plis :

In [8]:
# 5-fold cross-validation
cv_scores = cross_val_score(knn, X, y, cv = 5, scoring = 'precision')


# Affichage des scores
print(cv_scores)

[0.8625     0.93243243 0.94520548 0.94594595 0.95652174]


* Calculons le score moyen :

In [9]:
# Score moyen arrondi à deux chiffres après la virgule
round(np.mean(cv_scores), 2)

0.93

### GRID SEARCH  

Pour effectuer notre validation croisée, nous avons considéré les paramètres par défaut de l’algorithme de KNN : ce sont les hyperparamètres. Les hyperparamètres sont définis avant le
début du processus de modélisation. Il ne faut pas les confondre avec les paramètres d’un modèle obtenus après l’entraînement de l’algorithme par des données. Pour l’algorithme de classification KNN dans Scikit-Learn, les hyperparamètres sont :

***  
`class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None)`  
***  

Veuillez consulter cette documentation pour les définitions de ces algorithmes. Par exemple
n_neighbors indique le nombre de points voisins que l’algorithme considère dans ses calculs.
Comme vous le voyez bien, des valeurs par défaut sont définies pour chaque hyperparamètre.  

Comment pouvons-nous être sûr que ces valeurs par défaut sont optimales pour notre modèle ?
Quelle est la meilleure combinaison des hyperparamètres qui donne la meilleure performance
du modèle ? Imaginons que nous voulions essayer plusieurs valeurs pour les hyperparamètres
algorithm, leaf_size, et n_neighbors. Il faudra donc essayer chaque combinaison de ces valeurs,
construire le modèle et l’évaluer par une validation croisée pour finalement choisir
l’hyperparamétrage qui donne la meilleure métrique d’évaluation. Ce processus peut être
effectué automatiquement avec une recherche de grille (Grid Search).  

Voici comment nous
l’implémentons dans Python :

In [12]:
# Dictionnaire des hyperparamètres avec leurs valeurs
grid = {
    'n_neighbors':[1,3,5,7,9,10],
    'weights': ['uniform', 'distance'],
    'algorithm':['auto', 'ball_tree', 'kd_tree', 'brute'],
    'metric':['euclidean', 'manhattan'],
    'leaf_size':[10,20,30,40,50]
}

# Estimateur
model = GridSearchCV(estimator = KNeighborsClassifier(),
                     param_grid = grid,
                     scoring = 'precision',
                     cv = 5)

Nous avons d’abord défini un dictionnaire avec comme clés les hyperparamètres et leurs valeurs
que nous voulons essayer (veiller à bien écrire le nom de chaque hyperparamètre). Nous avons ensuite défini un objet GridSearchCV23 qui nous permettra de rechercher le meilleur
hyperparamétrage. Afin de mieux comprendre, calculons le nombre total de modèles qui seront
construit. Chaque combinaison de valeur sera essayée. Pour une combinaison, 5 modèles seront
construits (cv =5) afin de choisir celui qui donne la meilleure métrique (ici ‘precision’). Pour
chaque valeur d’un hyperparamètre, nous testons chaque valeur de chaque autre
hyperparamètre : c’est ce qui forme une combinaison. Pour trouver le nombre de combinaisons
possibles, il faudra donc multiplier les longueurs des listes qui définissent les valeurs des
hyperparamètres. Alors, dans notre cas, le nombre de combinaisons possibles est égal à 6 x 2 x
4 x 2 x 5 soit 480 combinaisons. 5 modèles sont créés pour chaque combinaison. Alors le
nombre total de modèles créés est égal à 480 x 5 soit 2400 modèles.

In [13]:
# Recherche du meilleur modèle
model.fit(X,y)

L’objet GridSearchCV a un attribut « `cv_results_` » qui stocke dans un dictionnaire les résultats
de la recherche. Nous allons affiché ces résultats dans un format plus lisible qu’un dictionnaire :
une dataframe.

In [14]:
# Convertion du dictionnaire des résultats en une dataframe
results = pd.DataFrame(model.cv_results_)

# 'params' et 'mean_test_score' sont les attributs qui nous intéressent
best = results[['params', 'mean_test_score']].sort_values(by ='mean_test_score', ascending = False).head()
best

Unnamed: 0,params,mean_test_score
142,"{'algorithm': 'ball_tree', 'leaf_size': 10, 'm...",0.932089
406,"{'algorithm': 'brute', 'leaf_size': 20, 'metri...",0.932089
286,"{'algorithm': 'kd_tree', 'leaf_size': 20, 'met...",0.932089
262,"{'algorithm': 'kd_tree', 'leaf_size': 10, 'met...",0.932089
310,"{'algorithm': 'kd_tree', 'leaf_size': 30, 'met...",0.932089


Les 5 meilleurs modèles ont le même score avec des hyperparamètres différents.

In [16]:
# Meilleur hyperparamétrage
print(best['params'].iloc[0])


# Meilleur score
best['mean_test_score'].iloc[0]

{'algorithm': 'ball_tree', 'leaf_size': 10, 'metric': 'manhattan', 'n_neighbors': 10, 'weights': 'uniform'}


0.9320886591668218

Nous avons déterminé les valeurs des hyperparamètres ayant donné le meilleur score.
Malheureusement, ils n’ont pas amélioré le score trouvé avec les hyperparamètres par défaut
qui était aussi égal à 0,93. Nous pouvons utiliser notre objet GridSearchCV (« model »)
directement comme modèle de classification et l’utiliser pour effectuer des prédictions. Nous
n’avons donc pas besoin d’entraîner à nouveau un algorithme de KNN avec les meilleurs
hyperparamètres trouvés.

## CONCLUSION
Dans ce projet, nous avons construit un modèle de de prédiction du cancer de sein. De plus,
nous avons appris comment rechercher les hyperparamètres optimaux du modèle. La méthode
de Grid Search CV telle que décrite ici, peut aussi être appliquée pour n’importe quel projet de
machine Learning aussi bien pour des tâches de classification que pour des tâches de régression
et même en apprentissage non supervisé. Si cette méthode a l’avantage d’être un processus
automatisé, facile à comprendre et à implémenter, il n’en demeure pas moins qu’elle a quelques
inconvénients. L'inconvénient majeur de la méthode Grid Search est qu'elle est très coûteuse
en calcul, c'est-à-dire que lorsque le nombre d'hyperparamètres à essayer augmente
considérablement et que la dataframe est volumineuse, les temps de traitement peuvent être très
lents. De plus, lorsque vous définissez votre grille, vous pouvez omettre par inadvertance un
hyperparamétrage qui serait en fait optimal. S'il n'est pas spécifié dans votre grille, il ne sera
jamais essayé !  

Pour surmonter ces inconvénients, nous examinerons la recherche aléatoire (Random Search)
dans le projet suivant.