# Introduction à la classification binaire
# Application au diagnostic du cancer du sein

Travail en groupe 3/4, sur la semaine 50

## Projet Breast Cancer Wisconsin
Les données: 
https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

Nous allons étudier le concept de classification qui est avec la régression l'autre tâche principale du Machine Learning supervisé. Nous allons particulièrement nous concentrer sur la classification binaire et l'illustrer sur un exemple d'application concret, le diagnostic du cancer du sein. En outre, nous allons découvrir et utiliser la régression logistique comme modèle de Machine Learning pour effectuer notre tâche de classification binaire.


## Contexte
Le Breast Cancer Wisconsin (diagnostic) Dataset est un jeu de données classique du Machine Learning. Il est composé de 569 exemples, chaque exemple étant défini par 30 caractéristiques ; ces caractéristiques correspondent principalement aux propriétés géométriques mesurées sur les cellules issues de la biopsie. Chaque exemple est classé dans la catégorie "Benign" (n=357) si la tumeur est bénigne et dans la catégorie "Malignant" (n=212) si la tumeur est maline. Le nombre de catégories de la classification est de 2, on parle alors de classification binaire. La finalité de ce travail est ainsi d'entrainer un modèle de Machine Learning à identifier le type de tumeur (bénigne ou maline) en fonction des propriétés géométriques mesurées sur les cellules issues de la biopsie.


### concepts de base de la classification binaire :
Lister:

    En quoi consiste la classification binaire ?
    Qu'est-ce qu'une matrice de confusion ?
        Qu'est-ce qu'un faux négatif ? un vrai négatif ? un faux positif ? un vrai positif ?
    Qu'est-ce que le taux de classification (accuracy) ?
    Qu'est-ce que le rappel (recall) ?
    Qu'est-ce que la précision (precision) ?
    Qu'est-ce que le F1-score ?
    Qu'est-ce qu'une courbe ROC ?
        Qu'est-ce que l'Area Under the Curve (AUC) ?


### Etude
décrire:

    Qu'est-ce qu'une régression logistique ?
    Qu'est-ce que le Feature Scaling ?
        A quoi sert-il et quels sont ses avantages ?
        Qu'est-ce que la normalisation des données ?
        Qu'est-ce que la standardisation des données ?
        Comment l'utilise-t-on lorsque l'on a un jeu de train et un jeu de test ?


In [61]:
Le Feature Scaling  est une bonne pratique, pour ne pas dire obligatoire, lors de la modélisation avec du Machine Learning.

Les algorithmes pour lesquels le feature scaling s’avère nécessaire, sont ceux pour lesquels il faudra

    Calculer un vecteur de poids (weights) theta
    Calculer des distances pour déduire le degrée de similarité de deux items
    Certains algorithmes de Clustering

Plus concrétement, voici une liste d’algorithmes non exhaustive pour lesquels il faudra procéder au Feature Scaling :

    Logistic Regression
    Regression Analysis (polynomial, multivariate regression…)
    Support Vector Machines (SVM)
    K-Nearest Neighbors (KNN)
    K-Means (clustering…)
    Principal Component Analysis (PCA)

SyntaxError: invalid syntax (3127128458.py, line 1)

In [None]:
La Normalisation

Min-Max Scaling peut- être appliqué quand les données varient dans des échelles différentes. A l’issue de cette transformation, les features seront comprises dans un intervalle fixe [0,1]. Le but d’avoir un tel intervalle restreint est de réduire l’espace de variation des valeurs d’une feature et par conséquent réduire l’effet des outliers.

La normalisation peut- être effectuée par la technique du Min-Max Scaling. La transformation se fait grâce à la formule suivante :

    \[X_{normalise} = \frac{X - X_{min}}{X_{max} - X_{min}}\]

Avec :

    X_{min} : la plus petite valeur observée pour la feature X
    X_{min} : la plus grande valeur observée pour la feature X
    X : La valeur de la feature qu’on cherche à normaliser


In [None]:
La Standardisation

La standardisation (aussi appelée Z-Score normalisation  à ne pas confondre avec la normalisation du paragraphe précendent) peut- être appliquée quand les input features répondent à des distributions normales (Distributions Gaussiennes) avec des moyennes et des écart-types différents. Par conséquent, cette transformation aura pour impact d’avoir toutes nos features répondant à la même loi normale X \sim \mathcal{N} (0, \, 1).

La standardisation peut également être appliquée quand les features ont des unités différentes.

La Standardisation est le processus de transformer une feature en une autre qui répondra à la loi normale (Gaussian Distribution) X \sim \mathcal{N} (\mu, \, \sigma) avec :

    \mu = 0  La moyenne de la loi de distribution
    \sigma = 1 est l’Écart-type (Standard Deviation)

La formule de standardisation d’une feature est la suivante :

        \[z = \frac{ x - \mu} {\sigma} \]

avec :

    x la valeur qu’on veut standardiser (input variable)
    \mu la moyenne (mean) des observations pour cette feature
    \sigma est l’ecart-type (Standard Deviation) des observations pour cette feature


## Implémentation python
Entrainement d'un modèle de type régression logistique à diagnostiquer l'absence ou la présence d'un cancer du sein
Les étapes:

    Importation des librairies Python
    Chargement des données du Breast Cancer Wisconsin (diagnostic) Dataset
    Mise au format Numpy des données
        Par défaut, patients sains = 0, patients malades = 1.
    Echantillonnage des données
        NB test_size = 113
    Afficher sous forme d'histogrammes la distribution du jeu de données initial, du jeu de train et du jeu de test en fonction de chaque catégorie (bénigne et maline)
    Effectuer le Feature Scaling
    Entrainer le modèle de régression logistique
        model = LogisticRegression(C = 0.1, max_iter = 10000)
    Calculer et afficher les performances obtenues sur le jeu d'apprentissage
        Matrice de confusion
        Taux de classification, Rappel, Précision et F1-Score
        Courbe ROC, AUC
    Calculer et afficher les performances obtenues sur le jeu de test
        Matrice de confusion
        Taux de classification, Rappel, Précision et F1-Score
        Courbe ROC, AUC

In [None]:
#Importation librairies Python

import pandas as pd
import matplotlib.pyplot as plt
import pandas as pd
import scipy.stats
import numpy as np
import seaborn as sns
import plotly 
import plotly.graph_objects as go
import chart_studio
import chart_studio.plotly as py
import plotly.figure_factory as ff
from plotly.offline import init_notebook_mode, iplot
plotly.offline.init_notebook_mode()
import plotly.express as px
from pySankey.sankey import sankey
init_notebook_mode(connected=True)         # initiate notebook for offline plot
from plotly.subplots import make_subplots
import plotly.io as pio
#pio.renderers.default = 'svg'
pio.renderers.default = 'browser'
import plotly.offline as pyo
pyo.init_notebook_mode()
from IPython.display import Image, HTML, display, SVG
import missingno as msno
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from pywaffle import Waffle
import random
from pandas_profiling import ProfileReport
from notebook.services.config import ConfigManager
cm = ConfigManager()
cm.update('livereveal', {
        'width': 1600,
        'height': 900,
        'scroll': True,
})

display(HTML("<style>.container { width:100% !important; }</style>"))

In [None]:
#Chargement jeu de données Breast Cancer

df = pd.read_csv('data.csv')
df

In [None]:
#Exploration Data Analysis

profile = ProfileReport(df, title='Analyse du fichier Breast Cancer', html={'style':{'full_width':True}})
profile.to_notebook_iframe()

In [None]:
#Valeurs manquantes :
na_values=msno.matrix(df,figsize=(10,3))
na_values

In [None]:
#Retrait de la colonne avec valeurs manquantes
# Drop last column of a dataframe
df = df.iloc[: , :-1]
df

In [None]:

#Mise au format Numpy des données
    #Par défaut, patients sains = 0, patients malades = 1

df= df.replace({'M':1,'B':0})
df


In [None]:
df.columns

In [None]:
#Echantillonage des données
# Load module from scikit-learn
from sklearn.model_selection import train_test_split


In [None]:
# Split data into 2 parts : train & test
X=df[['id', 'radius_mean', 'texture_mean', 'perimeter_mean',
       'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean',
       'concave points_mean', 'symmetry_mean', 'fractal_dimension_mean',
       'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se',
       'compactness_se', 'concavity_se', 'concave points_se', 'symmetry_se',
       'fractal_dimension_se', 'radius_worst', 'texture_worst',
       'perimeter_worst', 'area_worst', 'smoothness_worst',
       'compactness_worst', 'concavity_worst', 'concave points_worst',
       'symmetry_worst', 'fractal_dimension_worst']]
y=df[['diagnosis']]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.198, random_state=42) 

In [None]:
# Check the size of subset of data
print("The length of the initial dataset is :", len(X))
print("The length of the train dataset is   :", len(X_train))
print("The length of the test dataset is    :", len(X_test))

In [59]:
from sklearn.linear_model import LogisticRegression
import statsmodels.api as sm

modele_logit = LogisticRegression(penalty='none',solver='newton-cg')
modele_logit.fit(X,y)


A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples, ), for example using ravel().


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line search algorithm did not converge


The line 

LogisticRegression(penalty='none', solver='newton-cg')

In [56]:
#comprendre les coefficients du modèle, scikit-learn stocke les informations dans .coef_, nous allons les afficher de manière plus agréable dans un DataFrame avec la constante du modèle :
coef = pd.DataFrame(np.concatenate([modele_logit.intercept_.reshape(-1,1),
                             modele_logit.coef_],axis=1),
             index = ["coef"],
             columns = ["constante"]+list(X.columns)).T

coef

Unnamed: 0,coef
constante,-0.002373277
id,3.063399e-11
radius_mean,-0.01651326
texture_mean,-0.0003903975
perimeter_mean,-0.08076346
area_mean,-0.01538918
smoothness_mean,-6.912733e-05
compactness_mean,0.0005062547
concavity_mean,0.0008992989
concave points_mean,0.0003583258


In [62]:
#importation de l'outil 
from statsmodels.tools import add_constant 
 
#données X avec la constante 
XTrainBis = sm.tools.add_constant(X_train) 
 
#vérifier la structure 
print(XTrainBis.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 456 entries, 265 to 102
Data columns (total 32 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   const                    456 non-null    float64
 1   id                       456 non-null    int64  
 2   radius_mean              456 non-null    float64
 3   texture_mean             456 non-null    float64
 4   perimeter_mean           456 non-null    float64
 5   area_mean                456 non-null    float64
 6   smoothness_mean          456 non-null    float64
 7   compactness_mean         456 non-null    float64
 8   concavity_mean           456 non-null    float64
 9   concave points_mean      456 non-null    float64
 10  symmetry_mean            456 non-null    float64
 11  fractal_dimension_mean   456 non-null    float64
 12  radius_se                456 non-null    float64
 13  texture_se               456 non-null    float64
 14  perimeter_se            

In [63]:
#visualisation des premières lignes de la structure 
#premières lignes 
print(XTrainBis.head()) 

     const        id  radius_mean  texture_mean  perimeter_mean  area_mean  \
265    1.0  88995002       20.730         31.12          135.70     1419.0   
68     1.0    859471        9.029         17.33           58.79      250.5   
181    1.0    873593       21.090         26.57          142.70     1311.0   
63     1.0    859196        9.173         13.86           59.20      260.9   
248    1.0  88466802       10.650         25.22           68.01      347.0   

     smoothness_mean  compactness_mean  concavity_mean  concave points_mean  \
265          0.09469           0.11430         0.13670              0.08646   
68           0.10660           0.14130         0.31300              0.04375   
181          0.11410           0.28320         0.24870              0.14960   
63           0.07721           0.08751         0.05988              0.02180   
248          0.09657           0.07234         0.02379              0.01615   

     ...  radius_worst  texture_worst  perimeter_worst  