# Breast Cancer Wisconsin 

## Importation des librairies

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.model_selection import GridSearchCV

## Chargement des données

In [None]:
Cancer_DS = pd.read_csv("breast-cancer-wisconsins.data", sep=",", names=["ID", "Clump_Thickness", "Uniformity_of_Cell_Size", "Uniformity_of_Cell_Shape", "Marginal_Adhesion", "Single_Epithelial_Cell_Size", "Bare_Nuclei", "Bland_Chromatin", "Normal_Nucleoli", "Mitoses","Class"])

In [None]:
Cancer_DS.head()

In [None]:
Cancer_DS.info()

# Etude de la distribution des données

#### Visualisation des features

In [None]:
sns.distplot(Cancer_DS.Clump_Thickness, rug=True, hist=True)

on constate que la pluspart des individus ont des Clump Thickness qui tourne autour de la moyenne 5.5 

In [None]:
sns.distplot(Cancer_DS.Uniformity_of_Cell_Size, rug=True, hist=True)

nous voyons ici que la majeur partie des individus ont une Uniformity_of_Cell Size entre 0 et 2 cm 

In [None]:
sns.distplot(Cancer_DS.Uniformity_of_Cell_Shape, rug=True, hist=True)

on Constate que approximativement 58 % des populations ont une Uniformity_of_Cell_Shape 2 

In [None]:
sns.distplot(Cancer_DS.Marginal_Adhesion, rug=True, hist=True)

Approximativement presque 90 % des individus ont Marginal_Adhesion de 1.5 cm

In [None]:
sns.distplot(Cancer_DS.Single_Epithelial_Cell_Size, rug=True, hist=True)

approximativement une majorité des individus diagonstiqués presente une Single_Epithelial_Cell_Size de 2.2 cm . Cependant certains de ces individus présente une Single_Epithelial_Cell_Size 10 cm

In [None]:
sns.distplot(Cancer_DS.Bland_Chromatin, rug=True, hist=True)

Approximativement 38 % des individus diagonstiqués presente une Bland_Chromatin de 3.5 . Cependant pres 16 % de ces individus présente une Bland_Chromatin 7.5

In [None]:
sns.distplot(Cancer_DS.Normal_Nucleoli, rug=True, hist=True)


On constate qu'une partie importante des individus ont un Normal_Nucleoli de 1.5

 En definitive, les données presentées ne suivent pas une loi normale c'est qui peut entrainer une potentiel presentiel des valeurs aberrantes qu'il faudra mettre sous forme normale distribution

##### Analyse bivariée

In [None]:
sns.boxplot(x='Clump_Thickness',y='Uniformity_of_Cell_Size', data=Cancer_DS)

on voit d'apres nos Boxplot (diagramme à moustaches) que le min_value est aux environ de 1, la moyenne tourne autour de 5 et le max est de 10.Cependant, nous constatons qu'il y'a la presence de valeurs abberantes dans les valeurs des features (Clump_Thickness, Uniformity_of_Cell_Size)

In [None]:
sns.boxplot(x='Uniformity_of_Cell_Shape',y='Marginal_Adhesion', data=Cancer_DS)

Pour les variables (Marginal_Adhesionmi,Uniformity_of_Cell_Shape) le min_value est de 1, la moyenne est de 5 et le max 10. Ells presentent également des valeurs abberantes

In [None]:
sns.boxplot(x='Single_Epithelial_Cell_Size',y='Bare_Nuclei', data=Cancer_DS)

In [None]:
Cancer_DS.describe()

In [None]:
Cancer_DS.corr()

In [None]:
# Matrice de corrélations
Pima_corr = Cancer_DS.corr()
# masque triangulaire
mask = np.triu(np.ones_like(Pima_corr, dtype=bool))
# matplolib setup
f, ax = plt.subplots(figsize=(11, 9))
# matrice de corrélation avec masque trinagulaire inférieur
sns.heatmap(Pima_corr, mask=mask, cmap = 'mako', center=0, square=True)

In [None]:
corr = Cancer_DS.corr()
corr.style.background_gradient(cmap='coolwarm')

## Netoyage des données

In [None]:
Cancer_DS.shape

In [None]:
import missingno as mno

def showme_mno(Cancer_DS):
    return Cancer_DS.isna().sum()

In [None]:
showme_mno(Cancer_DS)

In [None]:
mno.matrix(Cancer_DS)

on constate qu'il n'existe pas de NaN dans le jeu de données

In [None]:
for col in Cancer_DS:
    print(f'{col :-<40} {Cancer_DS[col].unique()}')

D'aprés nos graphique il n'y pas de valeur manquantes en terme de completude des données parcontre nous nottons la presence de valeur non conforme notamment "?" presente dans notre jeu de données dont nous allons proceder à leur nettoyage.
Pour nétoyer ces valeurs non conforme nous allons utilisé la methode SimpleImputer avec une constante.
En effet "?" etant une chaine de caractère et pas un NaN alors nous ne pouvons pas utiliser les strategies d'imputation comme le k-nnImputer vue en cours ou le simpleImputer avec la moyen (mean) et la mediane (median) car nous ne pouvons pas convertir un string en float dans ce cas la methode la plus pertinante est d'utiliser SimpleImputer avec une constante disponible dans sckit learn.

In [None]:
from sklearn.impute import KNNImputer
from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer(strategy='constant', fill_value=1, add_indicator=True)
imp_mean.fit_transform(Cancer_DS)

#knn_imp = KNNImputer(n_neighbors=1)
#knn_imp.fit_transform(Cancer_DS)


In [None]:
indexNames = Cancer_DS[Cancer_DS['Bare_Nuclei'] == '?'].index
# Delete these row indexes from dataFrame
Cancer_DS.drop(indexNames , inplace=True)

# convert all DataFrame columns to the int64 dtype
Cancer_DS = Cancer_DS.astype(int)

## Valeurs Abberantes

Une valeur abberantes est une valeur extremes ou une anomalie qui peut etre decrite comme une donnée qui s'ecarte trop du reste des observations

Aprés avoir detecter les valeurs abberante, nous allons devolopé un algorithme qui nous permet de recuperer ces valeurs afin d'eviter qu'elles influent sur notre modele d'apprentissage.
L'algorithme que nous allons developpé ici consiste à :
. Calculer le premier quartile(25%) des données
. Calculer le troisieme quartile(75%) des données
. Calculer l'écart inter-quartile.
. on calcules les limtes superieurs et inferieur
. on recupère l'indice de chaque valeur abberante ainsi que la liste contenant ces valeurs.Ainsi à chaque fois qu'on appele cette fonction il nous renvoie la liste des valeurs aberantes qu'on pourra separer de notre jeu de données. 

In [None]:
def find_all_outlier(v):
    Q1 = np.quantile(v, 0.25)
    Q3 = np.quantile(v, 0.75)
    EIQ = Q3 - Q1
    LI = Q1 - (EIQ*1.5)
    LS = Q3 + (EIQ*1.5)
    i = list(v.index[(v < LI) | (v > LS)])
    val = list(v[i])
    return i, val
    

In [None]:
outliers_Marginal_Adhesion = find_all_outlier(Cancer_DS['Marginal_Adhesion'])
outliers_Clump_Thickness = find_all_outlier(Cancer_DS['Clump_Thickness'])
outliers_Uniformity_of_Cell_Size = find_all_outlier(Cancer_DS['Uniformity_of_Cell_Size'])
outliers_Single_Epithelial_Cell_Size = find_all_outlier(Cancer_DS['Single_Epithelial_Cell_Size'])
outliers_Normal_Nucleoli = find_all_outlier(Cancer_DS['Normal_Nucleoli'])

In [None]:
Cancer_DS=Cancer_DS.drop(outliers_Marginal_Adhesion[0])

In [None]:
Cancer_DS[:20]

In [None]:
Cancer_DS.shape

Apres avoir supprimer toutes les valeur abberante notre jeu de données est passé de 698 instances à 624 instances

## Mise en place de la procedure d'apprentissage

### Methode K-Means Clustering

# Normalisation des données

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

In [None]:
X = Cancer_DS.drop('Class', axis=1).values
Y = Cancer_DS['Class'].values

In [None]:
print(X.shape)
print(Y.shape)

In [None]:
# Standardize the data
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled

In [None]:
from sklearn import cluster, metrics

silhouettes = []

for num_clusters in range(2, 10):
    cls = cluster.KMeans(n_clusters = num_clusters, n_init=1, init='random')
    cls.fit(X_scaled)
    silh = metrics.silhouette_score(X_scaled, cls.labels_)
    silhouettes.append(silh)
    
    
    
    
    
plt.plot(range(2, 10), silhouettes, marker='o')

On voit que le coefficient silouhette décroit avec le nombre de clusters et croit en 7 et 8 puis decroit en 9 alors cela signifie qu'il faut privilegier 2 à 3 clusters sur les valeurs pour lesquels le coeficients de silhoute est élevé 

## Visualisation des clusters

In [None]:
from sklearn import decomposition

In [None]:
pca = decomposition.PCA(n_components=2)
pca.fit(X_scaled)
print(pca.explained_variance_ratio_.cumsum())
X_trans = pca.transform(X_scaled)

la nous avons visualisé le coeficient de variance matérialisé par la première composante et par les deux en meme temps

In [None]:
fig = plt.figure(figsize=(12, 5))
cls = cluster.KMeans(n_clusters=2)
cls.fit(X_scaled)

ax = fig.add_subplot(121)
ax.scatter(X_trans[:, 0], X_trans[:, 1], c = cls.labels_)

In [None]:
fig = plt.figure(figsize=(12, 5))
cls3 = cluster.KMeans(n_clusters=3)
cls3.fit(X_scaled)

ax = fig.add_subplot(121)
ax.scatter(X_trans[:, 0], X_trans[:, 1], c = cls3.labels_)

On voit que quand nous avons essayé de diviser les points en 3 clusters quelques points extremes (abberantes) du premier cluster ont tendance à constitué leurs propres clusters  

### Comparons les clusters de notre modele aux vrais étiquettes 

In [None]:
fig = plt.figure(figsize=(12, 5))
cls3 = cluster.KMeans(n_clusters=3)
cls3.fit(X_scaled)
ax = fig.add_subplot(121)
ax.scatter(X_trans[:, 0], X_trans[:, 1], c = cls3.labels_)

ax = fig.add_subplot(122)
ax.scatter(X_trans[:, 0], X_trans[:, 1], c = Y)

In [None]:
print(metrics.adjusted_rand_score(Y, cls3.labels_))

D'apres la valeur dun score ajusté nous avons 80 % de resssemblance entre les clusters trouvés et les vrai etiquetes du jeu de données

En definitive l'algorithme Kmeans est un algorithme trés efficace mais cependant il produit une valeur de k fixe et sensible à son initialisation. On est peut également noter que KMeans est sensibles aux valeus abberentes car elles ont tendances à deplacer certains clusters et attirés vers elles.

## Methode DBSCAN Clustering 

In [None]:
from sklearn.cluster import DBSCAN
from sklearn import metrics


In [None]:
# Standardize the data
scaler = StandardScaler()
X_norm = scaler.fit_transform(X)
X_norm

In [None]:
model = DBSCAN(eps=0.8, min_samples=10)

In [None]:
model.fit(X_norm)

In [None]:
model.labels_

In [None]:
Y

## visualisation des clusters

In [None]:
fig, ax = plt.subplots(figsize=(6, 5))
ax.scatter(X[:, 0], X[:, 1], c = model.labels_)

fig.show()



fig, ax = plt.subplots(figsize=(6, 5))
ax.scatter(X[:, 0], X[:, 1], c = Y)

fig.show()

Avec l'algorithme DBSCAN nous identifions deux clusters

In [None]:
print(metrics.adjusted_rand_score(Y, model.labels_))

Nous avons 59 % de resssemblance entre les clusters trouvés et les vrai etiquetes du jeu de données