**BREAST CANCER : Classificazione binaria**

Questo esercizio ci permetterà di creare una rete neurale ion grado di predire, date le dimensioni delle parti che costituiscono un tumore al seno, se questo è un tumore benigno o maligno.

In [None]:
!pip install pandas
!pip install numpy
!pip install matplotlib
!pip install sklearn
!pip install keras

**Importazione dei moduli necessari**

Come prima cosa, nel nostro programma python effettuiamo le import delle dipendenze necessarie

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

from keras.models import Sequential
from keras.layers import Dense

**Download del dataframe**

in questo caso il dataframe è senza colonne. Durante la creazione possiamo specificare noi i nomi delle colonne passandole come parametro alla nostra function pandas

In [None]:
breast_cancer = pd.read_csv("breastcancer.csv");
dataset.head()

Vediamo che la colonna che contiene le nostre targets, ovvero i valori che vogliamo predire, si chiama diagnosis. Contiamo quanti sono i valori univoci nella colonna per capire con quante classi abbiamo a che fare

In [None]:
targets = dataset["diagnosis"].unique().tolist();
targets

le classi sono solamente due. Possiamo quindi considerare come colonna dei risultati un unica colonna che contiene 1 se il tumore è maligno e 0 altrimenti (tumore benigno)

**Creiamo degli array numpy**

La libreria Keras, che serve per creare le reti neurali, lavora però con un formato di dati particolare. Gli array Numpy. Potete immaginarli come degli array ndimensionali, una sorta di matrici. Quello che dobbiamo fare quindi sarà convertire il nostro dataframe in due array numpy : uno per le features e uno per le labels

In [None]:
X = dataset.drop('diagnosis',axis=1); # creiamo l'array numpy delle features droppando dal dataset l'ultima colonna che contiene le labels
Y = dataset['diagnosis'].values; # creiamo l'array numpy prendendo dal dataset solamente la colonna che contiene le labels

Vediamo che i numeri contenuti nelle colonne del dataset assumono valori in un range veramente molto ampio. Per massimizzare le nostre prestazioni in addestramento e non ricorrere in problemi di discesa del gradiente, standardizziamo tutti i nostri valori con uno scaler standard


In [None]:
sc = StandardScaler()
X = sc.fit_transform(X)

effettuiamo il LabelEncoding quindi della colonna dei risultati in modo da avere un mapping 0,1

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
Y_le = le.fit_transform(Y)
Y_mapping = dict(zip(le.classes_, range(0, len(le.classes_)+1)))
print(Y_mapping)

**Addestramento**

ora che abbiamo i nostri due arrays numpy preparati a dovere, uno per le features e uno per le labels, procediamo a creare la nostra rete neurale usando keras. Prima di tutto dai nostri array numpy estraiamo un subset di dati per l'addestramento e uno per i test, per vedere effettivamente se la nostra rete neurale funziona


In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X,Y_le, test_size=0.2,random_state = 0);

adesso creiamo la nostra rete neurale strato per strato e addestriamola. Durante l'addestramento vedremo gradualmente scendere il valore di loss, che sarebbe il valore della nostra funzione di errore (sempre se tutto è andato bene !) e dovremmo veder aumentare anche il valore dell'accuratezza del risultato

In [None]:
model = Sequential()
model.add(Dense(12,input_dim=X_train.shape[1],activation="relu"))
model.add(Dense(8,activation="relu"))
model.add(Dense(4,activation="relu"))
model.add(Dense(1,activation="sigmoid"))
model.compile(loss='binary_crossentropy', optimizer='sgd', metrics=['accuracy'])

history = model.fit(X_train,Y_train,epochs=200)

Abbiamo adesso il modello addestrato e nella variabile history la storia della nostra funzione di errore. Possiamo graficarla per vedere com'è stato l'andamento dell'errore dall'inizio dell'addestramento fino alla fine. Inoltre potremmo vedere anche l'andamento dell'accuratezza durante le epoche


In [None]:
# grafico della loss function durante le epoche
plt.plot(history.history['loss'])
plt.title('model loss')
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['Train'], loc='upper right')
plt.show()

# grafico dell'accuratezza durante le epoche
plt.plot(history.history['accuracy'])
plt.title('model accuracy')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(['Train'], loc='upper right')
plt.show()

In [None]:
loss, acc = model.evaluate(X_test, Y_test)
print("Loss sul test set: %.4f" % loss)
print("Accuracy sul test set: %.4f" % acc)

In [None]:
Y_pred = model.predict(X_test)
Y_test

In [None]:
Y_pred