# Case Study Mammography

Ziel dieses Fallbeispiels ist das Erstellen eines Klassifikators für das Erkennen von Malinomen im Rahmen von Brustkrebserkennung. 

Die genaue Fragestellung, Datensatz und Erklärung Datensatz ist verfügbar unter [Link](https://archive.ics.uci.edu/ml/datasets/mammographic+mass).

#1 Get the Data

In [13]:
# Laden der Standardbibliotheken
import pandas as pd
import numpy as np
import sklearn

Hinweis: der orignale Datensatz hat keine expliziten Spaltennamen (bzw. keine Überschrift). Deshalb müssen wir beim Einlesen dies explizit programmieren

In [34]:
df_Mammography = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/mammographic-masses/mammographic_masses.data", # Pfad zum Datensatz
                             sep = ",", # einzelne Daten durch Komma getrennt
                             header = None, # Datensatz hat keine Überschrift, deshalb None
                             names = ["BI-Rad", "Age", "Shape", "Margin", "Density", "Severity"], # wir "zwingen" die Funktion folgende Namen für die Features zu verwenden
                             na_values = "?") 

# 2 Daten aufbereiten

In [25]:
df_Mammography

Unnamed: 0,BI-Rad,Age,Shape,Margin,Density,Severity
0,5.0,67.0,3.0,5.0,3.0,1
1,4.0,43.0,1.0,1.0,,1
2,5.0,58.0,4.0,5.0,3.0,1
3,4.0,28.0,1.0,1.0,3.0,0
4,5.0,74.0,1.0,5.0,,1
...,...,...,...,...,...,...
956,4.0,47.0,2.0,1.0,3.0,0
957,4.0,56.0,4.0,5.0,3.0,1
958,4.0,64.0,4.0,5.0,3.0,0
959,5.0,66.0,4.0,5.0,3.0,1


In [26]:
df_Mammography.dtypes

BI-Rad      float64
Age         float64
Shape       float64
Margin      float64
Density     float64
Severity      int64
dtype: object

In [35]:
df_Mammography.isna().sum()

BI-Rad       2
Age          5
Shape       31
Margin      48
Density     76
Severity     0
dtype: int64

Wir sehen, daß wir einige Zeilen mit fehlenden Werten haben. Für unser Beispiel - und da wir uns bisher Imputing (d.h. wie man mit fehlenden Werten am besten umgeht) noch nicht angesehen haben - löschen wir die Zeilen mit 0.

In [36]:
df_Mammography_cl = df_Mammography.dropna(axis = 0) # wir speichern den reduzierten Datensatz in einen neuen Datensatz

Wir haben 131 Zeilen, also schon ein großes Stück verloren. Deshalb sollte in der Praxis - gerade in so einem Themenumfeld - sich eine andere Lösung überlegen....

In [37]:
df_Mammography_cl.isna().sum()

BI-Rad      0
Age         0
Shape       0
Margin      0
Density     0
Severity    0
dtype: int64

In [38]:
df_Mammography_cl.dtypes

BI-Rad      float64
Age         float64
Shape       float64
Margin      float64
Density     float64
Severity      int64
dtype: object

Wir wandeln jetzt noch diese Spalten alle von Float/ Gleitzahl in integer um

In [40]:
df_Mammography_cl = df_Mammography_cl.astype(int)
# alternativ hätten wir jede Spalte so umwandeln müssen:
#df_Mammography_cl['Age'] = df_Mammography_cl['Age'].astype('int64')

In [41]:
df_Mammography_cl.dtypes

BI-Rad      int64
Age         int64
Shape       int64
Margin      int64
Density     int64
Severity    int64
dtype: object

Man sieht, es hat funktioniert.

# 3 Daten aufteilen in Test- und Trainingsmenge

Wir erstellen zuerst eine Matrix X mit allen Features und einen Vektor y mit dem Label, severity

In [49]:
y = df_Mammography_cl["Severity"] # Speichere die gesamte Spalte Severity in y
X = df_Mammography_cl.iloc[:, :-1] # diese Variante empfiehlt sich v.a. bei vielen Spalten. Der Code sagt wörtlich: nehme alle Zeilen und alle Spalten bis auf die 1 vor der letzten Spalte (sogenannte slicing)

In [54]:
print(df_Mammography_cl.shape)
print(X.shape)
print(y.shape)

(830, 6)
(830, 5)
(830,)


Wir sehen, daß wir die Ausgangstabelle mit 830 Zeilen und 6 Spalten in eine Matrix mit 830 Zeilen und 5 Features sowie einen Vektor mit 830 Zeilen aufgeteilt haben.

In [55]:
print(X)

     BI-Rad  Age  Shape  Margin  Density
0         5   67      3       5        3
2         5   58      4       5        3
3         4   28      1       1        3
8         5   57      1       5        3
10        5   76      1       4        3
..      ...  ...    ...     ...      ...
956       4   47      2       1        3
957       4   56      4       5        3
958       4   64      4       5        3
959       5   66      4       5        3
960       4   62      3       3        3

[830 rows x 5 columns]


Ab jetzt können Sie anfangen, beginnend mit der Einteilung in Test und Trainingsmenge

In [None]:
# TODO: Einteilen in Test- und Trainingsmenge mit der Funktion train_test_split von sklearn.model_selection


# 4 Machine Learning

Wir definieren zuerst Hilfefunktionen, um die Genauigkeit auszudrucken

In [None]:
from sklearn.metrics import mean_squared_error 
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import plot_confusion_matrix

def Model_accuracy(predicted_y_values, real_y_values):
  print(confusion_matrix(real_y_values, predicted_y_values)) #Confusion Matrix
  print(classification_report(real_y_values, predicted_y_values)) # Print summary report
  print('accuracy is ',accuracy_score(predicted_y_values, real_y_values)) # Print accuracy score

## 4.1 Simple Machine Learning Verfahren

Probieren Sie verschiedene Verfahren aus wie bspw.:
* Decision Tree
* Linear Regression
* SVM
* Bayes

## 4.2 Ensemble Learning

Probieren Sie folgende Verfahren aus:
* Random Forest 
* XGBoost

Drucken Sie die Feature Importance des Models aus, um zu sehen, welche Features am wichtigsten sind

In [None]:
# Ersetzen Sie aber in der nächsten Zeile random_forest durch den Namen Ihres Modells
importances = pd.DataFrame({'feature':X_train.columns,'importance':np.round(random_forest.feature_importances_,3)})
importances = importances.sort_values('importance',ascending=False).set_index('feature')

# 5 Modell im Einsatz

In [None]:
# BI-Rad  Age  Shape  Margin  Density
TestPerson1 = [[4,30,2,3,4]
TestPerson2 = [[2,45,3,1,5]]

# Ersetzen Sie hier den Namen logmodel durch den Namen Ihres Models
print("Prädiktion Ergebnis Testperson 1", logmodel.predict(TestPerson1))
print("Prädiktion Ergebnis Testperson 2", logmodel.predict(TestPerson2))