<a href="https://colab.research.google.com/github/sakuronohana/my_datascience/blob/master/udemy/mlaz/Part%203%20-%20Classification/Section%2014%20-%20Logistic%20Regression/Python/logreg_practical_case_study.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Praktisches Fallbeispiel - Logistic regression

Im nachfolgenden Tutorial werden wir ein ML-Modell mittels der logistischen Regression aufbauen. Das das Ziel unsereres ML-Modells wird es sein, auf Basis eines Brustkrebsdatensatzen der Universität Wisconsin herauszufinden ob die Wahrscheinlichkeit für Brustkrebs besteht oder nicht.

Hierfür verwenden wir einen Datensatz der auf dem bekannten [ML-Repository UCI](https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29) abgelegt ist. Der Datensatz kommt aus dem 1992 ist aber für unsere Zwecke dennoch gut geeignet. Die Beschreibung des Datensatzes ist [hier](https://raw.githubusercontent.com/sakuronohana/my_datascience/master/udemy/mlaz/Part%203%20-%20Classification/Section%2014%20-%20Logistic%20Regression/Python/breast-cancer-wisconsin.txt) zu finden. Nachfolgend die wichtigsten Informationen über dem Datensatz.

* Datensatzmerkmale:  Multivariate
* Anzahl der Instanzen: 699
* Attributmerkmale: Ganze Zahl
* Anzahl der Attribute: 10 (unabhängige Variablen)
* Fehlende Werte?: Ja (16 fehlende Werte)

Attribute Information:

1. Sample code number: id number
2. Clump Thickness: 1 - 10
3. Uniformity of Cell Size: 1 - 10
4. Uniformity of Cell Shape: 1 - 10
5. Marginal Adhesion: 1 - 10
6. Single Epithelial Cell Size: 1 - 10
7. Bare Nuclei: 1 - 10
8. Bland Chromatin: 1 - 10
9. Normal Nucleoli: 1 - 10
10. Mitoses: 1 - 10
11. Class: (2 for benign (dt. gutartig), 4 for malignant (dt. bösartig))

### Beobachtungen aus Datensatzbeschreibung
1. Das Feature Class ist die abhängige Variable uns somit unser Label.
2. Wir müssen herausfinden ob Brustkrebs besteht oder nicht und haben es somti mit Classification und somit mit Supvervised Learning zu tun.
3. Die Wertskala der einzelnen Features (Attribute) deutet darauf hin, dass hier bereits eine Skalierung durchgeführt wurde. Wir also kein Features Scaling machen müssen.
4. Der Datensatz enhält 16 fehlende Werte. Wir müssen uns überlegen, ob wir damit klar kommen oder die entsprechenden Records rauslöschen oder ergänzen sollen.

# Import Libraries

Nachfolgend benötigen wir ein paar wichtige Python Bibliotheken

In [46]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Import Dataset


In [68]:
datloc = 'https://raw.githubusercontent.com/sakuronohana/my_datascience/master/udemy/mlaz/Part%203%20-%20Classification/Section%2014%20-%20Logistic%20Regression/Python/dataset-breast-cancer.csv'
dataset = pd.read_csv(datloc)


# Preprocessing Dataset

In diesem Datensatz fehlen uns 16 Werte. Die Ersteller des Breast-Cancer Datensatzes haben die fehlenden Wert mit '?' ersetzt. Auch wenn wir mit 16 fehlenden Werten leben könnten, müssen wir die Fragezeichen loswerden, da wir ansonsten beim Training des Datensatzes Probleme bekommen. 

Nachfolgend löschen wir deshalb zuerst die Zeilen mit '?' und teilen den Datensatz erst danach in die unabhängigen Variablen (X) und abhängige Variablen (y).

In [69]:
dataset.drop( dataset[ dataset['7'] == '?' ].index , inplace=True)

In [70]:
# Bei der Selektion der Featrues für die unabhängigen Variabelen (X) lassen wir die
# erste Spalte mit den IDs und letzte Spalte mit den Labels weg
X = dataset.iloc[:,1:-1].values 
y = dataset.iloc[:,-1].values

# Split in Train- & Testset

In [71]:
from sklearn.model_selection import train_test_split

X_train,X_test, y_train,y_test = train_test_split(X,y,test_size = 0.25,random_state=0)

In [73]:
X_train.shape

(512, 9)

# Train the LogReg Model

In [74]:
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(random_state=0)
classifier.fit(X_train,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=0, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

# Predict the Testset results

In [75]:
y_pred = classifier.predict(X_test)
print(np.concatenate((y_pred.res))

array([2, 2, 4, 4, 2, 2, 2, 4, 2, 2, 4, 2, 4, 2, 2, 2, 4, 4, 4, 2, 2, 2,
       4, 2, 4, 4, 2, 2, 2, 4, 2, 4, 4, 2, 2, 2, 4, 4, 2, 4, 2, 2, 2, 2,
       2, 2, 2, 4, 2, 2, 4, 2, 4, 2, 2, 2, 4, 4, 2, 4, 2, 2, 2, 2, 2, 2,
       2, 2, 4, 4, 2, 2, 2, 2, 2, 2, 4, 2, 2, 2, 4, 2, 4, 2, 2, 4, 2, 4,
       4, 2, 4, 2, 4, 4, 2, 4, 4, 4, 4, 2, 2, 2, 4, 4, 2, 2, 4, 2, 2, 2,
       4, 2, 2, 4, 2, 2, 2, 2, 2, 2, 2, 4, 2, 2, 4, 4, 2, 4, 2, 4, 2, 2,
       4, 2, 2, 4, 2, 4, 2, 2, 2, 4, 2, 2, 2, 4, 4, 2, 4, 2, 4, 2, 2, 2,
       2, 2, 4, 4, 2, 4, 4, 4, 4, 2, 4, 2, 2, 2, 2, 2, 2])