<a href="https://colab.research.google.com/github/sakuronohana/my_datascience/blob/master/udemy/mlaz/Part%203%20-%20Classification/Section%2014%20-%20Logistic%20Regression/Python/logistic_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Logistic Regression

Wenn wir von Logistic Regression im Zusammenhang mit Klassifikation reden, dann ist diese kein versehen. LogReg gehört wirklich zu den Klassifikationsalgorithmen (siehe auch [Link](https://kambria.io/blog/logistic-regression-for-machine-learning/#:~:text=Logistic%20regression%20is%20a%20classification,either%20a%200%20or%201.))

Dieser Algorithmus wird vor allem dann verwendet, wenn die verwendeten Daten zwei sogenannte binäre Werte 0 oder 1 annehmen können. Die folgenden Beispiele verdeutlichen das Spektrum möglicher Anwendungen der logistischen Regression:

* Conversion-Prognose: Kauft ein Kunde ein Produkt?
* Bonität: Zahlt ein Kreditnehmer einen Kredit vollständig zurück?
* Markenbekanntheit: Kennt jemand eine Marke?
* Parteipräferenz: Würde eine Person Partei X wählen, wenn am kommenden Sonntag * Bundestagswahlen wären?
* Medizinische Diagnose: Hat eine Person eine bestimmte Krankheit?
* Qualitätskontrolle: Entspricht ein Produkt der Spezifikation?
* Einschaltquoten: Hat eine Person eine TV-Sendung gesehen?
* A/B-Testing: Ist Version A einer Webseite besser als eine Version B?

Quelle: [INWT Statistics](https://www.inwt-statistics.de/blog-artikel-lesen/Logistische_Regression.html)

Nachfolgend ein Vergleich zwischen der Linear Regression und der Logistic Regression.

<img src="https://static.javatpoint.com/tutorial/machine-learning/images/linear-regression-vs-logistic-regression.png">

Quelle: static.javatpoint.com

Im Prinzip geht es darum die Wahrscheinlichkeit (Prediction) zu ermitteln wann etwas Wahr oder Falsch ist. Je höher die Wahrscheinlichkeit desto höher besteht die Möglichkeit, dass etwas eintrifft.

<img src="https://github.com/sakuronohana/my_datascience/blob/master/doc_images/log_reg_pic1.jpg?raw=true" width="600">

Dabei wird ein Schwellwert von 0.5 definiert, dass ein Zustand eintritt.

<img src="https://github.com/sakuronohana/my_datascience/blob/master/doc_images/log_reg_pic2.jpg?raw=true" width="600">

## Importing the libraries

In [27]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Importing the dataset

In [28]:
daturl = "https://raw.githubusercontent.com/sakuronohana/my_datascience/master/udemy/mlaz/Part%203%20-%20Classification/Section%2014%20-%20Logistic%20Regression/Python/Social_Network_Ads.csv"
dataset = pd.read_csv(daturl)

X = dataset.iloc[:,:-1].values
y = dataset.iloc[:,-1].values


## Splitting the dataset into the Training set and Test set

In [30]:
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y, test_size = 0.25, random_state=0)

## Feature Scaling

In [31]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

## Training the Logistic Regression model on the Training set

In [32]:
from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression(random_state=0)
classifier.fit(X_train,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=0, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

# Predicting a new result

Wichtig! Da wir die Daten skaliert haben, müssen wir dies für die Werte, welche wir in der nachfolgenden Prediction verwenden, auch machen. Hierfür verwenden wir ganz einfach den bereits gefitten Scaler **sc** und führen ganz einfachh einen Transform durch.

In [33]:
print(classifier.predict(sc.transform([[30,87000]])))

[0]


# Predicting the Test set results

In [None]:
y_pred = classifier.predict(X_test)
print (np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

# Making the Confusion Matrix

Während wir die Performance oder auch Robustheit eines Regresssionsmodells mittels $R^2$ (R squared) prüfen tuen wir das bei eine Klassifikators bspw. mittels der Confusion Matrix.

<img src="https://3.bp.blogspot.com/--jLXutUe5Ss/VvPIO6ZH2tI/AAAAAAAACkU/pvVL4L-a70gnFEURcfBbL_R-GnhBR6f1Q/s1600/ConfusionMatrix.png" width="600">

Quelle: https://scaryscientist.blogspot.com/

* Genauigkeit (**Accuracy**) misst die Gesamtgenauigkeit der Modellklassifizierung
* Präzisionsmessgenauigkeit (**Precision**) einer Klasse, wenn "Ja" vorhergesagt wird, wie oft sie korrekt ist. Zum Beispiel in einem Kredit-Scoring, Klasse 1 (Gut) erhalten Kreditfazilität, Präzisionsmessgenauigkeit der Klasse-1-Zuordnung unter Verwendung des Vorhersagemodus. % der vorhergesagten 1's, die tatsächlich 1's sind (basierend auf der beobachteten Klasse).
* Empfindlichkeit (**Sensitivity**) oder Rückruf: Wenn es tatsächlich "Ja" ist, wie oft es "Ja" vorhersagt. Von der beobachteten Klasse 1 wird durch ein Maß, das Sensitivität genannt wird, gemessen, wie viel Prozent der Fälle tatsächlich durch das Modell in die vorhergesagte Klasse 1 eingestuft werden. 
* Spezifität (**Specificity**): Die Spezifizität misst die tatsächliche negative Rate. Wenn sie tatsächlich "Nein" ist, wie oft ist sie "Nein".

Es gibt natürlich noch weitere Metriken, welche man zur Messung eines Klassifikators verwenden können. (siehe [Link](https://scikit-learn.org/stable/modules/model_evaluation.html#classification-metrics))

Nachfolgend erstellen wir mit Hilfe von Scikit-learn eine Confusion Matrix.

In [46]:
from sklearn.metrics import confusion_matrix, accuracy_score
print(confusion_matrix(y_test, y_pred))
tn, fp, fn, tp = confusion_matrix(y_test, y_pred).ravel()
print ('true neg =',tn)
print('false pos =',fp)
print('false neg =',fn)
print ('true pos =',tp)

[[65  3]
 [ 8 24]]
true neg = 65
false pos = 3
false neg = 8
true pos = 24


In [43]:
print(accuracy_score(y_test,y_pred))

0.89


# Visualising the Training set results

# Visualising the Test set results