<a href="https://colab.research.google.com/github/sakuronohana/my_datascience/blob/master/udemy/mlaz/Part%203%20-%20Classification/Section%2010%20-%20Model%20Selection%20Classification/logistic_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Logistic Regression

Wenn wir von Logistic Regression im Zusammenhang mit Klassifikation reden, dann ist diese kein versehen. LogReg gehört wirklich zu den Klassifikationsalgorithmen (siehe auch [Link](https://kambria.io/blog/logistic-regression-for-machine-learning/#:~:text=Logistic%20regression%20is%20a%20classification,either%20a%200%20or%201.))

Dieser Algorithmus wird vor allem dann verwendet, wenn die verwendeten Daten zwei sogenannte binäre Werte 0 oder 1 annehmen können. Die folgenden Beispiele verdeutlichen das Spektrum möglicher Anwendungen der logistischen Regression:

* Conversion-Prognose: Kauft ein Kunde ein Produkt?
* Bonität: Zahlt ein Kreditnehmer einen Kredit vollständig zurück?
* Markenbekanntheit: Kennt jemand eine Marke?
* Parteipräferenz: Würde eine Person Partei X wählen, wenn am kommenden Sonntag * Bundestagswahlen wären?
* Medizinische Diagnose: Hat eine Person eine bestimmte Krankheit?
* Qualitätskontrolle: Entspricht ein Produkt der Spezifikation?
* Einschaltquoten: Hat eine Person eine TV-Sendung gesehen?
* A/B-Testing: Ist Version A einer Webseite besser als eine Version B?

Quelle: [INWT Statistics](https://www.inwt-statistics.de/blog-artikel-lesen/Logistische_Regression.html)

Nachfolgend ein Vergleich zwischen der Linear Regression und der Logistic Regression.

<img src="https://static.javatpoint.com/tutorial/machine-learning/images/linear-regression-vs-logistic-regression.png">

Quelle: static.javatpoint.com

Im Prinzip geht es darum die Wahrscheinlichkeit (Prediction) zu ermitteln wann etwas Wahr oder Falsch ist. Je höher die Wahrscheinlichkeit desto höher besteht die Möglichkeit, dass etwas eintrifft.

<img src="https://github.com/sakuronohana/my_datascience/blob/master/doc_images/log_reg_pic1.jpg?raw=true" width="600">

Dabei wird ein Schwellwert von 0.5 definiert, dass ein Zustand eintritt.

<img src="https://github.com/sakuronohana/my_datascience/blob/master/doc_images/log_reg_pic2.jpg?raw=true" width="600">

## Importing the libraries

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Importing the dataset

In [9]:
daturl = "https://raw.githubusercontent.com/sakuronohana/my_datascience/master/udemy/mlaz/Part%203%20-%20Classification/Section%2014%20-%20Logistic%20Regression/Python/Social_Network_Ads.csv"
dataset = pd.read_csv(daturl)

X = dataset.iloc[:,:-1].values
y = dataset.iloc[:,-1].values


In [10]:
y

array([0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0,
       1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0,
       1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 1,

## Splitting the dataset into the Training set and Test set

In [18]:
from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y, test_size = 0.25, random_state=0)

In [29]:
round(dataset.describe())

Unnamed: 0,Age,EstimatedSalary,Purchased
count,400.0,400.0,400.0
mean,38.0,69742.0,0.0
std,10.0,34097.0,0.0
min,18.0,15000.0,0.0
25%,30.0,43000.0,0.0
50%,37.0,70000.0,0.0
75%,46.0,88000.0,1.0
max,60.0,150000.0,1.0


## Feature Scaling

## Training the Logistic Regression model on the Training set

## Making the Confusion Matrix