# Library imports

* pandas: Pandas is een open source library met BSD-licentie die krachtige, eenvoudig te gebruiken datastructuren en gegevens analyse tools voor de programmeertaal Python aanbiedt.
* numpy: Numpy is een core library voor wetenschappelijke berekeningen en biedt een krachtig multidimensionale array-object en tools om met de array-object te werken.
* sklearn: Een simpel en effective tool voor data mining en analyses. Wordt gebruikt voor het aanleveren van de dataset voor de demo om machine learning mogelijk te maken. 
* matplotlib: voor het creëren van de plots. Plots wordt gebruikt om data te visualiseren.
* seaborn: Seaborn is een Python-visualisatie library op basis van matplotlib. Het biedt een interface op hoog niveau voor het tekenen van aantrekkelijke statistische afbeeldingen. De seaborn library bouwt zich op matplotlib.
* LogisticRegression: dit is een algoritme model die afkomstig is van sklearn.linear_model. 
* Train_test_split: Splitsen van arrays of matrixen in willekeurige trainsets en testsubsets.
* statsmodels.api: statsmodels is een Python-module die klassen en functies biedt voor de schatting van veel verschillende statistische modellen, maar ook voor het uitvoeren van statistische tests en het verkennen van statistische gegevens. Voor elke schatting is een uitgebreide lijst met resultaatstatistieken beschikbaar. De resultaten worden getoetst aan bestaande statistische pakketten om er zeker van te zijn dat ze correct zijn. 
* scipy.stats: Deze module bevat een groot aantal kansverdeling functies en is een groeiende library met statistische functies.

In [None]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
import matplotlib.pyplot as plt 
plt.rc("font", size=14)
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import train_test_split
import seaborn as sns
sns.set(style="white")
sns.set(style="whitegrid", color_codes=True)



# Data import

Voor een machine learning applicatie moet er data beschikbaar zijn. Daarom moet er eerst data worden geimporteerd.

De onderstaande code importeert de dataset van banking.csv file voor de demo. Daarna wordt de data getoond. De gegevens hebben betrekking op direct marketing-campagnes (telefoontjes) van een Portugese bankinstelling. Het doel van de classificatie probleem is om te voorspellen of de klant een termijndeposito (variabele y) zal doen of niet (1/0). 

De dataset biedt klantinformaties aan. Het bevat 41188 records(rows) en 21 velden(columns).

In [None]:
data = pd.read_csv('./banking.csv', header=0)
data = data.dropna()
print(data.shape)
print(list(data.columns))

## Head functie

De head functie retourneert de 5 top rows van het DataFrame(banking.csv). Het is mogelijk om in de parameter het aantal rows te definëren. 


In [None]:
data.head()

## Input variabelen

Input variabelen (zie [bank-names.txt](https://github.com/HanNotSMachineLearning/LogisticRegressionDemo/blob/master/bank-names.txt))

1 - age (numeric)

2 - job : werk type (categorical: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown')

3 - marital : burgerlijke staat (categorical: 'divorced','married','single','unknown'; note: 'divorced' means divorced or widowed)

4 - education: (categorical: 'basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown')

5 - default: heeft krediet default (categorical: 'no','yes','unknown')

6 - housing: heeft een woningkrediet? (categorical: 'no','yes','unknown')

7 - loan: heeft persoonlijke lening?(categorical: 'no','yes','unknown')

8 - contact: contact communicatie type (categorical: 'cellular','telephone')

9 - month: laatste contactmaand van het jaar (categorical: 'jan', 'feb', 'mar', ..., 'nov', 'dec')

10 - day_of_week: laatste contactdag van de week (categorical: 'mon','tue','wed','thu','fri')

11 - duration: laatste contactduur, in seconden (numeric). **Belangrijke opmerking**: dit kenmerk is van grote invloed op het uitvoerdoel (bijvoorbeeld als duur = 0 en dan y = 'nee'). Toch is de duur niet bekend voordat een oproep wordt uitgevoerd. Ook is na het einde van de call y duidelijk bekend. Deze input moet dus alleen worden opgenomen voor benchmarkdoeleinden en moet worden weggegooid als het de bedoeling is om een realistisch voorspellend model te hebben.

12 - campaign: aantal contacten uitgevoerd tijdens deze campagne en voor deze klant (numeric, bevat laatste contact)

13 - pdays: aantal dagen dat voorbijging nadat de klant voor het laatst werd gecontacteerd vanuit een vorige campagne (numeric; 999 betekent dat de klant niet eerder werd gecontacteerd)

14 - previous: het aantal contacten dat vóór deze campagne en voor deze klant is uitgevoerd (numeric)

15 - poutcome: resultaat van de vorige marketingcampagne(categorical: 'failure','nonexistent','success')

16 - emp.var.rate: werkgelegenheidsvariatie - (numeric)

17 - cons.price.idx: consumentenprijsindex - (numeric)

18 - cons.conf.idx: index van het consumentenvertrouwen - (numeric)

19 - euribor3m: euribor 3-maands tarief - (numeric)

20 - nr.employed: Aantal werknemers - (numeric)

### Voorspel variabele (gewenst doelwit):
y - heeft de klant zich ingeschreven voor een termijndeposito? (binair: '1', '0')

### Categoriseren/Grouperen 
De onderwijskolom van de dataset heeft veel categorieën en we moeten de categorieën reduceren voor een betere modellering. De onderwijskolom heeft de volgende categorieën: basic.4y, unknown, university.degree, high.school,
                       basic.9y, professional.course, basic.6y, illiterate

### Unique functie
Met de unique functie wordt ervoor gezorgd dat alle unieke education categorie van de data wordt wordt getoond. Hierbij wordt een array object gemaakt.


In [None]:
data['education'].unique()

## Reduceren

Reduceren wordt gebruikt om data kleiner te maken. Door het kleiner maken van de data wordt de performance beter omdat er op minder inputs wordt gecheckt. 

Om te reduceren worden de onderstaande basic.9y, basic.6y, basic.4y in 1 categorie gegroupeerd. De nieuwe groep is Basic. Daarna wordt opnieuw de unique functie uitgevoerd om een unieke array object voor de categorie gecreëerd. 

In [None]:
data['education']=np.where(data['education'] =='basic.9y', 'Basic', data['education'])
data['education']=np.where(data['education'] =='basic.6y', 'Basic', data['education'])
data['education']=np.where(data['education'] =='basic.4y', 'Basic', data['education'])

In [None]:
data['education'].unique()


# Data exploratie

Bij data exploratie is het de bedoeling dat de data wordt verkend. Het verkennen wordt gedaan om de mogelijke beste voorspeller variabelen te ontdekken om de voorspelling (gewenste doelwit wat voorspeld moet worden - variabel y) zo goed mogelijk te kunnen doen. Hierbij worden er verschil gemaakt tussen numeric en categorical variabelen. Bij data exploratie wordt er globaal gekeken naar statistieken van verschillende variabelen.

### Value_counts functie
Retourneert een object met tellingen van unieke waarden. De kolom y van het DataFrame wordt opgeteld per unique value. Dus 1 of 0 worden opgeteld. De data y variabel heeft 36548 gevallen waarop de klant geen termijn deposito wil doen en 4640 gevallen van waar de klant wel een termijn deposito wil overschrijven.

In [None]:
data['y'].value_counts()

### sns.countplot en plt.savefig
De sns.countplot functie maakt een plot (grafiek) gebaseerd op data van banking.csv. De x staat voor de kolom van de data die gebruikt wordt. Palette zijn kleuren die gebruikt zullen worden.  

De savefig('count_plot') functie slaat de grafiek op in een png-bestand met de naam count_plot. Het is niet nodig om de savefig functie uit te voeren. 

In [None]:
sns.countplot(x='y',data=data, palette='hls')
plt.show()
plt.savefig('count_plot')

Er zijn 36548 nee's en 4640 ja's zoals in de tabel te zien voor de doelwit voorspel variabel y.

De onderstaande code data.groupby('y').mean() geeft een gemiddelde voor alle nummeric kolommen weer tegenover de doelwit voorspel variabel y. 

### Mean Functie
De mean functie geeft een gemiddelde voor float, numeric en int kolommen/variabelen

In [None]:
data.groupby('y').mean()

## Observatie
De gemiddelde leeftijd van klanten die de termijndeposito hebben gedaan, is hoger dan die van klanten die dat niet deden.

De pdays (dagen nadat de klant voor het laatst werd gecontacteerd) ligt begrijpelijk lager voor de klanten die het hebben gekocht. Hoe lager de pdays, hoe beter de herinnering aan de laatste oproep en dus hoe groter de kans op een deposito.

Verrassend genoeg zijn campaign (aantal contacten of oproepen tijdens de huidige campagne) lager voor klanten die de termijndeposito hebben gedaan.

We kunnen ook gemiddelden bekijken voor andere categorische variabelen zoals education en merital om een gedetailleerder beeld van de data te krijgen.

### Observatie van job categorie

Hieronder worden alle gemiddelden van alle numeric kolommen bekeken tegenover de job categorie.

In [None]:
data.groupby('job').mean()


### Observatie van merital categorie

Hieronder worden alle gemiddelden van alle numeric kolommen bekeken tegenover de merital categorie.

In [None]:
data.groupby('marital').mean()

### Observatie van education categorie

Hieronder worden alle gemiddelden van alle numeric kolommen bekeken tegenover de education categorie.

In [None]:
data.groupby('education').mean()

## Visualisatie

De visualitatie van de demo is lastig te begrijpen en het is lastig om te  concluderen of een variabel, een goede voorspeller kan zijn voor de uitkomstvariabel y. De demo maker geeft geen onderbouwing waarom de categorie variabel gebruikt kan worden als een goede voorspeller. Hij maakt zelf een aanname met de statistieken die hij ziet. Het doel van de visualitatie is dat de data van een categorie variabel moet worden geanalyseerd. 

De demo maker lijkt te verwachten dat de personen die de demo uitvoeren verstand heeft van data analyses en data mining. 

### Visualisatie van job categorieën tegenover y numeric variabel


De frequency of purchase (frequentie van aankoop) van de (termijndeposito - variabel y) aanbetaling is sterk afhankelijk van de Job (functie). De Job variabel kan dus een goede voorspeller van de uitkomstvariabele zijn.

In [None]:
%matplotlib inline
pd.crosstab(data.job,data.y).plot(kind='bar')
plt.title('Purchase Frequency for Job Title')
plt.xlabel('Job')
plt.ylabel('Frequency of Purchase')
plt.savefig('purchase_fre_job')

### Visualisatie van Merital categorieen tegenover y numeric variabel


Moeilijk te zien, maar de Mertial variabel(burgerlijke staat) lijkt geen sterke voorspeller te zijn voor de uitkomstvariabele y.

In [None]:
table=pd.crosstab(data.marital,data.y).plot(kind='bar')
plt.title('Stacked Bar Chart of Marital Status vs Purchase')
plt.xlabel('Marital Status')
plt.ylabel('Proportion of Customers')
plt.savefig('mariral_vs_pur_stack')

### Visualisatie van Education categorieën tegenover y numeric variabel


Education variabel(Onderwijs) lijkt een goede voorspeller te zijn voor de uitkomstvariabele y.

In [None]:
table=pd.crosstab(data.education,data.y).plot(kind='bar')
plt.title('Stacked Bar Chart of Education vs Purchase')
plt.xlabel('Education')
plt.ylabel('Proportion of Customers')
plt.savefig('edu_vs_pur_stack')

### Visualisatie van day_of_week categorieën tegenover y numeric variabel


De dag van de week is mogelijk geen goede voorspeller van de uitkomstvariabele y.

In [None]:
pd.crosstab(data.day_of_week,data.y).plot(kind='bar')
plt.title('Purchase Frequency for Day of Week')
plt.xlabel('Day of Week')
plt.ylabel('Frequency of Purchase')
plt.savefig('pur_dayofweek_bar')

### Visualisatie van month categorieën tegenover y numeric variabel

Month(Maand) kan een goede voorspeller zijn voor de uitkomstvariabele y.

In [None]:
pd.crosstab(data.month,data.y).plot(kind='bar')
plt.title('Purchase Frequency for Month')
plt.xlabel('Month')
plt.ylabel('Frequency of Purchase')
plt.savefig('pur_fre_month_bar')

### Visualisatie van age categorieen tegenover y numeric variabel

De meeste klanten van de bank in deze dataset bevinden zich in het leeftijdscategorie 30-40.

In [None]:
data.age.hist()
plt.title('Histogram of Age')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.savefig('hist_age')

### Visualisatie van poutcome categorieën tegenover y numeric variabel


Poutcome lijkt een goede voorspeller te zijn voor de uitkomstvariabele y.

In [None]:
pd.crosstab(data.poutcome,data.y).plot(kind='bar')
plt.title('Purchase Frequency for Poutcome')
plt.xlabel('Poutcome')
plt.ylabel('Frequency of Purchase')
plt.savefig('pur_fre_pout_bar')

## Create dummy variables

Bij een dummy variabel wordt er gezorgd dat elke categoral variabelen worden gemapt. De categorieën van een categorical variabel worden uitgespreid en krijgen de waarden 0 en 1(zie dummy data print). 

Een job variabel heeft bijvoorbeeld de categorieën: admin, blue-collar,entrepreneur,housemaid,management,retired,self-employed,services,student,technician,unemployed,unknown. Elk van deze categorie krijgt een 1 zodra ze waar zijn en anders krijgt het een 0. 

Voorbeeld: 
De eerste rij van de origin data staat dat job blue-collar is. 

Bij de dummy data wordt de job per categorie gemapt. In dit geval wordt de job variabel categorie blue-collar met 1 aangevinkt. Alle andere waarden worden met 0 aangevinkt. 

resultaat:
De bedoeling van een dummy data is dat de categorical variabelen worden gemapt en een 1 krijgen zodra de conditie(zie voorbeeld) waar is. Nadat alle categorical variabelen zijn gemapt, dan wordt de categorical variabel vervangen door de dummy variabelen. De originele categorical variabel wordt dan niet meegenomen (zie to_keep print). 

### pd.get_dummy functie

De get dummy functie kijkt naar alle categorical variabelen. Alle categorical variabelen worden dan gespreid en een 1 wordt ingevoerd zodra de conditie klopt. Zie uitleg in hoofdstuk Create dummy variables.  

### data.join

Met deze functie worden de originele data en de dummy data samengevoegd. Resultaat is te zien in de data1 print. 

In [None]:
print("origin banking data")
print(data)

In [None]:
cat_vars=['job','marital','education','default','housing','loan','contact','month','day_of_week','poutcome']
for var in cat_vars:
    cat_list='var'+'_'+var
    cat_list = pd.get_dummies(data[var], prefix=var)
    print("dummy data")
    print(cat_list)
    data1=data.join(cat_list)
    data=data1

In [None]:
print("data1")
print(data1)

In [None]:
cat_vars=['job','marital','education','default','housing','loan','contact','month','day_of_week','poutcome']
data_vars=data.columns.values.tolist()
to_keep=[i for i in data_vars if i not in cat_vars]
print("to_keep")
print(to_keep)

In [None]:
data_final=data[to_keep]
data_final.columns.values

In [None]:
data_final_vars=data_final.columns.values.tolist()
y=['y']
X=[i for i in data_final_vars if i not in y]

# Feature Selection
RFE: 
Ranking functie met recursieve feature-eliminatie.

RFE is een schatter die gewichten toewijst aan features (bijvoorbeeld de coëfficiënten van een lineair model). Het doel van een recursieve feature-eliminatie (RFE) is het selecteren van features door recursief rekening te houden met kleinere en kleinere sets van features. Hoe belangrijker ze zijn hoe hoger het getal wordt (gewicht 1 betekent dat het feature goed gebruikt kan worden). 

Cols array is het resultaat van de feature eliminatie. De cols array bevat de features waarbij het gewicht 1 is.

### Functie RFE(logreg, 18)
De functie RFE neemt de LogisticRegression algoritme en daarbij wordt er een aantal geselecteerde features aangegeven. 

### Fit functie
Met de fit functie wordt de data getraind om zo een feature selectie te verkrijgen die het meest samenhang hebben om te gebruiken voor logistic regression machine learning algoritme. 

Hierbij wordt de data_final[x] gebruikt om te kijken of ze een goede samenhang hebben met de uitkomst variabel y. 

In [None]:
from sklearn import datasets
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression()

rfe = RFE(logreg, 18)
rfe = rfe.fit(data_final[X], data_final[y].values.ravel())
print("support")
print(rfe.support_)
print("ranking")
print(rfe.ranking_)
print("============= data_final[X] ===================")
data_final[X].columns.values

### RFE uitkomst 
De Recursive Feature-Elimination (RFE) heeft de volgende features geselecteerd: "vorige", "euribor3m", "job_blue-collar", "job_retired", "job_services", "job_student", "default_no", "month_aug", " month_dec "," month_jul "," month_nov "," month_oct "," month_sep "," day_of_week_fri "," day_of_week_wed "," poutcome_failure "," poutcome_nonexistent "," poutcome_success ".

In [None]:
cols=["previous", "euribor3m", "job_blue-collar", "job_retired", "job_services", "job_student", "default_no", 
      "month_aug", "month_dec", "month_jul", "month_nov", "month_oct", "month_sep", "day_of_week_fri", "day_of_week_wed", 
      "poutcome_failure", "poutcome_nonexistent", "poutcome_success"] 
X=data_final[cols]
print(X)
y=data_final['y']

## Implementing the model
Met implementing the model wordt er een statistiek weergegeven waarbij je de p-waarde kan zien. De p-waarde is belangrijk en geeft aan dat de variabele die laag zijn (liefst onder 0.05), de belangrijkste factor zijn voor het uitendelijke resultaat bij het voorspellen van de uitkomst variabel y. 

In [None]:
import statsmodels.api as sm
from scipy import stats
stats.chisqprob = lambda chisq, df: stats.chi2.sf(chisq, df)
logit_model=sm.Logit(y,X)
result=logit_model.fit()
print(result.summary())

De p-waarden voor de meeste variabelen zijn erg klein, dit betekent dat de waarde van deze variabelen, belangrijke factoren zijn voor het uiteindelijke resultaat. Daarom zijn de meeste van deze variabelen belangrijk voor het model.

# Logistic Regression Model Fitting
Eenmaal als er een model is, dan moet de model aan de hand van de data worden bijgesteld. Hierbij stel je de parameters bij om de meest accurate voorspelling te kunnen doen. Dit doe je aan de hand van de data. Je splits hierbij de data in training en test dataset. 

### train_test_split functie

Splitsen van arrays in matrics in willekeurige training dataset en test dataset. Hieronder wordt 30% van de data gebruikt voor testen en 70% voor het trainen.

Vervolgens wordt de train data getraind van de fit functie. 

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
from sklearn.linear_model import LogisticRegression
from sklearn import metrics
logreg = LogisticRegression()
logreg.fit(X_train, y_train)

### Predicting the test set results and caculating the accuracy

Nu het model is bijgesteld, dan kan er een predictie worden gemaakt. Hierbij wordt de test feature data gebruikt om de voorspel variable y te voorspellen. Hieruit komt er een accuracy waarde uit.  

In [None]:
y_pred = logreg.predict(X_test)

In [None]:
print('Accuracy of logistic regression classifier on test set: {:.2f}'.format(logreg.score(X_test, y_test)))

# Cross validation

Cross validation houdt in dat je je data separeert in k (het aantal subset dat je wilt). De gesepareerde resultaat van de data wordt hierdoor nog accurater. De bedoeling van cross-validation is om te zorgen de resultaat van de model zo accuraat mogelijk is. 

In [None]:
from sklearn import model_selection
from sklearn.model_selection import cross_val_score
kfold = model_selection.KFold(n_splits=10, random_state=7)
modelCV = LogisticRegression()
scoring = 'accuracy'
results = model_selection.cross_val_score(modelCV, X_train, y_train, cv=kfold, scoring=scoring)
print("10-fold cross validation average accuracy: %.3f" % (results.mean()))

## Confusion Matrix

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix = confusion_matrix(y_test, y_pred)
print(confusion_matrix)

Het resultaat vertelt ons dat we 10872 + 254 correcte voorspellingen en 1122 + 109 onjuiste voorspellingen hebben. 

### Accuracy

In [None]:
print('Accuracy of logistic regression classifier on test set: {:.2f}'.format(logreg.score(X_test, y_test)))

### Compute precision, recall, F-measure and support
De 10872 is de true positive(TP). TP staat voor dat de verwachte en de echte resultaat positief zijn. Correcte predictie.

De 1122 is de false positive(FP). FP staat voor dat de verwachting waar zou zijn en uiteindelijk is het resultaat niet waar. Foute predictie.

De 109 is de false negative(FN). FN staat voor dat de verwachting er niet zijn en uiteindelijk is het resultaat wel dat het er is. Foute predictie.

De 254 is de true negative(TN). TN staat voor dat de verwachte en de echte resultaat negatief zijn. Correcte predictie.

De **precision** is de verhouding tp / (tp + fp), waarbij tp het aantal echte positieven is en fp het aantal valse positieven. De precision is intuïtief het vermogen van de classificator om een negatief sample niet als positief te markeren.

De **recall** is de verhouding tp / (tp + fn) waarbij tp het aantal echte positieven is en fn het aantal valse negatieven. Het terugroepen is intuïtief het vermogen van de classificator om alle positieve samples te vinden.

De **F1-score** kan worden geïnterpreteerd als een gewogen harmonisch gemiddelde van de precisie en recall, waarbij een F1-score de beste waarde bereikt op 1 en de slechtste score op 0.

De **F1-score** weegt de recall meer dan bij precision door een factor van beta. bèta == 1.0 betekent dat de recall en precision even belangrijk zijn.

De **support** is het aantal keren dat elke klas voorkomt in y_test.

### Interpretation:

Van de gehele testset was 88% van de gepromote termijndeposito de termijndeposito die de klanten leuk vonden. Van de gehele testset werd 90% van de voorkeurstermitoring van de klant gepromoot.

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

### Interpretation

## ROC Curve from sklearn import metrics
De ROC (Receiver Operating Characteristics) Curve wordt gebruikt om classification modellen met elkaar te vergelijken. Het is gebaseerd op signal detection theorie. Het weergeeft de true positive waarde en de false positieve waarde. 

De waarden onder de rode stippellijn geeft aan dat de naukeurigheid van de model niet goed is. Hoe hoger de lijn boven de rode stippellijn staan, hoe nauwkeurig de model is. 

In [None]:
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve
logit_roc_auc = roc_auc_score(y_test, logreg.predict(X_test))
fpr, tpr, thresholds = roc_curve(y_test, logreg.predict_proba(X_test)[:,1])
plt.figure()
plt.plot(fpr, tpr, label='Logistic Regression (area = %0.2f)' % logit_roc_auc)
plt.plot([0, 1], [0, 1],'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic')
plt.legend(loc="lower right")
plt.savefig('Log_ROC')
plt.show()