# Úkol 4

Stáhni si data o výsledcích marketingové kampaně jedné portugalské banky, které jsou v souboru [ukol_04_data.csv](ukol_04_data.csv). Data mají následující proměnné.

První skupina proměnných zahrnuje obecné informace o klientovi/klientce.

- age = věk (číslo)
- job = typ zaměstnání (kategorická proměnná, obsahuje následující možnostti: "admin.","unknown","unemployed","management","housemaid","entrepreneur","student", "blue-collar","self-employed","retired","technician","services")
- marital = rodinný stav (kategorická proměnná, obsahuje možnosti "married","divorced","single", "divorced" zahrnuje rozvedené i ovdovělé)
- education = vzdělání (kategorická proměnná, obsahuje následující možnosti: "unknown","secondary","primary","tertiary")
- default = má úvěr v prodlení (binární proměnná, obsahuje možnosti "yes","no")
- balance = průměrný zůstatek na účtu (numerická proměnná, v eurech)
- housing: má úvěr na bydlení (binární proměnná, obsahuje možnosti "yes", "no")
- loan:  má osobní půjčku (binární proměnná, zahrnuje možnosti "yes","no")

Druhá skupina proměnných se týká posledního kontaktu v aktuální kampani

- contact = způsob navázání kontaktu (kategorická proměnná, obsahuje možnosti "unknown","telephone","cellular")
- day = den v měsíci posledního kontaktu (číselná proměnná)
- month = měsíc posledního kontaktu (kategoriální proměnná, obsahuje možnosti "jan", "feb", "mar", …, "nov", "dec")
- duration = délka posledního kontaktu v sekundách (číselná proměnná)

Třetí skupina obsahuje zbývající vstupní proměnné

- campaign = počet kontaktů během aktuální kampaně (včetně posledního, číselná proměnná)
- pdays = počet dnů uplynulých od posledního kontaktu s klientem (číselná proměnná, obsahuje -1, pokud klient/klientka zatím nebyl(a) kontaktována)
- previous = počet kontaktů před stávající kampaní (číselná proměnná)
- poutcome = výsledek předchozí kampaně (kategorická proměnná, obsahuje možnosti "unknown","other","failure","success")

Výstupní proměnná
- y = informace, zda si klient/klientka založil(a) termínovaný účet (binární proměnná, obsahuje možnosti ano/ne)

Pro splnění úkolu je třeba provést následující body.

- Vytvoř rozhodovací strom na základě všech vstupních proměnných, s výjimkou proměnných `day` a `month`. Výstupní proměnnou je informace, zda si klient založní termínovaný účet. Omez výšku stromu na 4 patra a vygeneruj obrázek (v rámci Jupyter notebooku nebo jej ulož jako samostatný obrázek). Kategoriální proměnné uprav pomocí OneHotEncoder, číselné proměnné nijak upravovat nemusíš. Dále vytvoř matici záměn a urči výši metriky `accuracy`.
- Vedení marketingového oddělení banky rozhodlo, že chce využít strojové učení k efektivní kampani. Chce ale vybrat nejlepší algoritmus, který bude predikovat, kdo z klientů má o termínovaný účet zájem. Následně bude kontaktovat ty, u kterých model predikuje zájem, a nebude kontaktovat ty, u kterých model bude predikovat nezájem. Algoritmus bude vybrán na základě jedné z metrik, které jsme si ukazovali na 9. lekci. Vedení marketingového oddělení se chce vyhnout zbytečnému kontaktování klientů, kteří o termínovaný účet nemají zájem. Nevadí, pokud se neozvou někomu, kdo o termínovaný vklad zájem má. Vyber podle této preference vedení vhodnou metriku. Metriku napiš jako komentář v programu nebo jej doplň do buňky v Jupyter notebooku.
- Vypočítej hodnotu vybrané metriky pro rozhodovací strom, který byl vytvořen v prvním bodě.
- Využij algoritmus K Nearest Neighbours k predikci, zda si klient/klientka založí termínovaný účet. Využij všechny vstupní proměnné, s výjimkou proměnných `day` a `month`. Kategoriální proměnné uprav pomocí `OneHotEncoder` (tj. stejně jako u rozhodovacího stormu). Na číselné proměnné tentokrát použij StandardScaler. Pomocí cyklu (nebo pomocí GridSearchCV) urči počet uvažovaných sousedů, které algoritmus bere v úvahu. Uvažuj následující hodnoty parametru: 3, 7, 11, 15, 19, 23. Jaká je nejlepší hodnota metriky? A je lepší než u rozhodovacího stromu?
- Jako druhý využij algoritmus Support Vector Machine. Využij lineární verzi, tj. `LinearSVC`. Algoritmus využij s výchozími hodnotami parametrů, tj. nemusíš zkoušet různé hodnoty parametrů. Vypočti hodnotu požadované metriky.
- Porovnej hodnoty metrik pro rozhodovací strom, K Nearest Neighbours a Support Vector Machine. Ve kterém z bodů jsme dosáhli nejvyšší hodnoty metriky?

- Bonus: Pomocí cyklu vyzkoušej další možné výšky rozhodovacího stromu, například v rozmezí 5 až 12.

## Nápověda

Níže je načtení dat. V případě rozhodovacího stromu není potřeba používat scaler, data pouze převedeme na matici. Tento postup jsme si ukazovali na 10. lekci.

In [1]:
import pandas
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import ConfusionMatrixDisplay, accuracy_score, precision_score, recall_score
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import OneHotEncoder
from sklearn.tree import export_graphviz
from six import StringIO
from IPython.display import Image  
import pydotplus
from pydotplus import graph_from_dot_data
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

import os
os.environ["PATH"] += os.pathsep + r'C:\Program Files\Graphviz\bin'

data = pandas.read_csv("ukol_04_data.csv")
data.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


In [None]:
import numpy

y = data["y"]

categorical_columns = ["job", "marital", "education", "default", "housing", "loan", "contact", "campaign", "poutcome"]
numeric_columns = ["age", "balance", "duration", "pdays", "previous"]
numeric_data = data[numeric_columns].to_numpy()

encoder = OneHotEncoder()
encoded_columns = encoder.fit_transform(data[categorical_columns])
encoded_columns = encoded_columns.toarray()

X = numpy.concatenate([encoded_columns, numeric_data], axis=1)

U funkce `export_graphviz` je třeba spojit popisky z encoder a názvy sloupců dohromady, abychom získali data ke všem sloupcům, které nyní máme

```py
export_graphviz(clf, out_file=dot_data, filled=True, feature_names=list(encoder.get_feature_names_out()) + numeric_columns, class_names=["no", "yes"])
```

Vzniklý strom je zde:

![output_4_tree.png](attachment:output_4_tree.png)

Matice záměn je níže

![napovedy_04/output_4.png](napovedy_04/output_4.png

Pro další dva algoritmy již musíme použít i `StandardScaler` a propojit obě pole dohromady.

In [None]:
scaler = StandardScaler()
numeric_data = scaler.fit_transform(data[numeric_columns])

encoder = OneHotEncoder()
encoded_columns = encoder.fit_transform(data[categorical_columns])
encoded_columns = encoded_columns.toarray()

X = numpy.concatenate([encoded_columns, numeric_data], axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Hodnota metriky `accuracy` je přibližně 90 %.

Hodnota metriky, která je důležitá pro vedení marketingového oddělení, je přibližně 65 %.

Pokud použiješ cyklus, je v případě KNN nejlepší hodnota pametru 25, požadovaná metrika je přibližně 55 %.

V případě `LinearSVC` se může zobrazit zpráva `ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.`. Tu můžeš ignorovat. Požadovaná metrika je přibližně 84 %.

Pokud vyzkoušíš maximální výšky stromu v rozmězí 5 až 12, hodnota metriky bude vždy menší než v případě `LinearSVC`.