<a href="https://colab.research.google.com/github/aleksejalex/special-octo-engine/blob/main/zap/01ZLMA_zapoctova_uloha_2023_MDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Zadání zápočtové úlohy z předmětu 01ZLMA 2022/2023

https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients

Data Set Information:

This research aimed at the case of customers default payments in Taiwan and compares the predictive accuracy of probability of default among six data mining methods. From the perspective of risk management, the result of predictive accuracy of the estimated probability of default will be more valuable than the binary result of classification - credible or not credible clients





In [1]:
%pip install pandas matplotlib xlrd

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
import pandas as pd
import numpy as np
url = "https://github.com/aleksejalex/01ZLMA_forked/raw/main/default_of_credit_card_clients.xls"
df = pd.read_excel(url, header=1)

In [3]:
df = df.rename(columns = {"default payment next month": "default"})

In [4]:
df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default
0,1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,2,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,3,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,4,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,5,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


In [5]:
df = df.rename(columns=lambda x: x.lower())

In [6]:
df.shape

(30000, 25)

In [7]:
bill_cols = list(filter(lambda col: col.find("bill_amt") != -1, df.columns))

In [8]:
pay_cols = list(filter(lambda col: col.find("pay_amt") != -1, df.columns))

In [9]:
df['bill_min'] = df[bill_cols].apply(min, axis=1)

In [10]:
df['bill_max'] = df[bill_cols].apply(max, axis=1)

In [11]:
df['pay_min'] = df[pay_cols].apply(min, axis=1)

In [12]:
df['pay_max'] = df[pay_cols].apply(max, axis=1)

In [13]:
df = df.drop(pay_cols + bill_cols + ['id'] + ['pay_' + str(i) for i in range(2,6)], axis=1)

In [14]:
df.head()

Unnamed: 0,limit_bal,sex,education,marriage,age,pay_0,pay_6,default,bill_min,bill_max,pay_min,pay_max
0,20000,2,2,1,24,2,-2,1,0,3913,0,689
1,120000,2,2,2,26,-1,2,1,1725,3455,0,2000
2,90000,2,2,2,34,0,0,0,13559,29239,1000,5000
3,50000,2,2,1,37,0,0,0,28314,49291,1000,2019
4,50000,1,2,1,57,-1,0,0,5670,35835,679,36681


In [15]:
df = df[(df['bill_min'] > 0) &
        (df['pay_max'] > 0) &
        (df['marriage'] != 0) &
        (df['marriage'] != 3) &
        (df['education'] != 0)]

In [16]:
df.loc[df['education'] > 3, 'education'] = 3

In [17]:
df['education'] = pd.Categorical(df['education'])

In [18]:
df['sex'] = pd.Categorical(df['sex'])

In [19]:
df['marriage'] = pd.Categorical(df['marriage'])

In [20]:
df.describe()

Unnamed: 0,limit_bal,age,pay_0,pay_6,default,bill_min,bill_max,pay_min,pay_max
count,21943.0,21943.0,21943.0,21943.0,21943.0,21943.0,21943.0,21943.0,21943.0
mean,162801.334366,35.271977,0.085996,0.021328,0.222167,43168.164563,73786.276307,1665.886706,16345.83
std,130553.935668,9.221242,1.04202,0.947823,0.415712,59592.725589,82413.780752,2748.702698,35713.87
min,10000.0,21.0,-2.0,-2.0,0.0,1.0,12.0,0.0,15.0
25%,50000.0,28.0,0.0,0.0,0.0,4596.5,19652.5,0.0,2843.0
50%,130000.0,34.0,0.0,0.0,0.0,19852.0,47637.0,700.0,5300.0
75%,230000.0,41.0,0.0,0.0,0.0,55951.5,97714.5,2050.0,13000.0
max,1000000.0,79.0,8.0,8.0,1.0,551702.0,983931.0,63758.0,1227082.0


In [21]:
df_table = df[['default',
               'age',
               'sex',
               'education',
               'marriage',
               'limit_bal']].rename(columns={'age':'age_full', 'limit_bal':'limit_bal_full'})

In [22]:
age_breaks = [-np.infty, 25, 30, 35, 40, np.infty]
age_lables = ['<25', '25-30', '30-35','35-40', '>40']
df_table['age'] = pd.cut(df_table['age_full'], bins=age_breaks, labels=age_lables)

In [23]:
limit_bal_breaks = [-np.infty,50_000, 100_000, 150_000, 200_000, np.infty]
limit_bal_lables = ['<50k','50k-100k','100k-150k','150k-200k','>200k']
df_table['limit_bal'] = pd.cut(df_table['limit_bal_full'], bins=limit_bal_breaks, labels=limit_bal_lables)

In [24]:
df_table = df_table.drop(filter(lambda x: x.find("_full") != -1, df_table.columns), axis=1)

In [25]:
df_table_grouped = df_table.groupby(['age', 'limit_bal', 'sex'], dropna=False)
df_table = df_table_grouped.agg({'default':'sum'}).rename(columns = {'default':'default_yes'})

In [26]:
df_table['default_no'] = df_table_grouped.size() - df_table['default_yes']

In [27]:
df_table.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,default_yes,default_no
age,limit_bal,sex,Unnamed: 3_level_1,Unnamed: 4_level_1
<25,<50k,1,210,444
<25,<50k,2,326,710
<25,50k-100k,1,23,94
<25,50k-100k,2,146,439
<25,100k-150k,1,12,43


In [28]:
%pip install scikit-learn

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [29]:
from sklearn.model_selection import train_test_split

In [30]:
train_data, test_data = train_test_split(df, test_size = 0.3, random_state=42, stratify=df['default'])

In [31]:
train_data.shape

(15360, 12)

In [32]:
test_data.shape

(6583, 12)

## Zadání

## 01 - Grafické zobrazení dat a jejich kontrola

Použijte dataset `data_train` a `data_test`.

* Navrhněte vhodný způsob zobrazení dat, který vám pomůže určit, zdali použití logistické regrese pro predikci nesplacení úvěru je možné a vhodné při použítí zvolených trénovacích a testvacích dat.
* Vykreslete boxploty pro různé numerické proměnné, odezvu `default` a barevně odlište kategorické proměnné. Je z těchto obrázků možné odhadnout jaká proměnná bude mít vliv na odezvu? (jen `data_train`).
* Pro vybrané skupiny z předešlé otázky navrhněte vhodný statistický test, proveďte ho a řekněte zdali je vámi zvolená proměnná statisticky významná pro určení schopnosti splácet (jen `data_train`).

## 02 - Logistická regrese agregovaná tabulková data

použijte `data_table`





* Vytvořte odezvu pro logistický model binomického rozdělení a sestrojte nulový model. Jaká je ve zkoumané populaci  průměrná šance na neschopnost splácet úvěr  a jaká je pravděpodobnost nesplacení úvěru?

* Sestrojte model, kde závisí výskyt nesplacení úvěru pouze na proměnné `limit_bal`. Je vliv limitu významná proměnná na hladině významnosti 0.05? Pokud ano, zjistěte, kolikrát mají lidé s limitem větším než 100 vetší šanci na neschopnost splácet než lidé s limitem nad 200.

* Sestrojte model, kde závisí výskyt neschopnosti splácet pouze na věku `age`.  Je věk  statisticky významná proměnná na hladině významnosti 0.01? Pokud ano, zjistěte, kolikrát mají pacienti ve věku mezi 35-40 menší šanci na  neschopnost splácet než lidé ve věku 20-25.

* Předpokládejte, že šance na neschopnost splácet roste exponenciálně s hodnotou limitu a klesá exponenciálně s věkem. Vytvořte příslušné numerické spojité prediktory. Sestrojte model, kde šance na neschopnost splácet bude záležet na numerických hodnotách tlaku a věku (bez interakce). Jaký je poměr šancí na neschopnost splácet mezi lidmi lišícími se limitem o 50000 a majícími stejný věk?

* Otestujte předešlý model proti saturovanému modelu. Má tento test opodstatnění? Okomentujte jeho výsledek.

In [33]:
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [34]:
df_table.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,default_yes,default_no
age,limit_bal,sex,Unnamed: 3_level_1,Unnamed: 4_level_1
<25,<50k,1,210,444
<25,<50k,2,326,710
<25,50k-100k,1,23,94
<25,50k-100k,2,146,439
<25,100k-150k,1,12,43


Z dostupných informací - logistická regrese z knihovny statsmodels potřebuje na vstupu "individuální data" - tj. v našem případě dataframe `df` a ne kontingenční tabulku `df_table`. Příp. existují způsoby, jak z konting. tabulky vyrobit tabulku jednotlivých (individálních) pozorování.


In [35]:
# ukolem je ke konstrukci modelu pouzit kont. tabulku, z tech duvodu pouzivame individualni
# data, ovsem jen ty promenne, na zaklade kterych byla kont. tabulka sestavovana
X = df[['limit_bal', 'sex', 'age']]
y = df['default']
model = sm.Logit(y, X)
result = model.fit()

print(result.summary())
print(f'AIC = {result.aic}')

Optimization terminated successfully.
         Current function value: 0.510293
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:                default   No. Observations:                21943
Model:                          Logit   Df Residuals:                    21940
Method:                           MLE   Df Model:                            2
Date:                Sun, 25 Jun 2023   Pseudo R-squ.:                 0.03652
Time:                        10:06:36   Log-Likelihood:                -11197.
converged:                       True   LL-Null:                       -11622.
Covariance Type:            nonrobust   LLR p-value:                4.635e-185
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
limit_bal  -4.434e-06   1.59e-07    -27.919      0.000   -4.75e-06   -4.12e-06
sex           -0.3064      0.

In [36]:
# nulovy model
model_nulo = smf.logit('default ~ 1', data=df)
result_nulo = model_nulo.fit()
print(result_nulo.summary())
print(f'AIC = {result_nulo.aic}')

Optimization terminated successfully.
         Current function value: 0.529636
         Iterations 5
                           Logit Regression Results                           
Dep. Variable:                default   No. Observations:                21943
Model:                          Logit   Df Residuals:                    21942
Method:                           MLE   Df Model:                            0
Date:                Sun, 25 Jun 2023   Pseudo R-squ.:               8.452e-11
Time:                        10:06:36   Log-Likelihood:                -11622.
converged:                       True   LL-Null:                       -11622.
Covariance Type:            nonrobust   LLR p-value:                       nan
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -1.2531      0.016    -77.163      0.000      -1.285      -1.221
AIC = 23245.62354846453


In [53]:
#np.exp(float(result_nulo.params) * 1)

0.2856222170142954

### pravděpodobnost nesplacení úvěru
tj. p(default = 0)

$$ p(\mbox{default}=0) = p(y=0)  = \sum_{x \in X} p(y = 0, x | \theta^{̂} )$$

kde $j$ je index, jdoucí od 1 do délky vektoru $x$ (tedy počet uvažovaných příznaků)

kde $ \theta^{̂} $ je odhad (vektorový) a $x$ je vektor daných vysvětlujicích proměnných.

$$ \sum_{x \in X} p(y = 0, x | \theta^{̂} ) = \sum_{x \in X} \exp( \theta^{̂} \cdot x) = \sum_{x \in X} \exp(\sum_{j} \theta^{̂}_j \cdot x_j) $$

tedy počítáme:


In [37]:
float(result_nulo.params)

-1.2530852608759442

In [46]:
theta = float(result_nulo.params)
x = 1
prst_pro_jeden_x = np.exp(theta * x)
print(prst_pro_jeden_x)

0.2856222170142954


### šance na neschopnost splácet úvěr

$$ \mbox{chance}(\mbox{default}=0) = \frac{p(y=0,x| \theta^{̂})}{p(y=1,x| \theta^{̂})} = \frac{\exp( \theta^{̂}  \cdot x)}{1 - \exp( \theta^{̂}  \cdot x)} $$

In [48]:
chance = (np.exp(theta * x)) / (1 - np.exp(theta * x))
print(chance)

0.3998195686049366


### model pouze s `limit_bal`

In [39]:
X = df[['limit_bal']]
y = df['default']
model_limit_bal = sm.Logit(y, X)
result_limit_bal = model_limit_bal.fit()

print(result_limit_bal.summary())
print(f'AIC = {result_limit_bal.aic}')

Optimization terminated successfully.
         Current function value: 0.524155
         Iterations 5
                           Logit Regression Results                           
Dep. Variable:                default   No. Observations:                21943
Model:                          Logit   Df Residuals:                    21942
Method:                           MLE   Df Model:                            0
Date:                Sun, 25 Jun 2023   Pseudo R-squ.:                 0.01035
Time:                        10:06:37   Log-Likelihood:                -11502.
converged:                       True   LL-Null:                       -11622.
Covariance Type:            nonrobust   LLR p-value:                       nan
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
limit_bal  -7.517e-06   1.13e-07    -66.611      0.000   -7.74e-06    -7.3e-06
AIC = 23005.083905090516


ano, proměnná `limit_bal` je na hladině 0.05 významná.

kolikrát mají lidé s limitem větším než 100 vetší šanci na neschopnost splácet než lidé s limitem nad 200:

In [59]:
df_limitbal_above_100 = df[df.limit_bal>100000]
#print(df.describe())
#print(df_limitbal_above_100.describe())
df_limitbal_above_200 = df[df.limit_bal>200000]
#print(df.describe())
#print(df_limitbal_above_200.describe())

In [69]:
y_limitbal_above_100 = df_limitbal_above_100['default']
y_limitbal_above_200 = df_limitbal_above_200['default']

x_limitbal_above_100 = df_limitbal_above_100['limit_bal']
x_limitbal_above_200 = df_limitbal_above_200['limit_bal']

In [80]:
theta = float(result_limit_bal.params)
chance_for_limitbal_above_100 = np.sum(np.exp(theta * x_limitbal_above_100))
print(chance_for_limitbal_above_100)
chance_for_limitbal_above_200 = np.sum(np.exp(theta * x_limitbal_above_200))
print(chance_for_limitbal_above_200)

podil = chance_for_limitbal_above_100 / chance_for_limitbal_above_200
print(f'podil sanci je {podil}, tj. cca {int(podil * 100)} procent')

2470.3247515176786
716.5885484997134
podil sanci je 3.447340536894816, tj. cca 344 procent


In [79]:
theta = float(result_limit_bal.params)
chance_for_limitbal_above_100 = np.sum(np.exp(theta * x_limitbal_above_100)) / (1 - np.sum(np.exp(theta * x_limitbal_above_100)))
print(chance_for_limitbal_above_100)
chance_for_limitbal_above_200 = np.sum(np.exp(theta * x_limitbal_above_200)) / (1 - np.sum(np.exp(theta * x_limitbal_above_200)))
print(chance_for_limitbal_above_200)

podil = chance_for_limitbal_above_100 / chance_for_limitbal_above_200
print(f'podil sanci je {podil}, tj. cca {int(podil * 100)} procent')

-1.0004049690100039
-1.001397451094063
podil sanci je 0.9990089029256317, tj. cca 99 procent


$$  \mbox{chance}(y=0 | \mbox{limit_bal} > 100) =  $$


$$ \mbox{chance}(y=0 | \mbox{limit_bal} > 200) =  $$



$$ \mbox{tolikrat} = \frac{\mbox{chance}(y=0 | \mbox{limit_bal} > 100)}{\mbox{chance}(y=0 | \mbox{limit_bal} > 200)}  =  $$

### model pouze s `age`

In [40]:
X = df[['age']]
y = df['default']
model_age = sm.Logit(y, X)
result_age = model_age.fit()

print(result_age.summary())
print(f'AIC = {result_age.aic}')

Optimization terminated successfully.
         Current function value: 0.538478
         Iterations 5
                           Logit Regression Results                           
Dep. Variable:                default   No. Observations:                21943
Model:                          Logit   Df Residuals:                    21942
Method:                           MLE   Df Model:                            0
Date:                Sun, 25 Jun 2023   Pseudo R-squ.:                -0.01669
Time:                        10:06:37   Log-Likelihood:                -11816.
converged:                       True   LL-Null:                       -11622.
Covariance Type:            nonrobust   LLR p-value:                       nan
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
age           -0.0340      0.000    -73.979      0.000      -0.035      -0.033
AIC = 23633.633566799595


ano, `age` je statisticky významná na hledině 0.01

kolikrát mají pacienti ve věku mezi 35-40 menší šanci na neschopnost splácet než lidé ve věku 20-25:

end of task 02

In [41]:
X = df[['limit_bal', 'sex', 'education', 'marriage', 'age', 'pay_0', 'pay_6',
    'bill_min', 'bill_max', 'pay_min', 'pay_max']]
y = df['default']
model = sm.Logit(y, X)
result = model.fit()

print(result.summary())
print(result.aic)

Optimization terminated successfully.
         Current function value: 0.442313
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:                default   No. Observations:                21943
Model:                          Logit   Df Residuals:                    21932
Method:                           MLE   Df Model:                           10
Date:                Sun, 25 Jun 2023   Pseudo R-squ.:                  0.1649
Time:                        10:06:37   Log-Likelihood:                -9705.7
converged:                       True   LL-Null:                       -11622.
Covariance Type:            nonrobust   LLR p-value:                     0.000
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
limit_bal  -1.769e-06   2.08e-07     -8.506      0.000   -2.18e-06   -1.36e-06
sex           -0.1782      0.

Už z tohoto výsledku lze usoudit, že proměnné `age` a `pay_max` nejsou významné pro tento model.

In [42]:
X = df[['limit_bal', 'sex', 'education', 'marriage', 'pay_0', 'pay_6',
    'bill_min', 'pay_min']]
y = df['default']
model = sm.Logit(y, X)
result = model.fit()

print(result.summary())
print(result.aic)

Optimization terminated successfully.
         Current function value: 0.442537
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:                default   No. Observations:                21943
Model:                          Logit   Df Residuals:                    21935
Method:                           MLE   Df Model:                            7
Date:                Sun, 25 Jun 2023   Pseudo R-squ.:                  0.1645
Time:                        10:06:37   Log-Likelihood:                -9710.6
converged:                       True   LL-Null:                       -11622.
Covariance Type:            nonrobust   LLR p-value:                     0.000
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
limit_bal  -2.038e-06   1.87e-07    -10.878      0.000   -2.41e-06   -1.67e-06
sex           -0.1897      0.

In [43]:
formula_satur = 'default ~ limit_bal * sex * education * marriage * age * pay_0 * pay_6 * bill_min * bill_max * pay_min * pay_max'
########## do not run in colab, it crashes....
#model_satur = smf.logit(formula_satur, data=df).fit()
#print(model_satur.summary())

Na saturovany model nemame data (prilis mnoho interakci prilis vysokeho radu)

In [44]:
formula_order_1 = 'default ~ limit_bal + sex + education + marriage + age + \
                pay_0 + pay_6 + bill_min + bill_max + pay_min + pay_max '
my_interactions = ' + limit_bal * bill_max * pay_max'
formula_interactions = formula_order_1 + my_interactions

model_interactions = smf.logit(formula_interactions, data=df).fit()

print(model_interactions.summary())
print(model_interactions.aic)

Optimization terminated successfully.
         Current function value: 0.440400
         Iterations 7
                           Logit Regression Results                           
Dep. Variable:                default   No. Observations:                21943
Model:                          Logit   Df Residuals:                    21926
Method:                           MLE   Df Model:                           16
Date:                Sun, 25 Jun 2023   Pseudo R-squ.:                  0.1685
Time:                        10:06:38   Log-Likelihood:                -9663.7
converged:                       True   LL-Null:                       -11622.
Covariance Type:            nonrobust   LLR p-value:                     0.000
                                 coef    std err          z      P>|z|      [0.025      0.975]
----------------------------------------------------------------------------------------------
Intercept                     -0.7755      0.108     -7.177      0.000      

In [45]:

# Perform logistic regression using statsmodels
X = pd.get_dummies(individual_data['Category'], drop_first=True)
X = sm.add_constant(X)  # Add constant column for intercept
y = pd.get_dummies(individual_data['Group'], drop_first=True)
model = sm.Logit(y, X)
result = model.fit()

# Print the logistic regression summary
print(result.summary())

NameError: ignored

## 03 - Poissonovská regrese na agregovaná tabulková data (4/7)

použijte  `data_table`


* Upravte tabulku do potřebného formátu a sestrojte čistě aditivní loglineární model pro četnosti pozorování ve skupinách, který předpokládá vzájemnou
nezávislost mezi všemi skupinovými prediktory.

* Na základě předchozího modelu, jaký je odhad šance na neschopnost splácet mezi všemi vybranými lidmi ve skupině a jaký je odhad pravděpodobnosti neschopnosti splácet?

* Sestavte model, který obsahuje všechny možné dvojné interakce mezi klasifikačními veličinami a porovnejte tento model s předchozím modelem bez interakcí. Je tento model statisticky významně lepší?

* Sestavte saturovaný model. Je tento model statisticky významně lepší než předchozí s dvojtými interakcemi? Vyberte model který je podle vás nejlepší.

* Na základě vybraného modelu, je ve všech věkových skupinách stejná souvislost mezi limitem a šancí splácet?

* Na základě vybraného modelu, je pro obě pohlaví stejná souvislost mezi limitem a šancí splácet?

* Ve skupině co se týče vzdělání je nějvětší souvislost mezi schopností splácet a limitem?


## 04 - Logistická regrese - statistika (5/8)

Nyní již používejte `data_train`

* Vypište kontingenční tabulku pro proměnné pohlaví (`sex`) a schopnost splácet  (`default`). Ručně z tabulky spočtěte empirický poměr šancí na schopnost splácet (muž vs. žena) a pravděpodobnost onemocnění pro ženu a muže. Výsledek porovnejte s výsledky z logistické regrese, kde jediným prediktorem bude právě proměnná `sex` a odezvou proměnná `default`. Pro poměr šancí uveďte i 95% konfidenční interval a okometujte, zdali mají ženy signifikantně menší šanci na schopnost splácet.

* Vypište kontingenční tabulku pro proměnné vzdělání (`education`) a schopnost splácet (`default`). Ručně z tabulky spočtěte empirický poměr šancí na onemocnění srdce (type 0: asymptomatic, proti ostatním) a pravděpodobnosti onemocnění pro jednotlivé typy. Výsledek porovnejte s výsledky z logistické regrese, kde jediným prediktorem bude právě proměnná `education` a odezvou proměnná `default`. Pro poměr šancí uveďte i 95% konfidenční interval a okometujte, zdali mají s lepším vzděláním mají menší šanci na neschopnost splácet úvěr.

* Sestavte model, kde použijete všechny dostupné proměnné (jak faktorové tak numerické). Pomocí deviančních testů model postupně redukujte. Výsledný model porovnejte s modelem, který byste obdrželi při použití automatického výběru s funkcí `step()`.

* Pro vybraný model spočtěte šanci na schopnost splácet pro muže oproti ženám, včetně 95% konfidenčních intervalů. Stejně tak pro manželství a vzdělání. Jak se výsledek změnil oproti jednoduchým modelům a jak byste tuto změnu vysvětlili?

* Použijte váš model a spočtěte odhad pravděpodobnosti schopnosti splácet pro testovací data vykreslete pro proměnou `limit_bal` predikční konfidenční intervaly.
Nápověda krom cvičení, také třeba zde: https://fromthebottomoftheheap.net/2017/05/01/glm-prediction-intervals-i/

* Na základě trénovacích dat zvolte vhodný treshold pro určení splatí / nesplatí a na testovacích datech spočtěte Accuracy a vykreslete ROC křivku spolu s AUC.





## 05 - Logistická regrese -  strojové učení

* Sestavte workflow (pipeline) na trenovacích datech pro logistickou regresi s použitím regularizace (elestic-net), která bude obsahovat
 *   Přípravu proměnných, transformaci, one-hot encoding, normalizaci, ... (Možno použít recipe z tidy models)
 *   Hledání "optimálního" nastavení hyperparametru v regularizaci.
 *   k-fold cross validaci

* Pomocí předchozí pipline/workflow vyberte hodnotu hyperparametru. Pokud chceme uvedený algoritmus použít k detekci pacientů s nemocí srdce, jakou statistiku bychom měli sledovat abychom omylem nepropustili nemocného domů jako zdravého?

* Spočtěte a porovnejte statistiky používané při binární klasifikaci na trénovacích a testovacích datech. Vykreslete ROC křivku a spočtěte plochu pod ní jak pro testovací tak trénovací data. Co můžeme říci o kvalitě modelu z této sekce 05 a modelu z předchozí 04?




## Poznámky k odevzdání a vypracování

* Úkol vypracujte ve skupině. Pokud se budete s někým radit mimo skupinu, nezapomeňte u dané odpovědi uvést zdroj vašich informací.

* Úkol můžete odevzdávat jako spustitelný jupyter notebook na google colab (stačí odevzdat link na github). Před odevzdáním ZKONTROLUJTE, že buňky na sebe navazují a že lze NB postupně projít a jednotlivé buňky nezahlásí chybu.

* Deadline pro odevzdání je stanoven na sředu 21.6.2023.

* Není možno odevzdání opakovat. Odevzdaný úkol zkontroluji a buď zápočet získáte, nebo ne. Je vyžadováno mít alespoň 75% úkolů správně.

* V případě otázek se ptejte veřejně v general kanále v MS Teams. Ostatní mohou mít podobné problémy a tudíž pokud je někde například nejasné zadání, tak ať mají všichni stejnou příležitost.

* Možno psát a odevzdat v Pythonu.