# Zadání zápočtové úlohy z předmětu 01ZLMA/01ZLIM v 2020/2021

Zápočtovou úlohu vypracujte na datech pacientů, u kterých byla indikována srdeční choroba. 

Data jsou k nalezení: https://archive.ics.uci.edu/ml/datasets/Heart+Disease

Různé analýzy a grafická vizualizace tohoto datasetu lze nalézt také na: https://www.kaggle.com/ronitf/heart-disease-uci (pozor jiné  popisy, nahrazeni NaN, ...)

Pro zápočtovou úlohu byla však data lehce modifikována a rozdělena.

## 00 - Popis dat


    age: 
    sex:
        0: Female
        1: Male
    chest_pain_type: Chest Pain Type
        0: asymptomatic
        1: atypical angina
        2: non-anginal pain
        3: typical angina
    blood_pressure: Resting Blood Pressure: Person's resting blood pressure
    cholesterol: Serum Cholesterol in mg/dl
    blood_sugar: Fasting Blood Sugar
        0:Less Than 120mg/ml
        1: Greater Than 120mg/ml
    rest_ecg: Resting Electrocardiographic Measurement
        0: showing probable or definite left ventricular hypertrophy by Estes' criteria
        1: normal
        2: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV)
    heart_rate: Max Heart Rate Achieved: Maximum Heart Rate Achieved
    ex_angina: Exercise Induced Angina
        1: Yes
        0: No
    st_depression: ST depression induced by exercise relative to rest
    st_slope: Slope of the peak exercise ST segment
        0: downsloping
        1: flat
        2: upsloping
    thal:  blood disorder called 'Thalassemia':
        1: fixed defect
        2: normal
        3: reversable Defect
    num_vessels: Number of Major Vessels: Number of major vessels colored by fluoroscopy


### Načtení a úprava dat



In [None]:
library(tidyverse)
library(knitr)

In [None]:
data_train <- "https://raw.githubusercontent.com/francji1/01ZLMA/main/data/heart_train.csv"
data_train  <- read.table(data_train, header = T, sep = ",")
head(data_train)

In [None]:
data_test <- "https://raw.githubusercontent.com/francji1/01ZLMA/main/data/heart_test.csv"
data_test  <- read.table(data_test, header = T, sep = ",")
head(data_test)

### Vytvoření agregované tabulky 

In [None]:
# for my purpose
# table(data_train$blood_pressure)
# hist(data_train$blood_pressure,breaks=20)
# table(data_train$age)
# hist(data_train$age,breaks=20)
# table(data_train$chest_pain_type)


In [None]:
data_table <- data_train %>%
   dplyr::select(age, sex, blood_pressure,disease) %>%
   mutate(age             = cut(age, breaks=c(-Inf, 44,60, Inf),labels=c("30-45","45-60","60-75")),
          blood_pressure  = cut(blood_pressure, breaks=c(-Inf, 120,130,140,Inf),labels=c("100-120","121-130","131-140","140-180"))) %>%
  group_by(age,blood_pressure) %>%
  summarise(n = n(),
         disease_yes = sum(disease),
         disease_no = n - sum(disease)
        )        
   data_table

## 01 - Grafické zobrazení dat (potřeba získat 1 / maximálně možno získat 2,  časový odhad 15 min.)

Použijte `data_train`. Nejen pro lepší práci a názornější grafy můžete kódové označení ve faktorových proměnných nahradit popisy ze zadání.

* Zobrazte diskrétní proměnné pomocí histogramu, kde barevně rozlišíte mezi pacienty s vadou a bez vady srdce (target 0/1)
* Jednotlivé spojité proměnné zobrazte pomocí dvou boxplotu dle odezvy (s nemoci/bez nemoci) a pomoci scatterplotů mezi sebou, kde barevně oddělíte jednotlivé body opět podle odezvy (s nemocí srdce / bez nemoci srdce) 

## 02 - Logistická regrese agregovaná tabulková data (3 / 5, časový odhad 30 min.)

použijte `data_table`





* Vytvořte odezvu pro logistický model binomického rozdělení a sestrojte nulový model. Jaká je ve zkoumané populaci  průměrná šance na srdeční chorobu a jaká je pravděpodobnost srdeční choroby? 

* Sestrojte model, kde závisí výskyt srdeční choroby pouze na tlaku. Je vliv tlaku statisticky významná proměnná na hladině významnosti 0.05? Pokud ano, zjistěte, kolikrát mají pacienti se srdečním tlakem mezi 140 a 180 vetší šanci na srdeční chorobu než pacienti s tlakem mezi 100 a 120.

* Sestrojte model, kde závisí výskyt srdeční choroby pouze na věku. Je věku  statisticky významná proměnná na hladině významnosti 0.01? Pokud ano, zjistěte, kolikrát mají pacienti ve věku mezi 60-75 a vetší šanci na srdeční chorobu než pacienti ve věku 45-60.

* Předpokládejte, že šance na srdeční chorobu roste exponenciálně s hodnotou tlaku a exponenciálně s věkem. Vytvořte příslušné numerické spojité prediktory, jakožto středy intervalů tlaku a věku. Sestrojte model, kde šance na srdeční chorobu bude záležet na numerických hodnotách tlaku a věku (bez interakce). Jaký je poměr šancí na srdeční chorobu mezi pacienty lišícími se o 10 let a majícími stejný tlak? 

* Otestujte předešlý model proti saturovanému modelu. Má tento test opodstatnění? Okomentujte jeho výsledek. 

## 03 - Poissonovská regrese na agregovaná tabulková data (4 / 7, časový odhad 30 min.)

použijte  `data_table`


* Upravte tabulku do potřebného formátu a sestrojte čistě aditivní loglineární model pro četnosti pozorování ve skupinách, který předpokládá vzájemnou
nezávislost mezi všemi třemi skupinovými prediktory (věk, tlak, oneocnění).

* Na základě předchozího modelu, jaký je odhad šance na srdeční onemocnění mezi všemi vybranými pacienty a jaký je odhad pravděpodobnosti srdeční choroby?

* Sestavte model, který obsahuje všechny možné dvojné interakce mezi klasifikačními veličinami a porovnejte tento model s předchozím modelem bez interakcí. Je tento model statisticky významně lepší?

* Na základě předchozího modelu, jaký je odhad poměru šancí na srdeční onemocnění pacientů ve věku mezi 60-75 oproti pacientům ve věku 45-60?

* Sestavte saturovaný model a vypište odhady jeho parametrů parametry. Je tento model statisticky významně lepší než předchozí s dvojtými interakcemi? 

* Na základě saturovaného modelu, je ve všech věkových skupinách stejná souvislost mezi tlakem a onemocněním srdce?

* Ve které věkové kategorii je největší rozdíl v onemocnění srdce mezi
lidmi s tlakem menším než 120 a s lidmi s tlakem větším než 140?


## 04 - Logistická regrese - statistika (4/8, časový odhad 45 min.)

Nyní již používejte `data_train`

* Vypište kontingenční tabulku pro proměnné pohlaví (`sex`) a onemocnění (`disease`). Ručně z tabulky spočtěte empirický poměr šancí na onemocnění srdce (muž vs. žena) a pravděpodobnost onemocnění pro ženu a muže. Výsledek porovnejte s výsledky z logistické regrese, kde jediným prediktorem bude právě proměnná `sex` a odezvou proměnná `disease`. Pro poměr šancí uveďte i 95% konfidenční interval a okometujte, zdali mají ženy signifikantně menší šanci na onemocnění srdce.

* Vypište kontingenční tabulku pro proměnné typ bolesti (`chest_pain_type`) a onemocnění (`disease`). Ručně z tabulky spočtěte empirický poměr šancí na onemocnění srdce (type 0: asymptomatic, proti ostatním) a pravděpodobnosti onemocnění pro jednotlivé typy. Výsledek porovnejte s výsledky z logistické regrese, kde jediným prediktorem bude právě proměnná `chest_pain_type` a odezvou proměnná `disease`. Pro poměr šancí uveďte i 95% konfidenční interval a okometujte, zdali mají pacienti s asymptomatickou bolestí signifikantně menší šanci na onemocnění srdce oproti ostatním typům bolestí.

* Sestavte model, kde použijete všechny dostupné proměnné (jak faktorové tak numerické). Pomocí deviančních testů model postupně redukujte. Výsledný model porovnejte s modelem, který byste obdrželi při použití automatického výběru s funkcí `step()`.

* Pro vybraný model spočtěte šanci na srdeční onemocnění pro muže oproti ženám, včetně 95% konfidenčních intervalů. Stejně tak pro asymptomaticky typ bolesti na hrudi proti ostatním. Jak se výsledek změnil oproti jednoduchým modelům a jak byste tuto změnu vysvětlili?

* (2b) Použijte váš model a spočtěte odhad pravděpodobnosti srdeční choroby pro testovací data vykreslete pro proměnou `blood_pressure` predikční konfidenční intervaly. 
Nápověda krom cvičení, také třeba zde: https://fromthebottomoftheheap.net/2017/05/01/glm-prediction-intervals-i/

* (2b) Na základě trénovacích dat zvolte vhodný treshold pro určení má nemoc / nemá nemoc a na testovacích datech spočtěte Accuracy a vykreslete ROC křivku.





## 05 - Logistická regrese -  strojové učení (1(za snahu a rozpracování)/3, časový odhad 60 min.)

* Sestavte workflow (pipeline) na trenovacích datech pro logistickou regresi s použitím regularizace (elestic-net), která bude obsahovat 
 *   Přípravu proměnných, transformaci, one-hot encoding, normalizaci, ... (Možno použít recipe z tidy models)
 *   Hledání "optimálního" nastavení hyperparametru v regularizaci. 
 *   k-fold cross validaci

* Pomocí předchozí pipline/workflow vyberte hodnotu hyperparametru. Pokud chceme uvedený algoritmus použít k detekci pacientů s nemocí srdce, jakou statistiku bychom měli sledovat abychom omylem nepropustili nemocného domů jako zdravého? 

* Spočtěte a porovnejte statistiky používané při binární klasifikaci na trénovacích a testovacích datech. Vykreslete ROC křivku a spočtěte plochu pod ní jak pro testovací tak trénovací data. Co můžeme říci o kvalitě modelu z této sekce 05 a modelu z předchozí 04?




## Poznámky k odevzdání a vypracování

* Úkol vypracujte samostatně. Pokud se budete s někým radit, nezapomeňte u dané odpovědi uvést zdroj vašich informací. 

* Úkol můžete odevzdávat jako spustitelný jupyter notebook na google colab (stačí odevzdat link), nebo pdf (export z R markdownu, nebo Jupyter notebooku), pomocí MS Teams. 

* Deadline pro odevzdání je stanoven na úterý 22.6.2021.

* Není možno odevzdání opakovat. Odevzdaný úkol zkontroluji a buď zápočet získáte, nebo ne.

* Pokud se rozhodnete na někkteré otázky neodpovídat, počítejte s tím, že v dané sekci ztrácíte body a odpovědi z dalších otázek nemusí stačit na minimum za danou sekci.

* V případě otázek se ptejte veřejně v general kanále v MS Teams. Ostatní mohou mít podobné problémy a tudíž pokud je někde například nejasné zadání, tak ať mají všichni stejnou příležitost.

* Možno psát a odevzdat v Python