### Assignment 1: Preprocessing and description of the database
You will use your selected database in all assignments. In our first assignment we will dedicate ourselves to cleansing data, extracting new attributes, and descriptive analysis of data. We will also prepare an introduction and a description of the dataset for our final report, which will take the form of a scientific paper.
 
1) Database preparation and descriptive analysis
Before starting with a variety of data analyzes, it is always sensible to look at individual variables (attributes). For numeric variables, we check the extreme values ​​(min, max), the dimensions of the centering (median, average) and the dispersion (standard deviation). For nominal variables, check the frequency distribution. In this way, we can detect the presence of deviating values ​​(outliers), which can also represent noise in our data.
Using visual presentation of data (histograms, diffraction charts, block charts, ...) and dependencies between attributes can also be helpfull.
 
2) Preparing the final report in the form of a scientific paper
In the introductory chapter we present the problem and briefly describe the existing related research (literature review). Find research papers on the Internet that deal with similar issues and briefly describe their findings (at least 3 papers). The introduction should not be longer than half the page. Describe the purpose of your research.
A chapter on methodology will be followed, but we will include it later.
Continue with the Description section with describing your database. Use the results of the descriptive analysis of this assignment. You can also add charts as images with high resolution (at least 300 dpi).


Steps for the implementation of point 1):

a) Check the accuracy of the data for each attribute as mentioned above. Describe the attributes that you will use for your prediction modeling in a common table.

b) If the output attribute is not binary, change it to binary form.

c) Extract meaningful new attributes (eg. age from date of birth and date of diagnosis, etc.)

d) Describe the individual attributes according to the output attribute by using the appropriate graphs. Use at least three different graph models (for example: boxplot, dimensional chart, bar graph, ...). Export each of these graphs as .tiff image with at least 300 dpi.

e) In the case of a large number of missing values for a particular attribute, select the appropriate method for imputing them.

f) Estimate the predictive value of the most important numerical attribute (based on your opinion) with Area under the ROC curve, sensitivity and specificity.

g) Define the optimal threshold for the numerical attribute chosen in point (f) and print a classification cross table (confusion matrix) showing the accuracy of classifications by class (correctly / incorrectly classified re-hospitalized yes / no), precision in percentage and total accuracy of this classification rule.
 
Upload a working R-script and images of graphs to estudij. If you wish, you can also submit the first version of the paper in a Word format.

Links:

https://towardsdatascience.com/statistical-tests-for-comparing-machine-learning-and-baseline-performance-4dfc9402e46f

https://towardsdatascience.com/predictive-modeling-picking-the-best-model-69ad407e1ee7

https://www.youtube.com/watch?v=xugjARegisk

https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5

https://www.dataschool.io/simple-guide-to-confusion-matrix-terminology/

http://data-mining.philippe-fournier-viger.com/how-to-write-a-research-paper/ 



### Assignment 2: Classic classification algorithms
Classical machine learning techniques are still frequently used in the context of lower complexity. For example, decision trees are one of the simplest algorithms for data mining, which have a significant advantage over many "black box" approaches - a symbolic representation and, consequently easy interpretation. Algorithms for the construction of decision trees differ from one another depending on the type of construction and the evaluation function. Even simpler are algorithms for building decision rules, k-closest neighbors, Bayesian classifier, etc. Among the more complex, we can consider neural networks, support vector machines, genetic algorithms, etc.

Choose three different techniques of machine learning, describe and test them on a database.

Under the 2nd task you will:

a) Examine and test at least 3 (arbitrarily selected) classical machine learning techniques.

b) Examine the differences between the techniques selected and describe them in the report (Methodology section in the paper). Also take into account the most important parameters within the functions used.

c) Optimize the parameters (eg. pruning, finishing criteria, weights ...)

d) Compare the algorithms with each other and the effect of setting different values of their parameters as follows:

- Run 10 x bootstraping (controlled random division (set.seed)). You will get 10 models for each algorithm.
- For each model based on a single algorithm, calculate and store the following metrics: AUC, sensitivity, and specificity on the test set. Beware of the appropriate limit (threshold) for converting scale prediction results into binary if necessary.
- Calculate the average and the standard deviation of the 10x bootstraping results for AUC, sensitivity and specificity for each of the three algorithms.
- Graphically display the results of 10x bootstraping for all algorithms on the common graph separately for AUC, sensitivity and specificity. Use boxplots. Export images in high resolution (300 dpi).
- Compare the results between the algorithms and comment on them in the paper.
 
Submit a working r project (or r script) as well as images of comparative graphs for AUC, sensitivity and specificity in high resolution (300 dpi). Also submit an updated version of the paper in word format.
Links:

http://machinelearningmastery.com/assessing-comparing-classifier-performance-roc-curves-2/

https://dataaspirant.com/2017/01/13/support-vector-machine-algorithm/ 

https://www.neuraldesigner.com/blog/perceptron-the-main-component-of-neural-networks




### Assignment 3: Ensemble and hybrid methods

Ensemble and hybrid methods are among the most successful methods for data mining. Examples are: random forests, rotation forests, boosting, bagging, stacking, ...).

Choose three different ensemble or other hybrid methods and describe and test them on your database. One of the selected methods should be newer (currently popular). Additionally, compare performance of selected methods with logistic regression.

Under the 3nd task you will:

a) Examine and test at least 3 (arbitrarily selected) ensemble or other hybrid methods and logistic regression on their basis. At least one of them should be currently popular (successful) methods.

b) Examine the differences between the methods selected and describe them in the report (the article in the Methodology section). Also take into account the most important parameters within the functions used.

c) Optimize the parameters of each method and describe the differences

d) Compare algorithms with each other and the effect of setting the values of their parameters in the same way as in task 2.

Submit a working r project (or r script) as well as images of comparative graphs for AUC, sensitivity and specificity in high resolution (300 dpi). Also submit an updated version of the report (article) in word form.



### ЗАДАЧА 4 - РАЗРАБОТАТЬ СВОЙ СОБСТВЕННЫЙ МЕТОД (ИНДИВИДУАЛЬНАЯ РАБОТА)

 Легче представить систему множественной классификации в виде группы экспертов по предметной области, которые сталкиваются с конкретной проблемой. У каждого эксперта есть свое мнение и решение проблемы. Первый вопрос, который возникает, заключается в том, как такая группа экспертов должна принять окончательное решение. Самым простым решением, взятым из демократического общества, является голосование. Однако мы должны понимать, что таким образом мы пренебрегаем различиями между индивидуальными способностями экспертов или их экспертизы. В случае, если мы не были очень осторожны при выборе экспертов, вышеуказанное решение может быть нелогичным и неуместным. Поэтому лучше определить области знаний и выбрать только экспертов, которые лучше всего подходят для выбранной проблемы.

Можно заметить, что очень важно, чтобы каждый эксперт дал свой уровень уверенности в дополнение к решению. Но что делать, если у нас есть эксперт, который утверждает, что он очень надежный, но мы не можем проверить его надежность, потому что у него нет конкурентов? Кто должен оценить, действительно ли он является экспертом в данной области? Одно из решений - создать группу экспертов, которая задаст выбранную проблему. Их задача состоит в том, чтобы решить данную проблему, а затем объединить их решения, например, на основе собственного уровня доверия отдельного эксперта, который оценивается на основе решения проблем с известным решением.

Последняя задача - ПРОЕКТ включает определение и реализацию собственного гибридного или ансамблевого метода для классификации и тестирования его в выбранной базе данных. Цель состоит в том, чтобы определить как можно более успешный метод, предпочтительно более успешный, чем другие протестированные методы. Следовательно, метод, который просто объединяет определенное количество классификаторов в ансамбль (например, дерево решений, SVM и nnet) без какой-либо действительной причины, НЕ подходит.

Сравните результаты, полученные с вашим методом, с другими методами, которые вы реализовали, а также с методом Extreme Gradient Boosting или Penalized логистической регрессией (если вы уже использовали первый вариант в Задаче 3).

Инструкция:

1) определите свой индивидуальный гибридный / ансамблевый метод, который на вашей основе должен быть более успешным, чем другие методы, протестированные до сих пор. При этом учитывайте характеристики отдельных методов, которые вы включите в свой новый метод. Обоснуйте, почему ваш метод должен быть более успешным, чем другие, и опишите его в отчете. Объясните разумность вашего метода. Опишите метод в разделе методологии вашей статьи.

2) Реализуйте свой метод и проверьте точность 10-кратной повторной начальной загрузки, которую вы использовали для Задач 2 и 3.

3) Выполните оценку так же, как вы делали это в Заданиях 2 и 3.

4) Оцените производительность всех построенных моделей (AUC, чувствительность и специфичность) на тестовом наборе также в графической форме (с использованием blockplots, как в Задаче 3). Держите все графики 300 точек на дюйм.

5) Сравните результаты вашего метода с результатами методов, которые вы использовали до сих пор. Убедитесь, что вы всегда сравниваете только модели, которые были построены на одном и том же наборе обучения и проверены на одном наборе тестов.

6) Сравните результаты вашего метода с методом регрессии xgBoost или Penalized Logistic и отобразите последний с коробочными диаграммами (как в Задачах 2 и 3). Протестируйте различные настройки параметров для каждого метода, чтобы найти лучший результат. Сообщите, как изменение параметров влияет на предсказательную силу каждого метода.

(REF xgboost: http://www.jstatsoft.org/v54/i02/paper)

(REF xgboost: https://web.stanford.edu/~hastie/Papers/plr2.bs.pdf)

7) Опишите метод и результаты в статье.

8) Заполните отчет в форме статьи и добавьте его в разделы «Результаты», «Обсуждение» и «Заключение». В разделе Обсуждение и заключение ссылайтесь на ранее опубликованные статьи и их результаты.

Отправить рабочий проект (или сценарий) и статью. Также включите коробочные сюжеты в статью. Обсудите результаты и обратитесь к сравнению с существующими результатами!

Также представьте свое индивидуальное портфолио исследований.

