
# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur agrégé au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>

# Projet A2021 : Prédire les maladies cardiaques

La description du projet est disponible à l'adresse suivante :
https://www.kaggle.com/t/3a185493d8bb48d8961ad50e465bed4f

Ce calepin Jupyter de base permet de 

1. Charger les données fournies.
2. Effectuer une analyse exploratoire sommaire des données.
3. Développer un modèle simple de prédiction.
4. Générer le fichier de prédictions à téléverser sur Kaggle.

Dans un premier temps, vous devrez récupérer les données sous l'onglet *data* du site Kaggle. Il y a deux fichiers :
- train.csv
- test.csv

Le fichier *train.csv* contient les données sur lesquelles vous pouvez entraîner votre modèle. Il sera ensuite évaluée sur les données de l'ensemble *test.csv* lorsque vous aurez téléversé vos prédictions sur Kaggle. 

### Consignes

- Vous devez constituer une équipe de 3 à 5 personnes.
- Au moins une solution doit être proposée sur Kaggle.
- Utilisez votre numéro d'équipe pour téléverser vos prédictions sur Kaggle.
- Un seul fichier .ipynb par équipe faisant office de rapport et permettant de reproduire vos meilleures prédictions doit être remis.
- Le langage Julia doit être utilisé.
- Votre démarche doit être rigoureusement justifiée (consultez la grille de correction pour vous orienter).

### Quelques conseils

Votre calepin doit permettre de suivre clairement votre raisonnement et de reproduire vos résultats. Garder à l'esprit que vos résultats et votre démarche doivent être reproductibles par une personne à l'extérieur de votre équipe. Le calepin constitue le rapport. Servez vous des cellules de texte pour décrire ce que vous faites.

Je vous encourage fortement à faire une analyse exploratoire de vous données pour développer une meilleure expertise du problème. C'est une étape qui est toujours négligée par les débutants mais qui est essentielle. C'est avec l'analyse exploratoire que vous viendra des idées d'amélioration, par exemple créer de nouvelles variables explicatives.

Vous pouvez utiliser directement tout ce qui se retrouve dans les notes de cours sans explication et toutes les librairies utilisées dans le cours (incluant mes fonctions).

Ce calepin de base contient un modèle très simple de prédiction : on prédit 0 débordement à tous les jours. Ce sera votre travail d'améliorer ces prédictions naïves avec la méthode de votre choix.

Il faudra que vous trouviez un moyen de traiter les données manquantes. La plupart du temps, une méthode simple d'imputation (de remplacement) des données manquantes est appropriée.

Prenez la peine de tout documenter, même les essais infructueux. Ce n'est pas nécessaire de les expliquer en détails, mais c'est important de les mentionner au moins succintement dans la discussion avec une raison possible pour leur échec. De cette façon, une personne qui reprendra votre travail dans le futur ne perdra pas de temps à réessayer une méthode déjà implémentée et infructueuse.

Vous pouvez aussi indiquer dans votre rapport les raisons qui vous font croire pourquoi une méthode à moins bien performée que ce à quoi vous vous attendiez. Vous pouvez également mentionner ce que vous auriez pu tenter si vous aviez eu plus de temps ou plus de données, etc. L'idée est de guider le prochain scientifique qui prendra la relève de votre travail.

Vous êtes limités à deux soumissions par jour par équipe sur Kaggle. Je vous suggère donc de bien tester vos modèles localement et de ne téléverser que vos meilleurs candidats.

In [1]:
using CSV, DataFrames, Gadfly, GLM, Statistics, LinearAlgebra, Distributions, Combinatorics, StatsBase, MLBase, Random

In [2]:
include("functions.jl");

In [3]:
function forwardStepwiseRegression(data_frame::DataFrame, variables::Array{Symbol})
    current_variables = Array{Symbol}(undef, 0)
    max_area = 0;
    best_formula = undef

    best_current_variable_index = -1;
    best_current_formula = undef
    variable_count = length(variables)
    
    for i in 1:variable_count
        current_max_area = 0;
        for j in 1:length(variables)
            formula = Term(:HeartDisease) ~ Term(variables[j])
            if (length(current_variables) != 0)
                formula = Term(:HeartDisease) ~ sum(Term(current_variables[k]) for k in 1:length(current_variables)) + Term(variables[j]) 
            end

            M = glm(formula, data_frame,  Bernoulli(), LogitLink())
            θ̂ = Vector{Float64}(predict(M, data_frame))
            area = auc(data.HeartDisease,  θ̂ )
            if (area > current_max_area)
                current_max_area = area
                best_current_variable_index = j
                best_current_formula = formula
            end
            println("AUC pour ", formula, " : ", area)
            
        end
        if (current_max_area > max_area)
            max_area = current_max_area
            best_formula = best_current_formula
            push!(current_variables, variables[best_current_variable_index])
            deleteat!(variables, best_current_variable_index)
        else
            break;
        end
        println("Meilleur variables ", best_formula, " : ", max_area)
        println()
        
    end
    return best_formula
end

forwardStepwiseRegression (generic function with 1 method)

## 1. Chargement des données

Assurez vous d'avoir télécharger les données dans le répertoire de ce calepin.

In [4]:
data = CSV.read("train.csv", DataFrame)
first(data,5)

y = data[:, :HeartDisease]
n = length(y)

688

In [5]:
cholesterol_mean = floor(Int, mean(skipmissing(data.Cholesterol)))
data[!, :Cholesterol] = coalesce.(data.Cholesterol, cholesterol_mean);

In [6]:
data.Cholesterol = replace(data.Cholesterol, missing => cholesterol_mean);
# dropmissing!(data)

In [7]:
sex = zeros(Int, n)

for i in 1:n
    if (data.Sex[i] == "M")
        sex[i] = 1;
    end
end
data[!, :Sex] = sex;
data

Unnamed: 0_level_0,ID,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG
Unnamed: 0_level_1,Int64,Int64,Int64,String3,Int64,Int64,Int64,String7
1,1,69,1,ASY,140,110,1,Normal
2,2,60,1,ASY,140,293,0,LVH
3,3,52,1,ASY,165,244,1,Normal
4,4,46,1,NAP,120,230,0,Normal
5,5,61,1,NAP,120,244,0,Normal
6,6,46,1,NAP,150,231,0,Normal
7,7,45,0,ATA,112,160,0,Normal
8,8,47,1,ASY,140,276,1,Normal
9,9,43,1,ASY,150,247,0,Normal
10,10,49,0,ASY,130,269,0,Normal


In [8]:
ChestPainType1 = zeros(Int, n)
ChestPainType2 = zeros(Int, n)
ChestPainType3 = zeros(Int, n)

for i in 1:n
    if (data.ChestPainType[i] == "ATA")
        ChestPainType1[i] = 1;
    elseif (data.ChestPainType[i] == "NAP")
        ChestPainType2[i] = 1; 
    elseif (data.ChestPainType[i] == "ASY")
        ChestPainType3[i] = 1;
    end
end
select!(data, Not(:ChestPainType))
data[!, :ChestPainType1] = ChestPainType1;
data[!, :ChestPainType2] = ChestPainType2;
data[!, :ChestPainType3] = ChestPainType3;

In [9]:
restingECG1 = zeros(Int, n)
restingECG2 = zeros(Int, n)

for i in 1:n
    if (data.RestingECG[i] == "ST")
        restingECG1[i] = 1;
    elseif (data.RestingECG[i] == "LVH")
        restingECG2[i] = 1;  
    end
end
select!(data, Not(:RestingECG))
data[!, :RestingECG1] = restingECG1;
data[!, :RestingECG2] = restingECG2;

In [10]:
exerciseAngina = zeros(Int, n)

for i in 1:n
    if (data.ExerciseAngina[i] == "Y")
        exerciseAngina[i] = 1;
    end
end
data[!, :ExerciseAngina] = exerciseAngina;

In [11]:
STSlope1 = zeros(Int, n)
STSlope2 = zeros(Int, n)

for i in 1:n
    if (data.STSlope[i] == "Flat")
        STSlope1[i] = 1;
    elseif (data.STSlope[i] == "Down")
        STSlope2[i] = 1;  
    end
end
select!(data, Not(:STSlope))
data[!, :STSlope1] = STSlope1;
data[!, :STSlope2] = STSlope2;



In [12]:
variables = propertynames(select(data, Not([:ID, :HeartDisease])))

best_formula = forwardStepwiseRegression(data, variables)

AUC pour HeartDisease ~ Age : 0.6781437507979063
AUC pour HeartDisease ~ Sex : 0.6189029320396613
AUC pour HeartDisease ~ RestingBP : 0.5556576875611728
AUC pour HeartDisease ~ Cholesterol : 0.5641431550278735
AUC pour HeartDisease ~ FastingBS : 0.6141920932805651
AUC pour HeartDisease ~ MaxHR : 0.739439976169199
AUC pour HeartDisease ~ ExerciseAngina : 0.7411506872632878
AUC pour HeartDisease ~ Oldpeak : 0.7482233286522831
AUC pour HeartDisease ~ ChestPainType1 : 0.643031618366739
AUC pour HeartDisease ~ ChestPainType2 : 0.5990425124473382
AUC pour HeartDisease ~ ChestPainType3 : 0.7527256478999107
AUC pour HeartDisease ~ RestingECG1 : 0.5558108855695987
AUC pour HeartDisease ~ RestingECG2 : 0.5021447721179624
AUC pour HeartDisease ~ STSlope1 : 0.781931146006213
AUC pour HeartDisease ~ STSlope2 : 0.5364058045023192
Meilleur variables HeartDisease ~ STSlope1 : 0.781931146006213

AUC pour HeartDisease ~ STSlope1 + Age : 0.840269798714839
AUC pour HeartDisease ~ STSlope1 + Sex : 0.829775

AUC pour HeartDisease ~ STSlope1 + ChestPainType3 + Oldpeak + Sex + FastingBS + ExerciseAngina + STSlope2 + RestingBP : 0.9287416485807909
AUC pour HeartDisease ~ STSlope1 + ChestPainType3 + Oldpeak + Sex + FastingBS + ExerciseAngina + STSlope2 + Cholesterol : 0.9293501851142603
AUC pour HeartDisease ~ STSlope1 + ChestPainType3 + Oldpeak + Sex + FastingBS + ExerciseAngina + STSlope2 + MaxHR : 0.9278352270309373
AUC pour HeartDisease ~ STSlope1 + ChestPainType3 + Oldpeak + Sex + FastingBS + ExerciseAngina + STSlope2 + ChestPainType1 : 0.929094855100217
AUC pour HeartDisease ~ STSlope1 + ChestPainType3 + Oldpeak + Sex + FastingBS + ExerciseAngina + STSlope2 + ChestPainType2 : 0.9287459040810248
AUC pour HeartDisease ~ STSlope1 + ChestPainType3 + Oldpeak + Sex + FastingBS + ExerciseAngina + STSlope2 + RestingECG1 : 0.9276735180220436
AUC pour HeartDisease ~ STSlope1 + ChestPainType3 + Oldpeak + Sex + FastingBS + ExerciseAngina + STSlope2 + RestingECG2 : 0.9270820034895103
Meilleur variabl

FormulaTerm
Response:
  HeartDisease(unknown)
Predictors:
  STSlope1(unknown)
  ChestPainType3(unknown)
  Oldpeak(unknown)
  Sex(unknown)
  FastingBS(unknown)
  ExerciseAngina(unknown)
  STSlope2(unknown)
  Age(unknown)
  MaxHR(unknown)
  ChestPainType2(unknown)

## 2. Analyse exploratoire sommaire

C'est une analyse exploratoire sommaire. Je vous encourage fortement à poursuivre cette analyse.

#### 2.1 Maladie cardiovasculaire en fonction du rythme cardiaque maximal

In [13]:
# Calcul de la moyenne par classe

combine(groupby(data, :HeartDisease), :MaxHR => mean)

Unnamed: 0_level_0,HeartDisease,MaxHR_mean
Unnamed: 0_level_1,Int64,Float64
1,1,127.633
2,0,148.349


In [None]:
# Affichage des rythmes cardiques maximum en fonction de la classe

df = select(data, :MaxHR, :HeartDisease)

df.HeartDisease = string.(df.HeartDisease)

plot(df, x=:HeartDisease, y=:MaxHR, Geom.boxplot)

In [None]:
# Affichage des rythmes cardiques maximum en fonction de l'age

df = select(data, :Age, :HeartDisease)

df.HeartDisease = string.(df.HeartDisease)

plot(df, x=:HeartDisease, y=:Age, Geom.boxplot)

## 3. Ajustement d'un modèle de régression logistique

Ici, je n'utilise que la rythme cardiaque maximum comme variable explicative.

In [None]:
M = glm(best_formula, data, Bernoulli(), LogitLink())


## 4. Prédiction des surverses pour les jours de l'ensemble de test

On utilise le modèle simple de la section précédente pour estimer la probabilité que le patient souffre d'une maladie cardiovasculaire.

#### 4.1 Chargement des données de l'ensemble de test

In [None]:
test = CSV.read("test1.csv", DataFrame);
# y = test.HeartDisease
n = nrow(test)

In [None]:
cholesterol_mean = floor(Int, mean(skipmissing(test.Cholesterol)))
test[!, :Cholesterol] = coalesce.(test.Cholesterol, cholesterol_mean);
test.Cholesterol = replace(test.Cholesterol, missing => cholesterol_mean);
# dropmissing!(data)

In [None]:
sex = zeros(Int, n)

for i in 1:n
    if (test.Sex[i] == "M")
        sex[i] = 1;
    end
end
test[!, :Sex] = sex;

In [None]:
ChestPainType1 = zeros(Int, n)
ChestPainType2 = zeros(Int, n)
ChestPainType3 = zeros(Int, n)

for i in 1:n
    if (test.ChestPainType[i] == "ATA")
        ChestPainType1[i] = 1;
    elseif (test.ChestPainType[i] == "NAP")
        ChestPainType2[i] = 1; 
    elseif (test.ChestPainType[i] == "ASY")
        ChestPainType3[i] = 1;
    end
end
select!(test, Not(:ChestPainType))
test[!, :ChestPainType1] = ChestPainType1;
test[!, :ChestPainType2] = ChestPainType2;
test[!, :ChestPainType3] = ChestPainType3;

In [None]:
restingECG1 = zeros(Int, n)
restingECG2 = zeros(Int, n)

for i in 1:n
    if (test.RestingECG[i] == "ST")
        restingECG1[i] = 1;
    elseif (test.RestingECG[i] == "LVH")
        restingECG2[i] = 1;  
    end
end
select!(test, Not(:RestingECG))
test[!, :RestingECG1] = restingECG1;
test[!, :RestingECG2] = restingECG2;

In [None]:
exerciseAngina = zeros(Int, n)

for i in 1:n
    if (test.ExerciseAngina[i] == "Y")
        exerciseAngina[i] = 1;
    end
end
test[!, :ExerciseAngina] = exerciseAngina;

In [None]:
STSlope1 = zeros(Int, n)
STSlope2 = zeros(Int, n)

for i in 1:n
    if (test.STSlope[i] == "Flat")
        STSlope1[i] = 1;
    elseif (test.STSlope[i] == "Down")
        STSlope2[i] = 1;  
    end
end
select!(test, Not(:STSlope))
test[!, :STSlope1] = STSlope1;
test[!, :STSlope2] = STSlope2;

#### 4.2 Prédiction pour chacun des patients de l'ensemble de test

On prédit que le patient souffre d'une maladie cardiovasculaire si la probabilité est supérieure à 50%.

In [None]:
θ̂ = predict(M, test)

ŷ = Int64[]
index = 0;
for θ̂ᵢ in θ̂
    if θ̂ᵢ >= .35
        push!(ŷ, 1)
    else
        push!(ŷ, 0)
    end
end


#### 3.3 Préparation du fichier des préditions pour téléverser sur Kaggle

Le fichier *benchmark_predictions.csv* généré peut être téléversé sur Kaggle. Il est composé d'une colonne d'identifiants (ID) et d'une colonne des diagnostics prédits.

In [None]:
prediction = DataFrame(ID = test.ID, Prediction = ŷ)

CSV.write("benchmark_predictions.csv", prediction)
println(evaluateScore(prediction))

In [None]:
function evaluateScore(prediction::DataFrame)
    count = 0;
    for i = 1:nrow(prediction)
        if (prediction[i, 2] == test.HeartDisease[i])
            count = count + 1;
        end 
    end

    return count / nrow(prediction)
end

In [None]:
function findBestProbability()
    maxScore = 0;
    best_p = 0;
    for p in 0.1:0.01:0.9
        ŷ = Int64[]
        index = 0;
        for θ̂ᵢ in θ̂
            if θ̂ᵢ >= p
                push!(ŷ, 1)
            else
                push!(ŷ, 0)
            end
        end
        prediction = DataFrame(ID = test.ID, Prediction = ŷ)
        score = evaluateScore(prediction)
        if (score >= maxScore)
            maxScore = score
            best_p = p
        end
    end
    println("Meilleur score est ", maxScore, " avec ", best_p)
end

In [None]:
findBestProbability()