In [None]:
using CSV, DataFrames             # Pour charger et organiser les données
using Gadfly                      # Pour générer des graphiques
using Distributions               # Pour utiliser les distributions statistiques
using GLM                         # Libriairie pour la régression et les modèles linéaires généralisés
using LinearAlgebra               # Pour utiliser les fonctions d'algèbre linéaire
using MLBase                      # Pour utiliser les différents scores et la courbe ROC

In [None]:
"""
    auc(gt::Array{<:Real}, scores::Array{<:Real})

    Compute the area under the ROC curve based on the ground truth `gt` and the success probability `scores`.

    See also `roc()` of MLBase.
"""
function auc(gt::Array{<:Real},scores::Array{<:Real})

    # Compute the ROC curve for 100 equally spaced thresholds - see `roc()`
    r = roc(gt, scores)

    # Compute the true positive rate and false positive rate
    tpr = true_positive_rate.(r)
    fpr = false_positive_rate.(r)

    # Numerical computation of the area under the ROC curve
    p = sortperm(fpr)

    permute!(tpr,p)
    permute!(fpr,p)

    area = 0.0

    for i in 2:length(tpr)
        dx = fpr[i] - fpr[i-1]
        dy = tpr[i] - tpr[i-1]
        area += dx*tpr[i-1] + dx*dy/2
    end

    return area

end


"""
    rocplot(gt::Array{<:Real},scores::Array{<:Real})

    Show the ROC curve corresponding to the ground truth `gt` and the success probability `scores`.

    The curve is computed for 100 equally spaced thresholds.
"""
function rocplot(gt::Array{<:Real},scores::Array{<:Real})

    # Compute the ROC curve for 100 equally spaced thresholds - see `roc()`
    r = roc(gt, scores, 0:.01:1)

    # Compute the true positive rate and false positive rate
    tpr = true_positive_rate.(r)
    fpr = false_positive_rate.(r)

    return plot(x=fpr, y=tpr, Geom.line, Geom.abline(color="red", style=:dash),
        Guide.xlabel("False Positive Rate"), Guide.ylabel("True Positive Rate"))

end

# Chargement des données

Le jeu de données est partionné en deux sous-ensembles : un ensemble d'entraînement et un ensemble de test. L'ensemble d'entraînement, comportant les informations de 455 patients, sert à estimer les paramètres de notre modèle.

In [None]:
# Chargement l'ensemble d'entraînement

data = CSV.read("train.csv")
first(data, 5)

# 3.2 Régression logistique

Nous avons déterminés lors de l'analyse de composantes/l'analyse de multicolinéarité que nous avons fait dans un autre document quelles variables il fallait utiliser pour minimiser les problèmes de multicolinéarité et quelles variables conserver. On utilise donc les variables: "radius", "texture", "smoothness", "compactness", "concavity" et "symmetry" comme variable explicative dans le modèle linéaire généralisé.

In [None]:
# Comme nous l'avons vu dans l'analyse colinéaire, nous allons garder:
#  1- radius
#  2- texture
#  5- smoothness
#  6- compactness
#  7- concavity
#  9- symmetry

# TODO: il faut les standardiser


## Estimation par maximum de la vraisemblance du modèle de régression logistique

1. La classe des passagers est utilisée comme variable explicative
2. La fonction de lien logit est utilisée

In [None]:
M = glm(@formula(diagnosis ~ radius + texture + smoothness + compactness + concavity + symmetry), data,  Bernoulli(), LogitLink())

In [None]:
# Pour chacune des observations, estimation de la probabilité de survie

θ̂ = predict(M)

# 3.2.3 Mesure de la qualité du modèle

Supposons que l'on prédit que le passager survit si θ̂ > 1/2 (règle de décision par défaut supposant que les classes sont balancées).

In [None]:
# Le taux de bonnes prédictions
ŷ = zeros(Int64,length(data.diagnosis))
ŷ[θ̂ .> 1/2] .= 1 

println("Le taux de bonnes prédictions est de ", round(correctrate(data.diagnosis, ŷ), digits=3),".")


In [None]:
# Calcul du taux de vrais positifs et de faux positifs pour un seuil de 1/2.

r = roc(data.diagnosis, θ̂, 1/2)

println("La sensibilité est de ", round(recall(r), digits=3))
println("La spécificité est de ", round(precision(r), digits=3))
println("Le score F1 est de ", round(f1score(r), digits=3))

In [None]:
# Affichage de la courbe ROC

rocplot(data.diagnosis, θ̂)


In [None]:
# Calcul de l'aire sous la courbe ROC

A = auc(data.diagnosis, θ̂)