# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur adjoint au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>


# TD2 - Régression linéaire

Ce TD concerne la régression linéaire (Chapitre 2 du cours). À la fin de ce TD, vous devriez être avoir été en mesure de
- Estimer les coefficients des paramères de régression avec la méthode des moindres carrés.
- Valider les hypothèeses de régression à l'aide de l'analyse des résidus.
- Tester l'importance de la régression.
- Calculer des intervalles de confiances sur les coefficients et sur les prévisions.
- Vérifier la présence de multicolinéarité. 

Pour les deux premiers exercices, je vous suggère de ne utiliser la librairie GLM pour bien comprendre tous les concepts. La librairie GLM peut être utilisée pour le troisième exercice.

In [1]:
# Chargement des librairies
using CSV, DataFrames, Gadfly, Statistics, LinearAlgebra

┌ Info: Loading DataFrames support into Gadfly.jl
└ @ Gadfly C:\Users\massi\.julia\packages\Gadfly\09PWZ\src\mapping.jl:228


# Exercice 1 - Pourcentage de gras

Le pourcentage de gras est un indice de forme physique d'un individu. Or, la mesure de cet indice est assez difficile. Elle requiert l'immersion complète de l'individu dans un cylindre gradué rempli d'eau. 

Par conséquent, on souhaite savoir si on peut prédire le pourcentage de gras $Y$ avec trois mesures beaucoup plus simples à obtenir :

$x_1$ : l'épaisseur des plis de la peau des triceps (en mm) ;<br/>
$x_2$ : le tour de cuisse (en mm) ;<br/>
$x_3$ : la circonférence du bras en (mm).<br/>

Les mesures du fichier *bodyfat.csv* proviennent de 20 femmes en bonne santé, âgées entre 20 et 34 ans. 

In [2]:
# Chargement des données
data = CSV.read("bodyfat.csv")
first(data,5)

Unnamed: 0_level_0,Triceps,Thigh,Midarm,Bodyfat
Unnamed: 0_level_1,Float64,Float64,Float64,Float64
1,19.5,43.1,29.1,11.9
2,24.7,49.8,28.2,22.8
3,30.7,51.9,37.0,18.7
4,29.8,54.3,31.1,20.1
5,19.1,42.2,30.9,12.9


In [3]:
typeof(data)

DataFrame

## a) Affichage du pourcentage de graisse en fonction du tour de cuisse

Tracer le nuage de points du pourcentage de graisse en fonction de $x_2$, le tour de cuisse. Est-ce qu'une relation linéaire semble appropriée ?

In [None]:
plot(data, x=:Thigh, y=:Bodyfat)

In [None]:
println("Oui, une relation lineaire semble appropriee.")

## b) Estimation des paramètres de la régression linéaire simple

Estimez lez paramètres du modèle de régression linéaire entre le pourcentage de graisse et $x_2$, le tour de cuisse.

In [None]:
x₂ = data[:, :Thigh]
y = data[:, :Bodyfat]
ȳ = mean(y)
x̄ = mean(x₂)

n = length(x₂)


β̂₁ = sum( (x₂[i] - x̄)*(y[i] - ȳ) for i=1:n) / sum( (x₂[i] - x̄)^2 for i=1:n )

β̂₀ = ȳ - β̂₁ * x̄;

println("β̂₀ = $β̂₀")
println("β̂₁ = $β̂₁")

## c) Affichage de la droite de régression obtenue

Superposez au nuage de points précédent la droite de régression estimée.

In [None]:
x̂₂ = collect(range(minimum(x₂),stop=maximum(x₂),length=length(x₂)))
ŷ = β̂₀ .+ β̂₁ * x̂₂;

#plot(x=x̂₂, y=ŷ)
sample = layer( x=x₂, y=y, Geom.point, Theme(default_color="deepskyblue"))
regression = layer( x=x̂₂, y=ŷ, Geom.line, Theme(default_color="red"))

plot(sample,regression,
    Guide.manual_color_key("Légende", ["Échantillon", "Régression"], ["deepskyblue","red"]),
    Guide.xlabel("Tour de cuisse (cm)"), Guide.ylabel("Pourcentage de gras (%)"))

## d) Calul du $R^2$ ajusté et du $R^2$ de prévision.

Calculez pour le modèle de régression linéaire simple défini en (b) :
- le $R^2$ ajusté ;
- le $R^2$ de prévision.

In [None]:
# prevision
x₂ = convert(Array{Float64},data[!,:Thigh])
ŷ = β̂₀ .+ β̂₁ * x₂


ẽ = y - ŷ


SST = sum( (y[i] - ȳ)^2 for i=1:n)
println("SST = $SST")
SSE = sum( (ẽ).^2)
println("SSE = $SSE")
SSR = sum( (ŷ[i] - ȳ)^2 for i=1:n)

# nombre de variables explicatives
p = 1
R²ₐⱼ = 1 - (SSE / (n - p)) / (SST / (n - 1))

println("R²ₐⱼ = $R²ₐⱼ")
R²ₐⱼ = R²ₐⱼ * 100
println("On explique environ $R²ₐⱼ% de la variance des resultats")

In [None]:
R²ₚᵣₑᵥ = 1 - (sum( (y[i] - ŷ[i])^2 for i=1:n)) / sum( (y[i] - ȳ)^2 for i=1:n)
println("R²ₚᵣₑᵥ = $R²ₚᵣₑᵥ")
#R²ₚᵣₑᵥ = R²ₚᵣₑᵥ * 100
println("Nous sommes tres proche de la valeur parfait de 1 avec $R²ₚᵣₑᵥ ")

## e) Vérification de la multicolinéarité 

Si toutes les variables explicatives sont utilisées, vérifiez s'il y a présence de multicolinéarité.

In [None]:
function check_multicol(X::Array{T,2} where T<:Real)
   
    # Standardize first the explanatory variables
    m = mean(X, dims=1)
    s = std(X, dims=1)
    
    m[1] = 0
    s[1] = 1
    
    X̃ = (X .- m) ./s
    
    
    # compute the singular values
    λ = svdvals(X̃)
    # Calculer les valeurs singulières de X est plus efficace que calculer les valeurs propres de X'X
    
    # Coompute the multicollinearity index
    ϕ = maximum(λ) / minimum(λ)
    
    if ϕ > 30
        multicol = true
    else
        multicol = false
    end
    
    return multicol
end

## f) Régression avec l'épaisseur du pli du triceps et la circonférence du bras

Estimez les paramètres du modèle de régression utilisant l'épaisseur du pli du triceps et la circonférence du bras comme variables explicatives.

## g) Validation des hypothèses de la régression

Tracez les résidus en fonction des prévisions. Est-ce que les hypothèses de la régression semblent satisfaites ?

## h) Calul du $R^2$ ajusté et du $R^2$ de prévision.

Calculez pour le modèle de régression linéaire simple défini en (f) :
- le $R^2$ ajusté ;
- le $R^2$ de prévision.

## i) Sélection de modèle

Lequel des modèles définis en (b) et (f) est le meilleur ? Justifiez.

Ça dépend du critère. Si on intéressé à la prévision, alors le meilleur modèle est celui utilisant uniquement le tour de cuisse car son $R^2$ de prévision est supérieur.


# Exercice 2 - Notes de MTH2302B


Le jeu de données *notes.csv}* compile les notes obtenues aux deux contrôles périodiques et au final des 91 étudiants inscrits dans mes sections du cours MTH2302B pour les sessions A2017 et H2018. Durant la session d'automne, la majorité des étudiants provenait de génie chimique et génie biomédical tandis qu'à la session d'hiver, les étudiant provenaient majoritairement de génie mécanique et de génie aérospatial.

On souhaite déterminer s'il existe une relation linéaire entre la note au final ($Y$) et la note au premier contrôle ($X_1$) et la note au deuxième contrôle ($X_2$).


In [None]:
# Chargement des librairies
using CSV, DataFrames, Gadfly, Statistics, LinearAlgebra, Distributions

In [None]:
# Chargement des données
data = CSV.read("notes.csv")
first(data,5)

## a) Estimation des paramètres du modèle de régression

Estimez les paramètres du modèle de régression :
$$Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \epsilon.$$

## b) Validation des hypothèses de la régression

Validez les hypothèses de la régression avec le graphique des résidus

## c) Test sur l'importance de la régression

Testez au seuil de 5% si au moins une des variables explicatives possède un pouvoir prédictif significatif.

## d) Est-ce que la session à laquelle les étudiants étaient inscrits joue un rôle  significatif ?

## e) Prévision de la note au final.

Supposons qu'un étudiant ait obtenu les notes de $13/20$ et de $15/20$ respectivement aux deux premiers contrôles périodiques:

 - $x_1 = 13/20$;
 - $x_2 = 15/20$.

Obtenez les estimations de sa note au final s'il était inscrit à la session A2017 et s'il était inscrit à la session H2018.

# Exercice 3 - Résistance au cisaillement

Le jeu de données *visco.csv* contient la résistance au cisaillement (en kPa) d'un composé de caoutchouc en fonction de la température de durcissement (en degré Celcius). 

Pour cet exercice, utilisez la librairie GLM.

In [None]:
using CSV, DataFrames, Gadfly, Statistics, LinearAlgebra, GLM

In [None]:
# chargement des données
data = CSV.read("viscosite.csv")

In [None]:
# Changement du nom de la variable pour faciliter la manipulation
rename!(data, :Temperature => :T)

## a) Affichage de la résistance au cisaillement en fonction de la température

Affichez la résistance au cisaillement en fonction de la température.

## b) Estimez les paramètres du modèle linéaire et calculez le $R^2$ ajusté

## c) Estimez les paramètres du modèle quadratique et calculez le $R^2$ ajusté

## d) Estimez les paramètres du modèle cubique et calculez le $R^2$ ajusté