
# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur adjoint au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>

Ce TD a été développé avec l'aide précieuse de :
- Sanae Lofti, candidate à la maîtrise,
- Amine Bellahsen, candidat à la maîtrise.<br/>

Tous les deux étaient inscrits au cours à l'automne 2018.

---


# TD 9 : Analyse exploratoire des données du projet final et première soumission 
___

### Description

Dans ce travail dirigé, nous explorerons le lien entre le mode de transport emprunté pour les déplacements avec un certains nombre de variables explicatives. Vous devrez compléter par vous-même cette analyse exploratoire pour ultimement améliorer la qualité de vos modèles et par le fait même de vos prédictions.

### Objectif

L'objectif de ce TP n'est pas de répondre à toutes les questions ouvertes de ce problème, mais de vous préparer et vous donner des outils pour le projet final du cours MTH3302. On essayera alors de faire une analyse brève des données qui permettra de vous donner des idées. **Une analyse plus profonde sera attendue de vous pour le projet final, surtout en ce qui concerne la relation entre : le type de transport utilisé, la proximité des moyens de transports et le nombre d'emploi accessibles en transport en commun en moins de 45 minutes à 8 heures le matin.** 

Dans ce TD, nous utilisons un modèle très simple de classifaction bayésienne naïve pour prédire le mode de transport. Ce sera voter travail d'améliorer ce modèle. Notez que vous n'êtes pas contraint d'utiliser la classification bayésienne naïve pour réaliser votre projet final.


### Données

Les données des ensembles d'entraînement et de test peuvent être récupérées sur Moodle.



### Sommaire:
___


[Préliminaires](#unit0)  
[Exercice 1](#unit1)  
[Exercice 2](#unit2)  
[Exercice 3](#unit3)  


In [None]:
using CSV, DataFrames, Gadfly, Distributions, StatsBase

┌ Info: Loading DataFrames support into Gadfly.jl
└ @ Gadfly /Users/BenjaminBeaudry/.julia/packages/Gadfly/09PWZ/src/mapping.jl:228


## Chargement des données de l'ensemble d'entraînement

Le fichier *ODtrain.csv* doit être télécharger depuis Moodle dans le répertoire du présent calepin.

In [None]:
train = CSV.read("ODtrain.csv")
first(train,5)

In [None]:
n = size(train,1)
p = size(train,2)
println("Le fichier d'entraînement contient $n déplacements et $p variables.")

## Nettoyage des données

Dans ce jeu de données, il n'y a aucune valeurs manquantes. La première étape consiste à se débarasser du type complexe des variables permettant d'avoir des valeurs manquantes. La deuxième étape consiste à transformer le mode de transport en une variable catégorielle avec un beau nom pour faire des plus beaux graphiques.

In [None]:
dropmissing!(train, disallowmissing=true)
first(train,5)

In [None]:
str_mode = ["Voiture", "Transport Collectif", "Hybride", "Actif", "Autre"]

d = Array{String}(undef,n)

for i=1:length(str_mode)
   
    ind = train[:D_Mode] .== i
    d[ind] .= str_mode[i] 
    
end

train[:D_Mode_str] = d

categorical!(train, :D_Mode_str)

first(train,5)

## Analyse exploratoire
___

L'analyse exploratoire de données est une étape essentielle, car c'est un processus d'inspection, de nettoyage, de transformation et de modélisation de données visant à

- découvrir des informations utiles ;
- alimenter des conclusions ;
- appuyer la prise de décision. 

Documenter son approche est une tâche essentielle en apprentissage machine. Vous serez donc évalué sur la clarté de la présentation de vos résultats et de la justification de la méthodologie. Les figures que vous produierai lors de l'analyse exploratoire seront donc utiles pour justifier votre démarche.

In [None]:
#= fonction permettant d'extraire la fréquence relative de chaque mode en fonction des 
classes «edges» de la variable explicatives =#

function histnorm(train::DataFrame, edges::AbstractVector, varname::Symbol)

    center = (edges[1:end-1]+edges[2:end])/2

    c = Array{Float64}(undef,5,length(center))
    
    m = unique(train[:D_Mode_str])
    

    for i=1:length(m)
        ind = train[:D_Mode_str] .== m[i]
        x = train[ind, varname]

        h = fit(Histogram,x, edges)

        c[i,:] = h.weights

    end

    nᵢ = vec(sum(c, dims=1))

    df = DataFrame(Center = center)

    for i=1:5
        df[Symbol(m[i])] = c[i,:] ./ nᵢ
    end

    df = melt(df, :Center)

    rename!(df, :Center => varname)
    rename!(df, :value => :proportion)
    rename!(df, :variable => :D_Mode_str)

    return df
    
end

### Fréquence des modes de transport

Affiche le nombre de déplacements dans l'ensemble d'entraînement pour chacun des modes. 

In [None]:
set_default_plot_size(9inch, 6inch)
plot(train, x=:D_Mode_str, Geom.histogram)

> <font color="blue"> On remarque que la voiture est le mode de transport le plus populaire.

### Fréquence des modes de transport en fonction de la distance du ménage au centre ville

Affiche le nombre de déplacements par modes en fonction de la distance du domicile à la gare centrale de Montréal.

In [None]:
plot(train, x=:M_dist_centre, color=:D_Mode_str,
     Geom.histogram(bincount=30), Coord.cartesian(xmin=0, xmax = 65))

> <font color="blue"> On remarque que quand la distance du domicile à la gare centrale de Montréal est petite, les gens ont tendance à utiliser un mode de transport actif ou les transports collectifs. Plus le domicile est loi de la gare centrale, plus l'usage de l'automobile devient important.
    
> <font color="blue"> On remarque aussi que la plupart des gens questionnés avaient un domicile proche de la Gare de la gare centrale de Montréal. Ceci peut refléter la réalité où la densité de la population est plus importante au centre-ville que dans les banlieues.

In [None]:
df = histnorm(train,0:1:40,:M_dist_centre)
plot(df, x = :M_dist_centre, y=:proportion, color=:D_Mode_str, Geom.bar, Coord.cartesian(ymin=0, ymax=1))

### Fréquence des modes de transport en fonction de l'âge des individus

Affiche le nombre de déplacements par modes en fonction de l'âge des individus.

In [None]:
plot(train, x=:P_AGE, color=:D_Mode_str, Geom.histogram(bincount=8))

> <font color="blue"> On remarque que les gens de moins de 25 ans ont plus tendance à prendre d'autres modes de transport que la voiture.

In [None]:
df = histnorm(train,0:10:80,:P_AGE)
plot(df, x = :P_AGE, y=:proportion, color=:D_Mode_str, Geom.bar, Coord.cartesian(ymin=0, ymax=1))

### Fréquence des modes de transport en fonction de la distance au métro le plus proche

La distance est en km.

In [None]:
plot(train, x=:M_dist_metro, color=:D_Mode_str,
     Geom.histogram(bincount=20), Coord.cartesian(xmin=0, xmax = 65))

> <font color="blue"> L'utilisation des transports collectifs et des modes actifs sont prépondérant lorsque la distance entre le domicile et la station de métro la plus proche est à moins de ~2 km. L'automobile est plus prisée au fur et à mesure que la distance augmente. 
    

In [None]:
df = histnorm(train,0:2:40,:M_dist_metro)
plot(df, x = :M_dist_metro, y=:proportion, color=:D_Mode_str, Geom.bar, Coord.cartesian(ymin=0, ymax=1))

### Fréquence des modes de transport en fonction du nombre d'emplois disponibles à moins de 45 min de transport en commun

Trajet calculé à 8h00 du matin.

In [None]:
plot(train, x=:M_emploiTC, color=:D_Mode_str, Geom.histogram(bincount=30))

In [None]:
df = histnorm(train,0:1e5:1e6,:M_emploiTC)
plot(df, x = :M_emploiTC, y=:proportion, color=:D_Mode_str, Geom.bar, Coord.cartesian(ymin=0, ymax=1))

### Fréquence des modes de transport en fonction du nombre de personnes par ménage

In [None]:
plot(train, x=:M_PERS, color=:D_Mode_str, Geom.histogram(bincount=20))

In [None]:
df = histnorm(train,0:1:19,:M_PERS)
plot(df, x = :M_PERS, y=:proportion, color=:D_Mode_str, Geom.bar, Coord.cartesian(ymin=0, ymax=1))

### Fréquence des modes de transport en fonction du secteur municipal

In [None]:
plot(train, x=:M_DOMSM, color=:D_Mode_str, Geom.histogram(bincount=113))

In [None]:
df = histnorm(train,100:1:700,:M_DOMSM)
plot(df, x = :M_DOMSM, y=:proportion, color=:D_Mode_str, Geom.bar, Coord.cartesian(ymin=0, ymax=1))

### Fréquence des modes de transport en fonction du secteur municipal (regroupés)

In [None]:
d = Array{Int64}(undef,n)

for i=1:length(train[:M_DOMSM])
    mun = train[:M_DOMSM][i];
    if mun == 101 || mun == 102
        d[i] = 1;
    elseif (mun >= 103 && mun <= 112) || (mun >= 120 && mun <= 124)
        d[i] = 2;
    elseif mun >= 113 && mun <= 118
        d[i] = 3;
    elseif mun >= 126 && mun <= 141
        d[i] = 4;
    elseif mun >= 301 && mun <= 310
        d[i] = 5;
    elseif mun >= 401 && mun <= 408
        d[i] = 6;
    elseif mun >= 501 && mun <= 576
        d[i] = 7;
    elseif mun >= 601 && mun <= 691
        d[i] = 8;
    else
        d[i] = 9;
    end
end

train[:M_DOMSM_G] = d

first(train,5)

In [None]:
plot(train, x=:M_DOMSM_G, color=:D_Mode_str, Geom.histogram(bincount=9))

In [None]:
df = histnorm(train,0:1:9,:M_DOMSM_G)
plot(df, x = :M_DOMSM_G, y=:proportion, color=:D_Mode_str, Geom.bar, Coord.cartesian(ymin=0, ymax=1))

### A priori

In [None]:
dep = 5;
voi = train[train[:D_Mode] .== dep, :];
n = length(voi[:D_Mode]);
nm = round(sqrt(n));
print(nm);

plot(voi , x=:M_dist_centre, color=:D_Mode_str, Geom.histogram(bincount=nm))

In [None]:
fd = fit(Gamma, voi[:M_dist_centre]);
xx = 0:0.1:60;
f = pdf.(fd, xx);
h = layer(x = voi[:M_dist_centre], Geom.histogram(density = true));
f = layer(x = xx, y = f, Geom.line, Theme(default_color="red"));
plot(f, h)

## Génération d'un fichier de prédiction pour Kaggle

In [None]:
d = min.(data[:M_dist_metro],data[:M_dist_metro])
data[:M_dist_TC] = d;

In [None]:
ind = data[:M_dist_TC] .< 3
df = data[ind,:]
plot(df, x=:D_Mode, Geom.histogram)

In [None]:
ind = data[:M_dist_centre] .< 1
df = data[ind,:]
plot(df, x=:D_Mode, Geom.histogram)

In [None]:
ind = data[:D_Mode] .== "TC"
Mode2 = data[ind,:]

In [None]:
n = size(Mode2,1)
nbin = round(sqrt(n))

fd = fit(Gamma,Mode2[:M_dist_metro])
xx = range(0,stop = 40, length=1000)


h = layer(Mode2,x=:M_dist_metro, Geom.histogram(bincount=nbin, density=true), Theme(default_color="deepskyblue"))
d = layer(x=xx,y=pdf.(fd,xx), Geom.line, Theme(default_color="red"))
plot(d,h, Coord.cartesian(xmin=0, xmax=25))

In [None]:
n = size(Mode2,1)
nbin = round(sqrt(n))

fd = fit(Weibull,Mode2[:M_dist_metro])
xx = range(0,stop = 40, length=1000)


h = layer(Mode2,x=:M_dist_metro, Geom.histogram(bincount=nbin, density=true), Theme(default_color="deepskyblue"))
d = layer(x=xx,y=pdf.(fd,xx), Geom.line, Theme(default_color="red"))
plot(d,h, Coord.cartesian(xmin=0, xmax=25))