
# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur adjoint au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>

Le projet a été développé à l'aide de Alice Breton, étudiante à la maîtrise en génie informatique. Elle a suivi le cours lors de la session Hiver 2019.



# Projet : Débordement d'égouts

La description du projet est disponible à l'adresse suivante :
https://www.kaggle.com/t/a238b752c33a41d9803c2cdde6bfc929

Ce calepin Jupyter de base permet de charger et de nettoyer les données fournies. La dernière section détaille la génération du fichier des prédictions afin de le soumettre sur Kaggle dans le bon format.

Dans un premier temps, vous devrez récupérer l'archive *data.zip* sur Moodle. Ce dossier contient les fichiers suivants :
- surverses.csv
- precipitation.csv
- ouvrages-surverses.csv
- test.csv

Veuillez le décompresser dans le répertoire de ce calepin.

Le fichier *surverse.csv* répertorie s'il y a surverse (1) ou non (0) au cours de la journée pour les 170 ouvrages de débordement de 2013 à 2018 pour les mois de mai à octobre (inclusivement). Des renseignements additionnels sur les données sont disponibles à l'adresse suivante :

http://donnees.ville.montreal.qc.ca/dataset/debordement


Le fichier *precipitation.csv* contient les précipitations horaires en dixième de *mm* enregistrées à 5 stations pluviométriques de 2013 à 2019 :
- McTavish (7024745)
- Ste-Anne-de-Bellevue (702FHL8)
- Montreal/Pierre Elliott Trudeau Intl (702S006)
- Montreal/St-Hubert (7027329)
- L’Assomption (7014160)

Plus d'informations sur les précipitations sont disponibles à l'adresse suivante :

https://climat.meteo.gc.ca/climate_data/hourly_data_f.html?hlyRange=2008-01-08%7C2019-11-12&dlyRange=2002-12-23%7C2019-11-12&mlyRange=%7C&StationID=30165&Prov=QC&urlExtension=_f.html&searchType=stnName&optLimit=yearRange&StartYear=1840&EndYear=2019&selRowPerPage=25&Line=17&searchMethod=contains&Month=11&Day=12&txtStationName=montreal&timeframe=1&Year=2019

Le fichier *ouvrages-surverses.csv* contient différentes caractéristiques des ouvrages de débordement. 

http://donnees.ville.montreal.qc.ca/dataset/ouvrage-surverse

Le fichier *test.csv* contient les ouvrages et les jours pour lesquels vous devez prédire s'il y a eu surverse (true) ou non (false). Notez que l'on s'intéresse ici à 5 ouvrages de débordement localisés tout autour de l'Ile de Montréal :
- 3260-01D dans Rivière-des-Prairies 
- 3350-07D dans Ahunstic 
- 4240-01D dans Pointe-aux-Trembles 
- 4350-01D dans le Vieux-Montréal 
- 4380-01D dans Verdun

#### Remarque

Dans le projet, on ne s'intéresse qu'aux surverses occasionnées par les précipitations. On ignore les surverses occasionnées par 
- fonte de neige (F)
- travaux planifiés et entretien (TPL)
- urgence (U)
- autre (AUT)

On suppose que lorsqu'il n'y a pas de raison pour la surverse, il s'agit d'une surverse causée par les précipitations. Puisque Nous nous intéresserons uniquement aux surverses occasionnées par les précipitations liquides, nous ne considérons que les mois de mai à octobre inclusivement.

In [1]:
using CSV, DataFrames, Statistics, Dates, Gadfly, LinearAlgebra, Distributions, Random, ScikitLearn, GLM

┌ Info: Recompiling stale cache file C:\Users\Jonathan\.julia\compiled\v1.2\Gadfly\DvECm.ji for Gadfly [c91e804a-d5a3-530f-b6f0-dfbca275c004]
└ @ Base loading.jl:1240
┌ Info: Recompiling stale cache file C:\Users\Jonathan\.julia\compiled\v1.2\ScikitLearn\tbUuI.ji for ScikitLearn [3646fa90-6ef7-5e7e-9f22-8aca16db6324]
└ @ Base loading.jl:1240


## Fonctions gobales

In [2]:
"""
    splitdataframe(df::DataFrame, p::Real)

Partitionne en un ensemble d'entraînement et un ensemble de validation un DataFrame.

### Arguments
- `df::DataFrame` : Un DataFrame
- `p::Real` : La proportion (entre 0 et 1) de données dans l'ensemble d'entraînement.

### Détails

La fonction renvoie deux DataFrames, un pour l'ensemble d'entraînement et l'autre pour l'ensemble de validation.

### Exemple

\```
 julia> splitdataframe(df, p.7)
\```

"""
function splitdataframe(df::DataFrame, p::Real)
   @assert 0 <= p <= 1 
    
    n = size(df,1)
    
    ind = shuffle(1:n)
    
    threshold = Int64(round(n*p))
    
    indTrain = sort(ind[1:threshold])
    
    indTest = setdiff(1:n,indTrain)
    
    dfTrain = df[indTrain,:]
    dfTest = df[indTest,:]
    
    return dfTrain, dfTest
    
end

splitdataframe

# Chargement des données et nettoyage préliminaire

## Chargement des surverses

In [3]:
data = CSV.read("data/surverses.csv",missingstring="-99999")
first(data,5)

Unnamed: 0_level_0,NO_OUVRAGE,DATE,SURVERSE,RAISON
Unnamed: 0_level_1,String,Date,Int64⍰,String⍰
1,0642-01D,2013-05-01,0,missing
2,0642-01D,2013-05-02,0,missing
3,0642-01D,2013-05-03,0,missing
4,0642-01D,2013-05-04,0,missing
5,0642-01D,2013-05-05,0,missing


## Nettoyage des données sur les surverses

#### Extraction des surverses pour les mois de mai à octobre inclusivement

In [4]:
data = filter(row -> month(row.DATE) > 4, data) 
data = filter(row -> month(row.DATE) < 11, data) 
first(data,5)

Unnamed: 0_level_0,NO_OUVRAGE,DATE,SURVERSE,RAISON
Unnamed: 0_level_1,String,Date,Int64⍰,String⍰
1,0642-01D,2013-05-01,0,missing
2,0642-01D,2013-05-02,0,missing
3,0642-01D,2013-05-03,0,missing
4,0642-01D,2013-05-04,0,missing
5,0642-01D,2013-05-05,0,missing


#### Remplacement des valeurs *missing* dans la colonne :RAISON par "Inconnue"

In [5]:
raison = coalesce.(data[:,:RAISON],"Inconnue")
data[!,:RAISON] = raison
first(data,5)

Unnamed: 0_level_0,NO_OUVRAGE,DATE,SURVERSE,RAISON
Unnamed: 0_level_1,String,Date,Int64⍰,String
1,0642-01D,2013-05-01,0,Inconnue
2,0642-01D,2013-05-02,0,Inconnue
3,0642-01D,2013-05-03,0,Inconnue
4,0642-01D,2013-05-04,0,Inconnue
5,0642-01D,2013-05-05,0,Inconnue


#### Exlusion des surverses coccasionnées par d'autres facteurs que les précipitations liquides

Ces facteurs correspondent à : 
- la fonte de neige (F), 
- les travaux planifiés et entretien (TPL)
- urgence (U)
- autre (AUT)

In [6]:
data = filter(row -> row.RAISON ∈ ["P","Inconnue","TS"], data) 
select!(data, [:NO_OUVRAGE, :DATE, :SURVERSE])
first(data,5)

Unnamed: 0_level_0,NO_OUVRAGE,DATE,SURVERSE
Unnamed: 0_level_1,String,Date,Int64⍰
1,0642-01D,2013-05-01,0
2,0642-01D,2013-05-02,0
3,0642-01D,2013-05-03,0
4,0642-01D,2013-05-04,0
5,0642-01D,2013-05-05,0


#### Exclusion des lignes où :SURVERSE est manquante

In [7]:
surverse_df = dropmissing(data, disallowmissing=true)
first(surverse_df,5)

Unnamed: 0_level_0,NO_OUVRAGE,DATE,SURVERSE
Unnamed: 0_level_1,String,Date,Int64
1,0642-01D,2013-05-01,0
2,0642-01D,2013-05-02,0
3,0642-01D,2013-05-03,0
4,0642-01D,2013-05-04,0
5,0642-01D,2013-05-05,0


In [8]:
CSV.write("surverse_df.csv", surverse_df)

"surverse_df.csv"

## Chargement des précipitations

In [9]:
data = CSV.read("data/precipitations.csv",missingstring="-99999")
rename!(data, Symbol("St-Hubert")=>:StHubert)
first(data,5)

Unnamed: 0_level_0,date,heure,McTavish,Bellevue,Assomption,Trudeau,StHubert
Unnamed: 0_level_1,Date,Int64,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰
1,2013-01-01,0,0,0,0,0,missing
2,2013-01-01,1,0,0,0,0,missing
3,2013-01-01,2,0,0,0,0,missing
4,2013-01-01,3,0,0,0,0,missing
5,2013-01-01,4,0,0,0,0,missing


## Nettoyage des données sur les précipitations

#### Extraction des précipitations des mois de mai à octobre inclusivement

In [10]:
data = filter(row -> month(row.date) > 4, data) 
data = filter(row -> month(row.date) < 11, data) 
first(data,5)

Unnamed: 0_level_0,date,heure,McTavish,Bellevue,Assomption,Trudeau,StHubert
Unnamed: 0_level_1,Date,Int64,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰
1,2013-05-01,0,0,0,0,0,missing
2,2013-05-01,1,0,0,0,0,missing
3,2013-05-01,2,0,0,0,0,missing
4,2013-05-01,3,0,0,0,0,missing
5,2013-05-01,4,0,0,0,0,missing


 ### Remplissage des données manquantes
Nous allons tenter de remplir les données manquantes par des moyennes de précipitations lorsque les données sont inconnues pour 2 stations ou plus

In [11]:
# fonction permettant de compter le nombre de valeurs du type "missing" dans une ligne
function countMissing(line)
    count=0
    ind = 0
    for i=1:length(line)
        if (ismissing(line[i]))
            count += 1
            ind = i
        end
    end
    return count, ind
end

countMissing (generic function with 1 method)

In [12]:
# fonction permettant de calculer le moyenne des valeurs d'une ligne peu importe le nombre de "missing"
function meanLine(line)
    values = []
    for i=1:length(line)
        if (!ismissing(line[i]))
            append!(values,line[i])
        end
    end
    return mean(values)
end

meanLine (generic function with 1 method)

In [13]:
# fonction permettant de remplacer toutes les valeurs "missing" d'une ligne avec la valeur donnée en parametre
function replaceMissing(line,value)
    n = length(line)
    for i=1:n
        if (ismissing(line[i]))
            line[i] = value
        end
    end
end

replaceMissing (generic function with 1 method)

## Fonctions pour calculer les coefficients d'une regression ridge
Il faudra aussi retourner la moyenne et la variance pour déstandardizer les valeures

In [14]:
# Fonction pour faire une regression ridge
# Ressort le beta, m, et s
function ridge(datas::DataFrame, station::Symbol)
       
    Train, Test = splitdataframe(datas, .75);
    # Prétraitement des données
    # Les variables avec les tildes correspondent à l'échantillon de test

    X = convert(Matrix{Int64},Train[:,Not(station)])
    m = mean(X, dims=1)
    s = std(X, dims=1)
    m[2] = 0
    s[2] = 1
    X = (X .- m) ./ s

    X̃ = convert(Matrix{Int64},Test[:,Not(station)])
    X̃ = (X̃ .- m) ./ s

    y = convert(Vector{Int64}, Train[:,station])
    m = mean(y)
    s = std(y)
    y = (y .- m) ./s

    ỹ = convert(Vector{Int64}, Test[:,station])
    ỹ = (ỹ .- m) ./s;

    #On calcule ensuite le RMSE pour chacun des valeurs de lambda
    RMSEs = DataFrame(λ=Float64[], RMSE=Float64[])

    for λ in 0:1:10000
   
        β̂ = (X'X + λ*I)\X'y
    
        ŷ = X̃*β̂
    
        ẽ = ỹ - ŷ
    
        RMSE = sqrt(dot(ẽ,ẽ)/length(ẽ))
    
        push!(RMSEs, [λ, RMSE])
    
    end
    
    # On trouve ensuite la valeure de lambda qui minimise le RMSE
    _, ind = findmin(RMSEs[:,:RMSE])

    λ̂ = RMSEs[ind,:λ]
    
    β̂ = (X'X + λ̂*I)\X'y
    
    #TODO validate model and print value of validator R² ajuste
    
    #On peut alors calculer les y avec les betas trouver et l'echantillon de test
    ŷ = X̃ * β̂
    ŷ = round.((ŷ .* s) .+ m)
    
    # Calcul du R² ajusté

    p = 4          # nombre de variables explicatives
    n = length(ỹ)  # taille de l'échantillon

    ỹ = (ỹ .* s) .+ m
    ȳ = mean(ỹ)
    e = ỹ - ŷ

    SST = sum( (ỹ[i] - ȳ)^2 for i=1:n )  # variabilité totale
    SSE = sum( e.^2 )                    # variabilité résiduelle

    R2aj =  1 - SSE/SST * (n-1)/(n-p)
    
    println("Le R² ajuste du modele trouve pour la station de $(station) est $(R2aj)")
    
    return β̂
end

ridge (generic function with 1 method)

In [15]:
full_data = dropmissing(data, disallowmissing=true)
full_data = full_data[:,Not(:date)][:, Not(:heure)]
size(full_data)

(20001, 5)

In [16]:
betas = DataFrame(station = Symbol[], β = Array{Float64}[])
for name in names(full_data)
    β̂ = ridge(full_data, name)
    push!(betas, [name, β̂])
end
betas

Le R² ajuste du modele trouve pour la station de McTavish est 0.562406392136992
Le R² ajuste du modele trouve pour la station de Bellevue est 0.302488510815925
Le R² ajuste du modele trouve pour la station de Assomption est 0.2327471493178589
Le R² ajuste du modele trouve pour la station de Trudeau est 0.5673814588161323
Le R² ajuste du modele trouve pour la station de StHubert est 0.5186502700924934


Unnamed: 0_level_0,station,β
Unnamed: 0_level_1,Symbol,Array…
1,McTavish,"[0.0603683, 0.0180042, 0.310021, 0.464626]"
2,Bellevue,"[0.0803071, 0.00850951, 0.571074, 0.0520456]"
3,Assomption,"[0.205183, 0.00902556, 0.154182, 0.149968]"
4,Trudeau,"[0.378651, 0.0616915, 0.0512895, 0.0943693]"
5,StHubert,"[0.563172, 0.00466076, 0.097655, 0.0611672]"


### Faire le remplissage des valeurs manquantes

In [17]:
n = length(data[:,:date])
prec = data[:,Not(:date)][:,Not(:heure)]
nbMissing = 0

for row in eachrow(prec)
    nbMissing, ind = countMissing(row)
    if(nbMissing == 1)
        row[ind] = round((convert(Vector{Float64},row[Not(ind)])'*betas[:, :β][ind]))
    end
    # remplacer les lignes qui ont de 2 a 4 missing
    if(nbMissing<5 && nbMissing>1)
        replaceMissing(row,round(meanLine(row)))
    end
end
first(prec,10)

Unnamed: 0_level_0,McTavish,Bellevue,Assomption,Trudeau,StHubert
Unnamed: 0_level_1,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰
1,0,0,0,0,0
2,0,0,0,0,0
3,0,0,0,0,0
4,0,0,0,0,0
5,0,0,0,0,0
6,0,0,0,0,0
7,0,0,0,0,0
8,0,0,0,0,0
9,0,0,0,0,0
10,0,0,0,0,0


In [18]:
prec.heure = data[:,:heure]
prec.date = data[:,:date]
first(prec,5)

Unnamed: 0_level_0,McTavish,Bellevue,Assomption,Trudeau,StHubert,heure,date
Unnamed: 0_level_1,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64,Date
1,0,0,0,0,0,0,2013-05-01
2,0,0,0,0,0,1,2013-05-01
3,0,0,0,0,0,2,2013-05-01
4,0,0,0,0,0,3,2013-05-01
5,0,0,0,0,0,4,2013-05-01


In [19]:
clean_values = prec[: ,[:date, :heure, :McTavish, :Bellevue, :Assomption, :Trudeau, :StHubert]]
CSV.write("clean_values.csv",clean_values)

"clean_values.csv"

# Calcul des max et des sums par jour

In [43]:
pcp_sum = by(prec, :date,  McTavish = :McTavish=>sum, Bellevue = :Bellevue=>sum, 
   Assomption = :Assomption=>sum, Trudeau = :Trudeau=>sum, StHubert = :StHubert=>sum)
first(pcp_sum ,10)

Unnamed: 0_level_0,date,McTavish,Bellevue,Assomption,Trudeau,StHubert
Unnamed: 0_level_1,Date,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰
1,2013-05-01,0,0,0,0,0
2,2013-05-02,0,0,0,0,0
3,2013-05-03,0,0,0,0,0
4,2013-05-04,0,0,0,0,0
5,2013-05-05,0,0,0,0,0
6,2013-05-06,0,0,0,0,0
7,2013-05-07,0,0,0,0,0
8,2013-05-08,0,0,0,0,0
9,2013-05-09,10,0,19,0,8
10,2013-05-10,0,4,20,0,2


#### Extraction du taux horaire journalier maximum des précipitations pour chacune des stations météorologiques

In [44]:
pcp_max = by(prec, :date,  McTavish = :McTavish=>maximum, Bellevue = :Bellevue=>maximum, 
   Assomption = :Assomption=>maximum, Trudeau = :Trudeau=>maximum, StHubert = :StHubert=>maximum)
first(pcp_max,10)

Unnamed: 0_level_0,date,McTavish,Bellevue,Assomption,Trudeau,StHubert
Unnamed: 0_level_1,Date,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰
1,2013-05-01,0,0,0,0,0
2,2013-05-02,0,0,0,0,0
3,2013-05-03,0,0,0,0,0
4,2013-05-04,0,0,0,0,0
5,2013-05-05,0,0,0,0,0
6,2013-05-06,0,0,0,0,0
7,2013-05-07,0,0,0,0,0
8,2013-05-08,0,0,0,0,0
9,2013-05-09,10,0,19,0,6
10,2013-05-10,0,4,20,0,2


### Fonction pour calculer la precision d'un modele

In [45]:
function precision(model,test)
    
    reference = test[!,:Y]
    predictions = GLM.predict(model,test)
    n = length(predictions)
    roundedPredictions = round.(predictions)
    goodP = 0
    badP = 0
    for i=1:n
        if roundedPredictions[i] == reference[i]
            goodP +=1
        else
            badP +=1
        end
    end
    println("succes = $goodP")
    println("failiure = $badP")
    percentage = goodP/n
    println("accuracy = $percentage")

end

precision (generic function with 1 method)

### Fonction pour créer un modèle logistique

In [46]:
#fonction générique pour former un dataframe contenant les variables explicatives
# Array of data contient les dataframes des va explicatives
#list_of_va contient le type des données i.e ["sum" "max" ...]
# surverse contient les données de surverse
function createDataEx(array_of_data, list_of_va, surverse)
    df = surverse
    
    for va in 1:length(list_of_va)
        array = array_of_data[va]
        McTavish = Array{Union{Missing, Int64}}(missing, size(df,1))
        Bellevue = Array{Union{Missing, Int64}}(missing, size(df,1))
        Assomption = Array{Union{Missing, Int64}}(missing, size(df,1))
        Trudeau = Array{Union{Missing, Int64}}(missing, size(df,1))
        StHubert = Array{Union{Missing, Int64}}(missing, size(df,1))
        
        for i=1:size(df,1)
            ind = findfirst(array[:,:date] .== df[i,:DATE])
            McTavish[i] = array[ind,:McTavish]
            Bellevue[i] = array[ind,:Bellevue]
            Assomption[i] = array[ind,:Assomption]
            Trudeau[i] = array[ind,:Trudeau]
            StHubert[i] = array[ind,:StHubert]
        end
        
        df[!,Symbol(list_of_va[va] * "McTavish")] = McTavish
        df[!,Symbol(list_of_va[va] * "Bellevue")] = Bellevue   
        df[!,Symbol(list_of_va[va] * "Assomption")] = Assomption   
        df[!,Symbol(list_of_va[va] * "Trudeau")] = Trudeau   
        df[!,Symbol(list_of_va[va] * "StHubert")] = StHubert
    end
    
    return df
end

createDataEx (generic function with 1 method)

In [47]:
#fonction pour filtrer un dataframe selon l<ouvrage
function getOuvrage(data, ouvrage)
    return filter(row -> row.NO_OUVRAGE == ouvrage, data)
end

getOuvrage (generic function with 1 method)

In [48]:
createDataEx([ pcp_max, pcp_sum], ["max" "sum"], surverse_df)

Unnamed: 0_level_0,NO_OUVRAGE,DATE,SURVERSE,maxMcTavish,maxBellevue,maxAssomption,maxTrudeau
Unnamed: 0_level_1,String,Date,Int64,Int64⍰,Int64⍰,Int64⍰,Int64⍰
1,0642-01D,2013-05-01,0,0,0,0,0
2,0642-01D,2013-05-02,0,0,0,0,0
3,0642-01D,2013-05-03,0,0,0,0,0
4,0642-01D,2013-05-04,0,0,0,0,0
5,0642-01D,2013-05-05,0,0,0,0,0
6,0642-01D,2013-05-06,0,0,0,0,0
7,0642-01D,2013-05-07,0,0,0,0,0
8,0642-01D,2013-05-08,0,0,0,0,0
9,0642-01D,2013-05-09,0,10,0,19,0
10,0642-01D,2013-05-10,0,0,4,20,0


In [49]:
function modeleLogistique(ouvrage,data)
    
    
    df = getOuvrage(data, ouvrage)     
    dataframe = DataFrame(Y=df.SURVERSE, x₁=df.sumMcTavish,x₂=df.sumBellevue,x₃=df.sumAssomption,x₄=df.sumTrudeau,x₅=df.sumStHubert,x₆=df.maxMcTavish,x₇=df.maxBellevue,x₈=df.maxAssomption,x₉=df.maxTrudeau,x₁₀=df.maxStHubert)
    dropmissing!(dataframe)
    println(length(dataframe[:,:Y]))
    train,test = splitdataframe(dataframe,0.80)
    logicModel = glm(@formula(Y ~ x₁+x₂+x₃+x₅+x₆+x₇+x₈+x₉+x₁₀), train,  Bernoulli(), LogitLink())
    precision(logicModel,test)
    return logicModel, df
    
end

modeleLogistique (generic function with 2 methods)

In [86]:
@sk_import tree: DecisionTreeClassifier
function modeleArbreDecisif(ouvrage, data)
    
    df = getOuvrage(data, ouvrage)
    dropmissing!(df)
    X = convert(Matrix{Int64}, df[:, Not([:NO_OUVRAGE, :SURVERSE, :DATE])])
    Y = convert(Vector{Int64}, df[:, :SURVERSE])
    return DecisionTreeClassifier().fit(X,Y)
end



modeleArbreDecisif (generic function with 1 method)

In [50]:
va_table = createDataEx([ pcp_max, pcp_sum], ["max" "sum"], surverse_df)
Mvieuxmtl = modeleLogistique("4350-01D",va_table)
Mrdesp = modeleLogistique("3260-01D",va_table)
Mahunstic = modeleLogistique("3350-07D",va_table)
Mpauxt = modeleLogistique("4240-01D",va_table)
Mverdun = modeleLogistique("4380-01D",va_table)

1099
succes = 211
failiure = 9
accuracy = 0.9590909090909091
1096
succes = 210
failiure = 9
accuracy = 0.958904109589041
729
succes = 134
failiure = 12
accuracy = 0.9178082191780822
1099
succes = 214
failiure = 6
accuracy = 0.9727272727272728
1102
succes = 208
failiure = 12
accuracy = 0.9454545454545454


(StatsModels.TableRegressionModel{GeneralizedLinearModel{GLM.GlmResp{Array{Float64,1},Bernoulli{Float64},LogitLink},GLM.DensePredChol{Float64,Cholesky{Float64,Array{Float64,2}}}},Array{Float64,2}}

Y ~ 1 + x₁ + x₂ + x₃ + x₅ + x₆ + x₇ + x₈ + x₉ + x₁₀

Coefficients:
──────────────────────────────────────────────────────────────────────────────────────
                 Estimate  Std. Error      z value  Pr(>|z|)    Lower 95%    Upper 95%
──────────────────────────────────────────────────────────────────────────────────────
(Intercept)  -5.19416      0.403478    -12.8735       <1e-37  -5.98496     -4.40336   
x₁            0.000639445  0.00883189    0.0724018    0.9423  -0.0166707    0.0179496 
x₂           -0.00779066   0.00599816   -1.29884      0.1940  -0.0195468    0.00396552
x₃            0.0107324    0.00550761    1.94866      0.0513  -6.2285e-5    0.0215272 
x₅            0.0205377    0.0112834     1.82018      0.0687  -0.00157725   0.0426527 
x₆           -0.0147056    0.0106886   

In [78]:
MvieuxmtlT = modeleArbreDecisif("4350-01D",va_table)
MrdespT = modeleArbreDecisif("3260-01D",va_table)
MahunsticT = modeleArbreDecisif("3350-07D",va_table)
MpauxtT = modeleArbreDecisif("4240-01D",va_table)
MverdunT = modeleArbreDecisif("4380-01D",va_table)

PyObject DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [91]:
#Store models in Dict for easier acces DID NOT WORK
#modelsDict = Dict{"4350-01D" => Mvieuxmtl, "3260-01D"=>Mrdesp, "3350-07D"=>Mahunstic, "4240-01D"=>Mpauxt, "4380-01D"=>Mverdun}

TypeError: TypeError: in Type, in parameter, expected Type, got Pair{String,PyCall.PyObject}

#### Inclusion dans un dataframe de ces deux variables explicatives potentielles

In [None]:
# ouvrage = "4350-01D"

# df = filter(row -> row.NO_OUVRAGE == ouvrage, surverse_df)

# x₁ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var somme journalière--McTavish
# x₂ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var max journalier-----McTavish
# x₃ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var somme journalière--Bellevue
# x₄ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var max journalier-----Bellevue
# x₅ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var somme journalière--
# x₆ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var max journalier-----
# x₇ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var somme journalière
# x₈ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var max journalier
# x₉ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var somme journalière
# x₁₀ = Array{Union{Missing, Int64}}(missing, size(df,1)) # var max journalier



# for i=1:size(df,1)
    
#     ind = findfirst(pcp_sum[:,:date] .== df[i,:DATE])
#     x₁[i] = pcp_sum[ind,:McTavish]
#     ind = findfirst(pcp_max[:,:date] .== df[i,:DATE])
#     x₂[i] = pcp_max[ind,:McTavish]
    
#     ind = findfirst(pcp_sum[:,:date] .== df[i,:DATE])
#     x₃[i] = pcp_sum[ind,:Bellevue]
#     ind = findfirst(pcp_max[:,:date] .== df[i,:DATE])
#     x₄[i] = pcp_max[ind,:Bellevue]
    
#     ind = findfirst(pcp_sum[:,:date] .== df[i,:DATE])
#     x₅[i] = pcp_sum[ind,:Assomption]
#     ind = findfirst(pcp_max[:,:date] .== df[i,:DATE])
#     x₆[i] = pcp_max[ind,:Assomption]
    
#     ind = findfirst(pcp_sum[:,:date] .== df[i,:DATE])
#     x₇[i] = pcp_sum[ind,:Trudeau]
#     ind = findfirst(pcp_max[:,:date] .== df[i,:DATE])
#     x₈[i] = pcp_max[ind,:Trudeau]
    
#     ind = findfirst(pcp_sum[:,:date] .== df[i,:DATE])
#     x₉[i] = pcp_sum[ind,:StHubert]
#     ind = findfirst(pcp_max[:,:date] .== df[i,:DATE])
#     x₁₀[i] = pcp_max[ind,:StHubert]
    
# end

# df[!,:sumMcTavish] = x₁
# df[!,:maxMcTavish] = x₂
# df[!,:sumBellevue] = x₃
# df[!,:maxBellevue] = x₄
# df[!,:sumAssomption] = x₅
# df[!,:maxAssomption] = x₆
# df[!,:sumTrudeau] = x₇
# df[!,:maxTrudeau] = x₈
# df[!,:sumStHubert] = x₉
# df[!,:maxStHubert] = x₁₀


# #dropmissing!(df, [:SUM, :MAX],disallowmissing=true)
# first(df,10)

#### Traçage des distribution de la somme des précipitations en fonction des surverses ou non

On remarque que les deux distributions sont très différentes. Ceci suggère que la somme des précipitations à la station McTavish a un effet sur les surverses au Bota-Bota.

In [None]:
#plot(df, x=:SURVERSE, y=:SUM, Geom.boxplot)

#### Traçage des distribution de la somme des précipitations en fonction des surverses ou non

On remarque que les deux distributions sont très différentes. Ceci suggère que le maximum journalier des précipitations à la station McTavish a un effet sur les surverses au Bota-Bota.

In [None]:
#plot(df, x=:SURVERSE, y=:MAX, Geom.boxplot)

## Mise en place des valeurs cherchees 

In [82]:
test = CSV.read("data/test.csv")
df = test[:, [:NO_OUVRAGE, :DATE]]
rename!(df, :DATE=>:date)
for name in names(pcp_max[:, Not(:date)])
    name2 = name
    rename!(pcp_max, name=>Symbol("max" * String(name)))
    rename!(pcp_sum, name2=>Symbol("sum" * String(name2)))
end
df = join(df, pcp_max, on=:date, kind= :inner)
df = join(df, pcp_sum, on=:date, kind= :inner)


Unnamed: 0_level_0,NO_OUVRAGE,date,maxMcTavish,maxBellevue,maxAssomption,maxTrudeau,maxStHubert
Unnamed: 0_level_1,String,Date,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰
1,3260-01D,2019-05-02,12,7,7,8,10
2,3260-01D,2019-05-09,45,26,55,43,32
3,3260-01D,2019-05-10,66,48,50,48,50
4,3260-01D,2019-05-15,2,0,0,0,0
5,3260-01D,2019-05-20,40,5,27,51,38
6,3260-01D,2019-05-23,63,44,186,66,99
7,3260-01D,2019-05-24,9,4,12,6,12
8,3260-01D,2019-05-26,3,2,21,3,5
9,3260-01D,2019-05-30,7,7,10,12,10
10,3350-07D,2019-05-01,24,24,15,21,22


In [83]:
dataframe = DataFrame(ouvrage=df.NO_OUVRAGE, x₁=df.sumMcTavish,x₂=df.sumBellevue,x₃=df.sumAssomption,x₄=df.sumTrudeau,x₅=df.sumStHubert,x₆=df.maxMcTavish,x₇=df.maxBellevue,x₈=df.maxAssomption,x₉=df.maxTrudeau,x₁₀=df.maxStHubert)


Unnamed: 0_level_0,ouvrage,x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉
Unnamed: 0_level_1,String,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰,Int64⍰
1,3260-01D,26,19,15,13,17,12,7,7,8
2,3260-01D,89,67,77,86,67,45,26,55,43
3,3260-01D,385,265,286,285,316,66,48,50,48
4,3260-01D,2,0,0,0,0,2,0,0,0
5,3260-01D,46,5,49,53,50,40,5,27,51
6,3260-01D,175,119,351,159,213,63,44,186,66
7,3260-01D,13,11,22,15,14,9,4,12,6
8,3260-01D,3,3,21,5,7,3,2,21,3
9,3260-01D,7,8,13,12,10,7,7,10,12
10,3350-07D,79,52,58,47,68,24,24,15,21


In [52]:
function predictLogit(dataframe, Mvieuxmtl, Mrdesp, Mahunstic, Mpauxt, Mverdun)
    predictions = []
    for row in eachrow(dataframe)
        if row.ouvrage == "4350-01D" 
            predictions = vcat(predictions, GLM.predict(Mvieuxmtl, DataFrame(row[Not(:ouvrage)])))
        end
        if row.ouvrage == "3260-01D"
            predictions = vcat(predictions, GLM.predict(Mrdesp, DataFrame(row[Not(:ouvrage)])))
        end
        if row.ouvrage == "3350-07D"
            predictions = vcat(predictions, GLM.predict(Mahunstic, DataFrame(row[Not(:ouvrage)])))
        end
        if row.ouvrage == "4240-01D"
            predictions = vcat(predictions, GLM.predict(Mpauxt, DataFrame(row[Not(:ouvrage)])))
        end
        if row.ouvrage == "4380-01D"
            predictions = vcat(predictions, GLM.predict(Mverdun, DataFrame(row[Not(:ouvrage)])))
        end
    end
    return round.(predictions)
end

predictLogit (generic function with 2 methods)

In [88]:
function predictTree(dataframe, MvieuxmtlT, MrdespT, MahunsticT, MpauxtT, MverdunT)
    predictions = []
    for row in eachrow(dataframe)
        if row.ouvrage == "4350-01D" 
            predictions = vcat(predictions, MvieuxmtlT.predict([convert(Vector{Int64}, row[Not(:ouvrage)])]))
        end
        if row.ouvrage == "3260-01D"
            predictions = vcat(predictions, MrdespT.predict([convert(Vector{Int64}, row[Not(:ouvrage)])]))
        end
        if row.ouvrage == "3350-07D"
            predictions = vcat(predictions, MahunsticT.predict([convert(Vector{Int64}, row[Not(:ouvrage)])]))
        end
        if row.ouvrage == "4240-01D"
            predictions = vcat(predictions, MpauxtT.predict([convert(Vector{Int64}, row[Not(:ouvrage)])]))
        end
        if row.ouvrage == "4380-01D"
            predictions = vcat(predictions, MverdunT.predict([convert(Vector{Int64}, row[Not(:ouvrage)])]))
        end
    end
    return round.(predictions)
end

predictTree (generic function with 1 method)

In [89]:
predictions = predictTree(dataframe, MvieuxmtlT, MrdespT, MahunsticT, MpauxtT, MverdunT)

283-element Array{Int64,1}:
 0
 0
 0
 0
 1
 1
 0
 0
 0
 0
 1
 0
 0
 ⋮
 0
 0
 1
 0
 0
 0
 0
 0
 0
 1
 0
 0

In [90]:
predictions = predictLogit(dataframe, Mvieuxmtl, Mrdesp, Mahunstic, Mpauxt, Mverdun)

MethodError: MethodError: no method matching predict(::Tuple{StatsModels.TableRegressionModel{GeneralizedLinearModel{GLM.GlmResp{Array{Float64,1},Bernoulli{Float64},LogitLink},GLM.DensePredChol{Float64,Cholesky{Float64,Array{Float64,2}}}},Array{Float64,2}},DataFrame}, ::DataFrame)
Closest candidates are:
  predict(!Matched::StatsModels.TableRegressionModel, ::Any; kwargs...) at C:\Users\Jonathan\.julia\packages\StatsModels\Oxqpc\src\statsmodel.jl:158
  predict(!Matched::StatsModels.TableRegressionModel, ::Any...; kwargs...) at C:\Users\Jonathan\.julia\packages\StatsModels\Oxqpc\src\statsmodel.jl:28

# Création du fichier de prédictions pour soumettre sur Kaggle

Dans ce cas-ci, nous prédirons une surverse avec une prediction logistique

In [None]:

# Pour chacune des lignes du fichier test, comportant un ouvrage et une date, une prédiction est requise.
# Dans ce cas-ci, utilisons une prédiction les plus naîve. 
# On prédit avec une chance sur deux qu'il y ait surverse, sans utiliser de variables explicatives
#n = size(test,1)
#surverse = rand(n) .> .5


# Création du fichier sampleSubmission.csv pour soumettre sur Kaggle
ID = test[:,:NO_OUVRAGE].*"_".*string.(test[:,:DATE])
sampleSubmission = DataFrame(ID = ID, Surverse=predictions)
CSV.write("sampleSubmission.csv",sampleSubmission)

# Vous pouvez par la suite déposer le fichier sampleSubmission.csv sur Kaggle.
