# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur adjoint au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>


Le projet a été préparé par Gabriel Gobeil, associé de recherche à Polytechnique Montréal.

---
# Projet A2022 : Récolte des cerfs de Virginie


La description du projet est disponible à l'adresse suivante : https://www.kaggle.com/t/23b6d8c44f1247c78e19a6a902f804af

Ce calepin Jupyter de base permet de charger et de nettoyer les données fournies. La dernière section détaille la génération du fichier des prédictions afin de le soumettre sur Kaggle dans le bon format.

### Données

Dans un premier temps, vous devrez récupérer les données sur Kaggle. Les fichiers disponibles sont les suivants :
- recolte.csv
- permis.csv
- meteo.csv
- essence.csv
- test.csv

**Déposez ces fichiers dans un dossier nommé *data* dans le répertoire de ce calepin.**

Le fichier *recolte.csv* contient les statistiques de chasse au cerf de Viriginie. On y retrouve le nombre de cerfs mâles adultes récoltés annuellement dans certaines zones de chasse du Québec, listé selon le type d'engin utilisé.

Le fichier *permis.csv* contient des informations sur le nombre de permis de chasse aux cerfs de Virginie alloués aux résidents et non-résidents de 1999 à 2020.

Le fichier *meteo.csv* contient certaines variables météorologiques enregistrées à la station Montréal-Trudeau de 1999 à 2021 :
- Mean Temp (°C)	
- Total Rain (mm)	
- Total Snow (cm)	
- Snow on Grnd (cm)

Le fichier *essence.csv* contient des informations sur le prix de détail moyen par mois de l'essence pour Québec et Montréal de 1999 à 2021. Des renseignements additionnels sur les données sont disponibles à l'adresse suivante : https://www150.statcan.gc.ca/t1/tbl1/fr/cv.action?pid=1810000101

Le fichier *test.csv* contient les zones de chasse pour lesquels vous devez prédire le nombre de cerfs mâles adultes récoltés pour l'année 2021, peu importe l'engin de chasse utilisé. La qualité de vos prédictions sera ensuite évaluée lorsque vous les téléverserez sur Kaggle. Vos prédictions seront comparées à celles des autres équipes de la classe.

### Consignes

- Vous devez constituer une équipe de 3 à 5 personnes.
- Au moins une solution doit être proposée sur Kaggle.
- Utilisez votre identifiant d'équipe pour téléverser vos prédictions sur Kaggle.
- Un seul calepin *.ipynb* par équipe doit être remis. Ce fichier documente et illustre la procédure qui vous a permis de produire vos meilleures prédictions. Ce fichier constitue le rapport final du projet.
- Le langage Julia doit être utilisé.
- Votre démarche doit être rigoureusement justifiée (consultez la grille de correction pour vous orienter).

### Quelques conseils

Votre calepin doit permettre à une personne à l'extérieur de l'équipe de comprendre votre démarche et de reproduire vos résultats. Par exemple, une bonne façon de faire consiste à expliquer dans une cellule de texte la tâche qui est accomplie dans la cellule de code suivante. 

Je vous encourage fortement à faire une analyse exploratoire des données pour développer une meilleure expertise du problème. C'est une étape qui est toujours négligée mais qui est essentielle. C'est avec l'analyse exploratoire que vous viendra des idées d'amélioration, comme par exemple créer de nouvelles variables explicatives.

Vous pouvez utiliser directement tout ce qui se trouve dans les notes de cours sans explication et toutes les librairies utilisées dans le cours (incluant mes fonctions).

Ce calepin contient un modèle très simple de prédiction : on n'utilise qu'une seule variable explicative. Ce sera votre travail d'améliorer ces prédictions avec la méthode et les variables de votre choix.

S'il y a des données manquantes, ce sera à vous de traiter ce problème. La plupart du temps, une méthode simple d'imputation (de remplacement) des données manquantes est suffisante.

Prenez la peine de documenter succinctement les essais infructueux. Ce n'est pas nécessaire de les expliquer en détails, mais c'est important de les mentionner dans la discussion avec une raison possible de leur échec. De cette façon, une personne qui reprendra votre travail dans le futur ne perdra pas de temps à réessayer une méthode infructueuse déjà testée.

Vous pouvez aussi indiquer dans votre rapport les raisons qui vous font croire pourquoi une méthode a moins bien performée de ce qui était attendu. Vous pouvez également mentionner ce que vous auriez pu tenter si vous aviez eu plus de temps ou plus de données. L'idée est de guider l'analyste qui prendrait la relève de votre travail.

Vous êtes limités à deux soumissions par jour UTC par équipe sur Kaggle. Je vous suggère donc de bien tester vos modèles localement et de ne téléverser que vos meilleurs prédictions de la journée.

In [2]:
using CSV, DataFrames, Statistics, Dates, Gadfly, Distributions, LinearAlgebra, GLM, Combinatorics, StatsBase, Random

---
## 1. Chargement de données

#### Récolte annuelle de cerfs par zones de chasse selon les différents engins

In [3]:
recolte = CSV.read("data/recolte.csv", DataFrame)
first(recolte, 5)

Unnamed: 0_level_0,Année,Zone,Engin,Cerfs
Unnamed: 0_level_1,Int64,Int64,String15,Int64
1,1999,2,Arc,58
2,1999,2,Carabine,852
3,1999,2,Indéterminé,12
4,1999,3,Arc,94
5,1999,3,Carabine,1422


#### Nombre de permis de chasse alloués annuellement aux résidents et non-résidents

In [4]:
permis = CSV.read("data/permis.csv", DataFrame)
n = size(permis,1)
for i in range(1, n)
    residents_premier_abbatage = permis[i, :"Résidents premier abbatage"]
    if (ismissing(residents_premier_abbatage))
        permis[i, :"Résidents premier abbatage"] = 0
    end
end

permis.Total = [permis[i, :Résidents] + permis[i, :"Résidents premier abbatage"] + permis[i, :"Non-résidents"] for i in 1:n]
first(permis, 5)

Unnamed: 0_level_0,Année,Résidents,Résidents premier abbatage,Non-résidents,Total
Unnamed: 0_level_1,Int64,Int64?,Int64?,Int64?,Int64?
1,1998,135409,0,1230,136639
2,1999,131325,0,1260,132585
3,2000,137346,0,1463,138809
4,2001,144074,0,1551,145625
5,2002,151154,0,1735,152889


#### Moyenne mensuelle du prix de détail de l'essence en cents pour Québec et Montréal

In [5]:
essence = CSV.read("data/essence.csv", DataFrame)
first(essence, 5)

Unnamed: 0_level_0,Mois,Québec,Montréal
Unnamed: 0_level_1,Date,Float64,Float64
1,1997-04-01,60.1,60.3
2,1997-05-01,60.7,60.5
3,1997-06-01,59.4,61.5
4,1997-07-01,57.9,59.7
5,1997-08-01,62.8,64.0


#### Données météorologiques quotidiennes à Montréal-Trudeau entre 1999 et 2021

In [6]:
meteo = CSV.read("data/meteo.csv", DataFrame)
n = size(meteo,1)
meteo.Année = [Dates.year(meteo[i, :"Date/Time"]) for i in 1:n]

first(meteo, 5)

Unnamed: 0_level_0,Date/Time,Mean Temp (°C),Total Rain (mm),Total Snow (cm),Snow on Grnd (cm)
Unnamed: 0_level_1,Date,Float64?,Float64?,Float64?,Int64?
1,1999-01-01,-20.5,0.0,1.0,2
2,1999-01-02,-19.2,0.0,0.0,2
3,1999-01-03,-8.5,1.2,11.4,7
4,1999-01-04,-9.4,0.0,0.0,8
5,1999-01-05,-14.3,0.0,0.0,8


#### Construction du tableau des variables transformée en données anuelles
Sachant que la période de chasse est qu'en automne de chaque année, nous pensons que seule les données de météo et du prix de l'essence durant cette période sera pertinente pour notre analyse des variables.

##### Température moyenne annuelle

In [7]:
Temp = CSV.read("data/meteo.csv", DataFrame)
# On remplace les données manquantes par 0
  n = length(Temp[!, "Mean Temp (°C)"])
    for i = 1:n
        Temp[!, "Mean Temp (°C)"][i] = Temp[!, "Mean Temp (°C)"][i] !== missing ?  Temp[!, "Mean Temp (°C)"][i] : 0.0
    end
#=# conversion des températures en kelvin, pour ne pas avoir de températures négative
    n = length(Temp[!, "Mean Temp (°C)"])
    for i = 1:n
        Temp[!, "Mean Temp (°C)"][i] = Temp[!, "Mean Temp (°C)"][i]
    end
=#
rename!(Temp, "Date/Time" => "Année") #Changer le nom pour simplifier la lecture 
#sélection des donnée de l'automne, donc de septembre à novembre de chaque années
Temp = Temp[[10 <= Dates.month(Temp.Année[i]) <= 11 for i in 1:length(Temp.Année)], :]

Temp[!,"Année"] = [item == item ? Dates.year(item) : "" for item in Temp[!,"Année"]] #Utilisation de l'année seulement
TempMoy = DataFrame(Année = Int64[], Temp = Float64[])
TempMoy = combine(groupby(Temp, :Année), :"Mean Temp (°C)" => mean∘skipmissing => :"Température")
push!(TempMoy, [2013, 0.0])
Temp2021 = TempMoy.Température[22]
TempMoy

Unnamed: 0_level_0,Année,Température
Unnamed: 0_level_1,Int64,Float64
1,1999,6.36721
2,2000,5.81311
3,2001,7.59836
4,2002,3.94262
5,2003,5.47705
6,2004,5.64098
7,2005,6.53934
8,2006,6.19508
9,2007,6.28689
10,2008,5.29508


##### Pluie totale annuelle

In [8]:
Pluie = CSV.read("data/meteo.csv", DataFrame)
rename!(Pluie, "Date/Time" => "Année") #Changer le nom pour simplifier la lecture 

#sélection des données durant la saison de chase
Pluie = Pluie[[10 <= Dates.month(Pluie.Année[i]) <= 11 for i in 1:length(Pluie.Année)], :]

Pluie[!,"Année"] = [item == item ? Dates.year(item) : "" for item in Pluie[!,"Année"]]
# On remplace les données manquantes par 0
    n = length(Pluie[!, "Total Rain (mm)"])
    for i = 1:n
        Pluie[!, "Total Rain (mm)"][i] = Pluie[!, "Total Rain (mm)"][i] !== missing ?  Pluie[!, "Total Rain (mm)"][i] : 0.0
    end
PluieAn = combine(groupby(Pluie, :Année), :"Total Rain (mm)" => sum => :"Pluie_totale")
push!(PluieAn, [2013, 0.0])

Unnamed: 0_level_0,Année,Pluie_totale
Unnamed: 0_level_1,Int64,Float64
1,1999,139.7
2,2000,79.9
3,2001,155.9
4,2002,108.9
5,2003,287.4
6,2004,122.6
7,2005,279.8
8,2006,250.8
9,2007,162.0
10,2008,156.6


##### Neige total tombée annuelle

In [9]:
Neige = CSV.read("data/meteo.csv", DataFrame)
rename!(Neige, "Date/Time" => "Année") #Changer le nom pour simplifier la lecture 

#sélection des données durant la saison de chase
Neige = Neige[[10 <= Dates.month(Neige.Année[i]) <= 11 for i in 1:length(Neige.Année)], :]

Neige[!,"Année"] = [item == item ? Dates.year(item) : "" for item in Neige[!,"Année"]]
# On remplace les données manquantes par 0
    n = length(Neige[!, "Total Snow (cm)"])
    for i = 1:n
        Neige[!, "Total Snow (cm)"][i] = Neige[!, "Total Snow (cm)"][i] !== missing ?  Neige[!, "Total Snow (cm)"][i] : 0.0
    end
NeigeAn = combine(groupby(Neige, :Année), :"Total Snow (cm)" => sum => :"Neige_totale")
push!(NeigeAn, [2013, 0.0])

Unnamed: 0_level_0,Année,Neige_totale
Unnamed: 0_level_1,Int64,Float64
1,1999,5.1
2,2000,9.6
3,2001,4.6
4,2002,63.3
5,2003,2.8
6,2004,0.4
7,2005,13.6
8,2006,0.0
9,2007,29.0
10,2008,15.6


#### Neige totale sur le sol annuelle

In [10]:
NeigeSol = CSV.read("data/meteo.csv", DataFrame)
rename!(NeigeSol, "Date/Time" => "Année") #Changer le nom pour simplifier la lecture 

#sélection des données durant la saison de chase
NeigeSol = NeigeSol[[10 <= Dates.month(NeigeSol.Année[i]) <= 11 for i in 1:length(NeigeSol.Année)], :]

NeigeSol[!,"Année"] = [item == item ? Dates.year(item) : "" for item in NeigeSol[!,"Année"]]
# On remplace les données manquantes par 0
    n = length(NeigeSol[!, "Snow on Grnd (cm)"])
    for i = 1:n
        NeigeSol[!, "Snow on Grnd (cm)"][i] = NeigeSol[!, "Snow on Grnd (cm)"][i] !== missing ?  NeigeSol[!, "Snow on Grnd (cm)"][i] : 0.0
    end
NeigeSolAn = combine(groupby(NeigeSol, :Année), :"Snow on Grnd (cm)" => sum => :"Neige_totale_au_sol")
push!(NeigeSolAn, [2013, 0.0])

Unnamed: 0_level_0,Année,Neige_totale_au_sol
Unnamed: 0_level_1,Int64,Int64
1,1999,2
2,2000,13
3,2001,2
4,2002,68
5,2003,1
6,2004,0
7,2005,20
8,2006,0
9,2007,52
10,2008,3


#### Nombre de jours ayant de la neige au sol dans l'année

In [11]:
JourNeigeSol = CSV.read("data/meteo.csv", DataFrame)
rename!(JourNeigeSol, "Date/Time" => "Année") #Changer le nom pour simplifier la lecture 

#sélection des données durant la saison de chase
JourNeigeSol = JourNeigeSol[[10 <= Dates.month(JourNeigeSol.Année[i]) <= 11 for i in 1:length(JourNeigeSol.Année)], :]

JourNeigeSol[!,"Année"] = [item == item ? Dates.year(item) : "" for item in JourNeigeSol[!,"Année"]]
# On remplace les jours où on a une donnée  par 1.0, pour signifier qu'il a de la neige au sol 
    n = length(JourNeigeSol[!, "Snow on Grnd (cm)"])
    for i = 1:n
        JourNeigeSol[!, "Snow on Grnd (cm)"][i] = JourNeigeSol[!, "Snow on Grnd (cm)"][i] !== missing ?  JourNeigeSol[!, "Snow on Grnd (cm)"][i] : 0
        JourNeigeSol[!, "Snow on Grnd (cm)"][i] = JourNeigeSol[!, "Snow on Grnd (cm)"][i] !== 0 ?  1 : 0
    end
JourNeigeSolAn = combine(groupby(JourNeigeSol, :Année), :"Snow on Grnd (cm)" => sum => :"Jours_neige_au_sol")
push!(JourNeigeSolAn, [2013, 0.0])

Unnamed: 0_level_0,Année,Jours_neige_au_sol
Unnamed: 0_level_1,Int64,Int64
1,1999,1
2,2000,5
3,2001,1
4,2002,14
5,2003,1
6,2004,0
7,2005,6
8,2006,0
9,2007,9
10,2008,1


#### Nombre de jours où il a plu dans l'année

In [12]:
JourPluie = CSV.read("data/meteo.csv", DataFrame)
rename!(JourPluie, "Date/Time" => "Année") #Changer le nom pour simplifier la lecture 

#sélection des données durant la saison de chase
JourPluie = JourPluie[[10 <= Dates.month(JourPluie.Année[i]) <= 11 for i in 1:length(JourPluie.Année)], :]

JourPluie[!,"Année"] = [item == item ? Dates.year(item) : "" for item in JourPluie[!,"Année"]]
# On remplace les jours où on a une donnée  par 1.0, pour signifier qu'il a de la pluie 
    n = length(JourPluie[!, "Total Rain (mm)"])
    for i = 1:n
        JourPluie[!, "Total Rain (mm)"][i] = JourPluie[!, "Total Rain (mm)"][i] !== missing ?  JourPluie[!, "Total Rain (mm)"][i] : 0
        JourPluie[!, "Total Rain (mm)"][i] = JourPluie[!, "Total Rain (mm)"][i] !== 0.0 ?  1.0 : 0.0
    end
JourPluieAn = combine(groupby(JourPluie, :Année), :"Total Rain (mm)" => sum => :"Jours_de_pluie")
push!(JourPluieAn, [2013, 0.0])

Unnamed: 0_level_0,Année,Jours_de_pluie
Unnamed: 0_level_1,Int64,Float64
1,1999,26.0
2,2000,19.0
3,2001,33.0
4,2002,22.0
5,2003,25.0
6,2004,20.0
7,2005,31.0
8,2006,33.0
9,2007,24.0
10,2008,22.0


#### Nombre de jours où il a neigé dans l'année

In [13]:
JourNeige = CSV.read("data/meteo.csv", DataFrame)
rename!(JourNeige, "Date/Time" => "Année") #Changer le nom pour simplifier la lecture 

#sélection des données durant la saison de chase
JourNeige = JourNeige[[10 <= Dates.month(JourNeige.Année[i]) <= 11 for i in 1:length(JourNeige.Année)], :]

JourNeige[!,"Année"] = [item == item ? Dates.year(item) : "" for item in JourNeige[!,"Année"]]
# On remplace les jours où on a une donnée  par 1.0, pour signifier qu'il a de la neige 
    n = length(JourNeige[!, "Total Snow (cm)"])
    for i = 1:n
        JourNeige[!, "Total Snow (cm)"][i] = JourNeige[!, "Total Snow (cm)"][i] !== missing ?  JourNeige[!, "Total Snow (cm)"][i] : 0
        JourNeige[!, "Total Snow (cm)"][i] = JourNeige[!, "Total Snow (cm)"][i] !== 0.0 ?  1.0 : 0.0
    end
JourNeigeAn = combine(groupby(JourNeige, :Année), :"Total Snow (cm)" => sum => :"Jours_de_neige")
push!(JourNeigeAn, [2013, 0.0])

Unnamed: 0_level_0,Année,Jours_de_neige
Unnamed: 0_level_1,Int64,Float64
1,1999,3.0
2,2000,7.0
3,2001,1.0
4,2002,14.0
5,2003,3.0
6,2004,1.0
7,2005,7.0
8,2006,0.0
9,2007,8.0
10,2008,8.0


#### Prix moyen de l'essence annuelle à Montréal

In [14]:
essence = CSV.read("data/essence.csv", DataFrame)
rename!(essence, "Mois" => "Année")

#sélection des données durant la saison de chase
essence = essence[[10 <= Dates.month(essence.Année[i]) <= 11 for i in 1:length(essence.Année)], :]

essence[!,"Année"] = [item == item ? Dates.year(item) : "" for item in essence[!,"Année"]]
essenceMtlMoyAn = DataFrame(Année = essence.Année, Montréal = essence.Montréal)
essenceMtlMoyAn = combine(groupby(essenceMtlMoyAn, :Année), :"Montréal" => mean∘skipmissing => :"Prix_moyen_Montréal")


Unnamed: 0_level_0,Année,Prix_moyen_Montréal
Unnamed: 0_level_1,Int64,Float64
1,1997,61.15
2,1998,55.95
3,1999,68.75
4,2000,81.05
5,2001,65.65
6,2002,75.3
7,2003,73.5
8,2004,88.85
9,2005,98.9
10,2006,89.8


#### Prix moyen de l'essence annuelle à Québec

In [15]:
essence = CSV.read("data/essence.csv", DataFrame)
rename!(essence, "Mois" => "Année")

#sélection des données durant la saison de chase
essence = essence[[10 <= Dates.month(essence.Année[i]) <= 11 for i in 1:length(essence.Année)], :]

essence[!,"Année"] = [item == item ? Dates.year(item) : "" for item in essence[!,"Année"]]
essenceQcMoyAn = DataFrame(Année = essence.Année, Québec = essence.Québec)
essenceQcMoyAn = combine(groupby(essenceQcMoyAn, :Année), :"Québec" => mean∘skipmissing => :"Prix_moyen_Québec")

Unnamed: 0_level_0,Année,Prix_moyen_Québec
Unnamed: 0_level_1,Int64,Float64
1,1997,60.65
2,1998,56.3
3,1999,67.9
4,2000,75.15
5,2001,67.9
6,2002,75.7
7,2003,74.0
8,2004,89.4
9,2005,101.15
10,2006,88.25


#### Prix moyen de l'essence annuelle à entre Montréal et Québec

In [16]:
essence = CSV.read("data/essence.csv", DataFrame)
rename!(essence, "Mois" => "Année")

#sélection des données durant la saison de chase
essence = essence[[10 <= Dates.month(essence.Année[i]) <= 11 for i in 1:length(essence.Année)], :]

essence[!,"Année"] = [item == item ? Dates.year(item) : "" for item in essence[!,"Année"]]
essenceMoyen = transform(essence, AsTable(["Québec", "Montréal"]) => ByRow(mean) => :"Prix moyen de l'essence")
essenceMoyAn = combine(groupby(essenceMoyen, :Année), :"Prix moyen de l'essence" => mean∘skipmissing => :"Prix_moyen_Essence")


Unnamed: 0_level_0,Année,Prix_moyen_Essence
Unnamed: 0_level_1,Int64,Float64
1,1997,60.9
2,1998,56.125
3,1999,68.325
4,2000,78.1
5,2001,66.775
6,2002,75.5
7,2003,73.75
8,2004,89.125
9,2005,100.025
10,2006,89.025


#### Construction de la matrice des données annuelles

In [17]:
df = combine(groupby(recolte, :Année), :Cerfs => sum => :Cerfs)
Matrice = DataFrame(Année = df.Année, Cerfs = df.Cerfs)
Matrice = innerjoin(Matrice, TempMoy, on = :Année)
Matrice = innerjoin(Matrice, PluieAn, on = :Année)
Matrice = innerjoin(Matrice, NeigeAn, on = :Année)
Matrice = innerjoin(Matrice, NeigeSolAn, on = :Année)
Matrice = innerjoin(Matrice, JourPluieAn, on = :Année)
Matrice = innerjoin(Matrice, JourNeigeAn, on = :Année)
Matrice = innerjoin(Matrice, JourNeigeSolAn, on = :Année)
Matrice = innerjoin(Matrice, essenceMtlMoyAn, on = :Année)
Matrice = innerjoin(Matrice, essenceQcMoyAn, on = :Année)
Matrice = innerjoin(Matrice, essenceMoyAn, on = :Année)
Matrice = innerjoin(Matrice, permis, on = :Année)

Unnamed: 0_level_0,Année,Cerfs,Température,Pluie_totale,Neige_totale,Neige_totale_au_sol,Jours_de_pluie
Unnamed: 0_level_1,Int64,Int64,Float64,Float64,Float64,Int64,Float64
1,1999,30587,6.36721,139.7,5.1,2,26.0
2,2000,38737,5.81311,79.9,9.6,13,19.0
3,2001,34751,7.59836,155.9,4.6,2,33.0
4,2002,38501,3.94262,108.9,63.3,68,22.0
5,2003,39544,5.47705,287.4,2.8,1,25.0
6,2004,36699,5.64098,122.6,0.4,0,20.0
7,2005,33913,6.53934,279.8,13.6,20,31.0
8,2006,40908,6.19508,250.8,0.0,0,33.0
9,2007,40047,6.28689,162.0,29.0,52,24.0
10,2008,31513,5.29508,156.6,15.6,3,22.0


#### Quantité de cerfs récoltés annuellement dans les différentes zones de chasse

In [18]:
zones = groupby(recolte, :Zone)  # On groupe les données par zone

new_df = DataFrame(Année = Int64[], Zone = Int64[], Cerfs= Int64[])  # On initialise un DataFrame vide

for zone in zones  # Pour chaque zone de chasse,
    
    # pour chaque année,
    # on additionne le nombre de cerfs récoltés selon les différents engins de chasse
    df = combine(groupby(zone, :Année), :Cerfs => sum => :Cerfs)  
    
    df2 = DataFrame(Année = df.Année, 
                    Zone = fill(unique(zone.Zone)[1], size(df, 1)),
                    Cerfs = df.Cerfs) 
    
    append!(new_df, df2)  # On ajoute l'information au DataFrame préinitialisé 
end



sort!(new_df, :Année)
first(new_df, 5)


Unnamed: 0_level_0,Année,Zone,Cerfs
Unnamed: 0_level_1,Int64,Int64,Int64
1,1999,2,922
2,1999,3,1519
3,1999,4,4890
4,1999,5,2014
5,1999,6,4846


#### Inclusion des zones à la Matrice

In [19]:
m = DataFrame(Matrice)
rename!(m, "Cerfs" => "Cerfs_totale")
MatriceZones = innerjoin(m, new_df, on = :Année)

Unnamed: 0_level_0,Année,Cerfs_totale,Température,Pluie_totale,Neige_totale,Neige_totale_au_sol
Unnamed: 0_level_1,Int64,Int64,Float64,Float64,Float64,Int64
1,1999,30587,6.36721,139.7,5.1,2
2,1999,30587,6.36721,139.7,5.1,2
3,1999,30587,6.36721,139.7,5.1,2
4,1999,30587,6.36721,139.7,5.1,2
5,1999,30587,6.36721,139.7,5.1,2
6,1999,30587,6.36721,139.7,5.1,2
7,1999,30587,6.36721,139.7,5.1,2
8,1999,30587,6.36721,139.7,5.1,2
9,1999,30587,6.36721,139.7,5.1,2
10,1999,30587,6.36721,139.7,5.1,2


---
## 2. Analyse exploratoire

Maintenant que nous avons extrait les donnés fournies et ajoutées nos données modifiées, nous sommes rendu à la phase de l'annalyse exploratoire. Dans cette section, nous allons explorer divers pistes de modèles avec les données fournies. Doonc, des modèles simples ainsi que des modèles polynomiales pour chaque variables explicatifs et ce selon l'allure de la courbes du nombre de cerfs récolté annuellement selon chaque variable. Nous explorerons plus en détails chacun de ces pistes de solutions et les tenterons sur kaggle.

### 2.1 Utilisation de l'année comme variable explicative

Premièrement, voici un graphique qui illustre le nombre de cerfs récoltés en fonction de l'année courante, comme on peut le voir, cette variable semble avoir un léger impact négatif

In [None]:
set_default_plot_size(16cm, 10cm)
df = combine(groupby(recolte, :Année), :Cerfs => sum => :Cerfs)
plot(df, x=:Année, y=:Cerfs, Geom.line, Geom.point)

On peut voir que le lien entre l'année et le nombre de cerfs n'est pas linéaire. Confirmon cela en analysant le pouvoir prédictif de cette variable avec une régression linéaire. La courbe ressemble plutot à celle d'une fonction x +x2 +x3 +x4 ou une bimodale. Nous allons donc analyser si ces options semble avoir un pouvoir prédictif significatif.

#### 2.1.1 Ajout de l'année au carré, au cube et exposant 4 dans la matrice de données

In [20]:
Matrice = transform(Matrice, ["Année"] => ByRow(x->(x)^2) => :Année_square)
Matrice = transform(Matrice, ["Année"] => ByRow(x->(x)^3) => :Année_cubic)
Matrice = transform(Matrice, ["Année"] => ByRow(x->(x)^4) => :Année_four)

MatriceZones = transform(MatriceZones, ["Année"] => ByRow(x->(x)^2) => :Année_square)
MatriceZones = transform(MatriceZones, ["Année"] => ByRow(x->(x)^3) => :Année_cubic)
MatriceZones = transform(MatriceZones, ["Année"] => ByRow(x->(x)^4) => :Année_four)

Unnamed: 0_level_0,Année,Cerfs_totale,Température,Pluie_totale,Neige_totale,Neige_totale_au_sol
Unnamed: 0_level_1,Int64,Int64,Float64,Float64,Float64,Int64
1,1999,30587,6.36721,139.7,5.1,2
2,1999,30587,6.36721,139.7,5.1,2
3,1999,30587,6.36721,139.7,5.1,2
4,1999,30587,6.36721,139.7,5.1,2
5,1999,30587,6.36721,139.7,5.1,2
6,1999,30587,6.36721,139.7,5.1,2
7,1999,30587,6.36721,139.7,5.1,2
8,1999,30587,6.36721,139.7,5.1,2
9,1999,30587,6.36721,139.7,5.1,2
10,1999,30587,6.36721,139.7,5.1,2


#### 2.1.1 Pouvoir prédictif de l'année au global

Dans cette partie, nous allons regarder si l'année possède bel et bien un pouvoir prédictif significatif

In [None]:
lm(@formula(Cerfs ~ Année), Matrice)

In [None]:
lm(@formula(Cerfs ~ Année + Année_square), Matrice)

In [None]:
lm(@formula(Cerfs ~ Année + Année_square + Année_cubic), Matrice)

In [None]:
lm(@formula(Cerfs ~ Année + Année_square + Année_cubic + Année_four), Matrice)

Selon ces résultats, on peut constater que l'intervalle de confiance du coefficient sur l'année se situe bel et bien en dehors de 0, donc l'année possède un pouvoir prédictif significatif sur le nombre de cerfs. 

#### 2.1.2 Pouvoir prédictif de l'année par zone

In [None]:
models = []

z1 = DataFrame(groupby(new_df, :Zone))
    
zones = unique(new_df[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Cerfs ~ Année), groupby(new_df, :Zone)[i])
    push!(models, r2(m))
end

results = DataFrame(Zone=zones, R2 = models)
sort(results, order(:R2, rev=true))

Comme on peut le voir, l'année a une très grande influence sur certaines zones comme la zone 28, et une influence quasi nulle sur des zones comme les zones 2, 4 et 6

#### 2.1.3 Pouvoir prédictif de l'année par zone: fonction polynomiales

Fonction polynomiale de degré 2:

In [None]:
models = []

z1 = DataFrame(groupby(new_df, :Zone))
    
zones = unique(new_df[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Cerfs ~ Année + Année^2), groupby(new_df, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

Fonction polynomiale de degré 3:

In [None]:
models = []

z1 = DataFrame(groupby(new_df, :Zone))
    
zones = unique(new_df[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Cerfs ~ Année + Année^2 + Année^3), groupby(new_df, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

Fonction polynomiale de degré 4:

In [None]:
models = []

z1 = DataFrame(groupby(new_df, :Zone))
    
zones = unique(new_df[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Cerfs ~ Année + Année^2 + Année^3 + Année^4), groupby(new_df, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

Comme on peut le voir, les fonctions polynomiale de l'année voit leur infulences augmenter jusqu'au degré 4 et ce pour toutes les zones. En effet, leur placements ne changent pas. De ce fait, explorer des modèles polynomiales pour l'année pourrait etre interessant.

### 2.2 Tracer le nombre de cerfs récoltés par chaque arme individuellement

Nous avons remarqué que les cerfs sont récoltés via divers types d'armes récurents à chaque année. De ce fait, explorons un peu comments le nombre de cerfs récoltés évolue selon le type d'arme.

#### 2.2.1 Traçage du nombre de cerfs récoltés par arme globalement

Premièrement, il faudrait tracer le nombre de cerfs récoltés selon chaque arme de chasse utilisée.

In [None]:
combine(groupby(recolte, [:Engin]), :Cerfs => sum => :Cerfs)

Comme on peut le voir, on a 6 types d'armes à vérifier. On peut alors affirmer que 

Y = Y1 + Y2 + Y3 + Y4 + Y5 + Y6
,ou Y est le nombre de cerfs et Yi représente un type d'arme.

In [None]:
df_armes = combine(groupby(recolte, [:Année, :Engin]), :Cerfs => sum => :Cerfs)
df_arc = filter(row -> !(row.Engin != "Arc"),  df_armes)
df_carabine = filter(row -> !(row.Engin != "Carabine"),  df_armes)
df_arbalète = filter(row -> !(row.Engin != "Arbalète"),  df_armes)
df_acb = filter(row -> !(row.Engin != "ACB"),  df_armes)
df_fusil = filter(row -> !(row.Engin != "Fusil"),  df_armes)
df_indetermine = filter(row -> !(row.Engin != "Indéterminé"),  df_armes)


p1 = plot(df_arc, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par arc"))
p2 = plot(df_carabine, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par carabine"))
p3 = plot(df_arbalète, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par arbalète"))
p4 = plot(df_acb, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par ACB"))
p5 = plot(df_fusil, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par Fusil"))
p6 = plot(df_indetermine, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par Indéterminé"))
                        
p = reshape(Plot[p1, p2, p3, p4, p5, p6], (3,2))
    
set_default_plot_size(20cm, 15cm)
gridstack(p)

#### 2.2.2 Traçage du nombre de cerfs récoltés par zone

In [None]:
zone = 6 #On regarde la zone 6 par exemple

df_armes = combine(groupby(recolte, [:Année, :Engin, :Zone]), :Cerfs => sum => :Cerfs)
df_arc = filter(row -> !(row.Engin != "Arc") && row.Zone == zone,  df_armes)
df_carabine = filter(row -> !(row.Engin != "Carabine") && row.Zone == zone,  df_armes)
df_arbalète = filter(row -> !(row.Engin != "Arbalète") && row.Zone == zone,  df_armes)
df_acb = filter(row -> !(row.Engin != "ACB") && row.Zone == zone,  df_armes)
df_fusil = filter(row -> !(row.Engin != "Fusil") && row.Zone == zone,  df_armes)
df_indetermine = filter(row -> !(row.Engin != "Indéterminé") && row.Zone == zone,  df_armes)


p1 = plot(df_arc, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par arc"))
p2 = plot(df_carabine, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par carabine"))
p3 = plot(df_arbalète, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par arbalète"))
p4 = plot(df_acb, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par ACB"))
p5 = plot(df_fusil, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par Fusil"))
p6 = plot(df_indetermine, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xlabel("Nombre de cerfs tués par Indéterminé"))
                        
p = reshape(Plot[p1, p2, p3, p4, p5, p6], (3,2))
set_default_plot_size(20cm, 15cm)
gridstack(p)

### 2.3 Utilisation du nombre de permis comme variable explicative

Deuxièmement, voici un graphique qui illustre le nombre de cerfs récoltés en fonction de toutes les variables dans le dataset (permis). Comme on peut le voir certaines valeurs semblent avoir des impacts plus significatifs que d'autres, nous allons tenter de voir quelle variables nous devrions garder

In [None]:
df = combine(groupby(recolte, :Année), :Cerfs => sum => :Cerfs)
df2 = innerjoin(df, permis, on = :Année)



p1 = plot(df2, x=:Total, y=:Cerfs, Geom.point,
     Guide.xlabel("total des permis vendus"),
     Guide.ylabel("cerfs récoltés"))

p2 = plot(df2, x=:"Résidents", y=:Cerfs, Geom.point,
     Guide.xlabel("permis résidents vendus"),
     Guide.ylabel("cerfs récoltés"))

p3 = plot(df2, x=:"Résidents premier abbatage", y=:Cerfs, Geom.point,
     Guide.xlabel("permis résidents premier abbatage vendus"),
     Guide.ylabel("cerfs récoltés"))

p4 = plot(df2, x=:"Non-résidents", y=:Cerfs, Geom.point,
     Guide.xlabel("permis non-résidents vendus"),
     Guide.ylabel("cerfs récoltés"))

p = reshape(Plot[p1, p2, p3, p4], (2,2))
    
set_default_plot_size(20cm, 15cm)
gridstack(p)

#### 2.3.1 Pouvoir prédictif du nombre de permis total émis

In [None]:
lm(@formula(Cerfs ~ Total), df2)

> Comme on peut le voir, cette variable ne semble pas posséder de pouvoir prédictif significatif pour un seil de 95% puisque zéro est inclu dans son intervalle de confiance.

#### 2.3.2 Pouvoir prédictif du nombre de permis résidents émis

In [None]:
lm(@formula(Cerfs ~ Résidents), df2)

> Comme on peut le voir, cette variable semble posséder un pouvoir prédictif significatif, car zéro n'est pas inclu dans son intervalle de confiance.

#### 2.3.3 Pouvoir prédictif du nombre de permis non-résidents émis

In [None]:
df2.nonres = df2[!, "Non-résidents"]
lm(@formula(Cerfs ~ nonres), df2)

> Comme on peut le voir, cette variable semble aussi posséder un pouvoir prédictif significatif.

#### 2.3.4 Pouvoir prédictif du nombre de permis permier abbatage

In [None]:
df2.premierabbatage = df2[!, "Résidents premier abbatage"]
df_premier_abbatage = filter(row -> row.premierabbatage != 0,  df2) #Enlever les missing
lm(@formula(Cerfs ~ premierabbatage), df_premier_abbatage)

> Comme on peut le voir, cette variable ne semble pas posséder de pouvoir prédictif significatif.

#### Conclusion

On peut donc conclure que seuls les permis résidents ainsi que les permi-non-résidents ont une influence sur le nombre de cerfs récoltés par année. De ce fait, nous les utiliserons pour tester des modèles.

### 2.4 Utilisation de la température moyenne comme variable explicative

###### 2.4.1 Graphique du nombre de cerfs selon la température moyenne durant la période de chasse

In [None]:
set_default_plot_size(16cm, 10cm)
#Nous enlevons 2013, car cette donnée était manquante pour les données de météo originaux.
plot(filter(row -> row.Année !== 2013,Matrice), x=:Température, y=:Cerfs, Geom.line, Geom.point)

Il ne semble pas y avoir un lien linéaire entre la température moyenne annuelle et le nombre de cerfs récoltés au total dans l'année. 

#### 2.4.2 Pouvoir prédictif de la température

Étant non linéaire, il se pourrait qu'une relation polynomiale puisse avoir un pouvoir prédictif significatif sur le nombre de cerfs récoltés annuellement. De ce fait, regardons à partir de quel modèle, zéro n'est pas inclu dans l'intervalle de confiance des coefficients.

In [None]:
lm(@formula(Cerfs ~ Température), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Température + Température^2), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Température + Température^2 + Température^3), filter(row -> row.Année !== 2013, Matrice))

On peut voir que zéro est toujours inclu dans l'intervalle de confiance des coefficient. De ce fait la température ne semble pas avoir un pouvoir prédictif significatif. Nous ne l'inclurons pas dans nos modèles de prédiction.

### 2.5 Utilisation de la quantité de pluie totale comme variable explicative

###### 2.5.1 Graphique du nombre de cerfs selon la quantité de pluie totale durant la période de chasse

In [None]:
set_default_plot_size(16cm, 10cm)
plot(filter(row -> row.Année !== 2013, Matrice), x=:"Pluie_totale",y=:Cerfs, Geom.line, Geom.point)

Comme on peut le voir, il ne semble pas y avoir de relation linéaire ente la quantité de pluie et le nombre de cerfs. De ce fait nous verrons aussi le pouvoir prédictif des relations polynomiales.

###### 2.5.2 Pouvoir prédictif de la pluie

In [None]:
lm(@formula(Cerfs ~ Pluie_totale), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Pluie_totale + Pluie_totale^2 ), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Pluie_totale + Pluie_totale^2 + Pluie_totale^3 ), filter(row -> row.Année !== 2013, Matrice))

Zéro n'est dans l'intervalle de confiance de la relation cubique. De ce fait, la pluie totale durant la période de chasse semble avoir un pouvoir prédictif significatif.

### 2.6 Utilisation de la quantité de neige totale comme variable explicative

###### 2.6.1 Graphique de la neige totale durant la période de chasse selon les années

In [None]:
set_default_plot_size(16cm, 10cm)
plot(filter(row -> row.Année !== 2013, Matrice), x=:"Neige_totale", y=:Cerfs, Geom.line, Geom.point)

Ici aussi on ne voit pas de lien linéaire entre la neige totale durant la période de chasse annuelle et le nombre de cerfs récoltés. Cependant, cette courbe l'allure générale d'une parabole. De ce fait, ils serait intéressant d'utiliser un modèle quadratique pour estimer le nombre de cerfs.

###### 2.6.2 Pouvoir prédictif de la neige

In [None]:
lm(@formula(Cerfs ~ Neige_totale), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Neige_totale + Neige_totale^2), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Neige_totale + Neige_totale^2 + Neige_totale^3), filter(row -> row.Année !== 2013, Matrice))

Zéro est inclu dans l'intervalle de confiance des 3 modèles, ce qui impliquerait que la neige n'a pas un pouvoir prédictif significatif, nous allons tout de même garder le modèle quadratique du à son allure prononcé graphiquement.

### 2.7 Utilisation de la neige totale au sol comme variable explictive

###### 2.7.1 Graphique du nombre de cerfs récolté selon la neige totale au sol 

In [None]:
set_default_plot_size(16cm, 10cm)
plot(filter(row -> row.Année !== 2013, Matrice), x=:"Neige_totale_au_sol", y=:Cerfs, Geom.line, Geom.point)

Il n'y a pas de relation linéaire entre la quantité de neige au sol et le combre de cerfs récoltés durant la période de chasse. 
Cette courbe semble pouvoir etre approximé par une parabole. De ce fait, nous pourrons voir si une relation quadratique a un pouvoir significatif.

###### 2.7.2  Pouvoir prédictif de la neige totale au sol

In [None]:
lm(@formula(Cerfs ~ Neige_totale_au_sol), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Neige_totale_au_sol + Neige_totale_au_sol^2), filter(row -> row.Année !== 2013, Matrice))

Pour tous ces modèles, zéro est inclu dans l'intervalle de confiance. De ce fait, la neige totale au sol ne semble pas avoir un effet prédictif significatif. Nous ne l'incluerons pas dans notre modèle de prédiction à plusieurs variables.

### 2.8 Utilisation du nombre de jours ayant de la neige au sol comme variable explicative

#### 2.8.1 Graphique du nombre de cerfs récoltés selon le nombre de jours ayant de la neige au sol

In [None]:
set_default_plot_size(16cm, 10cm)
plot(filter(row -> row.Année !== 2013, Matrice), x=:"Jours_neige_au_sol", y=:Cerfs, Geom.line, Geom.point)

La relation entre le nombre de jours ayant de la neige au sol et le nombre de cerfs n'est pas linéaire. Cependant, cette courbe resemble un peu a celle d'une relation cubic. Nous explorons alors le pouvoir prédictif des relations polynomiales.

#### 2.8.2 Pouvoir prédictif du nombre de jours ayant de la neige au sol

In [None]:
lm(@formula(Cerfs ~ Jours_neige_au_sol), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Jours_neige_au_sol + Jours_neige_au_sol^2), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Jours_neige_au_sol + Jours_neige_au_sol^2 + Jours_neige_au_sol^3), filter(row -> row.Année !== 2013, Matrice))

Zéro est toujours inclu dans l'intervalle de confiance de ces trois relations, de ce fait le nombre de jours de neige au sol ne semble pas avoir un pouvoir prédictif significatif. Nous n'incluronts pas non plus cette variable dans notre modèle de prédiction à plusieurs variables.

### 2.9 Utilisation du nombre de jours de neige comme variable explicative

#### 2.9.1 Graphique du nombre de cerfs récoltés selon le nombre de jours de neige

In [None]:
set_default_plot_size(16cm, 10cm)
plot(filter(row -> row.Année !== 2013, Matrice), x=:"Jours_de_neige", y=:Cerfs, Geom.line, Geom.point)

Cette relation entre le nombre de jours ayant de la neige au sol et le nombre de cerfs n'est pas linéaire. Cependant, cette courbe resemble un peu a celle d'une relation Y = x + x2 + x3 +x4. Nous explorons alors le pouvoir prédictif des relations polynomiales.

###### 2.9.2 Pouvoir prédictif du nombre de jours de neiges par année

In [None]:
lm(@formula(Cerfs ~ Jours_de_neige), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Jours_de_neige +  Jours_de_neige^2), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Jours_de_neige +  Jours_de_neige^2 +  Jours_de_neige^3), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Jours_de_neige +  Jours_de_neige^2 +  Jours_de_neige^3 +  Jours_de_neige^4), filter(row -> row.Année !== 2013, Matrice))

Puisque zéro n'est pas inclu dans l'intervalle de confiance de la derniere relation, il y a donc un pouvoir prédictif significatif pour celui-ci.

### 2.10 Utilisation du nombre de jours de pluie

###### 2.10.1 Graphique du nombre de cerfs récoltés selon le nombre de jours de pluie

In [None]:
set_default_plot_size(16cm, 10cm)
plot(filter(row -> row.Année !== 2013, Matrice), x=:"Jours_de_pluie", y=:Cerfs, Geom.line, Geom.point)

Ce graphique resemble à une parabole, de ce fait il se pourait que la relation soit quadratique. Nous explorerons le pouvoir prédictif de cette posibilité.

###### 2.10.2 Pouvoir prédictif du nombre de jours de pluie

In [None]:
lm(@formula(Cerfs ~ Jours_de_pluie), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Jours_de_pluie + Jours_de_pluie^2), filter(row -> row.Année !== 2013, Matrice))

In [None]:
lm(@formula(Cerfs ~ Jours_de_pluie + Jours_de_pluie^2 + Jours_de_pluie^3), filter(row -> row.Année !== 2013, Matrice))

On peut voir que seul le modèle quadratique n'inclue pas dans l'intervalle de confiance. Alors, il se pourrait que le nombre de jours de pluie ait un pouvoir prédictif significatif sur le nombre de cerfs récoltés.

### 2.11 Utilisation du prix moyen de l'essence à Montréal comme variable explicative

###### 2.11.1 Graphique du nombre de cerfs récoltés selon le prix moyen de l'essence à Montréal

In [None]:
set_default_plot_size(16cm, 10cm)
plot(Matrice, x=:"Prix_moyen_Montréal", y=:Cerfs, Geom.line, Geom.point)

Cette relation n'est pas inéaire. En effet, la courbe a plutot l'allure d'une relation cubique. Nous explorerons le pouvoir prédictif des relations polynomiales avec cette variable explicative.

###### 2.11.2 Pouvoir prédictif du prix moyen de l'essence à Montréal

In [None]:
lm(@formula(Cerfs ~ Prix_moyen_Montréal), Matrice)

In [None]:
lm(@formula(Cerfs ~ Prix_moyen_Montréal + Prix_moyen_Montréal^2 ), Matrice)

In [None]:
lm(@formula(Cerfs ~ Prix_moyen_Montréal + Prix_moyen_Montréal^2 + Prix_moyen_Montréal^3 ), Matrice)

Comme nous l'avions prédis, zéro n'est pas inclu dans l'intervalle de confiance pour le modèle cubique, alors il pourrait y avoir un pouvoir prédictif significatif.

### 2.12 Utilisation du prix moyen de l'essence à Québec comme variable explicative

###### 2.12.1 Graphique du nombre de cerfs récoltés selon le prix moyen de l'essence à Montréal

In [None]:
set_default_plot_size(16cm, 10cm)
plot(Matrice, x=:"Prix_moyen_Québec", y=Matrice.Cerfs, Geom.line, Geom.point, Guide.ylabel("Cerfs récoltés"))

Tout comme le prix de l'essence a Montréal, cette relation n'est pas linéaire. La courbe a plutot l'allure d'une relation polynomiale de degré 3. Nous explorerons, donc, le pouvoir prédictif de ces relations.

###### 2.12.2 Pouvoir prédictif du prix moyen de l'essence à Québec

In [None]:
lm(@formula(Cerfs ~ Prix_moyen_Québec), Matrice)

In [None]:
lm(@formula(Cerfs ~ Prix_moyen_Québec + Prix_moyen_Québec^2 ), Matrice)

In [None]:
lm(@formula(Cerfs ~ Prix_moyen_Québec + Prix_moyen_Québec^2 + Prix_moyen_Québec^3 ), Matrice)

Encore une fois, comme nous l'avions prédis, c'est la relation polynomiale de degré 3 qui a un pouvoir prédictif significatif.

### 2.13 Utilisation du prix moyen de l'essence entre Montréal et Québec comme variable explicative

###### 2.13.1 Graphique du nombre de cerfs récoltés selon le prix moyen de l'essence à Montréal

In [None]:
set_default_plot_size(16cm, 10cm)
plot(Matrice, x=:"Prix_moyen_Essence", y=:Cerfs, Geom.line, Geom.point)

Comme pour le prix de Montréal et de Québec, la relation n'est pas linéaire, mais a plutot l'allure d'une courbe polynomiale de degré 3. Nous confirmerons ceci, en analysant le pouvoir prédictif de celle-ci.

###### 2.13.2 Pouvoir prédictif du prix moyen de l'essence

In [None]:
lm(@formula(Cerfs ~ Prix_moyen_Essence), Matrice)

In [None]:
lm(@formula(Cerfs ~ Prix_moyen_Essence +  Prix_moyen_Essence^2), Matrice)

In [None]:
lm(@formula(Cerfs ~ Prix_moyen_Essence +  Prix_moyen_Essence^2 + Prix_moyen_Essence^3), Matrice)

Encore une fois, zéro n'est pas inclu dans l'intervalle de confiance de la derniere relation, donc il se pourrait que le prix moyen de l'essence ait un pouvoir prédictif significatif.

### 2.14 Conclusion de l'analyse exploratoire pour le nombre de cerfs totale

Suite à cette analyse du pouvoir prédictif significatif des variables explicatives, voici celles qui seront utilisés dans nos prochains modèles de prédiction du nombre de cerfs récoltés dans les zones  pour les modeles de régression multiple et les modeles polynomiales:

Variables explicatives :
1. Permis résident
2. Permis non-résidents
3. Année (jusqu'a degré 4)
4. Pluie totale (degré 3)
5. Jours de neige (degré 4)
6. Jours de pluie (degré 2)
7. Prix de l'essence Mtl (degré 3)
8. Prix de l'essence Qc (degré 3)
9. Prix de l'essence (degré 3)

Variables d'intérêt:
1. Nombre de cerfs récoltés
2. Nombre de cerfs récoltés pour un type d'arme spécifique

### 2.15 Analyse exploratoire des proportions de cerfs annuelle pour chaque zones

Un modèle qu'on pense qu'il serait intéressant d'explorer serait l'évolution des proportions de cerfs pour chaque zones. Cela impliquerait que l'endroit ou un cerfs est récolté suit une loi catégorielle pour chaque zones.

#### 2.15.1 Ajout des proportions pour chaque zones dans notre matrice de donnée

In [21]:
MatriceProportions = MatriceZones
MatriceProportions.Proportion = (MatriceProportions.Cerfs ./ MatriceProportions.Cerfs_totale)*100
first(MatriceProportions[!, :Proportion], 5)

5-element Vector{Float64}:
  3.0143525026972244
  4.966162095007683
 15.987184097819334
  6.5844966815967565
 15.843332134566973

#### 2.15.1 Utilisation de l'année comme variable explicative

In [None]:
zones = unique(MatriceProportions[!, :Zone])

pp = Plot[]

set_default_plot_size(10cm, 6cm)
for i = 1:length(zones)
    p = plot(groupby(MatriceProportions, :Zone)[i], x=:Année, y=:Proportion, Geom.line, Geom.point, Guide.title(raw"Zone"*" $(groupby(MatriceProportions, :Zone)[i].Zone[1])"))
    push!(pp, p)
end

# Pour afficher les 4 premières zones 

p = reshape(pp[1:4], (2,2))

set_default_plot_size(20cm, 15cm)
gridstack(p)

Comme nous pouvons le voir par ces graphiques, l'évolution des proportions au cours des années n'est pas constante ni linéaire. En effet, les courbes onts plus l'allure de relations polynomiales. Explorerons le pouvoir prédictif de l'année sur les proportions d'une zone.

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Année), groupby(MatriceProportions, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Année + Année^2), groupby(MatriceProportions, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Année + Année^2 + Année^3), groupby(MatriceProportions, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

Comme on peut le voir, augmenter le degré du polynome avec l'année augmente le R2 ajusté pour certaines zones, mais le diminue pour d'autre. Cela implique que chaque zone a un degré optimale différent. Il faudra tenir compte de cela, lors de la mise en place de nos modèles. L'année semble cependant etre un bon pour certaines zones tels que les zones 27, 28 et 8 et ce dans tous les cas.

#### 2.15.2 Utilisation de la température comme variable explicative

In [None]:
zones = unique(MatriceProportions[!, :Zone])

pp = Plot[]

set_default_plot_size(10cm, 6cm)
for i = 1:length(zones)
    p = plot(filter(row -> row.Année !== 2013, groupby(MatriceProportions, :Zone)[i]), x=:Température, y=:Proportion, Geom.line, Geom.point, Guide.title(raw"Zone"*" $(groupby(MatriceProportions, :Zone)[i].Zone[1])"))
    push!(pp, p)
end

# Pour afficher les 4 premières zones 

p = reshape(pp[1:4], (2,2))

set_default_plot_size(20cm, 15cm)
gridstack(p)

Comme nous pouvons le voir par ces graphiques, l'évolution des proportions avec la température n'est pas constante ni linéaire. En effet, les courbes onts plus l'allure de relations polynomiales. Explorerons le pouvoir prédictif de la température sur les proportions d'une zone.

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Température), filter(row -> row.Année !== 2013, groupby(MatriceProportions, :Zone)[i]))
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Température + Température^2), filter(row -> row.Année !== 2013, groupby(MatriceProportions, :Zone)[i]))
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Température + Température^2 + Température^3), filter(row -> row.Année !== 2013, groupby(MatriceProportions, :Zone)[i]))
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))


Comme nous pouvons le voir, augemter le degré du polynome avec la température améliore le R2 ajusté de certaines zones. De ce fait, la température pourrait etre une variable qui valle la peine d'utiliser pour nos modèles de prédiction.

#### 2.15.3 Utilisation du prix de l'essence moyen entre Montréal et Québec comme variable explicative

In [None]:
zones = unique(MatriceProportions[!, :Zone])

pp = Plot[]

set_default_plot_size(10cm, 6cm)
for i = 1:length(zones)
    p = plot(groupby(MatriceProportions, :Zone)[i], x=:Prix_moyen_Essence, y=:Proportion, Geom.line, Geom.point, Guide.title(raw"Zone"*" $(groupby(MatriceProportions, :Zone)[i].Zone[1])"))
    push!(pp, p)
end

# Pour afficher les 4 premières zones 

p = reshape(pp[1:4], (2,2))

set_default_plot_size(20cm, 15cm)
gridstack(p)

Comme on peut le voir, la variation des proportions semble etre coréler avec la vatration du prix moyen de l'essence.

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Prix_moyen_Essence), groupby(MatriceProportions, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Prix_moyen_Essence + Prix_moyen_Essence^2), groupby(MatriceProportions, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Prix_moyen_Essence + Prix_moyen_Essence^2 + Prix_moyen_Essence^3), groupby(MatriceProportions, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

Comme on peut le voir, utiliser des degrés supérieur pour la relation polynomiale avec l'essence augmente les R2 ajustés. Cela implique qu'on devrait considérer ceux-ci dans nos modèles de régressions.

#### 2.15.4 Utilisation de la quantité de neige au sol comme variable explicative

In [None]:
zones = unique(MatriceProportions[!, :Zone])

pp = Plot[]

set_default_plot_size(10cm, 6cm)
for i = 1:length(zones)
    p = plot(filter(row -> row.Année !== 2013, groupby(MatriceProportions, :Zone)[i]), x=:Neige_totale_au_sol, y=:Proportion, Geom.line, Geom.point, Guide.title(raw"Zone"*" $(groupby(MatriceProportions, :Zone)[i].Zone[1])"))
    push!(pp, p)
end

# Pour afficher les 4 premières zones 

p = reshape(pp[1:4], (2,2))

set_default_plot_size(20cm, 15cm)
gridstack(p)

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Neige_totale_au_sol), groupby(MatriceProportions, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Neige_totale_au_sol+ Neige_totale_au_sol^2), groupby(MatriceProportions, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

In [None]:
models = []

z1 = DataFrame(groupby(MatriceProportions, :Zone))
    
zones = unique(MatriceProportions[!, :Zone])

models = []
for i = 1:length(zones)
    m = lm(@formula(Proportion ~ Neige_totale_au_sol+ Neige_totale_au_sol^2 + Neige_totale_au_sol^3), groupby(MatriceProportions, :Zone)[i])
    push!(models, adjr2(m))
end

results = DataFrame(Zone=zones, R2_ajusté = models)
sort(results, order(:R2_ajusté, rev=true))

Comme on peut le voir, la quantité de neige au sol ne donne pas de meilleurs R2 ajustés que l'année ou le prix de l'essence. De plus, augmenter le degré du polynome, n'augmente pas significativement ceux-ci. De ce fait nous pensons pas l'utiliser pour nos modèles de prédiction des proportions de 2021.

#### 2.15.5 Conclusion de l'analyse exploratoire des proportions

Ce que nous pouvons conclure, c'est que la variation des proportions de cerfs calculés pour chaque zones varient selon des courbes polynomiales. De ce fait, nous pensons qu'il faudra utiliser de la régression polynomiale pour prédire les proportions de 2021. De plus, l'année et le prix moyen de l'essence semble pouvoir donner de bon modèles de prédictions.

## 3. Estimation du nombre de permis en 2021

Comme on peut le voir, le nombre de permis émis en 2021 n'est pas fourni, nous allons donc tenter de l'estimer, comme nous avons vu précédemment, seuls le nombre de permis résidents et non-résidents nous intéressent, alors nous n'allons estimer que ces valeurs

#### 3.1 Permis résidents

In [None]:
set_default_plot_size(16cm, 10cm)
plot(permis, x=:Année, y=:Résidents, Geom.line, Geom.point,
    Guide.ylabel("Permis résidents vendus"))

In [None]:
n = size(permis, 1)
Y = [permis[i, :Résidents] for i in 1:n-1]
X = hcat(ones(n - 1), [permis[i, :Année] for i in 1:n-1], [permis[i, :Année]^2 for i in 1:n-1])

B = X \ Y

permis_residents_2021 = ceil(B[1] + B[2] * 2021 + B[3] * 2021^2)

Nous allons utiliser cette estimation plus tard

In [None]:
obs = layer(permis, x=:Année, y=:Résidents, Geom.point)
model = layer(x-> B[1] + B[2] * x + B[3] * x^2, 1998, 2021, Theme(default_color="red"))

set_default_plot_size(16cm, 10cm)
plot(obs, model)

#### 3.2 Permis non-résidents

In [None]:
set_default_plot_size(16cm, 10cm)
plot(permis, x=:Année, y=:"Non-résidents", Geom.line, Geom.point,
    Guide.ylabel("Permis non-résidents vendus"))

In [22]:
n = size(permis, 1)
Y = [permis[i, :"Non-résidents"] for i in 1:n-1]
X = hcat(ones(n - 1), [permis[i, :Année] for i in 1:n-1], [permis[i, :Année]^2 for i in 1:n-1])

B = X \ Y

permis_non_residents_2021 = ceil(B[1] + B[2] * 2021 + B[3] * 2021^2)

508.0

Nous allons utiliser cette estimation plus tard

In [None]:
obs = layer(permis, x=:Année, y=:"Non-résidents", Geom.point)
model = layer(x-> B[1] + B[2] * x + B[3] * x^2, 1998, 2021, Theme(default_color="red"))

set_default_plot_size(16cm, 10cm)
plot(obs, model)

In [None]:
Pluie2021 = PluieAn.Pluie_totale[22]
Neige2021 = NeigeAn.Neige_totale[22]
NeigeTS2021 = NeigeSolAn.Neige_totale_au_sol[22]
JPluie2021 = JourPluieAn.Jours_de_pluie[22] 
JNeige2021 = JourNeigeAn.Jours_de_neige[22]
JNeigeS2021 = JourNeigeSolAn.Jours_neige_au_sol[22] 
PrixMtl2021 = essenceMtlMoyAn.Prix_moyen_Montréal[25] 
PrixQc2021 = essenceQcMoyAn.Prix_moyen_Québec[25]
PrixEssence2021 = essenceMoyAn.Prix_moyen_Essence[25]
Temp2021

## 4. Modèles de régressions linéaires avec variables explicatives différentes pour chaque zone

In [22]:
using MLBase



Dans cette section, nous allons tenter de créer des modèles de régression linéaire et de les ordonner du meilleur au pire selon nos prédictions

### 4.1 Modèles sans transformation de la variable d'intérêt (pas de catégorisation d'armes)

#### 4.1.1 Tenter de classer nos modèles selon le R2 (avec années et permis comme variables explicatives)

In [None]:
zones = groupby(recolte, :Zone)  # On groupe les données par zone

new_df = DataFrame(Année = Int64[], Année2= Int64[], Zone = Int64[], Cerfs= Int64[], Résidents= Int64[], NonRes= Int64[], Essence= Float64[], Essence2= Float64[], Essence3= Float64[], Temperature3= Float64[], Jour_de_Pluie= Int64[], Jour_de_Pluie2= Int64[])

for zone in zones  # Pour chaque zone de chasse,
    
    # pour chaque année,
    # on additionne le nombre de cerfs récoltés selon les différents engins de chasse
    df = combine(groupby(zone, :Année), :Cerfs => sum => :Cerfs)
    df = innerjoin(df, Matrice, on = :Année, makeunique=true) 
    
    df2 = DataFrame(Année = df.Année,
                    Année2 = [df.Année[i]^2 for i in 1:size(df.Année, 1)],
                    Zone = fill(unique(zone.Zone)[1], size(df, 1)),
                    Cerfs = df.Cerfs,
                    Résidents = df.Résidents,
                    NonRes = df."Non-résidents",
                    Essence = df.Prix_moyen_Essence,
                    Essence2 = [df.Prix_moyen_Essence[i]^2 for i in 1:size(df.Année, 1)], 
                    Essence3 = [df.Prix_moyen_Essence[i]^3 for i in 1:size(df.Année, 1)], 
                    Temperature3 = [df.Température[i]^3 for i in 1:size(df.Année, 1)],
                    Jour_de_Pluie = df.Jours_de_pluie,
                    Jour_de_Pluie2 = [df.Jours_de_pluie[i]^2 for i in 1:size(df.Année, 1)]) 
    
    append!(new_df, df2)  # On ajoute l'information au DataFrame préinitialisé 
end



sort!(new_df, :Année)
first(new_df, 5)

In [None]:
zones = unique(new_df[!, :Zone])

models = DataFrame(Zone= Int64[], R2= Float64[], Formula= Any[], Prediction= Float64[])
for i = 1:length(zones)
    modelsZone = DataFrame(R2= Float64[], Formula= Any[], Prediction= Int64[])
    
    for termes in combinations([:Année, :Essence, :Essence2, :Jour_de_Pluie, :Jour_de_Pluie2])
        formula = term(:Cerfs) ~ sum(term.(termes))
        m = lm(formula, groupby(new_df, :Zone)[i])
        pred = max(ceil(predict(m, DataFrame(Année=[2021], Résidents=[117278], NonRes=[508], Année2=[2021^2], Essence=[PrixEssence2021], Essence2=[PrixEssence2021^2], Essence3=[PrixEssence2021^3], Temperature3=[Temp2021^3], Jour_de_Pluie=[JPluie2021], Jour_de_Pluie2=[JPluie2021^2]))[1]), 0)
        push!(modelsZone, [r2(m), formula, pred])
    end
    sorted_models = sort(modelsZone, :R2, rev=true)
    
    push!(models, [groupby(new_df, :Zone)[i].Zone[1], sorted_models.R2[1], sorted_models.Formula[1], sorted_models.Prediction[1]])
end

models

In [None]:
test = CSV.read("data/test.csv", DataFrame);

models = models[in.(models.Zone, Ref(test.Zone)), :]
n = size(models, 1)
prediction = DataFrame(Zone = models.Zone, Cerfs = [Int64((models.Prediction[i])) for i in 1:n])
CSV.write("simple_regression_r2.csv", prediction)

Cette régression possède un rmse assez mauvais quand nous l'avons soumis sur Kaggle, nous allons donc tenter d'évaluer nos modèles d'une autre manière

#### 4.1.2 Tenter de classer nos modèles selon les RMSE (avec années et permis comme variables explicatives)

In [None]:
zones = unique(new_df[!, :Zone])

models = DataFrame(Zone= Int64[], RMSE= Float64[], Formula= Any[], Prediction= Float64[])
for i = 1:length(zones)

    modelsZone = DataFrame(RMSE= Float64[], Formula= Any[], Prediction= Float64[])

    for termes in combinations([:Année, :Année2, :Essence, :Essence2, :NonRes])
        formula = term(:Cerfs) ~ sum(term.(termes))

        train = groupby(new_df, :Zone)[i][Not(4), :]
        valid = groupby(new_df, :Zone)[i][4, :]

        m = glm(formula, train, Normal(), IdentityLink())
        θ̂ = predict(m, DataFrame(valid))
        θ̂ = convert.(Int64, [ceil(θ̂[i]) for i in 1:size(θ̂ , 1)])

        rmse = StatsBase.rmsd(θ̂ , [valid.Cerfs])

        pred = max(ceil(predict(m, DataFrame(Année=[2021], Résidents=[117278], NonRes=[508], Année2=[2021^2], Essence=[PrixEssence2021], Essence2=[PrixEssence2021^2], Essence3=[PrixEssence2021^3], Temperature3=[Temp2021^3], Jour_de_Pluie=[JPluie2021], Jour_de_Pluie2=[JPluie2021^2]))[1]), 0)
        push!(modelsZone, [rmse, formula, pred])
    end
    sorted_models = sort(modelsZone, :RMSE)
    
    push!(models, [groupby(new_df, :Zone)[i].Zone[1], sorted_models.RMSE[1], sorted_models.Formula[1], sorted_models.Prediction[1]])
end

models

In [None]:
models = models[in.(models.Zone, Ref(test.Zone)), :]
n = size(models, 1)
prediction = DataFrame(Zone = models.Zone, Cerfs = [Int64((models.Prediction[i])) for i in 1:n])
CSV.write("simple_regression_rmse.csv", prediction)

### 4.2 Modèle avec caractérisation d'armes

In [None]:
function get_df_engin(engin::Any)
    new_df_engin = DataFrame(Année = Int64[], Année2= Int64[], Zone = Int64[], Cerfs= Int64[], Résidents= Int64[], NonRes= Int64[],  Essence= Float64[], Essence2= Float64[], Essence3= Float64[], Temperature3= Float64[], Jour_de_Pluie= Int64[], Jour_de_Pluie2= Int64[])

    zones = groupby(recolte, :Zone)  # On groupe les données par zone
    for zone in zones  # Pour chaque zone de chasse,
        # pour chaque année,
        # on additionne le nombre de cerfs récoltés selon les différents engins de chasse.
        df_engin = combine(groupby(zone, [:Année, :Engin, :Zone]), :Cerfs => sum => :Cerfs)
        df_engin = filter(row -> row.Engin == engin,  df_engin)
        
        anneesarr = []
        zonearr = []
        cerfsarr = []
        for i in 1998:2020
            push!(anneesarr, i)
            push!(zonearr, zone.Zone[1])
            if (size(filter(row -> row.Année == i, df_engin).Cerfs, 1) == 0)
                push!(cerfsarr, 0)
            else
                push!(cerfsarr, filter(row -> row.Année == i, df_engin).Cerfs[1])
            end
        end

        df2_engin = DataFrame(Année = anneesarr, 
                        Année2 = [anneesarr[i]^2 for i in 1:size(anneesarr, 1)],
                        Zone = zonearr,
                        Cerfs = cerfsarr)
        
        df2_engin = innerjoin(df2_engin, Matrice, makeunique = true, on = :Année)
        df2_engin.NonRes = df2_engin[!, "Non-résidents"]
        df2_engin.Temperature3 = [df2_engin.Température[i]^3 for i in 1:size(df2_engin.Année, 1)]
        df2_engin.Essence = df2_engin.Prix_moyen_Essence
        df2_engin.Essence2 = [df2_engin.Prix_moyen_Essence[i]^2 for i in 1:size(df2_engin.Année, 1)]
        df2_engin.Essence3 = [df2_engin.Prix_moyen_Essence[i]^3 for i in 1:size(df2_engin.Année, 1)]
        df2_engin.Jour_de_Pluie = df2_engin.Jours_de_pluie
        df2_engin.Jour_de_Pluie2 = [df2_engin.Jours_de_pluie[i]^2 for i in 1:size(df2_engin.Année, 1)]
        df2_engin = df2_engin[!, ["Année", "Année2", "Résidents", "NonRes", "Cerfs", "Zone", "Temperature3", "Essence", "Essence2", "Essence3", "Jour_de_Pluie", "Jour_de_Pluie2"]]
        append!(new_df_engin, df2_engin)  # On ajoute l'information au DataFrame préinitialisé 
    end
    return new_df_engin
end

new_df_arc = get_df_engin("Arc")
new_df_fusil = get_df_engin("Fusil")
new_df_arbalete = get_df_engin("Arbalète")
new_df_indetermine = get_df_engin("Indéterminé")
new_df_acb = get_df_engin("ACB")
new_df_carabine = get_df_engin("Carabine")

dataframes = [new_df_arc, new_df_fusil, new_df_arbalete, new_df_indetermine, new_df_acb, new_df_carabine];

In [None]:
function get_best_model(dataframe::Any)
    models = DataFrame(Zone= Int64[], RMSE= Float64[], Formula= Any[], Prediction= Float64[])
    for i = 1:length(zones)

        modelsZone = DataFrame(RMSE= Float64[], Formula= Any[], Prediction= Float64[])

        for termes in combinations([:Année, :Année2, :Essence, :Résidents, :Temperature3])
            formula = term(:Cerfs) ~ sum(term.(termes))

            train = groupby(new_df, :Zone)[i][Not(4), :]
            valid = groupby(new_df, :Zone)[i][4, :]

            m = glm(formula, train, Normal(), IdentityLink())
            θ̂ = predict(m, DataFrame(valid))
            θ̂ = convert.(Int64, [ceil(θ̂[i]) for i in 1:size(θ̂ , 1)])

            rmse = StatsBase.rmsd(θ̂ , [valid.Cerfs])
            m = glm(formula, groupby(dataframe, :Zone)[i], Normal(), IdentityLink())
            pred = max(ceil(predict(m, DataFrame(Année=[2021], Résidents=[117278], NonRes=[508], Année2=[2021^2], Essence=[PrixEssence2021], Essence2=[PrixEssence2021^2], Essence3=[PrixEssence2021^3], Temperature3=[Temp2021^3], Jour_de_Pluie=[JPluie2021], Jour_de_Pluie2=[JPluie2021^2]))[1]), 0)
            push!(modelsZone, [rmse, formula, pred])
        end
        sorted_models = sort(modelsZone, :RMSE)

        push!(models, [groupby(dataframe, :Zone)[i].Zone[1], sorted_models.RMSE[1], sorted_models.Formula[1], sorted_models.Prediction[1]])
    end
    return models
end
predictions = []
for data in dataframes
    push!(predictions, get_best_model(data))
end
predictions

In [None]:
results = []
for models in predictions
    models = models[in.(models.Zone, Ref(test.Zone)), :]
    n = size(models, 1)
    push!(results, DataFrame(Zone = models.Zone, Cerfs = [Int64((models.Prediction[i])) for i in 1:n]))
end
cerfs_recoltes = [0 for i in 1:size(results[1].Zone, 1)]
for result in results
    for i in 1:size(results[1].Zone, 1)
        cerfs_recoltes[i] = cerfs_recoltes[i] + result.Cerfs[i]
    end
end
cerfs_recoltes
CSV.write("weapon_category_year_3_vars.csv", DataFrame(Zone = results[1].Zone, Cerfs= cerfs_recoltes))

## 5. Modèles de régression multiple  globale (on utilise les mêmes variables explicatives pour toutes les zones

In [None]:
zones = unique(new_df[!, :Zone])

models = DataFrame(RMSE= Float64[], Formula= Any[], Prediction= Any[])
for termes in combinations([:Année, :Année2, :Essence, :Essence2, :Essence3, :Résidents])
    modelsCombination = DataFrame(RMSE= Float64[], Zone= Int64[], Prediction= Int64[])
    formula = term(:Cerfs) ~ sum(term.(termes))
    for i = 1:length(zones)

        train = groupby(new_df, :Zone)[i][Not(4), :]
        valid = groupby(new_df, :Zone)[i][4, :]

        m = glm(formula, train, Normal(), IdentityLink())
        θ̂ = predict(m, DataFrame(valid))
        θ̂ = convert.(Int64, [ceil(θ̂[i]) for i in 1:size(θ̂ , 1)])

        rmse = StatsBase.rmsd(θ̂ , [valid.Cerfs])

        m = glm(formula, groupby(new_df, :Zone)[i], Normal(), IdentityLink())
        pred = max(ceil(predict(m, DataFrame(Année=[2021], Résidents=[117278], NonRes=[508], Année2=[2021^2], Essence=[PrixEssence2021], Essence2=[PrixEssence2021^2], Essence3=[PrixEssence2021^3], Temperature3=[Temp2021^3], Jour_de_Pluie=[JPluie2021], Jour_de_Pluie2=[JPluie2021^2]))[1]), 0)
        push!(modelsCombination, [rmse, groupby(new_df, :Zone)[i].Zone[1] , pred])
    end
    push!(models, [mean(modelsCombination.RMSE), formula, DataFrame(Zone= modelsCombination.Zone, Cerfs = modelsCombination.Prediction)])
end
models = sort(models, :RMSE)
best_model = models.Prediction[1]
models

In [None]:
test = CSV.read("data/test.csv", DataFrame);

best_model = best_model[in.(best_model.Zone, Ref(test.Zone)), :]

CSV.write("year_3_vars_same_model.csv", best_model)

In [None]:
function get_best_model(dataframes::Any)
    zones = unique(new_df[!, :Zone])

    models = DataFrame(RMSE= Float64[], Formula= Any[], Prediction= Any[])
    for termes in combinations([:Année, :Année2, :Essence, :Essence2, :Essence3, :Résidents])
        modelsCombination = DataFrame(RMSE= Float64[], Zone= Int64[], Prediction= Float64[])
        modelsCombination_df_array = []
        formula = term(:Cerfs) ~ sum(term.(termes))
        for dataframe in dataframes
            modelsCombination_df = DataFrame(RMSE= Float64[], Zone= Int64[], Prediction= Float64[])
            for i = 1:length(zones)
                train = groupby(new_df, :Zone)[i][Not(4), :]
                valid = groupby(new_df, :Zone)[i][4, :]

                m = glm(formula, train, Normal(), IdentityLink())
                θ̂ = predict(m, DataFrame(valid))
                θ̂ = convert.(Int64, [ceil(θ̂[i]) for i in 1:size(θ̂ , 1)])

                rmse = StatsBase.rmsd(θ̂ , [valid.Cerfs])
                m = glm(formula, groupby(dataframe, :Zone)[i], Normal(), IdentityLink())
                pred = max(ceil(predict(m, DataFrame(Année=[2021], Résidents=[117278], NonRes=[508], Année2=[2021^2], Essence=[PrixEssence2021], Essence2=[PrixEssence2021^2], Essence3=[PrixEssence2021^3], Temperature3=[Temp2021^3], Jour_de_Pluie=[JPluie2021], Jour_de_Pluie2=[JPluie2021^2]))[1]), 0)
                push!(modelsCombination_df, [rmse, groupby(dataframe, :Zone)[i].Zone[1] , pred])
            end
            push!(modelsCombination_df_array, modelsCombination_df)
        end
        
        zones = modelsCombination_df_array[1].Zone
        RMSE = 0
        cerfs_recoltes = [0 for i in 1:size(modelsCombination_df_array[1].Zone, 1)]
        for result in modelsCombination_df_array
            RMSE = RMSE + mean(result.RMSE)
            for i in 1:size(modelsCombination_df_array[1].Zone, 1)
                cerfs_recoltes[i] = cerfs_recoltes[i] + result.Prediction[i]
            end
        end
        
        push!(models, [RMSE, formula, DataFrame(Zone = modelsCombination_df_array[1].Zone, Cerfs = cerfs_recoltes)])
    end
    models = sort(models, :RMSE)
    return models
end



best_model = get_best_model(dataframes).Prediction[1]
get_best_model(dataframes)

In [None]:
test = CSV.read("data/test.csv", DataFrame);

best_model = best_model[in.(best_model.Zone, Ref(test.Zone)), :]

CSV.write("weapon_category_year_essence.csv", best_model)

## 6. Modèles de prédiction du nombre totale de cerfs en 2021

Comme nous l'avions découvert dans notre analyse exploratoire, les relations polynomiales de degré 2 à 4 semblaient avoir un pouvoir prédictif significatif sur le nombre de cerfs totale récolté annuellement. Construisons des modèles et sélectionnons le meilleur de prédiction. Nous utiliserons la prédiction du modèle ayant le plus petit RMSE dans notre modèle de classification pour chaque zones.


#### Ensemble d'entrainement et de validation

In [23]:
Pluie2021 = PluieAn.Pluie_totale[22]
Neige2021 = NeigeAn.Neige_totale[22]
NeigeTS2021 = NeigeSolAn.Neige_totale_au_sol[22]
JPluie2021 = JourPluieAn.Jours_de_pluie[22] 
JNeige2021 = JourNeigeAn.Jours_de_neige[22]
JNeigeS2021 = JourNeigeSolAn.Jours_neige_au_sol[22] 
PrixMtl2021 = essenceMtlMoyAn.Prix_moyen_Montréal[25] 
PrixQc2021 = essenceQcMoyAn.Prix_moyen_Québec[25]
PrixEssence2021 = essenceMoyAn.Prix_moyen_Essence[25]

152.225

In [None]:
df2021 = DataFrame(Année = 2021, Température = Temp2021, Pluie_totale = Pluie2021, Neige_totale = Neige2021, Neige_totale_au_sol = NeigeTS2021 = NeigeTS2021, Jours_de_pluie = JPluie2021,
    Jours_de_neige = JNeige2021, Jours_de_neige_au_sol = JNeigeS2021, Prix_moyen_Montréal = PrixMtl2021,
    Prix_moyen_Québec = PrixQc2021, Prix_moyen_Essence = PrixEssence2021)

In [None]:
m = filter(row -> row.Année !== 2013, Matrice) #On retire 2013 car il nous manque les données météorologique
deers_training = filter(row -> row.Année >= 2010 && row.Année < 2020, m)
deers_validation = filter(row -> row.Année === 2020, m) #On assume que 2021 sera proche de 2001 donc on veux valider avec 2001

In [None]:
deers_training 

### 6.1 Modèle avec l'année

Pour ce modèles et les autres, nous utiliserons la fonction de construction de matrice polynomiales fournit lors du TD numéro 4.

In [None]:

function construct_structure(x::Vector{<:Any}, order::Int)
    
    X = Array{Float64}(undef, length(x), order)
    
    for p in 1:order
       X[:,p] = x.^p 
    end
    
    return X
    
end
    

Voici la fonction que nous utiliserons pour touver le meilleur ordre pour ce modèles et les autres. Celui-ci retourne le meilleur degré a utiliser pour effectuer des prédictions dans chaque zone.

In [None]:
using MLBase

In [None]:
function get_best_polynomial_deers_model(variable::String, min_order::Int64, max_order::Int64)
    models = DataFrame(Ordre = Int64[], R = Float64[], Raj = Float64[], RMSE = Float64[], Betas = Vector{Float64}[])

    df = DataFrame(Ordre = Int64[], R = Float64[], Raj = Float64[], RMSE = Float64[], Betas = Vector{Float64}[])

    SST = sum( (deers_training.Cerfs .- mean(deers_training.Cerfs)).^2 )

    for order in min_order:max_order
        n1 = length(deers_training.Cerfs)
        n2 = length(deers_validation.Cerfs)

        # Ajustement du modèle de régression polynomiale
        X = hcat(ones(n1), construct_structure(Vector{<:Any}(deers_training[!, variable]), order))
        β̂  = X\deers_training.Cerfs

        # Calcul de l'erreur
        ŷ = X*β̂
        e = deers_training.Cerfs - ŷ

        # Calcul de la somme du carré des erreurs
        SSE = e'e

        # Calcul de l'erreur quadratique moyenne avec l'ensemble de validation
        X̃ = hcat(ones(n2), construct_structure(deers_validation[!, variable], order))
        ỹ = X̃*β̂
        RMSE = (mean( (deers_validation.Cerfs - ỹ).^2 ))^0.5

        push!(df, [order, 1-SSE/SST, 1-(n1-1)/(n1-order-1)*SSE/SST, RMSE, β̂ ])
    end

    df = sort(df, :RMSE)
    push!(models, [df.Ordre[1], df.R[1], df.Raj[1], df.RMSE[1], df.Betas[1]])
    return  models
end

Voici la fonction qui fera une prédiction pour chaque zone. Elle prend en parametre le résultat de la fonction "get_best_deer_model" ainsi que la donnée de 2021 qu'on utilisera pour faire notre prédiction. Elle retourne un tableau avec les prédictions pour chaque zone en 2021.

In [None]:
function polynomial_predictions(dataframe::Any, next_year_data::Any)
    
    # Matrice de la nouvelle donnée
    X = hcat(ones(1), construct_structure([next_year_data], dataframe.Ordre[1]))

    # Prédiction
    ŷ = X*dataframe.Betas[1]

    yceil = ceil(ŷ[1])

    prediction = convert(Int64, yceil)
    
    return prediction
end

#### 6.1.1 Meilleur degré

In [None]:
result1 = get_best_polynomial_deers_model("Année", 1, 6)

Selon notre fonction, le meilleur degré pour estimer le nombre de cerfs en 2021 est de 1. Celui-ci donne un RMSE de 1744.28 ce qui est élevé selon nous. Voyons voir si on peut faire mieux.

#### 6.1.2 Prédiction pour 2021

In [None]:
prediction_avec_année = polynomial_predictions(result1, 2021)

Sachant, que ce RMSE nous semble élevé, il se pourrait que cette estimation ne soit pas la meilleure.

### 6.2 Modèle avec la neige totale

#### 6.2.1 Meilleur degré

In [None]:
result2 = get_best_polynomial_deers_model("Neige_totale", 1, 6)

Comme on peut le voir, en utilisant la pluie, le meilleur degré est 4, avec un RMSE de 756, ce qui est déjà beaucoup mieux qu'avec l'année.

#### 6.2.2 Prédiction pour 2021

In [None]:
Neige2021 = NeigeAn.Neige_totale[22]
prediction_avec_neige = polynomial_predictions(result2, Neige2021)

Cette quantité de cerfs se rapproche déja plus de 2020, ce qui semble prometteur puisqu'on assume que le nombre de cerfs récolté en 2021 est proche de celui de 2020.

### 6.3 Modèle avec le prix moyen de l'essence à Montréal

#### 6.3.1 Meilleur degré

In [None]:
result3 = get_best_polynomial_deers_model("Prix_moyen_Montréal", 1, 2)

#### 6.3.2 Prédiction pour 2021

In [None]:
PrixMtl2021 = essenceMtlMoyAn.Prix_moyen_Montréal[25] 
prediction_avec_essence_Mtl = polynomial_predictions(result3, PrixMtl2021)

### 6.4 Modèle avec la température moyenne annuelle

#### 6.4.1 Meilleur degré

In [None]:
result4 = get_best_polynomial_deers_model("Température", 1, 8)

#### 6.6.2 Prédiction pour 2021

In [None]:
Temp2021 = TempMoy.Température[22]
prediction_avec_temperature = polynomial_predictions(result4, Temp2021)

On constate que, c'est le plus petit RMSE que nous obtenons a date, donc nous l'essayerons pour voir. Cependant, voyons si on peut obtenir un pluis petit RMSE avec les modeles de régression polynomiale.

### 6.7 Modèles multiples

Dans le but d'arriver au plus petit RMSE possible, essayons d'utiliser les modèles multiples.

In [None]:
deers_training = transform(deers_training, ["Jours_de_pluie"] => ByRow(x->(x)^2) => :Jours_de_pluie_square)
deers_training = transform(deers_training, ["Jours_de_pluie"] => ByRow(x->(x)^3) => :Jours_de_pluie_cubic)
deers_training = transform(deers_training, ["Jours_de_neige"] => ByRow(x->(x)^2) => :Jours_de_neige_square)
deers_training = transform(deers_training, ["Jours_de_neige"] => ByRow(x->(x)^3) => :Jours_de_neige_cubic)

In [None]:
deers_validation = transform(deers_validation , ["Jours_de_pluie"] => ByRow(x->(x)^2) => :Jours_de_pluie_square)
deers_validation  = transform(deers_validation , ["Jours_de_pluie"] => ByRow(x->(x)^3) => :Jours_de_pluie_cubic)
deers_validation  = transform(deers_validation , ["Jours_de_neige"] => ByRow(x->(x)^2) => :Jours_de_neige_square)
deers_validation  = transform(deers_validation , ["Jours_de_neige"] => ByRow(x->(x)^3) => :Jours_de_neige_cubic)

In [None]:
deers_training = transform(deers_training, ["Prix_moyen_Montréal"] => ByRow(x->(x)^2) => :Prix_moyen_Montréal_square)
deers_training = transform(deers_training, ["Prix_moyen_Montréal"] => ByRow(x->(x)^3) => :Prix_moyen_Montréal_cubic)

In [None]:
deers_validation = transform(deers_validation, ["Prix_moyen_Montréal"] => ByRow(x->(x)^2) => :Prix_moyen_Montréal_square)
deers_validation = transform(deers_validation, ["Prix_moyen_Montréal"] => ByRow(x->(x)^3) => :Prix_moyen_Montréal_cubic)

In [None]:
deers_training = transform(deers_training, ["Température"] => ByRow(x->(x)^2) => :Température_square)
deers_training  = transform(deers_training, ["Température"] => ByRow(x->(x)^3) => :Température_cubic)

In [None]:
deers_validation = transform(deers_validation, ["Température"] => ByRow(x->(x)^2) => :Température_square)
deers_validation = transform(deers_validation, ["Température"] => ByRow(x->(x)^3) => :Température_cubic)

#### 6.5.1 Meilleurs modèles de régression multiple

In [None]:

models = DataFrame(Raj = Float64[], RMSE= Float64[], Formula= Any[], Prediction= Any[])
SST = sum( (deers_training.Cerfs .- mean(deers_training.Cerfs)).^2 )
n = length(deers_training.Cerfs)
modelsCombination = DataFrame( Raj = Float64[], RMSE= Float64[], Formula = Any[], Prediction= Any[])

for termes in combinations([:Pluie_totale, :Neige_totale, :Jours_de_pluie, :Température, :Jours_de_neige, :Prix_moyen_Essence])
    formula = term(:Cerfs) ~ sum(term.(termes))
    train = deers_training
    valid = deers_validation
    p = length(termes)
    m = glm(formula, train, Normal(), IdentityLink())
    est = predict(m, DataFrame(train))
    θ̂ = predict(m, DataFrame(valid))
    θ̂ = convert.(Int64, [ceil(θ̂[i]) for i in 1:size(θ̂ , 1)])
    #println(est)
    rmse = StatsBase.rmsd(θ̂ , valid.Cerfs)
    e = train.Cerfs - est
    SSE = e'e
    raj =  [1-(n-1)/(n-p-1)*SSE/SST]
    if raj == 1.0
        break
    end
    
    m = glm(formula, train, Normal(), IdentityLink())
    pred = max(ceil(predict(m, DataFrame(Pluie_totale = [Pluie2021], Neige_totale = [Neige2021], Jours_de_pluie = [JPluie2021], Température = [Temp2021], Jours_de_neige = [JNeige2021], Prix_moyen_Essence = [PrixEssence2021]))[1]), 0)
    push!(modelsCombination, [raj[1], rmse, formula, DataFrame(Cerfs = pred)])
    
end
modelsCombination = sort(modelsCombination, :RMSE)

#### 6.6.2 Prédiction pour 2021

In [None]:
prediction_avec_multiple = modelsCombination.Prediction[1].Cerfs[1]

Commme on peut le voir, le meilleur modele multiple nous donne un RMSE de 126 ce qui n'est pas mieux que la polynomiale de degré 6 avec la température qui donnait un RMSE de 67.

## 7. Modèles de prédiction des proportions de 2021 pour chaque zone


Dans cette section, nous assumerons que la probabilité qu'un cerf appartienne à une zone suit une loi catégorielle.

In [None]:
df_teta = MatriceZones
first(df_teta, 5)

Comme premier modèle, nous pouvons assumer que les tendance de l'an 2021 sont exactement les mêmes que l'an passé, il nous resterait donc a estimer le nombre de cerfs total en fonction du nombre de permis non résidents

In [None]:
permis_non_residents_2021 

### 7.1 Utilisation du nombre de permis pour prédire le nombre de cerfs totale en 2021

#### 7.1.1 Prédiction du nombre de cerfs récolté

In [None]:
matrice = Matrice
rename!(matrice,:"Non-résidents" => :"NonRésidents")
res=lm(@formula(Cerfs ~ NonRésidents), matrice)
rename!(matrice, :"NonRésidents" => :"Non-résidents")
deers = Int64(ceil(coef(res)[1] + coef(res)[2] * permis_non_residents_2021))

#### 7.1.2 Préction du nombre de cerfs récoltés par zones

In [None]:
proportions = last(df_teta.Cerfs ./ df_teta.Cerfs_totale, 18)
preds =  [Int64(ceil(proportions[i] * deers)) for i in 1:18]

#### 7.1.3 Enregistrement des prédictions

In [None]:
test = CSV.read("data/test.csv", DataFrame);
prediction = DataFrame(Zone = test.Zone, Cerfs = preds)

CSV.write("categorielle_2020.csv", prediction)

Cela donne un très mauvais score de 808. Trois piste sont possibles: Nous estimons mal le nombre de cerfs total, nous estimons mal le nombre de permis non résidents, et indirectement le nombre de cerfs total en 2021, ou alors les tendances de chasse de 2021 ne sont pas les mêmes qu'en 2020.

In [None]:
df_teta.teta = df_teta.Cerfs ./ df_teta.Cerfs_totale
df_teta = filter(row -> row.Zone != 21, df_teta)
plot(groupby(df_teta, :Zone)[7], x=:Année, y=:teta, Geom.point, Geom.line)

Comme on peut le voir dans le graphique plus haut, la proportion de cerfs tué dans la zone était beaucoup plus haute que d'habitude. Nous aurions probablement plus de succès si nous estimons les proportions en fonction des autres années aussi.

### 7.2 Utilisation de l'année pour prédire le nombre de cerfs totale en 2021

#### 7.2.1 Estimation des proportions pour 2021 pour chaque zone

In [None]:
teta_hat_annee = Any[]
for i in 1:18
    res=lm(@formula(teta ~ Année), groupby(df_teta, :Zone)[i])
    teta = coef(res)[1] + coef(res)[2] * 2021
    push!(teta_hat_annee, teta)
end
teta_hat_annee

### 7.2.2 Prédictions pour 2021

In [None]:
preds =  [Int64(ceil(teta_hat_annee[i] * deers)) for i in 1:18]

### 7.2.3 Enregistrement des prédictions

In [None]:
test = CSV.read("data/test.csv", DataFrame);
prediction = DataFrame(Zone = test.Zone, Cerfs = preds)

CSV.write("categorielle_all_years.csv", prediction)

Nous obtenons un rsme de 723, ce qui est une légère amélioration, mais on peut faire mieux. En effet, nous estimons le nombre de cerfs en fonction d'un nombre de permis non-résidents lui aussi estimé. On aurait probablement de meilleur résultat si nous estimions drectement le nombre de cerfs avec l'année.

Ensembles d'entrainements et de validations pour le nombre de cerfs et les proportions:

In [None]:
mp = filter(row -> row.Année !== 2013, MatriceProportions) #On retire 2013 car il nous manque les données météorologique
mp = filter(row -> row.Zone !== 21, mp)
proportion_training = filter(row -> row.Année >= 2010 && row.Année < 2020 , mp)
proportion_validation = filter(row -> row.Année === 2020, mp)

### 7.3 Utilisation des relations polynomiales

Voici le fonctions que nous allons utiliser pour estimer nos proportions de 2021.

In [None]:
function get_best_proportion_model(variable::String, min_order::Int64, max_order::Int64)
    zones = unique(proportion_training[!, :Zone])
    models = DataFrame(Zone = Int64[], Ordre = Int64[], R = Float64[], Raj = Float64[], RMSE = Float64[], Betas = Vector{Float64}[])
  
    for i = 1:length(zones)
        train = groupby(proportion_training, :Zone)[i]
        valid = groupby(proportion_validation, :Zone)[i]
        
        mses = Float64[]
        df = DataFrame(Ordre = Int64[], R = Float64[], Raj = Float64[], RMSE = Float64[], Betas = Vector{Float64}[])
        
        SST = sum( (train.Proportion .- mean(train.Proportion)).^2 )

        for order in min_order:max_order
            n1 = length(train.Proportion)
            n2 = length(valid.Proportion)

            # Ajustement du modèle de régression polynomiale
            X = hcat(ones(n1), construct_structure(Vector{<:Any}(train[!, variable]), order))
            β̂  = X\train.Proportion

            # Calcul de l'erreur
            ŷ = X*β̂
            e = train.Proportion - ŷ

            # Calcul de la somme du carré des erreurs
            SSE = e'e

            # Calcul de l'erreur quadratique moyenne avec l'ensemble de validation
            X̃ = hcat(ones(n2), construct_structure(Vector{<:Any}(valid[!, variable]), order))
            ỹ = X̃*β̂
            RMSE = (mean( (valid.Proportion - ỹ).^2 ))^0.5

            push!(df, [order, 1-SSE/SST, 1-(n1-1)/(n1-order-1)*SSE/SST, RMSE, β̂ ])
            push!(mses, RMSE)
        end
        
        df = sort(df, :RMSE)
        push!(models, [zones[i], df.Ordre[1], df.R[1], df.Raj[1], df.RMSE[1], df.Betas[1]])
    end
    return  models
end
    

In [None]:
function proportion_predictions(dataframe::Any, variable1::Any)
    zones = unique(dataframe[!, :Zone])
    predictions = DataFrame(Zone = Int64[], Proportion = Float64[])
  
    for i = 1:length(zones)
        
        # Matrice de la nouvelle donnée
        X = hcat(ones(1), construct_structure([variable1], dataframe.Ordre[i]))

        # Prédiction
        ŷ = X*dataframe.Betas[i]
        
        prediction = convert(Float64, ŷ[1])
        
        push!(predictions, [zones[i], prediction])
    end
    
    return predictions
end

#### 7.3.1 Utilisation de l'année

In [None]:
proportion_model_annee = get_best_proportion_model("Année", 1, 6)

In [None]:
proportions2021_annee =  proportion_predictions(proportion_model_annee, 2021)
proportions2021_annee.Proportion = proportions2021_annee.Proportion / 100

In [None]:
sum(proportions2021_annee.Proportion)

#### 7.3.2 Utilisation de la température

In [None]:
proportion_model_temp = get_best_proportion_model("Température", 1, 6)

In [None]:
proportions2021_temp =  proportion_predictions(proportion_model_temp, Temp2021)

In [None]:
sum(proportions2021_temp.Proportion)

In [None]:
proportion_training = transform(proportion_training, ["Jours_de_pluie"] => ByRow(x->(x)^2) => :Jours_de_pluie_square)
proportion_training = transform(proportion_training, ["Jours_de_pluie"] => ByRow(x->(x)^3) => :Jours_de_pluie_cubic)
proportion_training = transform(proportion_training, ["Jours_de_neige"] => ByRow(x->(x)^2) => :Jours_de_neige_square)
proportion_training = transform(proportion_training, ["Jours_de_neige"] => ByRow(x->(x)^3) => :Jours_de_neige_cubic)

In [None]:
proportion_validation = transform(proportion_validation , ["Jours_de_pluie"] => ByRow(x->(x)^2) => :Jours_de_pluie_square)
proportion_validation  = transform(proportion_validation , ["Jours_de_pluie"] => ByRow(x->(x)^3) => :Jours_de_pluie_cubic)
proportion_validation  = transform(proportion_validation , ["Jours_de_neige"] => ByRow(x->(x)^2) => :Jours_de_neige_square)
proportion_validation  = transform(proportion_validation , ["Jours_de_neige"] => ByRow(x->(x)^3) => :Jours_de_neige_cubic)

In [None]:
proportion_training = transform(proportion_training, ["Prix_moyen_Montréal"] => ByRow(x->(x)^2) => :Prix_moyen_Montréal_square)
proportion_training = transform(proportion_training, ["Prix_moyen_Montréal"] => ByRow(x->(x)^3) => :Prix_moyen_Montréal_cubic)

In [None]:
proportion_validation = transform(proportion_validation, ["Prix_moyen_Montréal"] => ByRow(x->(x)^2) => :Prix_moyen_Montréal_square)
proportion_validation = transform(proportion_validation, ["Prix_moyen_Montréal"] => ByRow(x->(x)^3) => :Prix_moyen_Montréal_cubic)

In [None]:
 zones = unique(proportion_training[!, :Zone])
 models = DataFrame(Zone = Int64[], RMSE = Float64[], Formula= Any[], Prediction= Float64[])
  
for i = 1:length(zones)

    modelsZone = DataFrame(RMSE= Float64[], Formula= Any[], Prediction= Float64[])

    for termes in combinations([:Année, :Jours_de_neige])

        formula = term(:Proportion) ~ sum(term.(termes))

        train = groupby(proportion_training, :Zone)[i]
        valid = groupby(proportion_validation, :Zone)[i]

        m = glm(formula, train, Normal(), IdentityLink())
        θ̂ = predict(m, DataFrame(valid))

        rmse = StatsBase.rmsd([θ̂[1]] , valid.Proportion)
        pred = max(predict(m, DataFrame(Année=[2021], Jours_de_neige = [JNeige2021]))[1], 0)
        push!(modelsZone, [rmse, formula, pred])
    end
    sorted_models = sort(modelsZone, :RMSE)
    
    push!(models, [groupby(proportion_training, :Zone)[i].Zone[1], sorted_models.RMSE[1], sorted_models.Formula[1], sorted_models.Prediction[1]])
end

models

In [None]:

models = DataFrame(RMSE= Float64[], Formula= Any[], Prediction= Any[])
for termes in combinations([:Année, :Année_square, :Année_cubic,  :Jours_de_pluie, :Jours_de_pluie_square, :Jours_de_pluie_cubic, :Jours_de_neige])
    modelsCombination = DataFrame(RMSE= Float64[], Prediction= Int64[])
    formula = term(:Cerfs) ~ sum(term.(termes))
    train = deers_training
    valid = deers_validation

    m = glm(formula, train, Normal(), IdentityLink())
    θ̂ = predict(m, DataFrame(valid))
    θ̂ = convert.(Int64, [ceil(θ̂[i]) for i in 1:size(θ̂ , 1)])

    rmse = StatsBase.rmsd(θ̂ , valid.Cerfs)

    m = glm(formula, train, Normal(), IdentityLink())
    pred = max(ceil(predict(m, DataFrame(Année=[2021], Année_square=[2021^2], Année_cubic=[2021^3], Jours_de_pluie=[JPluie2021],  Jours_de_pluie_square=[JPluie2021^2], Jours_de_pluie_cubic=[JPluie2021^3], Jours_de_neige=[JNeige2021]))[1]), 0)
    push!(modelsCombination, [rmse, pred])
    push!(models, [mean(modelsCombination.RMSE), formula, DataFrame(Cerfs = modelsCombination.Prediction)])
end
models = sort(models, :RMSE)

#### 7.3.4 Prédiction du nombre de cerfs par zone en 2021

In [None]:
preds =  [Int64(ceil(proportions2021_annee.Proportion[i] * deers)) for i in 1:18]

#### 7.3.4 Enregistrement des prédictions

In [None]:
test = CSV.read("data/test.csv", DataFrame);
prediction = DataFrame(Zone = test.Zone, Cerfs = preds)

CSV.write("categorielle_total_by_year.csv", prediction)

### 7.4 Modèle multinomial logit

In [23]:
ml = MatriceProportions[!, Not([:Cerfs_totale])]
u = unique(ml)

MatriceMLogit = DataFrame([name => [] for name in names(ml)])

for row in eachrow(u)
    m = DataFrame([name => [] for name in names(ml)])
    push!(m, row)
    m = repeat(m, row.Cerfs[1])
    for other_row in eachrow(m)
        push!(MatriceMLogit, other_row)
    end
end

MatriceMLogit

Unnamed: 0_level_0,Année,Température,Pluie_totale,Neige_totale,Neige_totale_au_sol,Jours_de_pluie
Unnamed: 0_level_1,Any,Any,Any,Any,Any,Any
1,1999,6.36721,139.7,5.1,2,26.0
2,1999,6.36721,139.7,5.1,2,26.0
3,1999,6.36721,139.7,5.1,2,26.0
4,1999,6.36721,139.7,5.1,2,26.0
5,1999,6.36721,139.7,5.1,2,26.0
6,1999,6.36721,139.7,5.1,2,26.0
7,1999,6.36721,139.7,5.1,2,26.0
8,1999,6.36721,139.7,5.1,2,26.0
9,1999,6.36721,139.7,5.1,2,26.0
10,1999,6.36721,139.7,5.1,2,26.0


In [24]:
MLogit_10_years = filter(row -> row.Année >= 2010 && row.Année !== 2013, MatriceMLogit)

Unnamed: 0_level_0,Année,Température,Pluie_totale,Neige_totale,Neige_totale_au_sol,Jours_de_pluie
Unnamed: 0_level_1,Any,Any,Any,Any,Any,Any
1,2010,5.42459,206.0,5.6,0,26.0
2,2010,5.42459,206.0,5.6,0,26.0
3,2010,5.42459,206.0,5.6,0,26.0
4,2010,5.42459,206.0,5.6,0,26.0
5,2010,5.42459,206.0,5.6,0,26.0
6,2010,5.42459,206.0,5.6,0,26.0
7,2010,5.42459,206.0,5.6,0,26.0
8,2010,5.42459,206.0,5.6,0,26.0
9,2010,5.42459,206.0,5.6,0,26.0
10,2010,5.42459,206.0,5.6,0,26.0


#### On recode les zones de 1 a 18.

In [25]:
zones = [1, 2, 3, 4, 5, 6, 7 ,8, 9 ,10, 11, 12, 13, 15, 20, 26, 27, 28 ]
MLogit_10_years[!, :Zone_index] = indexin(MLogit_10_years[!, :Zone], zones)
filter!(row -> row.Zone_index !== nothing, MLogit_10_years)
first(MLogit_10_years, 5)

Unnamed: 0_level_0,Année,Température,Pluie_totale,Neige_totale,Neige_totale_au_sol,Jours_de_pluie
Unnamed: 0_level_1,Any,Any,Any,Any,Any,Any
1,2010,5.42459,206.0,5.6,0,26.0
2,2010,5.42459,206.0,5.6,0,26.0
3,2010,5.42459,206.0,5.6,0,26.0
4,2010,5.42459,206.0,5.6,0,26.0
5,2010,5.42459,206.0,5.6,0,26.0


In [26]:
# Load Turing.
using Turing

# Load RDatasets.
using RDatasets

# Load StatsPlots for visualizations and diagnostics.
using StatsPlots

# Functionality for splitting and normalizing the data.
using MLDataUtils: shuffleobs, splitobs, rescale!

# We need a softmax function which is provided by NNlib.
using NNlib: softmax

# Functionality for constructing arrays with identical elements efficiently.
using FillArrays

In [27]:
# Split our dataset 75%/25% into training/test sets.
train, validation = splitobs(shuffleobs(MLogit_10_years), 0.75)

# Define features and target.
variables = [:Année, :Température, :Pluie_totale, :Neige_totale]
y = :Zone_index

# Turing requires data in matrix and vector form.
train_variables = Matrix(train[!, variables])
validation_variables = Matrix(validation[!, variables])
train_y = train[!, y]

#convert(Vector[Union{Int64}], [train_y])
validation_y = validation[!, y]

# Standardize the features.
μ, σ = rescale!(train_variables; obsdim=1)
rescale!(train_variables, μ, σ; obsdim=1);

Fonction trouvé ici: https://turing.ml/dev/tutorials/08-multinomial-logistic-regression/

In [None]:
# Bayesian multinomial logistic regression
@model function logistic_regression(x, y, σ)
    n = size(x, 1)
    length(y) == n ||
        throw(DimensionMismatch("number of observations in `x` and `y` is not equal"))

    # Priors of intercepts and coefficients.
    intercept_versicolor ~ Normal(0, σ)
    intercept_virginica ~ Normal(0, σ)
    coefficients_versicolor ~ MvNormal(Zeros(4), σ^2 * I)
    coefficients_virginica ~ MvNormal(Zeros(4), σ^2 * I)

    # Compute the likelihood of the observations.
    values_versicolor = intercept_versicolor .+ x * coefficients_versicolor
    values_virginica = intercept_virginica .+ x * coefficients_virginica
    for i in 1:n
        # the 0 corresponds to the base category `setosa`
        v = softmax([0, values_versicolor[i], values_virginica[i]])
        y[i] ~ Categorical(v)
    end
end;

In [None]:
m = logistic_regression(train_variables, train_y, 1)

In [None]:
chain = sample(m, HMC(0.05, 10), MCMCThreads(), 1_500, 3)

In [None]:
using MLJLinearModels
# Get MNIST dataset and transpose for (records, features)
X = Array(train_variables)
# MNIST labels: Categorical labels must be 1...c, hence add .+1 to each label



In [39]:
λ = 0.5
labels = train_y .+1

225977-element Vector{Int64}:
 18
 16
  7
  3
  5
 11
 11
  8
 18
  9
 11
  9
  4
  ⋮
  9
 11
  7
 18
  6
  7
  7
  9
 12
 10
  5
  5

In [None]:

# and the number of classes
n_classes = length(Set(labels))
n_features = size(X,2)
# The MNIST database does not need the intercept
intercept = false
# deploy MultinomialRegression from MLJLinearModels, λ being the strenght of the reguliser
mnr = MultinomialRegression(λ; fit_intercept=intercept)
# Fit the model
θ  = MLJLinearModels.fit(mnr, X, labels)
# The model parameters are organized such we can apply X⋅θ, the following is only to clarify
params = reshape(θ, n_features +Int(intercept), n_classes)
# Get the predictions X⋅θ 
preds = MLJLinearModels.softmax(MLJLinearModels.apply_X(X,θ,n_classes))
# map each vector to its maximal element 
targets = map(x->argmax(x),eachrow(preds))
#and evaluate the model over the labels
scores = 1- sum(targets-labels)/length(preds)

## 8. Pédictions du nombre de cers récoltés par zones

### 8.1 Modèle 1: Meilleure estimation du nombre de cerfs totale et proportions obtenus selon l'année

La meilleur estimation du nombre de cerfs totale en 2021 est la prédiction obtenue avec la température, c'est celui avec le plus petit RMSE.

In [None]:
total_deers =  prediction_avec_temperature

In [None]:
proportions = teta_hat_annee
preds =  [Int64(ceil(proportions[i] * total_deers)) for i in 1:18]
test = CSV.read("data/test.csv", DataFrame);
prediction = DataFrame(Zone = test.Zone, Cerfs = preds)

In [None]:
CSV.write("proportion_annee_cerfs_temperature.csv", prediction)

Cette soumission nous a donnée 421, ce qui était notre meilleure prédiction.

### 8.2 Modèle 2: Meilleure estimation du nombre de cerfs totale et proportions obtenus polynomiale

In [None]:
total_deers =  prediction_avec_temperature

In [None]:
proportions2021_temp

In [None]:
proportions = proportions2021_temp.Proportion/100
preds =  [Int64(ceil(proportions[i] * total_deers)) for i in 1:18]
test = CSV.read("data/test.csv", DataFrame);
prediction = DataFrame(Zone = test.Zone, Cerfs = preds)

### 9.1 Utilisation du nombre de permis pour prédire le nombre de cerfs totale en 2021

#### 9.1.1 Prédiction du nombre de cerfs récolté

In [None]:
matrice = Matrice
rename!(matrice,:"Non-résidents" => :"NonRésidents")
res=lm(@formula(Cerfs ~ NonRésidents), matrice)
rename!(matrice, :"NonRésidents" => :"Non-résidents")
deers = Int64(ceil(coef(res)[1] + coef(res)[2] * permis_residents_2021))

#### 9.1.2 Préction du nombre de cerfs récoltés par zones

In [None]:
tetas = last(df_teta.Cerfs ./ df_teta.Cerfs_totale, 18)
preds =  [Int64(ceil(tetas[i] * deers)) for i in 1:18]

#### 9.1.3 Enregistrement des prédictions

In [None]:
test = CSV.read("data/test.csv", DataFrame);
prediction = DataFrame(Zone = test.Zone, Cerfs = preds)

CSV.write("categorielle_2020.csv", prediction)

Cela donne un très mauvais score de 808. Trois piste sont possibles: Nous estimons mal le nombre de cerfs total, nous estimons mal le nombre de permis non résidents, et indirectement le nombre de cerfs total en 2021, ou alors les tendances de chasse de 2021 ne sont pas les mêmes qu'en 2020.

In [None]:
df_teta.teta = df_teta.Cerfs ./ df_teta.Cerfs_totale
df_teta = filter(row -> row.Zone != 21, df_teta)
plot(groupby(df_teta, :Zone)[7], x=:Année, y=:teta, Geom.point, Geom.line)

Comme on peut le voir dans le graphique plus haut, la proportion de cerfs tué dans la zone était beaucoup plus haute que d'habitude. Nous aurions probablement plus de succès si nous estimons les proportions en fonction des autres années aussi.

### 9.2 Utilisation de l'année pour prédire le nombre de cerfs totale en 2021

#### 9.2.1 Estimation des proportions pour 2021 pour chaque zone

In [None]:
teta_hat = Any[]
for i in 1:18
    res=lm(@formula(teta~Année), groupby(df_teta, :Zone)[i])
    teta = coef(res)[1] + coef(res)[2] * 2021
    push!(teta_hat, teta)
end
teta_hat

#### 9.2.2 Prédictions pour 2021

In [None]:
preds =  [Int64(ceil(teta_hat[i] * deers)) for i in 1:18]

#### 9.2.3 Enregistrement des prédictions

In [None]:
test = CSV.read("data/test.csv", DataFrame);
prediction = DataFrame(Zone = test.Zone, Cerfs = preds)

CSV.write("categorielle_all_years.csv", prediction)

Nous obtenons un rsme de 723, ce qui est une légère amélioration, mais on peut faire mieux. En effet, nous estimons le nombre de cerfs en fonction d'un nombre de permis non-résidents lui aussi estimé. On aurait probablement de meilleur résultat si nous estimions drectement le nombre de cerfs avec l'année.

### 9.3 Utilisation des relations polynomiales

In [None]:
function get_best_model(dataframe::Any, min_order::Int64, max_order::Int64)
    models = DataFrame(Ordre = Int64[], R = Float64[], Raj = Float64[], MSE = Float64[], Betas = Vector{Float64}[])

    folds = 4
    kfold = Kfold(nrow(dataframe), folds)

    df = DataFrame(Ordre = Int64[], R = Float64[], Raj = Float64[], MSE = Float64[], Betas = Vector{Float64}[])

    for folds_id in kfold
        train_fold = dataframe[folds_id, :]
        valid_fold = dataframe[Not(folds_id), :]

        SST = sum( (train_fold.Cerfs .- mean(train_fold.Cerfs)).^2 )

        for order in min_order:max_order
            n = size(train_fold,1)

            # Ajustement du modèle de régression polynomiale
            X = construct_structure(train_fold.Variable, order)
            β̂  = X\train_fold.Cerfs

            # Calcul de l'erreur
            ŷ = X*β̂
            e = train_fold.Cerfs - ŷ

            # Calcul de la somme du carré des erreurs
            SSE = e'e

            # Calcul de l'erreur quadratique moyenne avec l'ensemble de validation
            X̃ = construct_structure(valid_fold.Variable, order)
            ỹ = X̃*β̂
            MSE = mean( (valid_fold.Cerfs - ỹ).^2 )

            push!(df, [order, 1-SSE/SST, 1-(n-1)/(n-order-1)*SSE/SST, MSE, β̂ ])
        end
    end
    df = sort(df, :R)
    push!(models, [df.Ordre[1], df.R[1], df.Raj[1], df.MSE[1], df.Betas[1]])
    return  models
end

In [None]:
function get_predictions(dataframe::Any, next_year_data::Any)
    
    # Matrice de la nouvelle donnée
    X = construct_structure([next_year_data], dataframe.Ordre[1])

    # Prédiction
    ŷ = X*dataframe.Betas[1]

    y = ŷ[1]

    prediction = convert(Float64, y)
    
    return prediction
end

#### 9.3.1 Création de la matrice de données

In [None]:
dataframeAnnée = df_teta[!, [:Année, :Cerfs_totale]]
rename!(dataframeAnnée, :Année => :Variable)
rename!(dataframeAnnée, :Cerfs_totale => :Cerfs)
first(dataframeAnnée, 5)

#### 9.3.2 Détection du meilleur model polynomiale

In [None]:
result = get_best_model(dataframeAnnée, 1, 6)

#### 9.3.3 Prédiction du nombre de cerfs en 2021

In [None]:
deers = ceil(get_predictions(result, 2021))

#### 9.3.4 Prédiction des proportions pour 2021

In [None]:
teta_hat = Any[]
for i in 1:18
    data= groupby(df_teta[!, [:Année, :teta, :Zone]], :Zone)[i]
    rename!(data, :Année => :Variable)
    rename!(data, :teta => :Cerfs)
    first(data, 5)
    result = get_best_model(data, 1, 6)
    push!(teta_hat, get_predictions(result, 2021))
end
teta_hat

In [None]:
preds =  [Int64(ceil(teta_hat[i] * deers)) for i in 1:18]

#### 9.3.4 Enregistrement des prédictions

In [None]:
test = CSV.read("data/test.csv", DataFrame);
prediction = DataFrame(Zone = test.Zone, Cerfs = preds)

CSV.write("categorielle_total_by_year.csv", prediction)

on obtient un score de 449, on se rapproche mais je pense on peut faire mieux.