# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur adjoint au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>


Le projet a été préparé par Gabriel Gobeil, associé de recherche à Polytechnique Montréal.

---
# Projet A2022 : Récolte des cerfs de Virginie


La description du projet est disponible à l'adresse suivante : https://www.kaggle.com/t/23b6d8c44f1247c78e19a6a902f804af

Ce calepin Jupyter de base permet de charger et de nettoyer les données fournies. La dernière section détaille la génération du fichier des prédictions afin de le soumettre sur Kaggle dans le bon format.

### Données

Dans un premier temps, vous devrez récupérer les données sur Kaggle. Les fichiers disponibles sont les suivants :
- recolte.csv
- permis.csv
- meteo.csv
- essence.csv
- test.csv

**Déposez ces fichiers dans un dossier nommé *data* dans le répertoire de ce calepin.**

Le fichier *recolte.csv* contient les statistiques de chasse au cerf de Viriginie. On y retrouve le nombre de cerfs mâles adultes récoltés annuellement dans certaines zones de chasse du Québec, listé selon le type d'engin utilisé.

Le fichier *permis.csv* contient des informations sur le nombre de permis de chasse aux cerfs de Virginie alloués aux résidents et non-résidents de 1999 à 2020.

Le fichier *meteo.csv* contient certaines variables météorologiques enregistrées à la station Montréal-Trudeau de 1999 à 2021 :
- Mean Temp (°C)	
- Total Rain (mm)	
- Total Snow (cm)	
- Snow on Grnd (cm)

Le fichier *essence.csv* contient des informations sur le prix de détail moyen par mois de l'essence pour Québec et Montréal de 1999 à 2021. Des renseignements additionnels sur les données sont disponibles à l'adresse suivante : https://www150.statcan.gc.ca/t1/tbl1/fr/cv.action?pid=1810000101

Le fichier *test.csv* contient les zones de chasse pour lesquels vous devez prédire le nombre de cerfs mâles adultes récoltés pour l'année 2021, peu importe l'engin de chasse utilisé. La qualité de vos prédictions sera ensuite évaluée lorsque vous les téléverserez sur Kaggle. Vos prédictions seront comparées à celles des autres équipes de la classe.

### Consignes

- Vous devez constituer une équipe de 3 à 5 personnes.
- Au moins une solution doit être proposée sur Kaggle.
- Utilisez votre identifiant d'équipe pour téléverser vos prédictions sur Kaggle.
- Un seul calepin *.ipynb* par équipe doit être remis. Ce fichier documente et illustre la procédure qui vous a permis de produire vos meilleures prédictions. Ce fichier constitue le rapport final du projet.
- Le langage Julia doit être utilisé.
- Votre démarche doit être rigoureusement justifiée (consultez la grille de correction pour vous orienter).

### Quelques conseils

Votre calepin doit permettre à une personne à l'extérieur de l'équipe de comprendre votre démarche et de reproduire vos résultats. Par exemple, une bonne façon de faire consiste à expliquer dans une cellule de texte la tâche qui est accomplie dans la cellule de code suivante. 

Je vous encourage fortement à faire une analyse exploratoire des données pour développer une meilleure expertise du problème. C'est une étape qui est toujours négligée mais qui est essentielle. C'est avec l'analyse exploratoire que vous viendra des idées d'amélioration, comme par exemple créer de nouvelles variables explicatives.

Vous pouvez utiliser directement tout ce qui se trouve dans les notes de cours sans explication et toutes les librairies utilisées dans le cours (incluant mes fonctions).

Ce calepin contient un modèle très simple de prédiction : on n'utilise qu'une seule variable explicative. Ce sera votre travail d'améliorer ces prédictions avec la méthode et les variables de votre choix.

S'il y a des données manquantes, ce sera à vous de traiter ce problème. La plupart du temps, une méthode simple d'imputation (de remplacement) des données manquantes est suffisante.

Prenez la peine de documenter succinctement les essais infructueux. Ce n'est pas nécessaire de les expliquer en détails, mais c'est important de les mentionner dans la discussion avec une raison possible de leur échec. De cette façon, une personne qui reprendra votre travail dans le futur ne perdra pas de temps à réessayer une méthode infructueuse déjà testée.

Vous pouvez aussi indiquer dans votre rapport les raisons qui vous font croire pourquoi une méthode a moins bien performée de ce qui était attendu. Vous pouvez également mentionner ce que vous auriez pu tenter si vous aviez eu plus de temps ou plus de données. L'idée est de guider l'analyste qui prendrait la relève de votre travail.

Vous êtes limités à deux soumissions par jour UTC par équipe sur Kaggle. Je vous suggère donc de bien tester vos modèles localement et de ne téléverser que vos meilleurs prédictions de la journée.

In [None]:
using CSV, DataFrames, Statistics, Dates, Gadfly, GLM, DataStructures

---
## 1. Chargement de données

#### Récolte annuelle de cerfs par zones de chasse selon les différents engins

In [None]:
recolte = CSV.read("data/recolte.csv", DataFrame)
first(recolte, 5)

#### Nombre de permis de chasse alloués annuellement aux résidents et non-résidents

In [None]:
permis = CSV.read("data/permis.csv", DataFrame)
first(permis, 5)

#### Moyenne mensuelle du prix de détail de l'essence en cents pour Québec et Montréal

In [None]:
essence = CSV.read("data/essence.csv", DataFrame)
first(essence, 5)

#### Données météorologiques quotidiennes à Montréal-Trudeau entre 1999 et 2021

In [None]:
meteo = CSV.read("data/meteo.csv", DataFrame)
colnames = ["Date","MeanTemp","TotalRain", "TotalSnow", "SnowOnGrnd"]
rename!(meteo, Symbol.(colnames))
first(meteo, 5)

---
## 2. Analyse exploratoire

Cette section consitue une analyse exploratoire superficielle permettant de se familiariser avec les données. C'est une analyse exploratoire sommaire. Je vous encourage fortement à poursuivre cette analyse.

#### 2.1 Quantité de cerfs récoltés annuellement dans toutes les zones pour tous les engins de chasse

In [None]:
set_default_plot_size(16cm, 10cm)
df = combine(groupby(recolte, :Année), :Cerfs => sum => :Cerfs)
plot(df, x=:Année, y=:Cerfs, Geom.line, Geom.point)

In [None]:
set_default_plot_size(16cm, 10cm)
plot(permis, x=:Année, y=:Total, Geom.line, Geom.point,
    Guide.ylabel("permis vendus"))

In [None]:
df2 = innerjoin(df, permis, on = :Année)

plot(df2, x=:Total, y=:Cerfs, Geom.point,
    Guide.xlabel("permis vendus"),
    Guide.ylabel("cerfs récoltés"))

#### 2.2 Quantité de cerfs récoltés annuellement dans les différentes zones de chasse

On doit d'abord additionner le nombre de cerfs récoltés selon les différents engins de chasse.

In [None]:
zones = groupby(recolte, :Zone)  # On groupe les données par zone

new_df = DataFrame(Année = Int64[], Zone = Int64[], Cerfs= Int64[])  # On initialise un DataFrame vide

for zone in zones  # Pour chaque zone de chasse,
    
    # pour chaque année,
    # on additionne le nombre de cerfs récoltés selon les différents engins de chasse
    df = combine(groupby(zone, :Année), :Cerfs => sum => :Cerfs)  
    
    df2 = DataFrame(Année = df.Année, 
                    Zone = fill(unique(zone.Zone)[1], size(df, 1)),
                    Cerfs = df.Cerfs) 
    
    append!(new_df, df2)  # On ajoute l'information au DataFrame préinitialisé 
end

sort!(new_df, :Année)
first(new_df, 5)  

In [None]:
groupby(new_df, :Zone)[1].Zone[1]

In [None]:
zones = unique(new_df[!, :Zone])
pp = Plot[]
set_default_plot_size(16cm, 10cm)
for i = 1:length(zones)
    p = plot(groupby(new_df, :Zone)[i], x=:Année, y=:Cerfs, Geom.point, Geom.line, Guide.title("Zone $(groupby(new_df, :Zone)[i].Zone[1])"))
    push!(pp, p)
end

In [None]:
p = reshape(pp, (19, 1))

set_default_plot_size(25cm, 100cm)
gridstack(p)

#### 2.3 Quantité de données pour chaque zone

Il est pertinent de regarder s'il y a une différence importante entre la quantité de données fournie pour chaque zone

In [None]:
counter(recolte[!, :Zone])

#### 2.4 Prix de l'essence moyen par année

Cette donnée est fort probablement corélée avec l'année, du à l'inflation, mais cela reste une donnée pertinente

In [None]:
essence[!, :Année] = Dates.year.(essence[!, :Mois])
# on enlève les années sans données de récolte
essence = essence[essence[!, :Année] .>= 1999, :]
essence = essence[essence[!, :Année] .<= 2020, :]

moy_essence = combine(groupby(essence, :Année), :Québec => mean => :Québec)
moy_mtl = combine(groupby(essence, :Année), :Montréal => mean => :Montréal)  # On groupe les données par zone
moy_essence[!, :Montréal] = moy_mtl.Montréal

set_default_plot_size(16cm, 10cm)
tot_annee = combine(groupby(recolte, :Année), :Cerfs => sum => :Cerfs)
moy_essence[!, :Cerfs] = tot_annee.Cerfs
display(moy_essence)
plot(layer(moy_essence, x=:Québec, y=:Cerfs, Geom.line, Geom.point),
     layer(moy_essence, x=:Montréal, y=:Cerfs, Geom.line, Geom.point))

In [None]:

set_default_plot_size(16cm, 10cm)
plot(moy_essence, x=:Année, y=:Québec, Geom.line, Geom.point, Guide.xticks(ticks=1999:1:2020),
    Guide.xlabel("Année"), Guide.ylabel("Prix de l'essence (cents/litre)"))

In [None]:
plot(moy_essence, x=:Année, y=:Cerfs, Geom.line, Geom.point, Guide.xticks(ticks=1999:1:2020),
    Guide.xlabel("Année"), Guide.ylabel("Nombre de cerfs récoltés"))

On voit clairement une relation entre le prix de l'essence et le nombre de cerfs récoltés, cependant ce n'est pas une relation linéaire. Le nombre de Cerfs semble être affecté par des changements soundains du prix.

In [None]:
# Replace gas price by difference between current and previous year
moy_essence_diff = deepcopy(moy_essence)

for i = 2:size(moy_essence, 1)
    moy_essence_diff[i, :Québec] = (moy_essence[i, :Québec] - moy_essence[i-1, :Québec])
    moy_essence_diff[i, :Montréal] = (moy_essence[i, :Montréal] - moy_essence[i-1, :Montréal])
end

# On enlève la première année, dont on ne peut pas calculer la différence 
moy_essence_diff = moy_essence_diff[2:end, :]
display(moy_essence_diff)

In [None]:
set_default_plot_size(10cm, 10cm)
plot(
    layer(moy_essence_diff, x=:Année, y=:Québec, Geom.line, Geom.point, Theme(default_color=colorant"green")),
    layer(moy_essence, x=:Année, y=:Québec, Geom.line, Geom.point, Theme(default_color=colorant"red")),
)

##### 2.4.1 Récoltes en fonction des changements du prix de l'essence, par zone

In [None]:
set_default_plot_size(16cm, 10cm)
zones = groupby(recolte, :Zone)

df_essence_zone = DataFrame(Zone = Int64[], Montréal = Float64[], Cerfs= Int64[])  # On initialise un DataFrame vide

for zone in zones
    
    # pour chaque année,
    # on additionne le nombre de cerfs récoltés selon les différents engins de chasse
    
    df = combine(groupby(zone, :Année), :Cerfs => sum => :Cerfs)  
    # remove rows from moy_essence where Année is not in df.Année
    moy_essence_diff_zone = moy_essence_diff[findall(x -> x in df.Année, moy_essence_diff.Année), :]
    df = df[findall(x -> x in moy_essence_diff.Année, df.Année), :]
    df[!, :Montréal] = moy_essence_diff_zone.Montréal
    df2 = DataFrame(Montréal = df.Montréal,
                    Zone = fill(unique(zone.Zone)[1], size(df, 1)),
                    Cerfs = df.Cerfs) 
    
    append!(df_essence_zone, df2)  # On ajoute l'information au DataFrame préinitialisé 
end
display(df_essence_zone)

In [None]:
zones = unique(df_essence_zone[!, :Zone])
pp = Plot[]
set_default_plot_size(16cm, 10cm)
for i = 1:length(zones)
    p = plot(groupby(df_essence_zone, :Zone)[i], x=:Montréal, y=:Cerfs, Geom.point, Geom.line, Guide.title("Zone $(groupby(new_df, :Zone)[i].Zone[1])"))
    push!(pp, p)
end

In [None]:
p = reshape(pp, (19, 1))

set_default_plot_size(20cm, 200cm)
gridstack(p)

On ne voit toujours pas une relation linéaire ou autre...

#### 2.4.2 Relation entre changement du prix d'essence et changement du nombre de cerfs

La relation visible en observant les prixs d'essence et le nombre de cerfs pourrait être plus visible en considérant aussi le changement du nombre de cerfs d'une année à l'autre.

In [None]:
set_default_plot_size(16cm, 10cm)
zones = groupby(recolte, :Zone)

df_essence_zone = DataFrame(Zone = Int64[], Montréal = Float64[], Cerfs= Int64[])  # On initialise un DataFrame vide

for zone in zones
    
    # pour chaque année,
    # on additionne le nombre de cerfs récoltés selon les différents engins de chasse
    
    df = combine(groupby(zone, :Année), :Cerfs => sum => :Cerfs) 
    # replace Cerfs by different in Cerfs from previous year
    for i = 2:size(df, 1)-1
        df[i, :Cerfs] = (df[i, :Cerfs] - df[i-1, :Cerfs])
    end 
    # remove rows from moy_essence where Année is not in df.Année
    moy_essence_diff_zone = moy_essence_diff[findall(x -> x in df.Année, moy_essence_diff.Année), :]
    df = df[findall(x -> x in moy_essence_diff.Année, df.Année), :]
    df[!, :Montréal] = abs.(moy_essence_diff_zone.Montréal)
    df2 = DataFrame(Montréal = df.Montréal,
                    Zone = fill(unique(zone.Zone)[1], size(df, 1)),
                    Cerfs = df.Cerfs) 
    
    append!(df_essence_zone, df2)  # On ajoute l'information au DataFrame préinitialisé 
end
display(df_essence_zone)

In [None]:
zones = unique(df_essence_zone[!, :Zone])
pp = Plot[]
set_default_plot_size(16cm, 10cm)
for i = 1:length(zones)
    p = plot(groupby(df_essence_zone, :Zone)[i], x=:Montréal, y=:Cerfs, Geom.point, Geom.line, Guide.title("Zone $(groupby(new_df, :Zone)[i].Zone[1])"))
    push!(pp, p)
end

In [None]:
p = reshape(pp, (19, 1))

set_default_plot_size(25cm, 200cm)
gridstack(p)

#### 2.5 Prix de l'essence aux alentours des périodes de chasse
Selon https://www.quebec.ca/tourisme-et-loisirs/activites-sportives-et-de-plein-air/chasse-sportive/periodes-limites/cerf-virginie#c128335, les périodes de chasse en 2022 et 2023 semblent être limité de septembre à décembre, les prix de l'essence dans ces périodes pourraient être plus fortement relié au nombre de cerfs. Au lieu de calculer les changements du prix d'essence, il pourrait être plus intéressant d'essayer d'enlever l'effet de l'inflation annuelle, en faisant  un regression linéaire des prix par mois, et par la suite soustraire les valeurs de cette régression aux prix d'essence.

##### 2.5.1 Prix de l'essence ajusté pour l'inflation
En effectuant une régression linéaire sur les prix d'essence par mois, on peut ajuster les prix pour l'inflation. On peut ensuite soustraire les valeurs de cette régression aux prix d'essence pour enlever l'effet de l'inflation.

In [None]:
# convert date to number
function date_to_number(date)
    return Dates.year(date) + Dates.month(date)/12 + Dates.day(date)/365
end
# remove rows no in october to december
essence_chasse = essence[findall(x -> x in 10:12, Dates.month.(essence.Mois)), :]

essence[!, :Date] = date_to_number.(essence[!, :Mois])

essence_model = lm(@formula(Montréal ~ Date), essence)

In [None]:
# substract value from regression from prices in Montreal 
temp_df = DataFrame(Date = essence.Date)
essence[!, :Montréal_adjusted] = essence[!, :Montréal] - predict(essence_model, temp_df)
display(essence)



In [None]:
B_0 = coef(essence_model)[1]
B_1 = coef(essence_model)[2]
set_default_plot_size(25cm, 20cm)
plot(
    layer(essence, x=:Date, y=:Montréal, Geom.line, Geom.point, Theme(default_color=colorant"green"),
          intercept=[B_0], slope=[B_1], Geom.abline(style=:dash, color="red"))
    )

In [None]:
essence[!, :Année] = Dates.year.(essence[!, :Mois])

# on enlève les années sans données de récolte
essence = essence[essence[!, :Année] .>= 1999, :]
essence = essence[essence[!, :Année] .<= 2020, :]

moy_essence = combine(groupby(essence, :Année), :Montréal_adjusted => mean => :Montréal_adjusted)

set_default_plot_size(16cm, 10cm)
tot_annee = combine(groupby(recolte, :Année), :Cerfs => sum => :Cerfs)
moy_essence[!, :Cerfs] = tot_annee.Cerfs
set_default_plot_size(25cm, 10cm)
plot(layer(moy_essence, x=:Montréal_adjusted, y=:Cerfs, Geom.line, Geom.point))



##### 2.5.2 Prix de l'essence ajusté avec le prix des mois précédents
On pourrais penser qu'un changement soudain au prix de l'essence pendant la période de chasse pourrait avoir un effet sur le nombre de cerfs récoltés. On pourrait donc soustraire le prix moyen de l'essence pendant la période de chasse au prix de l'essence des mois précédents.

In [None]:
essence_chasse = essence[findall(x -> x in 10:12, Dates.month.(essence.Mois)), :]
essence_avant_chasse = essence[findall(x -> x in 9:9, Dates.month.(essence.Mois)), :]

In [None]:
essence[!, :Année] = Dates.year.(essence[!, :Mois])
essence_avant_chasse[!, :Année] = Dates.year.(essence_avant_chasse[!, :Mois])
# on enlève les années sans données de récolte
essence = essence[essence[!, :Année] .>= 1999, :]
essence = essence[essence[!, :Année] .<= 2020, :]

moy_essence = combine(groupby(essence, :Année), :Montréal => mean => :Montréal)
moy_essence_avant_chasse = combine(groupby(essence_avant_chasse, :Année), :Montréal => mean => :Montréal)

moy_essence[!, :Montréal] -= moy_essence_avant_chasse.Montréal
set_default_plot_size(16cm, 10cm)
tot_annee = combine(groupby(recolte, :Année), :Cerfs => sum => :Cerfs)
moy_essence[!, :Cerfs] = tot_annee.Cerfs
set_default_plot_size(25cm, 10cm)
plot(layer(moy_essence, x=:Montréal, y=:Cerfs, Geom.line, Geom.point))



On ne trouve toujours pas de relation linéaire entre le prix de l'essence et le nombre de cerfs récoltés.

#### 2.6 Relation entre température et nombre de cerfs récoltés

##### 2.6.1 Température moyenne en période de chasse

In [None]:
meteo_new = deepcopy(meteo[findall(x -> x in 10:12, Dates.month.(meteo.Date)), :])
# remove rows with missing temperature
meteo_new = meteo_new[.!ismissing.(meteo_new.MeanTemp), :]


In [None]:
meteo_new[!, :Date] = Dates.year.(meteo_new[!, :Date])
# on enlève les années sans données de récolte
meteo_new = meteo_new[meteo_new[!, :Date] .>= 1999, :]
meteo_new = meteo_new[meteo_new[!, :Date] .<= 2020, :]

meteo_new = combine(groupby(meteo_new, :Date), :MeanTemp => mean => :MeanTemp)
# set_default_plot_size(16cm, 10cm)
# tot_annee = combine(groupby(recolte, :Année), :Cerfs => sum => :Cerfs)
# # on a pas les données de température pour 2013, on enlève l'année
# tot_annee = tot_annee[tot_annee[!, :Année] .!= 2013, :]
# display(meteo)
# display(tot_annee)
# meteo[!, :Cerfs] = tot_annee.Cerfs

# set_default_plot_size(25cm, 10cm)
# plot(layer(meteo, x=:MeanTemp, y=:Cerfs, Geom.line, Geom.point))

#########
zones = groupby(recolte, :Zone)

df_temp_zone = DataFrame(Zone = Int64[], Temp = Float64[], Cerfs = Int64[])  # On initialise un DataFrame vide

for zone in zones
    
    # pour chaque année,
    # on additionne le nombre de cerfs récoltés selon les différents engins de chasse
    
    df = combine(groupby(zone, :Année), :Cerfs => sum => :Cerfs) 

    # on a pas les données de température pour 2013, on enlève l'année
    df = df[df[!, :Année] .!= 2013, :]
    meteo_new_temp = meteo_new[findall(x -> x in df.Année, meteo_new.Date), :]
    df2 = DataFrame(Zone = fill(unique(zone.Zone)[1], size(df, 1)),
                    Temp = meteo_new_temp.MeanTemp,
                    Cerfs = df.Cerfs) 
    
    append!(df_temp_zone, df2)  # On ajoute l'information au DataFrame préinitialisé 
end

In [None]:
zones = unique(df_temp_zone[!, :Zone])
pp = Plot[]
set_default_plot_size(16cm, 10cm)
for i = 1:length(zones)
    p = plot(groupby(df_temp_zone, :Zone)[i], x=:Temp, y=:Cerfs, Geom.point, Geom.line, Guide.title("Zone $(groupby(new_df, :Zone)[i].Zone[1])"))
    push!(pp, p)
end

p = reshape(pp, (19, 1))

set_default_plot_size(25cm, 200cm)
gridstack(p)

##### 2.6.2 Nombre de jours avec une température moyenne en dessous de -10°C l'an dernier

Un hiver plus froid pourrait avoir un effet sur le nombre de cerfs récoltés l'année suivante.

In [None]:
meteo_count = deepcopy(meteo)
meteo_count[!, :Date] = Dates.year.(meteo_count[!, :Date])
meteo_count = meteo_count[meteo_count[!, :Date] .>= 1998, :]
meteo_count = meteo_count[meteo_count[!, :Date] .<= 2019, :]

---
## 3. Ajustement d'un modèle de régression linéaire simple

Pour cet exemple simple, on n'utilise que l'année comme variable explicative afin d'ajuster un modèle de régression linéaire pour chaque zone de chasse.

#### 3.1. Ajustement des modèles 

In [None]:
models = DataFrame(Zone = Int64[], β̂₀ = Float64[], β̂₁ = Float64[])  # On initialise le DataFrame vide

zones = groupby(new_df, :Zone)  # On groupe les données par zone
for zone in zones  # Pour chaque zone de chasse,

    y = zone.Cerfs
    n = length(y)
    
    x₁ = zone.Année  # On considère l'année seulement
    X = hcat(ones(n), x₁)

    β̂₀, β̂₁=  X'X\X'y  # Estimation des coefficients de régression
    
    push!(models, [zone.Zone[1], β̂₀, β̂₁])  # On ajoute ça au DataFame
end

models

#### 3.2. Validation graphique

Pour avoir un aperçu de la qualité de la regression, on ajoute la droite de régression.

In [None]:
function f(x, i) 
    models[i, :β̂₀] + x * models[i, :β̂₁]
end


In [None]:
zones = unique(new_df[!, :Zone])

pp = Plot[]

set_default_plot_size(10cm, 6cm)
for i = 1:length(zones)
    p = plot(
            layer(groupby(new_df, :Zone)[i], x=:Année, y=:Cerfs, Geom.point, Geom.line,
            intercept=[models[i, :β̂₀]], slope=[models[i, :β̂₁]], Geom.abline(style=:dash, color="red")),
            layer(x -> f(x, i), 1999, 2021))
    push!(pp, p)
end

In [None]:
# Pour afficher les 4 premières zones 

p = reshape(pp, (19,1))

set_default_plot_size(25cm, 100cm)
gridstack(p)

---
## 4. Estimation du nombre de cerfs mâles adultes récoltés par zone de chasse en 2021 

On utilise le modèle simple de la section précédente pour estimer le nombre de cerfs récoltés pour chacune des lignes de l'ensemble de test.

#### 4.1 Chargement des données de l'ensemble de test

In [None]:
test = CSV.read("data/test.csv", DataFrame);
display(test)

#### 4.2 Estimation du nombre de cerfs récoltés pour chacune des ligne de l'ensemble de test.

In [None]:
models = models[in.(models.Zone, Ref(test.Zone)), :];  # On récupère seulement les modèles pour les zones à prévoir

In [None]:
ŷ = [Int64(ceil(f(2021, i))) for i in 1:size(test,1)];

#### 4.3 Préparation du fichier des préditions pour téléverser sur Kaggle

Le fichier *benchmark_predictions.csv* généré peut être téléversé sur Kaggle. Il est composé d'une colonne de zones (Zone) et d'une colonne du nombre de cerfs récoltés (Cerfs).

In [None]:
prediction = DataFrame(Zone = test.Zone, Cerfs = ŷ)

CSV.write("benchmark_predictions.csv", prediction)

---
## 5. Utilisation des valeurs de l'année précédente

Au lieu d'utiliser l'année comme variable aléatoire, on pourrait utiliser les données de l'année précédente.

### 5.1 Modèle simple avec seulement la valeur précédente

In [None]:
# Keep only the rows of the last year of the dataset for each zone
temp_df = new_df[new_df[!, :Année] .== 2020, :]
regression_data = DataFrame(Zone = temp_df.Zone, AnneePassee = temp_df.Cerfs)

On remarque que seulement les zones avec des données pour l'année 2020 sont à prédire, toutes sauf la zone 21, qui avait très peu de récoltes dans les autres années.

In [None]:
prediction = DataFrame(Zone = regression_data.Zone, Cerfs = regression_data.AnneePassee)

CSV.write("Charles-5.1.csv", prediction)

### 5.2 Modèle de régression avec valeur de l'année précédente

Avant d'utiliser d'autres variables explicatives, on peut déjà essayer d'ajuster un modèle de régression linéaire avec seulement la valeur de l'année précédente.

In [None]:
display(new_df)

In [None]:
zones = groupby(new_df, :Zone)
new_zones = DataFrame(Zone = Int64[], Année = Int64[], Cerfs = Int64[], CerfsAnneePassée = Int64[])
for zone in zones
    zone[!, :CerfsAnneePassée] .= 0
    for i = 2:size(zone, 1)
        zone[i, :CerfsAnneePassée] = zone[i-1, :Cerfs]
    end
    # on enlève la première année, dont on ne peut pas calculer la différence
    zone = zone[2:end, :]
    append!(new_zones, zone)
end

new_zones = groupby(new_zones, :Zone)
display(new_zones)

In [None]:
prediction = DataFrame(Zone = Int64[], Cerfs = Int64[])
coefficients_df = DataFrame(Zone = Int64[], β₀ = Float64[], β₁ = Float64[])
for zone in new_zones
    y = zone.Cerfs
    n = length(y)
    
    x₁ = zone.CerfsAnneePassée
    X = hcat(ones(n), x₁)

    β̂₀, β̂₁=  X'X\X'y  # Estimation des coefficients de régression
    coefficients_df = vcat(coefficients_df, DataFrame(Zone = zone.Zone[1], β₀ = β̂₀, β₁ = β̂₁))
    ŷ = Int64(ceil(β̂₀ + zone.Cerfs[end] * β̂₁))
    push!(prediction, [zone.Zone[1], ŷ])
end
# for zone in zones
#     model = lm(@formula(Cerfs ~ CerfsAnneePassée), zone)
#     ŷ = predict(model, DataFrame(CerfsAnneePassée = [zone.Cerfs[end]]))
#     push!(prediction, [zone.Zone[1], Int64(ceil(ŷ[1]))])
# end
prediction = prediction[prediction[!, :Zone] .!== 21, :]
display(prediction)
CSV.write("Charles-5.3.csv", prediction)

### 5.2.2 Validation graphique

In [None]:
for (i, zone) in enumerate(new_zones)
    zone[!, :Prediction] .= 0
    # for j = 1:size(zone, 1)
    #     zone[j, :Prediction] = Int64(ceil(coefficients_df[i, :β₀] + zone[j, :CerfsAnneePassée] * coefficients_df[i, :β₁]))
    # end
    for j = 1:size(zone, 1)
        model = lm(@formula(Cerfs ~ CerfsAnneePassée), zone)
        ŷ = predict(model, DataFrame(CerfsAnneePassée = [zone.CerfsAnneePassée[j]]))
        zone[j, :Prediction] = Int64(ceil(ŷ[1]))
    end
end
display(new_zones)
    

In [None]:
pp = Plot[]

for i = 1:length(new_zones)
    p = plot(
            layer(new_zones[i], x=:Année, y=:Cerfs, Geom.point, Geom.line, Theme(default_color=colorant"green")),
            layer(new_zones[i], x=:Année, y=:Prediction, Geom.point, Geom.line, Theme(default_color=colorant"red")))
    push!(pp, p)
end

In [None]:
p = reshape(pp, (19,1))

set_default_plot_size(25cm, 100cm)
gridstack(p)